亚洲三级在线播放_国产精品亚洲二区在线_精品国产电影久久久久_免费popnhub国产在线视频 - 美女被艹网站

金財晚報

金財晚報

當前位置:首頁>民生消費>

模型難復現不一定是作者的錯,最新研究發現模型架構要背鍋

來源:IT之家 作者:子墨 發布時間:2022-03-20 19:37   閱讀量:7261   

在不同初始化條件下,同一神經網絡經過兩次訓練可以得到相同的結果嗎CVPR 2022 的一篇研究通過將決策邊界可視化的方法,給出了答案 —— 有的容易,有的很難

模型難復現不一定是作者的錯,最新研究發現模型架構要背鍋

例如,從下面這張圖來看,研究人員就發現,ViT 比 ResNet 要更難復現:

研究人員還發現,模型的可復現性和模型本身的寬度也有很大關聯同樣,他們利用這種方法,對 2019 年機器學習最重要的理論之一 —— 雙下降現象進行了可視化,最終也發現了一些很有意思的現象

來看看他們具體是怎么做的。

更寬的 CNN 模型,可復現性更高

從中我們可以發現:左邊三個和右邊四個差異很大,也就是說不同架構之間的相似性很低再進一步觀察,左邊的全連接網絡,ViT 和 MLP Mixer 之間的決策邊界圖又不太一樣,而右邊 CNN 模型的則很相似在 CNN 模型中,我們還可以觀察到不同隨機數種子之間明顯的的重復性趨勢,這說明不同初始化配置的模型可以產生一樣的結果

并發現更寬的 CNN 模型似乎在其決策區域具有更高的可復現性,比如 WideRN30以及采用殘差連接結構的 CNN 模型的可復現性得分比無此連接的模型要略高此外,優化器的選擇也會帶來影響在下表中,我們可以看到 SAM 比標準優化器產生了更多可重復的決策邊界不過對于 MLP Mixer 和 ViT,SAM 的使用不能總是保證模型達到最高的測試精度

可視化 ResNet—18 的雙下降現象

雙下降是一個有趣的概念,描述是測試 / 訓練誤差與模型大小的關系在此之前,大家普遍認為參數太少的模型泛化能力差 —— 因為欠擬合,參數太多的模型泛化能力也差 —— 因為過擬合

而它證明,兩者的關系沒有那么簡單具體來說:誤差會先伴隨著模型的增大而減小,然后經過模型過擬合,誤差又增大,但伴隨著模型大小或訓練時間的進一步增加,誤差又會再次減小

模型的可復現性得分如下:

同樣可以看到,在參數化不足和過參數化的情況下,整個訓練過程的可復現性很高,但在插值閾值處會出現故障有趣的是,即使沒有噪聲標簽,研究人員發現他們設計的量化方法也足夠敏感,可以檢測到可復現性的細微下降

目前代碼已經開源,要不要來試試你的模型是否容易復現。

論文地址:

GitHub 鏈接:

鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。

mangren

財經視界

財經圖文

熱門推薦

金財晚報僅作為用戶獲取信息之目的,并不構成投資建議。市場有風險 投資需謹慎。

網站地圖

Copyright 2018- 金財晚報 All Rights Reserved 聯系我們: 備案號:蜀ICP備13010463號