由于在圖像生成效果上可以與GAN媲美,擴散模型最近成為了AI界關注的焦點。
谷歌,OpenAI過去一年都提出了自家的擴散模型,效果也都非常驚艷。
另一邊,劍橋大學的學者David Krueger提出,自動編碼器會不會卷土重來成為研究熱潮。
就在最近,DeepMind的一位研究科學家Sander Dieleman基于以上兩股熱潮,提出了自己的觀點:
擴散模型就是自動編碼器啊!
這一觀點立刻引起了不少網友的注意,大家看了Sander的闡述,都覺得說得很有道理,并且給了自己不少啟發。
那么,他到底是如何論證自己這一觀點的呢。
我們一起來看。
去噪自動編碼器=擴散模型
想要看透這二者之間的聯系,首先要看看它們自身的特點。
擴散模型是一種新的圖像生成方法,其名字中的擴散本質上是一個迭代過程。
它最早于2015提出,是定義了一個馬爾可夫鏈,用于在擴散步驟中緩慢地向數據添加隨機噪聲,然后通過學習逆轉擴散過程從噪聲中構建所需的數據樣本。
相比GAN,VAE和基于流的生成模型,擴散模型在性能上有不錯的權衡,最近已被證明在圖像生成方面有很大的潛力,尤其是與引導結合來兼得保真度和多樣性。
比如去年谷歌提出的級聯擴散模型SR3,就是以低分辨率圖像為輸入,從純噪聲中構建出對應的高分辨率圖像。
OpenAI的GLIDE,ADM—G也是用上了擴散模型,以此能生成更加更真實,多樣,復雜的圖像。
GLIDE模型效果
接下來,再來看自動編碼器的原理。
自動編碼器可以理解為一個試圖去還原原始輸入的系統,模型如下所示:
它的主要目的是將輸入轉換為中間變量,然后再將中間變量轉化為輸出,最后對比輸入和輸出,使它們二者之間無限接近。
當模型框架中存在瓶頸層或者輸入被損壞時,自動編碼器能夠學習輸入本質特征的特性,就可以大顯身手了。
它可以將損壞數據作為輸入,通過訓練來預測未損壞的原始數據作為輸出。
看到這里是不是有點眼熟了。于是,依舊是OpenAI出品,論文標題就直接號稱;在圖像生成上打敗GAN;的ADM-G模型也重新進入了大眾眼中:。
向輸入中加入噪聲,不就是一種破壞輸入的方法嗎。
那么,去噪自動編碼器和擴散模型,原理上不就是有著異曲同工之妙嗎。
二者是如何等價的。
擴散模型的關鍵,在于一個分數函數
需要注意的是,這和
不同。
通過后者,我們可以知道如何改變模型參數來增加向下輸入的可能性,而前者能夠讓我們知道如何改變輸入本身來增加可能性。
在訓練過程中,希望在去噪中的每一點都使用相同的網絡。
為了實現這個,需要引入一個額外的輸入
,由此可以看到在去噪中進行到了哪一部分
當t=0時,對應無噪聲數據,t=1時,對應純噪聲數據。
訓練這個網絡的方法,就是用添加噪聲
來破壞輸入x。然后從
中預測
需要注意的是,在這里方差大小取決于t,因為它可以對應特定點的噪聲水平。損失函數通常使用均方誤差,有時會用 lambda,進行加權,因此某些噪聲水平會優先于其他噪聲水平:
假設lambda,=1時,一個關鍵的觀測值為
或 x,在這里可以用公式:
為了確保它們是等價的,可以考慮使用訓練模型
來預測
,并加上一個新的殘差連接。從輸入到輸出的比例系數均為—1,這個調整后的模型則實現了:
由此,一個擴散模型便逐漸變成一個去噪自動編碼器了!
One More Thing
并且以上得到的這個去噪自動編碼器,和傳統類型也有不同:
第一,附加輸入t可以使單個模型用一組共用參數來處理噪聲級別不同的情況,第二,因為更加關注模型的輸出,所以內部沒有瓶頸層,這可能會導致弊大于利的結果。
此外他還表示,模型效果好的關鍵應該在于共用參數,這種方法已經被廣泛應用在表示學習上。
從這些成果中也能發現一個規律:
噪聲含量越高的模型,往往更容易學習到圖像的特征,噪聲含量越低的模型,則會更專注于細節。
這意味著伴隨著噪聲水平逐步降低,擴散模型能夠補充圖像細節也就越來越多。
最后,我們再來介紹一下這一發現的提出者mdash,mdash,Sander Dieleman。
他現在是DeepMind的一位研究科學家,主要研究領域為生成模型和音樂合成。
參與的主要研究工作有Spotify音樂平臺的內容推薦模型。
。鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。
2023年2月15日,湯臣倍健與美團買藥在北京舉辦了2023
2021年收入增長目標應能確保實現,2022年收入增長預計將
具體來看,一是簡化業務流程和材料,便利北京冬奧會相關區域內境
炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛
,據索尼官方消息,新星粉,銀河紫,星光藍,三款全新配色Dua
,新氧數據顏究院發布《2021醫美行業白皮書》,白皮書顯示,