OpenAI剛剛推出的年末新作GLIDE,又讓擴散模型小火了一把。
這個基于擴散模型的文本圖像生成大模型參數規模更小,但生成的圖像質量卻更高。
于是,依舊是OpenAI出品,論文標題就直接號稱在圖像生成上打敗GAN的ADM—G模型也重新進入了大眾眼中:
光看Papers with Code上基于ImageNet數據集的圖像生成模型榜單,從64 x 64到512 x 512分辨率都由這一模型占據榜首:
對比曾號稱史上最強圖像生成器的BigGAN—deep也不落下風,甚至還能在LSUN和ImageNet 64 times, 64的圖像生成效果上達到SOTA。
有網友對此感嘆:前幾年圖像生成領域一直由GAN主導,現在看來,似乎要變成擴散模型了。
我們先來看看擴散模型的定義。
這是一種新的圖像生成的方法,其名字中的擴散本質上是一個迭代過程。
具體到推理中,就是從一幅完全由噪聲構成的圖像開始,通過預測每個步驟濾除的噪聲,迭代去噪得到一個高質量的樣本,然后再逐步添加更多的細節。
而OpenAI的這個ADM—G模型,則是在此基礎上向圖像生成任務中加入了類別條件,形成了一種獨特的消融擴散模型。
研究人員分別從以下幾個方面做了改進:
基本架構
基于UNet結構做了五點改進:
在噪聲逐步轉換到信號的過程中,研究人員引入了一個預先訓練好的分類網絡。
之后,再基于分類分數和目標類別之間的交叉熵損失計算梯度,用梯度引導下一步的生成采樣。
縮放分類梯度
按超參數縮放分類網絡梯度,以此來控制生成圖像的多樣性和精度。
比如像這樣,左邊是1.0規模大小的分類網絡,右邊是10.0大小的分類網絡,可以看到,右邊的生成圖像明顯類別更加一致:
也就是說,分類網絡梯度越高,類別就越一致,精度也越高,而同時多樣性也會變小。
生成領域的新熱點
目前,這一模型在GitHub上已有近千標星:
而與GAN比起來,擴散模型生成的圖像還更多樣,更復雜。
基于同樣的訓練數據集時,擴散模型可以生成擁有全景,局部特寫,不同角度的圖像:
左:BigGAN—deep 右:ADM
其實,自2020年谷歌發表DDPM后,擴散模型就逐漸成為了生成領域的一個新熱點,
除了文章中提到的OpenAI的兩篇論文之外,還有Semantic Guidence Diffusion,Classifier—Free Diffusion Guidence等多個基于擴散模型設計的生成模型。
擴散模型接下來還會在視覺任務上有哪些新的應用呢,我們來年再看。
。鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。
2023年2月15日,湯臣倍健與美團買藥在北京舉辦了2023
2021年收入增長目標應能確保實現,2022年收入增長預計將
具體來看,一是簡化業務流程和材料,便利北京冬奧會相關區域內境
炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛
,據索尼官方消息,新星粉,銀河紫,星光藍,三款全新配色Dua
,新氧數據顏究院發布《2021醫美行業白皮書》,白皮書顯示,