OpenAI剛剛推出的年末新作GLIDE又讓擴散模型小火了一把

來源：TechWeb 作者:文輝發布時間：2021-12-31 14:49 閱讀量：5696

OpenAI剛剛推出的年末新作GLIDE，又讓擴散模型小火了一把。

這個基于擴散模型的文本圖像生成大模型參數規模更小，但生成的圖像質量卻更高。

于是，依舊是OpenAI出品，論文標題就直接號稱在圖像生成上打敗GAN的ADM—G模型也重新進入了大眾眼中:

光看Papers with Code上基于ImageNet數據集的圖像生成模型榜單，從64 x 64到512 x 512分辨率都由這一模型占據榜首:

對比曾號稱史上最強圖像生成器的BigGAN—deep也不落下風，甚至還能在LSUN和ImageNet 64 times， 64的圖像生成效果上達到SOTA。

有網友對此感嘆:前幾年圖像生成領域一直由GAN主導，現在看來，似乎要變成擴散模型了。

我們先來看看擴散模型的定義。

這是一種新的圖像生成的方法，其名字中的擴散本質上是一個迭代過程。

具體到推理中，就是從一幅完全由噪聲構成的圖像開始，通過預測每個步驟濾除的噪聲，迭代去噪得到一個高質量的樣本，然后再逐步添加更多的細節。

而OpenAI的這個ADM—G模型，則是在此基礎上向圖像生成任務中加入了類別條件，形成了一種獨特的消融擴散模型。

研究人員分別從以下幾個方面做了改進:

基本架構

基于UNet結構做了五點改進:

在噪聲逐步轉換到信號的過程中，研究人員引入了一個預先訓練好的分類網絡。

之后，再基于分類分數和目標類別之間的交叉熵損失計算梯度，用梯度引導下一步的生成采樣。

縮放分類梯度

按超參數縮放分類網絡梯度，以此來控制生成圖像的多樣性和精度。

比如像這樣，左邊是1.0規模大小的分類網絡，右邊是10.0大小的分類網絡，可以看到，右邊的生成圖像明顯類別更加一致:

也就是說，分類網絡梯度越高，類別就越一致，精度也越高，而同時多樣性也會變小。

生成領域的新熱點

目前，這一模型在GitHub上已有近千標星:

而與GAN比起來，擴散模型生成的圖像還更多樣，更復雜。

基于同樣的訓練數據集時，擴散模型可以生成擁有全景，局部特寫，不同角度的圖像:

左:BigGAN—deep 右:ADM

其實，自2020年谷歌發表DDPM后，擴散模型就逐漸成為了生成領域的一個新熱點，

除了文章中提到的OpenAI的兩篇論文之外，還有Semantic Guidence Diffusion，Classifier—Free Diffusion Guidence等多個基于擴散模型設計的生成模型。

擴散模型接下來還會在視覺任務上有哪些新的應用呢，我們來年再看。

。

鄭重聲明：此文內容為本網站轉載企業宣傳資訊，目的在于傳播更多信息，與本站立場無關。僅供讀者參考，并請自行核實相關內容。

即時閱讀