原文標(biāo)題:《Transformer 全新里程碑!誕生 6 年,開山之作被引近 8 萬,沒奪下 NeurIPS 最佳論文,卻徹底改變 AI 界》
Transformer,6 歲了!2017 年,Attention is All You Need 奠基之作問世,至今被引數(shù)近 8 萬。這個(gè)王者架構(gòu)還能繼續(xù)打多久?
2017 年 6 月 12 日,Attention is All You Need,一聲炸雷,大名鼎鼎的 Transformer 橫空出世。
它的出現(xiàn),不僅讓 NLP 變了天,成為自然語言領(lǐng)域的主流模型,還成功跨界 CV,給 AI 界帶來了意外的驚喜。
到今天為止,Transformer 誕生 6 周年。而這篇論文被引數(shù)高達(dá) 77926。
英偉達(dá)科學(xué)家 Jim Fan 對這篇蓋世之作做了深度總結(jié):
1. Transformer 并沒有發(fā)明注意力,而是將其推向極致。
第一篇注意力論文是在 3 年前發(fā)表的。
這篇論文來自 Yoshua Bengio 的實(shí)驗(yàn)室,而標(biāo)題并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。
它是「RNN + 上下文向量」的組合。
或許很多人都沒有聽說過這篇論文,但它是 NLP 中最偉大的里程碑之一,已經(jīng)被引用了 29K 次。
2. Transformer 和最初的注意力論文,都沒有談到通用序列計(jì)算機(jī)。
相反,兩者都為了解決一個(gè)狹隘而具體的問題:機(jī)器翻譯。值得注意的是,AGI可以追溯到不起眼的谷歌翻譯。
3. Transformer 發(fā)表在 2017 年的 NeurIPS 上,這是全球頂級(jí)的人工智能會(huì)議之一。然而,它甚至沒有獲得 Oral 演講,更不用說獲獎(jiǎng)了。
那一年的 NeurIPS 上有 3 篇最佳論文。截止到今天,它們加起來有 529 次引用。
Transformer 這一經(jīng)典之作卻在 NeurIPS 2017 沒有引起很多人的關(guān)注。
對此,Jim Fan 認(rèn)為,在一項(xiàng)出色的工作變得有影響力之前,很難讓人們認(rèn)可它。
我不會(huì)責(zé)怪 NeurIPS 委員會(huì) —— 獲獎(jiǎng)?wù)撐娜匀皇且涣鞯模绊懥]有那么大。一個(gè)反例是 ResNet。
何凱明等人在 CVPR 2016 年獲得了最佳論文。這篇論文當(dāng)之無愧,得到了正確的認(rèn)可。
2017 年,該領(lǐng)域聰明的人中,很少有人能夠預(yù)測到今天 LLM 革命性的規(guī)模。就像 20 世紀(jì) 80 年代一樣,很少有人能預(yù)見自 2012 年以來深度學(xué)習(xí)的海嘯。
OpenAI 科學(xué)家 Andrej Karpathy 對 Jim Fan 第 2 點(diǎn)總結(jié)頗感興趣,并表示,
介紹注意力的論文比 「Attention is All You Need」的論文受到的關(guān)注要少 1000 倍。而且從歷史上看,這兩篇論文都非常普通,但有趣的是恰好都是為機(jī)器翻譯而開發(fā)的。
你只需要注意力!
Transformer 誕生之前,AI 圈的人在自然語言處理中大都采用基于 RNN的編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu)來完成序列翻譯。
然而,RNN 及其衍生的網(wǎng)絡(luò)最致命的缺點(diǎn)就是慢。關(guān)鍵問題就在于前后隱藏狀態(tài)的依賴性,無法實(shí)現(xiàn)并行。
Transformer 的現(xiàn)世可謂是如日中天,讓許多研究人員開啟了追星之旅。
2017 年,8 位谷歌研究人員發(fā)表了 Attention is All You Need。可以說,這篇論文是 NLP 領(lǐng)域的顛覆者。
它完全摒棄了遞歸結(jié)構(gòu),依賴注意力機(jī)制,挖掘輸入和輸出之間的關(guān)系,進(jìn)而實(shí)現(xiàn)了并行計(jì)算。
甚至,有人發(fā)問「有了 Transformer 框架后是不是 RNN 完全可以廢棄了?」
JimFan 所稱 Transformer 當(dāng)初的設(shè)計(jì)是為了解決翻譯問題,毋庸置疑。
谷歌當(dāng)年發(fā)的博客,便闡述了 Transformer 是一種語言理解的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)。
具體來講,Transformer 由四部分組成:輸入、編碼器、解碼器,以及輸出。
輸入字符首先通過 Embedding 轉(zhuǎn)為向量,并加入位置編碼來添加位置信息。
然后,通過使用多頭自注意力和前饋神經(jīng)網(wǎng)絡(luò)的「編碼器」和「解碼器」來提取特征,最后輸出結(jié)果。
如下圖所示,谷歌給出了 Transformer 如何用在機(jī)器翻譯中的例子。
機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)通常包含一個(gè)編碼器,在讀取完句子后生成一個(gè)表征??招膱A代表著 Transformer 為每個(gè)單詞生成的初始表征。
然后,利用自注意力,從所有其他的詞中聚合信息,在整個(gè)上下文中為每個(gè)詞產(chǎn)生一個(gè)新表征,由實(shí)心圓表示。
接著,將這個(gè)步驟對所有單詞并行重復(fù)多次,依次生成新的表征。
同樣,解碼器的過程與之類似,但每次從左到右生成一個(gè)詞。它不僅關(guān)注其他先前生成的單詞,還關(guān)注編碼器生成的最終表征。
2019 年,谷歌還專門為其申請了專利。
自此,在自然語言處理中,Transformer 逆襲之路頗有王者之風(fēng)。
歸宗溯源,現(xiàn)在各類層出不窮的 GPT,都起源于這篇 17 年的論文。
然而,Transformer 燃爆的不僅是 NLP 學(xué)術(shù)圈。
萬能 Transformer:從 NLP 跨到 CV
2017 年的谷歌博客中,研究人員曾對 Transformer 未來應(yīng)用潛力進(jìn)行了暢享:
不僅涉及自然語言,還涉及非常不同的輸入和輸出,如圖像和視頻。
沒錯(cuò),在 NLP 領(lǐng)域掀起巨浪后,Transformer 又來「踢館」計(jì)算機(jī)視覺領(lǐng)域。甚至,當(dāng)時(shí)許多人狂呼 Transformer 又攻下一城。
自 2012 年以來,CNN 已經(jīng)成為視覺任務(wù)的首選架構(gòu)。
隨著越來越高效的結(jié)構(gòu)出現(xiàn),使用 Transformer 來完成 CV 任務(wù)成為了一個(gè)新的研究方向,能夠降低結(jié)構(gòu)的復(fù)雜性,探索可擴(kuò)展性和訓(xùn)練效率。
2020 年 10 月,谷歌提出的 Vision Transformer ,不用卷積神經(jīng)網(wǎng)絡(luò)(CNN),可以直接用 Transformer 對圖像進(jìn)行分類。
值得一提的是,ViT 性能表現(xiàn)出色,在計(jì)算資源減少 4 倍的情況下,超過最先進(jìn)的 CNN。
緊接著,2021 年,OpenAI 連仍兩顆炸彈,發(fā)布了基于 Transformer 打造的 DALL-E,還有 CLIP。
這兩個(gè)模型借助 Transformer 實(shí)現(xiàn)了很好的效果。DALL-E 能夠根據(jù)文字輸出穩(wěn)定的圖像。而 CLIP 能夠?qū)崿F(xiàn)圖像與文本的分類。
再到后來的 DALL-E 進(jìn)化版 DALL-E 2,還有 Stable Diffusion,同樣基于 Transformer 架構(gòu),再次顛覆了 AI 繪畫。
以下,便是基于 Transformer 誕生的模型的整條時(shí)間線。
由此可見,Transformer 是有多么地能打。
2021 年,當(dāng)時(shí)就連谷歌的研究人員 David Ha 表示,Transformers 是新的 LSTMs。
而他曾在 Transformer 誕生之前,還稱 LSTM 就像神經(jīng)網(wǎng)絡(luò)中的 AK47。無論我們?nèi)绾闻τ眯碌臇|西來取代它,它仍然會(huì)在 50 年后被使用。
Transformer 僅用 4 年的時(shí)間,打破了這一預(yù)言。
新硅谷「七叛徒」
如今,6 年過去了,曾經(jīng)聯(lián)手打造出谷歌最強(qiáng) Transformer 的「變形金剛們」怎么樣了?
Jakob Uszkoreit 被公認(rèn)是 Transformer 架構(gòu)的主要貢獻(xiàn)者。
他在 2021 年中離開了 Google,并共同創(chuàng)立了 Inceptive Labs,致力于使用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) mRNA。
到目前為止,他們已經(jīng)籌集了 2000 萬美元,并且團(tuán)隊(duì)規(guī)模也超過了 20 人。
Ashish Vaswani 在 2021 年底離開 Google,創(chuàng)立了 AdeptAILabs。
可以說,AdeptAILabs 正處在高速發(fā)展的階段。
目前,公司不僅已經(jīng)籌集了 4.15 億美元,而且也估值超過了 10 億美元。
此外,團(tuán)隊(duì)規(guī)模也剛剛超過了 40 人。
然而,Ashish 卻在幾個(gè)月前離開了 Adept。
在 Transformers 論文中,Niki Parmar 是唯一的女性作者。
她在 2021 年底離開 Google,并和剛剛提到的 Ashish Vaswani 一起,創(chuàng)立了 AdeptAILabs。
不過,Niki 在幾個(gè)月前也離開了 Adept。
Noam Shazeer 在 Google 工作了 20 年后,于 2021 年底離開了 Google。
隨后,他便立刻與自己的朋友 Dan Abitbol 一起,創(chuàng)立了 Character AI。
雖然公司只有大約 20 名員工,但效率卻相當(dāng)之高。
目前,他們已經(jīng)籌集了近 2 億美元,并即將躋身獨(dú)角獸的行列。
Aidan Gomez 在 2019 年 9 月離開了 Google Brain,創(chuàng)立了 CohereAI。
經(jīng)過 3 年的穩(wěn)定發(fā)展后,公司依然正在擴(kuò)大規(guī)模 ——Cohere 的員工數(shù)量最近超過了 180 名。
與此同時(shí),公司籌集到的資金也即將突破 4 億美元大關(guān)。
Lukasz Kaiser 是 TensorFlow 的共同作者人之一,他在 2021 年中離開了 Google,加入了 OpenAI。
Illia Polosukhin 在 2017 年 2 月離開了 Google,于 2017 年 6 月創(chuàng)立了 NEAR Protocol。
目前,NEAR 估值約為 20 億美元。
與此同時(shí),公司已經(jīng)籌集了約 3.75 億美元,并進(jìn)行了大量的二次融資。
現(xiàn)在,只有 Llion Jones 還在谷歌工作。
在論文的貢獻(xiàn)方面,他風(fēng)趣地調(diào)侃道:「自己最大的意義在于 —— 起標(biāo)題?!?/p>
網(wǎng)友熱評(píng)
走到現(xiàn)在,回看 Transformer,還是會(huì)引發(fā)不少網(wǎng)友的思考。
AI 中的開創(chuàng)性論文。
馬庫斯表示,這有點(diǎn)像波特蘭開拓者隊(duì)對邁克爾?喬丹的放棄。
這件事說明了,即使在這樣的一級(jí)研究水平上,也很難預(yù)測哪篇論文會(huì)在該領(lǐng)域產(chǎn)生何種程度的影響。
這個(gè)故事告訴我們,一篇研究文章的真正價(jià)值是以一種長期的方式體現(xiàn)出來的。
哇,時(shí)間過得真快!令人驚訝的是,這個(gè)模型突破了注意力的極限,徹底改變了 NLP。
在我攻讀博士期間,我的導(dǎo)師 WenmeiHwu 總是教育我們,最有影響力的論文永遠(yuǎn)不會(huì)獲得最佳論文獎(jiǎng)或任何認(rèn)可,但隨著時(shí)間的推移,它們最終會(huì)改變世界。我們不應(yīng)該為獎(jiǎng)項(xiàng)而奮斗,而應(yīng)該專注于有影響力的研究!
參考資料:
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關(guān)。僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。
2023年2月15日,湯臣倍健與美團(tuán)買藥在北京舉辦了2023
2021年收入增長目標(biāo)應(yīng)能確保實(shí)現(xiàn),2022年收入增長預(yù)計(jì)將
具體來看,一是簡化業(yè)務(wù)流程和材料,便利北京冬奧會(huì)相關(guān)區(qū)域內(nèi)境
炒股就看金麒麟分析師研報(bào),權(quán)威,專業(yè),及時(shí),全面,助您挖掘潛
,據(jù)索尼官方消息,新星粉,銀河紫,星光藍(lán),三款全新配色Dua
,新氧數(shù)據(jù)顏究院發(fā)布《2021醫(yī)美行業(yè)白皮書》,白皮書顯示,