亚洲三级在线播放_国产精品亚洲二区在线_精品国产电影久久久久_免费popnhub国产在线视频 - 美女被艹网站

金財晚報

金財晚報

當前位置:首頁>財經視點>

揭秘ChatGPT背后天價超算,上萬顆英偉達A100,燒光微軟數億美元

來源:IT之家 作者:蘇婉蓉 發布時間:2023-03-15 17:14   閱讀量:8633   

ChatGPT 背后,是微軟超級昂貴的超級計算機,耗資數億美元,用了英偉達數萬顆芯片。

ChatGPT 能成為如今火遍全球的頂流模型,少不了背后超強的算力。

數據顯示,ChatGPT 的總算力消耗約為 3640PF-days。

那么,作為依托的那臺微軟專為 OpenAI 打造的超級計算機,又是如何誕生的呢?

周一,微軟在官博上連發兩文,親自解密這臺超級昂貴的超級計算機,以及 Azure 的重磅升級 —— 加入成千上萬張英偉達最強的 H100 顯卡以及更快的 InfiniBand 網絡互連技術。

基于此,微軟也官宣了最新的 ND H100 v5 虛擬機,具體規格如下:

  • 8 個 NVIDIA H100 Tensor Core GPU 通過下一代 NVSwitch 和 NVLink 4.0 互聯

  • 每個 GPU 有 400 Gb / s 的 NVIDIA Quantum-2 CX7 InfiniBand,每個虛擬機有 3.2Tb / s 的無阻塞胖樹型網絡

  • NVSwitch 和 NVLink 4.0 在每個虛擬機的 8 個本地 GPU 之間具有 3.6TB / s 的雙向帶寬

  • 第四代英特爾至強可擴展處理器

  • PCIE Gen5 到 GPU 互連,每個 GPU 有 64GB / s 帶寬

  • 16 通道 4800MHz DDR5 DIMM

數億美元撐起來的算力

大約五年前,OpenAI 向微軟提出了一個大膽的想法 —— 建立一個可以永遠改變人機交互方式的人工智能系統。

為了建立這個系統,OpenAI 需要很多算力 —— 可以真正支撐起超大規模計算的那種。

但問題是,微軟能做到嗎?

畢竟,當時既沒有能滿足 OpenAI 需要的硬件,也無法確定在 Azure 云服務中構建這樣龐大的超級計算機會不會直接把系統搞崩。

隨后,微軟便開啟了一段艱難的摸索。

微軟 Azure 高性能計算和人工智能產品負責人 Nidhi Chappell和微軟戰略合作伙伴關系高級總監 Phil Waymouth(右)

為了構建支持 OpenAI 項目的超級計算機,它斥資數億美元,在 Azure 云計算平臺上將幾萬個 Nvidia A100 芯片連接在一起,并改造了服務器機架。

此外,為了給 OpenAI 量身打造這個超算平臺,微軟十分盡心,一直在密切關注著 OpenAI 的需求,隨時了解他們在訓練 AI 時最關鍵的需要。

這么一個大工程,成本究竟是多少呢?微軟負責云計算和人工智能的執行副總裁 Scott Guthrie 不愿透露具體數目,但他表示,「可能不止」幾億美元。

OpenAI 出的難題

微軟負責戰略合作伙伴關系的高管 Phil Waymouth 指出,OpenAI 訓練模型所需要的云計算基礎設施規模,是業內前所未有的。

呈指數級增長的網絡 GPU 集群規模,超過了業內任何人試圖構建的程度。

微軟之所以下定決心與 OpenAI 合作,是因為堅信,這種前所未有的基礎設施規模將改變歷史,造出全新的 AI,和全新的編程平臺,為客戶提供切實符合他們利益的產品和服務。

現在看來,這幾億美元顯然沒白花 —— 寶押對了。

在這臺超算上,OpenAI 能夠訓練的模型越來越強大,并且解鎖了 AI 工具令人驚嘆的功能,幾乎開啟人類第四次工業革命的 ChatGPT,由此誕生。

非常滿意的微軟,在 1 月初又向 OpenAI 狂砸 100 億美元。

可以說,微軟突破 AI 超算界限的雄心,已經得到了回報。而這背后體現的,是從實驗室研究,到 AI 產業化的轉變。

目前,微軟的辦公軟件帝國已經初具規模。

ChatGPT 版必應,可以幫我們搜索假期安排;Viva Sales 中的聊天機器人可以幫營銷人員寫郵件;GitHub Copilot 可以幫開發者續寫代碼;Azure OpenAI 服務可以讓我們訪問 OpenAI 的大語言模型,還能訪問 Azure 的企業級功能。

和英偉達聯手

其實,在去年 11 月,微軟就曾官宣,要與 Nvidia 聯手構建「世界上最強大的 AI 超級計算機之一」,來處理訓練和擴展 AI 所需的巨大計算負載。

這臺超級計算機基于微軟的 Azure 云基礎設施,使用了數以萬計個 Nvidia H100 和 A100Tensor Core GPU,及其 Quantum-2 InfiniBand 網絡平臺。

Nvidia 在一份聲明中表示,這臺超級計算機可用于研究和加速 DALL-E 和 Stable Diffusion 等生成式 AI 模型。

隨著 AI 研究人員開始使用更強大的 GPU 來處理更復雜的 AI 工作負載,他們看到了 AI 模型更大的潛力,這些模型可以很好地理解細微差別,從而能夠同時處理許多不同的語言任務。

簡單來說,模型越大,你擁有的數據越多,你能訓練的時間越長,模型的準確性就越好。

但是這些更大的模型很快就會到達現有計算資源的邊界。而微軟明白,OpenAI 需要的超級計算機是什么樣子,需要多大的規模。

這顯然不是說,單純地購買一大堆 GPU 并將它們連接在一起之后,就可以開始協同工作的東西。

微軟 Azure 高性能計算和人工智能產品負責人 Nidhi Chappell 表示:「我們需要讓更大的模型訓練更長的時間,這意味著你不僅需要擁有最大的基礎設施,你還必須讓它長期可靠地運行。」

Azure 全球基礎設施總監 Alistair Speirs 表示,微軟必須確保它能夠冷卻所有這些機器和芯片。比如,在較涼爽的氣候下使用外部空氣,在炎熱的氣候下使用高科技蒸發冷卻器等。

此外,由于所有的機器都是同時啟動的,所以微軟還不得不考慮它們和電源的擺放位置。就像你在廚房里同時打開微波爐、烤面包機和吸塵器時可能會發生的情況,只不過是數據中心的版本。

大規模 AI 訓練

完成這些突破,關鍵在哪里?

難題就是,如何構建、操作和維護數萬個在高吞吐量、低延遲 InfiniBand 網絡上互連的共置 GPU。

這個規模,已經遠遠超出了 GPU 和網絡設備供應商測試的范圍,完全是一片未知的領域。沒有任何人知道,在這種規模下,硬件會不會崩。

微軟 Azure 高性能計算和人工智能產品負責人 Nidhi Chappell 解釋道,在 LLM 的訓練過程中,涉及到的大規模計算通常會被劃分到一個集群中的數千個 GPU 上。

在被稱為 allreduce 的階段,GPU 之間會互相交換它們所做工作的信息。此時就需要通過 InfiniBand 網絡進行加速,從而讓 GPU 在下一塊計算開始之前完成。

Nidhi Chappell 表示,由于這些工作跨越了數千個 GPU,因此除了要確保基礎設施的可靠外,還需要大量很多系統級優化才能實現最佳的性能,而這是經過許多代人的經驗總結出來的。

所謂系統級優化,其中就包括能夠有效利用 GPU 和網絡設備的軟件。

在過去的幾年里,微軟已經開發出了這種技術,在使訓練具有幾十萬億個參數的模型的能力得到增長的同時,降低了訓練和在生產中提供這些模型的資源要求和時間。

Waymouth 指出,微軟和合作伙伴也一直在逐步增加 GPU 集群的容量,發展 InfiniBand 網絡,看看他們能在多大程度上推動保持 GPU 集群運行所需的數據中心基礎設施,包括冷卻系統、不間斷電源系統和備用發電機。

微軟 AI 平臺公司副總裁 Eric Boyd 表示,這種為大型語言模型訓練和下一波 AI 創新而優化的超算能力,已經可以在 Azure 云服務中直接獲得。

并且微軟通過與 OpenAI 的合作,積累了大量經驗,當其他合作方找來、想要同樣的基礎設施時,微軟也可以提供。

現在,微軟的 Azure 數據中心已經覆蓋了全球 60 多個地區。

全新虛擬機:ND H100 v5

在上面這個基礎架構上,微軟一直在繼續改進。

今天,微軟就官宣了全新的可大規模擴展虛擬機,這些虛擬機集成了最新的 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 網絡。

通過虛擬機,微軟可以向客戶提供基礎設施,根據任何 AI 任務的規模進行擴展。據微軟稱,Azure 的新 ND H100 v5 虛擬機為開發者提供卓越的性能,同時調用數千個 GPU。

參考資料:

鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。

mangren

財經視界

財經圖文

熱門推薦

金財晚報僅作為用戶獲取信息之目的,并不構成投資建議。市場有風險 投資需謹慎。

網站地圖

Copyright 2018- 金財晚報 All Rights Reserved 聯系我們: 備案號:蜀ICP備13010463號