85萬核心的世界最大AI晶片打破記錄:要”殺死” GPU

以造出世界上最大加速器晶片CS-2 Wafer Scale Engine聞名的公司Cerebras宣布,他們已經在利用「巨芯」進行人工智慧訓練上走出了重要的一步,訓練出了單晶片上全世界最大的NLP(自然語言處理)AI模型。

該模型具有20億個參數,基於CS-2晶片進行訓練。

這塊全世界最大的加速器晶片採用7nm製程工藝,由一整塊方形的晶圓刻蝕而成。

它的大小數百倍於主流晶片,具有15KW的功率,集成了2.6萬億個7nm電晶體,封裝了850000個內核和40GB記憶體。

圖1 CS-2 Wafer Scale Engine晶片

單晶片訓練AI大模型新紀錄

NLP模型的開發是人工智慧中的一個重要領域。利用NLP模型,人工智慧可以「理解」文字含義,並進行相應的動作。OpenAI的DALL.E模型就是一個典型的NLP模型。這個模型可以將使用者的輸入的文字信息轉化為圖片輸出。

比如當使用者輸入「牛油果形狀的扶手椅」後,AI就會自動生成若干與這句話對應的圖像。

圖:AI接收信息後生成的「牛油果形狀扶手椅」圖片

不止於此,該模型還能夠使AI理解物種、幾何、歷史時代等復雜的知識。

但要實現這一切並不容易,NLP模型的傳統開發具有極高的算力成本和技術門檻。

實際上,如果只討論數字,Cerebras開發的這一模型20億的參數量在同行的襯托下,顯得有些平平無奇。

前面提到的DALL.E模型具有120億個參數,而目前最大的模型是DeepMind於去年年底推出的Gopher,具有2800億個參數。

但除去驚人的數字外,Cerebras開發的NLP還有一個巨大的突破:它降低了NLP模型的開發難度。

「巨芯」如何打敗GPU?

按照傳統流程,開發NLP模型需要開發者將巨大的NLP模型切分若干個功能部分,並將他們的工作負載分散到成百上千個圖形處理單元上。

數以千百計的圖形處理單元對廠商來說意味著巨大的成本。

技術上的困難也同樣使廠商們痛苦不堪。

切分模型是一個定製的問題,每個神經網絡、每個GPU的規格、以及將他們連接(或互聯)在一起的網絡都是獨一無二的,並且不能跨系統移植。

廠商必須在第一次訓練前將這些因素統統考慮清楚。

這項工作極其復雜,有時候甚至需要幾個月的時間才能完成。

Cerebras表示,這是NLP模型訓練中「最痛苦的方面之一」,只有極少數公司擁有開發NLP所必要的資源和專業知識。對於人工智慧行業中的其他公司而言,NLP的訓練則太昂貴、太耗時且無法使用。

但如果單個晶片就能夠支持20億個參數的模型,就意味著不需要使用海量的GPU分散訓練模型的工作量。這可以為廠商節省數千個GPU的訓練成本和相關的硬體、擴展要求,同時這也使廠商不必經歷切分模型並將其工作負載分配給數千個GPU的痛苦。

Cerebras也並未僅僅執拗於數字,評價一個模型的好壞,參數的數量並不是唯一標准。

比起希望誕生於「巨芯」上的模型「努力」,Cerebras更希望的是模型「聰明」。

之所以Cerebras能夠在參數量上取得爆炸式增長,是因為利用了權重流技術。這項技術可以將計算和記憶體的占用量解耦,並允許將記憶體擴展到足以存儲AI工作負載中增加的任何數量的參數。

由於這項突破,設置模型的時間從幾個月減少到了幾分鍾,並且開發者在GPT-J和GPT-Neo等型號之間「只需幾次按鍵」就可以完成切換。這讓NLP的開發變得更加簡單。

這使得NLP領域出現了新的變化。

正如Intersect360 Research 首席研究官 Dan Olds 對Cerebras取得成就的評價:「Cerebras 能夠以具有成本效益、易於訪問的方式將大型語言模型帶給大眾,這為人工智慧開辟了一個激動人心的新時代。」

來源:快科技