製造一個鍵盤大的芯片要面臨哪些挑戰?

目前,最大的計算機芯片通常可以放在手掌里,有些小的可以放在指尖上。芯片越來越小似乎是行業整體發展趨勢和普遍理念。現在,硅谷的一家創業公司Cerebras正在挑戰這一觀念。本周一,該公司公布了據稱是有史以來最大的計算機芯片。

它和餐盤一樣大——大約是一塊普通芯片的100倍——幾乎不能放在人的大腿上。

開發該芯片的工程師相信它可以用於大型數據中心,並有助於加速人工智能(AI)的發展,從自動駕駛汽車到亞馬遜的Alexa,都可以因它的出現而受益。

許多公司正在為AI製造新的芯片,包括傳統的芯片製造商,如英特爾Intel)和高通(Qualcomm),以及美國、英國和中國的其他初創企業。

谷歌已經製造出了這種芯片,並將其應用於多個人工智能項目中,包括谷歌助手(google assistant)和谷歌翻譯(google translate),後者可以識別安卓手機上的語音命令,並將一種語言翻譯成另一種語言。

Cerebras首席執行官兼創始人Andrew Feldman稱,「這個領域的增長非常驚人。”他是一位芯片行業資深人士,此前曾將一家公司賣給芯片巨頭AMD

新AI系統依賴於神經網絡。這些復雜的數學系統鬆散地基於神經元網絡,可以通過分析大量數據來學習任務。例如,通過精確定位數千隻貓照片中的模式,神經網絡可以學會識別貓。

這需要一種特殊的計算能力。如今,大多數公司在GPU的幫助下分析數據。這些芯片最初是為遊戲和其他軟件渲染圖像而設計的,但它們也擅長運行驅動神經網絡的數學運算。

大約六年前,隨着谷歌、Facebook和微軟等科技巨頭在人工智能領域加大投入,它們開始大量購買英偉達的GPU。在截至2016年夏季的一年里,英偉達在美國的平均銷售額為1.43億美元,是前一年的兩倍多。

但是這些公司想要更多的處理能力。谷歌專門為神經網絡(Tensor Processing Unit,簡稱TPU)開發了一種芯片,其他幾家芯片製造商也在追求同樣的目標。

AI系統與許多芯片協同工作。麻煩的是,在芯片之間移動大塊數據可能會很慢,並且會限制芯片分析該信息的速度。

加州大學洛杉磯分校專門從事人工智能芯片設計的教授Subramanian Iyer表示,「將所有這些芯片連接在一起,實際上會減慢它們的速度,並消耗大量能量。」

硬件製造商正在探索許多不同的選擇。有些人試圖拓寬芯片之間的管道。

Cerebras,一家僅有3年歷史、資金超過2億美元的公司,已經採取了一種新穎的方法。這個想法是把所有的數據保存在一個巨大的芯片上,這樣系統就可以更快地運行。

使用一個大的芯片是非常困難的。計算機芯片通常安裝在直徑約12英寸的圓形硅片上。每個晶圓片通常包含約100個芯片。

許多這樣的芯片,當從晶圓片中取出時,就會被扔掉,再也不用了。蝕刻電路進入硅是一個如此復雜的過程,製造商無法消除缺陷。有些電路不起作用。這是芯片製造商保持芯片盡量小的原因之一 – 減少錯誤的空間,因此他們不必拋棄那麼多。

Cerebras公司表示,他們已經製造了一塊晶圓大小的芯片。

其他人也嘗試過這種方法,最著名的是一家名為Trilogy的初創企業,由著名的IBM芯片工程師Gene Amdahl於1980年創立。盡管獲得了2.3億多美元的資金支持,但最終還是覺得這個任務太難了,五年後就倒閉了。

Cerebras計劃下個月開始向少數客戶發貨硬件,Feldman說,這種芯片訓練人工智能系統的速度可以比現有硬件快100到1000倍。

他和他的工程師們已經把他們的巨型芯片分成了更小的部分,或者說是核心,因為他們知道有些核心是不能工作的。

該公司的硬件存在重大問題。費爾德曼有關芯片性能的說法尚未得到證實,他也沒有透露芯片的價格。

價格將取決於Cerebras及其製造合作夥伴台積電(TSMC)生產該芯片的效率。

台積電的高級副總裁BradPaulsen表示,這一過程「需要更多勞動力」。一個如此大的芯片會消耗大量的能量,這意味着保持它的冷卻將是困難和昂貴的。換句話說,構建芯片只是任務的一部分。

「這對我們來說是一個挑戰,」鮑爾森說。「這對他們來說也是。」

Cerebras計劃將該芯片作為一個更大機器的一部分出售,該機器包括用冷凍液體冷卻硅的精密設備。這與大型科技公司和政府機構習慣於合作的方式完全不同。

「並不是說人們沒能製造出這種芯片,」伊利諾伊大學(University of Illinois)教授Rakesh Kumar說,他也在為人工智能研究大型芯片,「問題是他們沒能製造出一種商業上可行的芯片。」

直到今天,新一代的隱形硅片公司Cerebras一直在尋求讓訓練成為一種深度學習模式,就像從亞馬遜(Amazon)購買牙膏一樣快。經過近三年的靜悄悄的研發,Cerebras今天推出了它的新芯片——這是一款出色的芯片。「晶圓級引擎」是1.2萬億個晶體管(有史以來最多),46,225平方毫米(有史以來最大),包括18千兆字節的片上存儲器(目前市場上最多的芯片)和40萬個處理器核心(估計是最高級的)。

製造一個鍵盤大的芯片要面臨哪些挑戰?

 圖:Cerebras的晶片級引擎比典型的Mac鍵盤更大

在斯坦福大學(StanfordUniversity)的Hot Chips大會上,它引起了很大的轟動。Hot Chips大會是硅行業為產品介紹和路線圖而舉辦的大型會議之一,與會者中有不同級別的「ooh」和「aah」。你可以從《財富》雜誌的Tiernan Ray那里了解更多關於這種芯片的信息,也可以閱讀Cerebras的白皮書。

今天下午,我與公司創始人兼首席執行官AndrewFeldman坐下來,討論了他手下的173名工程師在過去幾年里用Benchmark等公司1.12億美元的風投資金,在這條街上悄悄做了什麼。

做大意味着挑戰

首先,簡要介紹一下為手機和電腦供電的芯片是如何製造的。像台積電這樣的晶圓代工廠採用標准尺寸的硅片,利用光將晶體管蝕刻到晶圓上,然後將它們分割成單獨的芯片。晶圓是圓形的,芯片是正方形的,因此將圓細分成清晰的單個芯片陣列涉及到一些基本的幾何知識。

光刻工藝的一大挑戰是,錯誤可能會滲透到製造過程中,需要大量的測試來驗證質量,並迫使晶圓廠扔掉性能不佳的芯片。芯片越小、越緊湊,單個芯片失效的可能性就越小,晶圓廠的產量也就越高。高收益等於高利潤。

Cerebras提出了在單個晶圓片上蝕刻一系列單獨芯片的想法,而不是僅僅使用整個晶圓片本身作為一個巨大的芯片。這使得所有這些單獨的核心可以彼此直接連接——極大地加快了用於深度學習算法的關鍵反饋循環——但這是以巨大的製造和設計挑戰為代價來創建和管理這些芯片的。

製造一個鍵盤大的芯片要面臨哪些挑戰?

Cerebras的技術架構和設計由聯合創始人Sean Lie領導。Feldman和Lie之前合作創辦了一家名為SeaMicro的公司,2012年該公司以3.34億美元的價格賣給了AMD。

根據Feldman的說法,團隊遇到的第一個挑戰是處理「劃線」之間的通信。雖然Cerebras芯片包含一個完整的晶圓,但今天的光刻設備仍然必須像在硅片上蝕刻單個芯片一樣工作。因此,該公司不得不發明新技術,讓這些單獨的芯片能夠在整個晶圓上相互通信。在與台積電合作中,他們不僅發明了新的通信通道,而且還不得不編寫新的軟件來處理擁有超過萬億晶體管的芯片。

第二個挑戰是良率。當一個芯片覆蓋整個硅晶片時,晶片蝕刻上的任何一個缺陷都可能導致整個芯片無法運作。這是整個晶圓技術幾十年來的難題:根據物理定律,幾乎不可能以完美的精確度反復蝕刻一萬億個晶體管。

Cerebras通過在芯片中添加額外的核心來解決這個問題,當核心附近的晶片出現錯誤時,這些核心將被用作備份。Feldman向我解釋說:「你只需要持有占總量1%,1.5%的額外的核心。」 留下額外的核心使芯片基本上可以自我修復,繞過光刻錯誤,使整個晶片硅芯片可行。

進入芯片設計的未知領域

最初的兩個挑戰——芯片之間的劃線通信和處理良率——已經困擾了芯片設計師幾十年。但它們都是已知的問題,Feldman說,通過使用現代工具重新處理它們,它們實際上更容易解決預期的問題。

不過,他把這項挑戰比作攀登珠穆朗瑪峰。「就像第一批人沒能登上珠穆朗瑪峰一樣,他們說,『該死,第一部分真的很難。』然後下一組人過來說: 『那算什麼。最後一百碼,才是個問題。」

事實上,根據Feldman的說法,對Cerebras來說,最困難的挑戰是接下來的三個,因為沒有其他芯片設計師能通過劃線通信來找出接下來發生了什麼。

芯片在運行中會變得非常熱,但不同的材料會以不同的速度膨脹。這意味着連接芯片和主板的連接器也需要以同樣的速度進行熱膨脹,以免兩者之間產生裂縫。

Feldman說:「你如何找到一個可以承受這種壓力的連接器?以前從來沒有人這樣做過,所以我們需要發明一種材料。因此,我們擁有材料科學博士,我們必須發明一種材料,能夠化解其中的一些差異。」

一旦芯片被製造出來,它就需要經過測試和封裝,然後運送給原始設備製造商(OEMs),由原始設備製造商將芯片添加到終端客戶(無論是數據中心還是消費者筆記本電腦)使用的產品中。不過,也存在一個挑戰:市場上絕對沒有任何東西是為處理整個晶圓芯片而設計的。

製造一個鍵盤大的芯片要面臨哪些挑戰?

圖: Cerebras設計了自己的測試和封裝系統來處理它的芯片

現階段,沒有人有這麼大的印刷電路板、連接器、冷卻盤,也沒有軟件和工具來調試它們。Feldman解釋說。「所以我們設計了整個生產流程,因為從來沒有人這樣做過。「Cerebras的技術不僅僅是它所銷售的芯片,它還包括所有相關的機械設備,這些機械設備是用來製造和封裝這些芯片的。

Cerebras的芯片使用15千瓦的功率運行,這對於單個芯片來說是一個巨大的功耗,盡管與現代大小的AI集群相當。所有這些功能也需要冷卻,Cerebras必須設計一種新方法來為這麼大的芯片提供這兩種功能。

它基本上是通過將芯片翻轉過來來解決這個問題的,Feldman稱之為「使用z維度」。「我們的想法是,與傳統的在芯片上橫向移動電源和冷卻設備不同,電源和冷卻設備在芯片上的所有點都是垂直傳輸的,以確保兩者的訪問是均勻一致的。」

因此,這就是該公司在過去幾年中日以繼夜努力解決的三個挑戰——熱膨脹、封裝和電源/冷卻。

從理論到現實

Cerebras有一個演示芯片(它和我們的頭差不多大),據報道,它已經開始向客戶交付原型。然而,與所有新芯片一樣,最大的挑戰是擴大生產,以滿足客戶的需求。

對於Cerebras來說,這種情況有點不尋常。由於它在一個晶圓上融入了如此多的計算能力,客戶不必購買數十或數百個芯片並將它們拼接在一起來創建一個計算集群。相反,他們可能只需要少量的Cerebras芯片來滿足他們的深度學習需求。該公司的下一個階段是實現規模化,並確保其芯片的穩定交付。該公司將芯片封裝為一個完整的系統「設備」,其中還包括其專有的冷卻技術。

預計在未來幾個月會聽到更多關於Cerebras技術的細節,特別是在關於未來深度學習處理工作流程的爭論不斷升溫之際。

來源:cnBeta