據媒體The next platform報導,美國計算機協會(Associationfor Computing Machinery; ACM)近期公布了戈登·貝爾獎(被譽為“超級計算應用領域的諾貝爾獎”)的入圍名單。
基於中國1.5 EXAFLOPS(百億億次)超級計算機的一篇研究論文再次入圍,該獎項將在今年11月在美國丹佛舉行的SC23超級計算大會上頒發。
中國超級計算機再度入圍
ACM表示,雖然最終的系統規模以及模擬和模型運行的結果尚未完成,但基於新一代的 1.5 exaflops中國神威超級計算機(oceanlite,太湖之光升級版)完成的一篇題為《渦輪機械流動的精確計算》論文(將在11月SC23會議之前正式發布)已經入圍。
早在2021年11月,中國的超級計算機就曾以4190萬個核心的量子模擬而獲得了戈登貝爾獎。
當時阿里巴巴集團、清華大學、DAMO學院,浙江實驗室和北京人工智慧研究院在Oceanlite機器中運行了一個名為“八卦路”的預訓練機器學習模型,該模型涉及3700多萬個核心和14.5萬億個參數。
此次《渦輪機械流動的精確計算》論文,則是由Weiqi Shen, Jiahuan Cui, Yao Zheng等(共 19 位作者),來自浙江大學、清華大學、國家超級計算無錫中心、劍橋大學、佛羅里達大學團隊共同完成。
該團隊開發了一種新的大渦流模擬代碼,用於解決渦輪機械中的可壓縮流。他們將該代碼應用於美國國家航空航天局(NASA)的重大挑戰問題,使用高階非結構化求解器求解高壓渦輪級聯的 16.9 億個網格元素和 8650 億個自由度。
根據該論文的作者顯示,Oceanlite系統擁有超過100000個由中國國家並行計算機工程與技術研究中心(NRCPC)設計的定製SW26010 Pro處理器。
2022年4月,中國科學技術大學、國家海洋科學與技術試點實驗室(青島)、北京大學數學科學學院、無錫國家超級計算中心和中國海洋大學組成的聯合團隊,公布了一篇超級計算機模擬復雜量子多體的文章介紹,SW26010 pro是sw26010改進型,擁有6個核心模塊,每個模塊有1個管理Linux線程的核心(MPE)和64個計算核心。
而組成太湖之光的SW26010處理器,只有4個核心模塊,說明SW26010 pro單片應該有50%的性能提升。
The next platform的報導稱,SW26010 Pro處理器的64個(8 x 8)計算核心網絡是一個具有256KB L2高速緩存的計算處理單元(CPE)。每個CPE有四個邏輯塊,可以在一對上支持FP64和FP32,在另一對上則可以支持FP16和BF16。
SW26010 Pro中的每個核心模塊上都有一個DDR4記憶體控制器和16 GB記憶體,記憶體帶寬為51.4 GB/秒,因此整個處理器有96 GB主記憶體和307.2 GB/帶寬。六個CPE通過環形互連連接,並有兩個網絡接口,使用專有互連將它們連接到外部。
SW26010 Pro晶片的FP64或FP32精度為14.03 PB,BF16或FP16精度為55.3 PB。
The next platform稱,Oceanlite最大的配置有107520個節點,共有4193萬個核心,分布在105個機櫃中。剛剛曝光的論文也證實了該超級計算機的理論峰值性能為1.5 exaflops,MPE內核運行在2.1 GHz,CPW內核運行在2.25 GHz。
如果將該超級計算機規模擴大到120個機櫃,在FP64 pervision下的峰值將達到1.72 Exaflops,這將超過美國橡樹嶺國家實驗室的1.68 Exaflops的“Frontier”超級計算機。
在160個機櫃的條件下,在FP64的峰值性能將接近2.3 Exaflops,將有望擊敗已經安裝完成的美國能源部阿貢國家實驗室的基於英特爾CPU及GPU的新一代超級計算機“Aurora”,以及正在建設的美國勞倫斯·利弗莫爾國家實驗室基於AMD MI300晶片的“El Capitan”超級計算機,後兩者的FP64性能都將達到 2 Exaflops以上。
不過,最新的戈登·貝爾獎參賽論文《渦輪機械流動的精確計算》顯示,其對於噴氣發動機模擬在大約58333個節點上運行,這些節點代表了超過350000個MPE核心和超過2240萬個CPE核心。
這是以上預測的Oceanlite最大配置的一半多一點。
其他入圍者介紹
1、量子精度的大規模材料建模:金屬合金中的准晶體和相互作用擴展缺陷的 Ab Initio 模擬
Sambit Das、Bikash Kanungo、Vishal Subramanian 等人(共八位作者),組成的團隊成員包括密西根大學、印度科學研究所和美國橡樹嶺國家實驗室
密西根大學和印度科學研究所的團隊與美國橡樹嶺國家實驗室合作,開發了一種混合機器學習和HPC模擬方法,將密度函數理論(DFT)和量子多體(QMB)問題結合起來,進行量子粒子模擬。這項工作實現了高精度計算,並通過將 QMB 方法與 DFT 相結合的逆-DFT 實現了大規模建模。
他們實現了地面階段的能量計算,同時保持了與 QMB 相稱的精度,最終的軟體能夠利用到Frontier超級計算機系統的60%計算資源。但不要認為這意味著這個量子模擬可以持續以 1 EB的速度運行。當涉及到這個特定的應用程式時,它可能會更像650 PB的浮點運算,而且可能會少得多,這取決於Frontier的計算和網絡效率。
2、用於先進設計的百億億次級多物理場核反應堆模擬
Elia Merzaria、Steven Hamilton、Thomas Evans 等人(共 12 位作者)由來自美國賓夕法尼亞州立大學、橡樹嶺國家實驗室、阿貢國家實驗室和伊利諾伊大學厄巴納香檳分校的團隊組成
該研究團隊模擬了一個先進的核反應堆系統,將輻射傳輸與熱和流體模擬耦合在一起,包括高保真、高解析度蒙特卡羅代碼 Shift 和計算流體動力學代碼 NekRS。
Nek5000/RS在ORNL的Frontier系統上實現,實現了10億個譜元和3500億個自由度,而Shift則在8192個系統節點上實現了非常高的弱縮放。
結果,他們計算了 214,896 個燃料棒區域中的 6 個反應,統計誤差低於 1%,為蒙特卡羅運輸應用提供了首個解決方案。
ACM報告稱,該研究是在Frontier系統的8192個節點上運行(該超算總的有9402個節點),每個節點有一個“Trento”自定義AMD Epyc CPU,每個節點擁有四個“Aldebaran”Instinct MI250X GPU加速器,總計37608個GPU。
3、通過前所未有的譜元模擬探索湍流瑞利-貝納德對流的最終狀態
Niclas Jansson、Martin Karp、Adalberto Perez 等人(總共 12 位作者),其中包括來自 KTH 皇家理工學院、弗里德里希·亞歷山大大學、馬克斯·普朗克計算和數據設施以及伊爾梅瑙工業大學的團隊
該團隊開發了高保真光譜元素代碼 Neko,這對於對完全發展的湍流進行前所未有的大規模直接數值模擬至關重要,同時保持 GPU 加速平台上的高性能可移植性。
他們應用了 GPU 優化的預處理器,其任務重疊用於壓力泊松方程和原位數據壓縮。
他們還通過復雜的工作流程控制,在配備多達 16,384 個GPU的 芬蘭的“LUMI”超級計算機和義大利的“Leonardo”超級計算機上進行了大規模瑞利-貝納德對流的初始運行。
4、在 Cerebras CS-2 系統上使用代數壓縮擴展多維地震處理的“記憶牆”
Hatem Ltaief、Yuxi Hong、Leighton Wilson 等人(總共六位作者)是阿卜杜拉國王科技大學和 Cerebras Systems Inc. 團隊
研究人員利用針對人工智慧 (AI) 定製的目前為止這是世界上最大的AI晶片Cerebras CS-2 系統的高記憶體帶寬進行地震數據處理,通過利用低秩矩陣近似來擬合 SRAM(靜態隨機存取存儲器)晶圓級硬體上的問題,以及使用許多依賴於多維卷積算子的基於波動方程的算法。
因此,該團隊將標准地震基準數據集實施到 Cerebras 處理元件的小型本地存儲器中,將最壞情況下的負載平衡整個應用程式執行推斷到 35,784,000 個處理元件上的 48 個 CS-2 系統。
這是在人工智慧定製架構上運行的應用程式的一個重要示例,可以支持新一代地震算法。
5、將深度等變模型的領先精度擴展到真實尺寸的生物分子模擬
哈佛大學約翰·A·保爾森工程與應用科學學院團隊成員 Albert Musaelian、Anders Johansson、Simon Batzner 和 Boris Kozinsky
該研究團隊開發了 Allegro 架構,以彌合原子模擬的精度與速度之間的權衡,並能夠以量子保真度描述前所未有的復雜結構中的動力學。這是通過創新模型架構、大規模並行化和針對高效 GPU 使用而優化的模型實現相結合來實現的。
Allegro 的可擴展性通過在美國勞倫斯伯克利國家能源研究科學計算中心的 “Perlmutter” 系統上對蛋白質動力學進行長達納秒的穩定模擬,模擬了HIV病毒衣殼的原子結構,高達4400萬個原子結構,模擬時間為幾納秒。他們實現了高達 1 億個原子的強大擴展。
首個戈登·貝爾氣候建模獎
值得一提的是,ACM還將頒發其首個戈登·貝爾氣候建模獎。
由美國桑迪亞國家實驗室開發和擴展的能源Exascale地球系統模型的SCREAM變體入圍了該獎項。
有趣的是,SCREAM的部分代碼是從頭開始的,使用C 和Kokkos庫將代碼打包到系統中的CPU和GPU,在這種情況下,它在美國橡樹嶺實驗室的“Frontier”超級計算機上運行,每天模擬1.26年進行實際的雲解析模擬。
中國Oceanlite系統也入圍了該決賽,這一系統模擬了2021年末和2022年初湯加近海水下火山噴發的影響,包括沖擊波、地震、海嘯以及水和火山灰的擴散。
模擬和模型的結合能夠模擬400億粒子,並以80%的計算效率在Oceanlite系統中運行3900萬個核心。
第三位入圍戈登·貝爾氣候建模決賽的是日本的一組研究人員,他們在理研實驗室的“Fugaku”超級計算機中獲得了11580個節點,約占該機器總節點的7%,並為2021年東京奧運會製作了一個1000集合、500米解析度、30秒刷新的天氣模型。
這是一個真實的用例,在30天內發布了超過75248個天氣預報,每個30分鍾的預報都在不到三分鍾的時間內完成。
來源:快科技