雙A打造 全球第一台百億億次超算陷入麻煩:效率只有60%

今年6月,公開亮相,採用AMD Trento EPYC 7A53處理器、AMD Instinct MI250X GPU加速卡的組合,這也是AMD時隔十年重返超算之巔,性能相當於其後第二到第七名的總和。

Frontier超算部署在美國能源部橡樹嶺國家實驗室,最初計劃2022年內全面投入運行,後推遲到2023年1月1日,但現在卻被曝出自上線之初就存在嚴重的問題,每天都故障不斷。

雙A打造 全球第一台百億億次超算陷入麻煩:效率只有60%

據稱,Frontier超算規劃的FP64雙精度浮點性能為1.685EFlops(168.5億億次計算每秒),但目前只能勉強跑到1EFlops,也就是只能達到設計目標的60%。

具體原因不詳,有一種說法是HPE Cray機櫃使用的Slingshot網絡互連系統與HPE集群存在衝突,另一種說法是Slingshot互連系統與AMD計算平台存在衝突,但究竟怎麼回事不得而知。

美國能源部百億億次計算項目的一位對外聯絡發負責人Mike Bernhardt發布了一則簡單聲明,稱感謝HPE、AMD的努力,Frontier系統今年秋天提前交付,目前正在進行安裝和集成,這是一項繁重、復雜的任務,但目前進展順利,將在明年按期想科學界開放。

雙A打造 全球第一台百億億次超算陷入麻煩:效率只有60%

雙A打造 全球第一台百億億次超算陷入麻煩:效率只有60%

為了沖擊百億億次超算,美國規劃了三條路線。

Intel Sapphire Rapids四代可擴展至強、Ponte Vecchio加速卡打造的“Aurora”進展也很不順,一直在推遲,主要是Intel的兩個新品遲遲無法規模交付。

AMD處理器、NVIDIA加速卡組成的“Polaris”消息非常少,不清楚目前具體進展如何。

雙A打造 全球第一台百億億次超算陷入麻煩:效率只有60%

來源:快科技