「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

AI時代最根本的是什麼?是算力。

隨著AI模型、訓練數據規模的不斷膨脹,對於算力的渴求也是空前高漲,沒有盡頭。

強大的AI算力可以來自CPU,可以來自GPU,可以來自FPGA,可以來自ASIC,各有各的優勢,其中的王者毋庸置疑就是GPU加速器。

如今的AI GPU加速器市場,呈現著明顯的“一家獨大、兩家追趕”的態勢:NVIDIA有著無可比擬的市場地位,尤其是軟體生態遙遙領先;AMD、Intel都有各自的獨特方案,也都有了不俗的成果。

NVIDIA的大家都比較熟了,Intel的才剛剛起步,今天我們重點聊聊AMD Instinct系列加速器,看看它能不能真正挑戰NVIDIA。

畢竟,任何市場領域一家獨大,都不是什麼好事,都需要你來我往的競爭,才是對用戶利益、對行業發展最為有利的。

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

AMD Instinct很多人可能不太熟悉,但其實歷史也很優秀了,可以追溯到2017年。

不過那時候,它還叫Radeon Instinct,基礎架構也是和Radeon遊戲顯卡通用的,包括Polaris、GCN、Vega,一直到2020年的RDNA都用過。

這麼做的好處是開發成本低、推進速度快,但缺點也很明顯,就是在計算方面缺乏針對性和高效率。

2020年誕生的Instinct MI100,成為這條產品線的一個轉折點,因為它首次採用了專門設計的CNDA計算架構,和RDNA圖形架構徹底分道揚鑣,同時去掉了名字中的Radeon字樣,踏上了新的征程。

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

2021年的Instinct MI200系列又達到了全新的高度,這是AMD第一款ExaScale百億億次計算性能級別的加速器產品,號稱在同類產品中擁有世界上最快的HPC性能、AI性能。

它升級到了第二代CDNA 2架構,首創MCM多芯整合封裝,擁有Infinity Fabric高速互連通道、矩陣核心、128GB HBM2e高帶寬記憶體等等,性能異常強大,浮點性能約48萬億次每秒。

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

該系列包括MI250X、MI250、MI210三款型號,在諸多高性能計算、機器學習、人工智慧、超級計算機中都有普遍應用。

尤其是頂級滿血的MI250X戰績彪炳,目前公開性能世界第一、已經三連冠的超算“Frontier”,就是基於它打造的,最大性能高達119.4億億次浮點每秒,是第二名的多達2.7倍,峰值性能更是168億億次浮點每秒,是第二名的3倍還多!

第三名的“LUMI”同樣是採用了MI250X,最大性能30.9億億次浮點每秒,峰值性能42.9億億次浮點每秒,相當於第二名的七八成。

值得一提的是,韓國電信運營商Kt還使用AMD Instinct平台運行了該國第一個大語言模型,支持110億參數。

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

最新一代的Instinct MI300系列再次實現跨越,並開辟了全新的方向,有了兩款不同的產品。

其中,MI300A是全球首款面向HPC、AI的APU加速器,基於AMD的成熟經驗,開創了CPU、GPU合體加速的先河。

它採用了先進的Chiplet芯粒設計,一共有多達13顆小晶片,其中計算部分9顆,都是5nm工藝製造,基底和擴展部分4顆,都是6nm工藝製造,集成多達1460億個電晶體。

CPU部分為Zen 4架構,三組CCD共24個核心,GPU為最新的CDNA3架構,還有128GB大容量的HBM3高帶寬記憶體,可以為CPU、GPU所共享。

MI300A使用了標準的Socket獨立封裝,因此不再需要單獨的CPU處理器,自己就能組建一整套加速平台,大大簡化系統設計。

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

MI300X則是純GPU加速器,相當於把MI300A里的CPU模塊也替換成GPU,同時將HBM3記憶體容量增加到史無前例的192GB,帶寬達到驚人的5.2TB/。

整體集成的電晶體數量,也達到了同樣史無前例的1530億個。

作為對比,NVIDIA最新的H100加速器也只有800億個電晶體,只有MI300X的一半多點,不在一個層級上。

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

為方便客戶部署,AMD全新設計了Instinct平台,基於行業標準的OCP計算標准,單系統可集成最多八塊OAM形態的MI300X,HBM3記憶體總容量達1.5TB。

Instinct MI300系列也已經開始投入商用,比如美國勞倫斯利弗莫爾實驗室的新一代超級計算機EI Capitan,已開始安裝MI300A加速器,搭檔第四代AMD EPYC處理器。

它將在明年上線,預計性能超過200億億次浮點計算每秒,也就是可以超越當今第一的Frontier。

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

MI300X的強勁性能和超高能效,使之可以輕松應對當今AI對強算力的需求,搞定各種幾百上千億參數的大語言模型,Falcon、GPT-3、PaLM 2、PaLM等等都不在話下。

甚至,MI300X單卡就能運行800億參數的大語言模型,尤其是得益於超大容量的HBM3記憶體,大模型可以完全在HBM3記憶體中運行,無需動用系統記憶體,從而省去數據傳輸與拷貝,大大降低延遲、提升性能。

相比於 NVIDIA 80GB HBM記憶體加速器,運行同樣參數規模模型,MI300X所需要的GPU數量也更少,自然成本更低。

更關鍵的是,NVIDIA H100/A100加速器過於火爆,價格一路飆升,比如應用最多的H100目前已經要到4.5萬美元一塊,相當於30多萬人民幣,新一代的A100也需要十幾萬。

甚至,就算你捨得花錢,也不一定買到。負責代工的台積電也承認,H100/A100的緊缺狀況還要持續大約一年半之久。

相比之下,AMD的一貫優良傳統恰恰就是高性價比,正好可以給客戶提供更豐富的選擇空間,而不是吊在一棵樹上。

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

當然了,作為AI加速器,不但需要硬體設計強大,更需要足夠高效的開發平台、足夠優化的軟體和應用適配,才能徹底釋放潛力。

NVIDIA在這方面無疑做得相當透徹,這也是其贏得開發者和市場的一大關鍵。

AMD ROCm開發平台同樣歷史悠久,只是在技術特性、生態適配上一直有待進一步拓展,而今在AI的驅動下正在努力追趕。

比如新一代ROCm 5.x版本,針對HPC、AI做了全方位優化,支持各種流行的AI模型、框架和算法,諸如PyTorch、TensorFlow、ONNX、OpenXLA、Triton、DeepSpeed……方便開發者根據自己的實際需要選擇,靈活滿足不同場景。

值得一提的是,現在部署MI210,AMD還會提供軟體層面的搭建支持,讓客戶的安裝、使用更加簡單、省心。

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

說到這里順帶一提,除了高性能計算GPU方面,AMD還正在不斷釋放消費級遊戲GPU的AI潛力,比如大火的文生圖應用Stable Diffusion,已經可以在Windows系統下跑在AMD Radeon顯卡上。

如今,你可以在Automatic1111(Xformer)下使用微軟的Microsoft Olive(一個可用於轉換、優化、量化和自動調整模型以通過DirectML等ONNX運行時執行提供程序獲得最佳推理性能的Python工具),來啟用Stable Diffusion,從而在Windows系統上通過Microsoft DirectML,獲得顯著的加速。

AMD也一直在與微軟合作優化AMD硬體上的Olive路徑,通過微軟DirectML API,以及用於DirectML的AMD用戶模式驅動程序的ML層加速,從而允許用戶訪問AMD GPU的AI功能和性能。

按照AMD實測的數據,RX 7900 XTX在默認PyTorch路徑上運行,每秒可提供1.87次疊代,而換到Microsoft Olive的優化模型上運行,每秒可提供18.59次疊代,也就是性能提升多達9.9倍!

相信像這樣的生態適配和合作,未來勢必也會越來越多地體現在AMD Instinct上。

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

最後,AMD Instinct還有一個任何對手都無法匹及的優勢,那就可以是背靠完整的AI產品矩陣,提供一整套一站式解決方案。

尤其是高性能的EPYC處理器,經過幾年的疊代,計算性能已經遙遙領先,新一代EPYC 9004系列已經升級到Zen 4架構、96核心192線程、12通道DDR5記憶體、160條PCIe 5.0總線,還衍生出了Zen 4c高能效核心、3D V-Cache 1GB+緩存等不同版本。

事實上,當今的眾多高性能計算平台尤其是超級計算機,都部署了AMD EPYC、AMD Instinct這一對黃金組合,效果拔群,在各種科學與學術研究中貢獻力量。

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

總的來說,在這個AI蓬勃發展的時代,對於強大算力的需求只會越發高漲,其中蘊含著前所未有的機遇。

NVIDIA的強大和領先毋庸置疑,軟硬體結合更是做得十分到位,但一花獨放不是春、百花齊放春滿園,我們同時也非常希望AMD、Intel能把握住這個風口,拿出同樣優秀的方案,讓開發者和用戶受益。

AMD更是尤為值得期待。Instinct系列加速器發展多年,屢屢實現創新突破,性能上絕對不是問題,能在超算的世界里脫穎而出就是明證,只要在開發和生態上多下一番功夫,勢必更受歡迎。

同時,AMD還有著全套解決方案的支撐,特別是強大的EPYC處理器現在讓Intel都不得不仰視,可以和Instinct珠聯璧合,再加上一貫以來的高性價比,前途必然是相當光明的。

「飢渴」的AI時代:AMD Instinct加速器面前是一條「星光大道」

來源:快科技