「飢渴」的AI時代：AMD Instinct加速器面前是一條「星光大道」

AI時代最根本的是什麼？是算力。

隨著AI模型、訓練數據規模的不斷膨脹，對於算力的渴求也是空前高漲，沒有盡頭。

強大的AI算力可以來自CPU，可以來自GPU，可以來自FPGA，可以來自ASIC，各有各的優勢，其中的王者毋庸置疑就是GPU加速器。

如今的AI GPU加速器市場，呈現著明顯的“一家獨大、兩家追趕”的態勢：NVIDIA有著無可比擬的市場地位，尤其是軟體生態遙遙領先；AMD、Intel都有各自的獨特方案，也都有了不俗的成果。

NVIDIA的大家都比較熟了，Intel的才剛剛起步，今天我們重點聊聊AMD Instinct系列加速器，看看它能不能真正挑戰NVIDIA。

畢竟，任何市場領域一家獨大，都不是什麼好事，都需要你來我往的競爭，才是對用戶利益、對行業發展最為有利的。

AMD Instinct很多人可能不太熟悉，但其實歷史也很優秀了，可以追溯到2017年。

不過那時候，它還叫Radeon Instinct，基礎架構也是和Radeon遊戲顯卡通用的，包括Polaris、GCN、Vega，一直到2020年的RDNA都用過。

這麼做的好處是開發成本低、推進速度快，但缺點也很明顯，就是在計算方面缺乏針對性和高效率。

2020年誕生的Instinct MI100，成為這條產品線的一個轉折點，因為它首次採用了專門設計的CNDA計算架構，和RDNA圖形架構徹底分道揚鑣，同時去掉了名字中的Radeon字樣，踏上了新的征程。

2021年的Instinct MI200系列又達到了全新的高度，這是AMD第一款ExaScale百億億次計算性能級別的加速器產品，號稱在同類產品中擁有世界上最快的HPC性能、AI性能。

它升級到了第二代CDNA 2架構，首創MCM多芯整合封裝，擁有Infinity Fabric高速互連通道、矩陣核心、128GB HBM2e高帶寬記憶體等等，性能異常強大，浮點性能約48萬億次每秒。

該系列包括MI250X、MI250、MI210三款型號，在諸多高性能計算、機器學習、人工智慧、超級計算機中都有普遍應用。

尤其是頂級滿血的MI250X戰績彪炳，目前公開性能世界第一、已經三連冠的超算“Frontier”，就是基於它打造的，最大性能高達119.4億億次浮點每秒，是第二名的多達2.7倍，峰值性能更是168億億次浮點每秒，是第二名的3倍還多！

第三名的“LUMI”同樣是採用了MI250X，最大性能30.9億億次浮點每秒，峰值性能42.9億億次浮點每秒，相當於第二名的七八成。

值得一提的是，韓國電信運營商Kt還使用AMD Instinct平台運行了該國第一個大語言模型，支持110億參數。

最新一代的Instinct MI300系列再次實現跨越，並開辟了全新的方向，有了兩款不同的產品。

其中，MI300A是全球首款面向HPC、AI的APU加速器，基於AMD的成熟經驗，開創了CPU、GPU合體加速的先河。

它採用了先進的Chiplet芯粒設計，一共有多達13顆小晶片，其中計算部分9顆，都是5nm工藝製造，基底和擴展部分4顆，都是6nm工藝製造，集成多達1460億個電晶體。

CPU部分為Zen 4架構，三組CCD共24個核心，GPU為最新的CDNA3架構，還有128GB大容量的HBM3高帶寬記憶體，可以為CPU、GPU所共享。

MI300A使用了標準的Socket獨立封裝，因此不再需要單獨的CPU處理器，自己就能組建一整套加速平台，大大簡化系統設計。

MI300X則是純GPU加速器，相當於把MI300A里的CPU模塊也替換成GPU，同時將HBM3記憶體容量增加到史無前例的192GB，帶寬達到驚人的5.2TB/。

整體集成的電晶體數量，也達到了同樣史無前例的1530億個。

作為對比，NVIDIA最新的H100加速器也只有800億個電晶體，只有MI300X的一半多點，不在一個層級上。

為方便客戶部署，AMD全新設計了Instinct平台，基於行業標準的OCP計算標准，單系統可集成最多八塊OAM形態的MI300X，HBM3記憶體總容量達1.5TB。

Instinct MI300系列也已經開始投入商用，比如美國勞倫斯利弗莫爾實驗室的新一代超級計算機EI Capitan，已開始安裝MI300A加速器，搭檔第四代AMD EPYC處理器。

它將在明年上線，預計性能超過200億億次浮點計算每秒，也就是可以超越當今第一的Frontier。

MI300X的強勁性能和超高能效，使之可以輕松應對當今AI對強算力的需求，搞定各種幾百上千億參數的大語言模型，Falcon、GPT-3、PaLM 2、PaLM等等都不在話下。

甚至，MI300X單卡就能運行800億參數的大語言模型，尤其是得益於超大容量的HBM3記憶體，大模型可以完全在HBM3記憶體中運行，無需動用系統記憶體，從而省去數據傳輸與拷貝，大大降低延遲、提升性能。

相比於 NVIDIA 80GB HBM記憶體加速器，運行同樣參數規模模型，MI300X所需要的GPU數量也更少，自然成本更低。

更關鍵的是，NVIDIA H100/A100加速器過於火爆，價格一路飆升，比如應用最多的H100目前已經要到4.5萬美元一塊，相當於30多萬人民幣，新一代的A100也需要十幾萬。

甚至，就算你捨得花錢，也不一定買到。負責代工的台積電也承認，H100/A100的緊缺狀況還要持續大約一年半之久。

相比之下，AMD的一貫優良傳統恰恰就是高性價比，正好可以給客戶提供更豐富的選擇空間，而不是吊在一棵樹上。

當然了，作為AI加速器，不但需要硬體設計強大，更需要足夠高效的開發平台、足夠優化的軟體和應用適配，才能徹底釋放潛力。

NVIDIA在這方面無疑做得相當透徹，這也是其贏得開發者和市場的一大關鍵。

AMD ROCm開發平台同樣歷史悠久，只是在技術特性、生態適配上一直有待進一步拓展，而今在AI的驅動下正在努力追趕。

比如新一代ROCm 5.x版本，針對HPC、AI做了全方位優化，支持各種流行的AI模型、框架和算法，諸如PyTorch、TensorFlow、ONNX、OpenXLA、Triton、DeepSpeed……方便開發者根據自己的實際需要選擇，靈活滿足不同場景。

值得一提的是，現在部署MI210，AMD還會提供軟體層面的搭建支持，讓客戶的安裝、使用更加簡單、省心。

說到這里順帶一提，除了高性能計算GPU方面，AMD還正在不斷釋放消費級遊戲GPU的AI潛力，比如大火的文生圖應用Stable Diffusion，已經可以在Windows系統下跑在AMD Radeon顯卡上。

如今，你可以在Automatic1111(Xformer)下使用微軟的Microsoft Olive(一個可用於轉換、優化、量化和自動調整模型以通過DirectML等ONNX運行時執行提供程序獲得最佳推理性能的Python工具)，來啟用Stable Diffusion，從而在Windows系統上通過Microsoft DirectML，獲得顯著的加速。

AMD也一直在與微軟合作優化AMD硬體上的Olive路徑，通過微軟DirectML API，以及用於DirectML的AMD用戶模式驅動程序的ML層加速，從而允許用戶訪問AMD GPU的AI功能和性能。

按照AMD實測的數據，RX 7900 XTX在默認PyTorch路徑上運行，每秒可提供1.87次疊代，而換到Microsoft Olive的優化模型上運行，每秒可提供18.59次疊代，也就是性能提升多達9.9倍！

相信像這樣的生態適配和合作，未來勢必也會越來越多地體現在AMD Instinct上。

最後，AMD Instinct還有一個任何對手都無法匹及的優勢，那就可以是背靠完整的AI產品矩陣，提供一整套一站式解決方案。

尤其是高性能的EPYC處理器，經過幾年的疊代，計算性能已經遙遙領先，新一代EPYC 9004系列已經升級到Zen 4架構、96核心192線程、12通道DDR5記憶體、160條PCIe 5.0總線，還衍生出了Zen 4c高能效核心、3D V-Cache 1GB+緩存等不同版本。

事實上，當今的眾多高性能計算平台尤其是超級計算機，都部署了AMD EPYC、AMD Instinct這一對黃金組合，效果拔群，在各種科學與學術研究中貢獻力量。

總的來說，在這個AI蓬勃發展的時代，對於強大算力的需求只會越發高漲，其中蘊含著前所未有的機遇。

NVIDIA的強大和領先毋庸置疑，軟硬體結合更是做得十分到位，但一花獨放不是春、百花齊放春滿園，我們同時也非常希望AMD、Intel能把握住這個風口，拿出同樣優秀的方案，讓開發者和用戶受益。

AMD更是尤為值得期待。Instinct系列加速器發展多年，屢屢實現創新突破，性能上絕對不是問題，能在超算的世界里脫穎而出就是明證，只要在開發和生態上多下一番功夫，勢必更受歡迎。

同時，AMD還有著全套解決方案的支撐，特別是強大的EPYC處理器現在讓Intel都不得不仰視，可以和Instinct珠聯璧合，再加上一貫以來的高性價比，前途必然是相當光明的。

來源：快科技