AMD Instinct | 搜資訊

更不可能賣給中國 AMD新一代GPU MIX350升級4nm、HBM3E

快科技4月11日消息，集邦咨詢的分析報告指出，AMD計劃在今年底推出升級版的HPC/AI GPU加速器“Instinct MI350”，重點升級製造工藝和高帶寬內存，競爭NVIDIA B200系列。 AMD現有的Instinct MI300A、MI300X基於CDNA3架構，採用的是台積電5nm、5/6nm工藝，分別配備128GB、192GB HBM3E內存。接下來的Instinct MI350，應該會繼續基於CDNA3架構，或者略有改進，工藝進步為台積電4nm，內存升級為新一代HBM3E，容量更大、速度更快。 NVIDIA即將出貨的H200已經用上了141GB HBM3E，，從而抵消了AMD在容量上的優勢。 AMD MI350的具體內存容量不詳，但肯定不會少於192GB，否則就不夠競爭力了。 AMD CTO Mark Papermaster之前就說過，正在准備新版MI300系列，重點升級HBM內存，但沒有給出詳情。值得一提的是，美國針對中國的半導體禁令不僅包括現有產品，比如AMD MI250/MI300系列、NVIDIA A100、H100/H200、B100/B200/GB200、A800/H800、4090系列，Intel Gaudi2，還直接納入了下一代產品，這自然就包括AMD MI350系列，以及來源：快科技

AMD MI388X加速卡特供中國美國政府：不能賣

AMD的新一代GPU加速卡MI300A、MI300X具備了挑戰NVIDIA的能強大力，當然沒法賣給中國，為此，但還是被美國政府認為性能太強而禁售。 AMD在今年1月31日提交的一份文件中，出現了“MI388X”的名字，並承認同樣無法賣給中國。顯然，這是AMD為中國市場定製的又一款GPU加速卡產品，命名都這麼貼心，可惜還是被攔住了。 AMD還在文件中確認，MI250、MI300A、MI300A都被禁止銷售到中國市場，甚至是Versal VC2802、VE2802這樣的高端FPGA都在禁售之列。 AMD指出，上述產品不但不能直接賣給中國客戶，甚至那些只要是歸屬公司位於D5國家的客戶，都不會獲得授權。不過，這份文件中國並未列出MI309，一種可能就是MI309是後期又開發的。來源：快科技

AMD MI300加速器深度揭秘：八路並行破億億次全面超越NVIDIA

今年6月份，AMD在美國舊金山宣布了，包括全球首款APU加速器MI300A、新一代GPU加速器MI300X。當時，AMD只公布了一部分技術細節，對於CPU/GPU核心數量、性能/功耗/能效等指標均未提及，也缺乏足夠多的應用案例。現在，魔術師終於揭曉了他全部的秘密。快科技現場報導： 12月7日凌晨，美國加州聖何塞，AMD Advancing AI大會上，AMD正式公布了Instinct MI300系列加速器的詳細規格與性能，以及眾多的應用部署案例，將AI人工智慧、HPC高性能計算提升到了新的層次。 AI人工智慧概念的誕生已經有將近70年歷史了，歷經長期演化，已經深入人們工作生活的各個角落，只是很多時候感知性並沒有那麼強，更多時候人們是通過一些節點性時間感受AI的威力。早期像是IBM深藍超級計算機戰勝西洋棋大師卡斯帕羅夫，近期像是AlphaGo與李世石和柯潔的圍棋大戰，最近最火爆的當然是ChatGPT引發的大語言模型、生成式AI浪潮。坦白說，大語言模型眼下似乎有些過熱，但從技術和前景的角度而言，AI絕對是未來，不管它以什麼形勢體現，這都是大勢所趨，也是一個龐大的市場，尤其是對算力的需求空前高漲。一年前，AMD內部估計全球數據中心AI加速器市場在2023年的規模可達約300億美元，今後每年的復合增長率都能超過50％，到2027年將形成超過1500億美元的價值，不可限量。如今看來，這個數據太保守了，AMD已經將2023年、2027年的數據中心AI加速器市場規模預期分別調高到400億美元、4500億美元，年復合增長率超過70％。 AMD作為擁有最全解決方案的廠商，可以從各個角度滿足AI尤其是生成式AI對於超強算力、廣泛應用的需求： GPU方面有世界領先的EPYC處理器，GPU方面有不斷壯大的Instinct加速器，網絡方面則有Alveo、Pensando等技術，軟體方面還有ROCm開發平台，從而形成一個有機的、完整的解決方案。 AMD早期的計算加速器底層技術都來自和遊戲顯卡相同的RDNA架構，顯然缺乏針對性，於是誕生了專門針對計算的CDNA架構。第一代產品Instinct MI100系列是AMD首個可為FP32/FP64 HPC負載提供加速的專用GPU，第二代產品Instinct MI200系列則快速進化，在眾多超算系統中占據了一些之地。第三代的Instinct MI300系列基於CDNA3架構，分為數據中心APU、專用GPU兩條路線，重點提升了統一內存、AI性能、節點網絡等方面的表現，再加上先進封裝、更高能效，以滿足生成式AI的強勁需求。來源：快科技

AMD超算全球四連冠性能第一還特省電

快科技11月15日消息，第62屆全球超級計算機排行榜TOP500已經出爐，AMD再次光彩奪目。在全部500套超算中，AMD平台已經占到了140套，相比去年大幅增加39％之多。如此進步，歷年罕見。 AMD EPYC 7A53 64核心處理器、Instinct MI250X GPU加速器組成的頂級超算“Frontier”繼續穩居榜首，並實現了霸氣的四連冠，依然是迄今唯一一套公開的完全通過驗證並投入實用的百億億次級超算。圖源：AMD 2022年6月，Frontier系統首次拿下世界第一，最大浮點性能1102PFlops(每秒110.2億億次)，相比前冠軍日本Fugaku高出了足足50％，甚至超過了當時第二名到第七名的總和。當時，Frontier系統擁有8730112個核心，後來調整減少到8699904個核心，但是經過同步優化，最大性能反而提升了8％而達到1194PFlops(每秒119.4億億次)，峰值性能為1679.8PFlops(167.98億億次)。 Frontier對比本屆榜單上的第二名，Intel CPU＋GPU平台的“Aurora”，性能領先了整整一倍，後者最大性能僅為585.34PFlops(每秒58.534億億次)，遠遠沒有摸到百億億次計算的門檻。事實上，第二名Aurora和第三名Eagle的計算性能加起來，相比於Frontier也還差了47.46PFlops(每秒4.746億億次)，第二名Aurora的功耗反而還比Frontier高了一丟丟。可以說，Frontier真正做到了“遙遙領先”。值得一提的是，在更關注系統級性能的HPCG測試中，Frontier繼續位列第二名，成績為14.05 HPCG-TFops，和第一名差距極小，同時相當於第三名的整整3倍。事實上，HPCG榜單上第三名的“LUMI”作為歐洲第一、世界第三超算，使用的也是AMD第三代EPYC 64核心處理器、Instinct MI250X加速器的組合，最大性能379.7PFlops(每秒37.97億億次)。更難得的是，AMD平台超算在性能強勁的同時，能效更加突出。同步發布的Green500綠色超算榜單上，TOP10里有8套都是基於AMD平台，比去年又增加了1套。其中，Frontier TDS測試系統高居第二，每瓦性能達到62.684GFlops(每秒626.84億次)，而且和第一名Henri的差距只有區區4％。完整的Frontier系統也排在第八名。可以說，在對高性能算力需求越來越高的今天，在全人類高度重視綠色環保、可持續發展的今天，能效的重要性日益凸顯。 AMD也設定了雄偉的“30x25”目標，目標是到2025年，AI/HPC平台的能效要比2020年提到足足30倍。 AMD超算系統優秀的能效表現，正是實現這一目標的切實行動體現。最後，另一套基於AMD平台的百億億次超算“El Capitan”，也已經開始組裝，使用的加速器是AMD Instinct MI300A，全球第一款單封裝整合CPU、GPU、HBM高帶寬內存的數據中心APU。它完工並正式上線之後，預計可提供超過2EFlops的雙精度浮點性能，也就是二百億億次！目前，HPE Cray Supercomputing EX255a、Eviden BullSequana XH3000高性能計算平台，都已引入Instinct 300A。來源：快科技

AMD官宣重磅發布會事關AI的未來

AMD官方宣布，將於2023年12月7日2點，舉辦主題為“Advancing AI”的新品發布會。 AMD表示，屆時將會展示AMD與合作夥伴如何驅動AI的未來。看起來，這次活動的主角應該是Instinct MI300系列加速器，此前已經多次亮相，並一開始初步部署，但很多規格一直保密未公開，是時候展示完全體了。其中，MI300X是傳統風格的純GPU加速卡，擁有史無前例的530億個電晶體，配備多達192GB HBM3內存，已於第三季度出樣。它寄託了AMD極大的期望，將與NVIDIA、Intel正面對抗爭奪AI市場，還有望成為AMD歷史上以最快速度達到1億美元銷售額的產品。 MI300X還有個衍生版本MI300A，同樣屬於重磅級產品，是全球首款面向HPC、AI的APU融合加速卡。它集成24個Zen4 CPU核心和數量不明的CDNA3 GPU核心，總計1460億個電晶體，還有128GB HBM3，Socket獨立封裝，已經供貨客戶。有趣的是，AMD遊戲營銷高級總監Sasa Marinhovic也高調預告了此次活動，看起來消費級的銳龍AI引擎也會有新動向，主打端側AI，與雲端的Instinct雙管齊下。當然，這次活動不會有常規消費級產品的更新，那要等到明年初的CES 2024。 PS：這次大會，文Q會繼續在現場給大家帶來一手報導！來源：快科技

AMD戰略「放棄」遊戲卡 MI300X AI加速卡最快速度賺到1億美元

如今無論是NVIDIA還是AMD，都不約而同地降低了遊戲顯卡的優先級，將更多精力投入AI加速計算卡。無它，皆為利往。 AMD在發布第三季度財報後就明確表示，Instinct MI300X加速卡有望成為AMD歷史上以最快速度達到1億美元銷售額的產品。 NVIDIA目前在AI加速卡市場上處於近乎壟斷地位，畢竟硬體強大，軟體生態也好用，但受制於有限的產能、高昂的價格，不少客戶開始尋找替代方案，Intel、AMD都是可選項，尤其是AMD Instinct系列硬體越來越強大，開發平台也逐漸成熟起來。 MI300X是純GPU加速卡，擁有史無前例的額530億個電晶體，配備多達192GB HBM3內存，已於第三季度出樣，寄託了AMD極大的期望。它還有個衍生版本MI300A，是全球首款面向HPC、AI的APU融合加速卡，集成24個Zen4 CPU核心和數量不明的CDNA3 GPU核心，總計1460億個電晶體，還有128GB HBM3，Socket獨立封裝，已經供貨客戶。與NVIDIA類似的是，AMD也把GPU產能優先分配給了Instinct系列。至於遊戲卡，RX 7900 XTX可能會是很長一段時間AMD的卡皇，或許有升級版RX 7950系列，但是下一代RX 8000系列將不會有旗艦卡。 AMD CEO蘇姿豐表示，數據中心GPU將在2023年第四季度給AMD帶來約4億美元的收入，2024年隨著大量產品鋪貨，收入將超過20億美元。這得賣多少遊戲卡才能賺到啊！來源：快科技

「飢渴」的AI時代：AMD Instinct加速器面前是一條「星光大道」

AI時代最根本的是什麼？是算力。隨著AI模型、訓練數據規模的不斷膨脹，對於算力的渴求也是空前高漲，沒有盡頭。強大的AI算力可以來自CPU，可以來自GPU，可以來自FPGA，可以來自ASIC，各有各的優勢，其中的王者毋庸置疑就是GPU加速器。如今的AI GPU加速器市場，呈現著明顯的“一家獨大、兩家追趕”的態勢：NVIDIA有著無可比擬的市場地位，尤其是軟體生態遙遙領先；AMD、Intel都有各自的獨特方案，也都有了不俗的成果。 NVIDIA的大家都比較熟了，Intel的才剛剛起步，今天我們重點聊聊AMD Instinct系列加速器，看看它能不能真正挑戰NVIDIA。畢竟，任何市場領域一家獨大，都不是什麼好事兒，都需要你來我往的競爭，才是對用戶利益、對行業發展最為有利的。 AMD Instinct很多人可能不太熟悉，但其實歷史也很優秀了，可以追溯到2017年。不過那時候，它還叫Radeon Instinct，基礎架構也是和Radeon遊戲顯卡通用的，包括Polaris、GCN、Vega，一直到2020年的RDNA都用過。這麼做的好處是開發成本低、推進速度快，但缺點也很明顯，就是在計算方面缺乏針對性和高效率。 2020年誕生的Instinct MI100，成為這條產品線的一個轉折點，因為它首次採用了專門設計的CNDA計算架構，和RDNA圖形架構徹底分道揚鑣，同時去掉了名字中的Radeon字樣，踏上了新的征程。 2021年的Instinct MI200系列又達到了全新的高度，這是AMD第一款ExaScale百億億次計算性能級別的加速器產品，號稱在同類產品中擁有世界上最快的HPC性能、AI性能。它升級到了第二代CDNA 2架構，首創MCM多芯整合封裝，擁有Infinity Fabric高速互連通道、矩陣核心、128GB HBM2e高帶寬內存等等，性能異常強大，浮點性能約48萬億次每秒。該系列包括MI250X、MI250、MI210三款型號，在諸多高性能計算、機器學習、人工智慧、超級計算機中都有普遍應用。尤其是頂級滿血的MI250X戰績彪炳，目前公開性能世界第一、已經三連冠的超算“Frontier”，就是基於它打造的，最大性能高達119.4億億次浮點每秒，是第二名的多達2.7倍，峰值性能更是168億億次浮點每秒，是第二名的3倍還多！第三名的“LUMI”同樣是採用了MI250X，最大性能30.9億億次浮點每秒，峰值性能42.9億億次浮點每秒，相當於第二名的七八成。值得一提的是，韓國電信運營商Kt還使用AMD Instinct平台運行了該國第一個大語言模型，支持110億參數。最新一代的Instinct MI300系列再次實現跨越，並開辟了全新的方向，有了兩款不同的產品。其中，MI300A是全球首款面向HPC、AI的APU加速器，基於AMD的成熟經驗，開創了CPU、GPU合體加速的先河。它採用了先進的Chiplet芯粒設計，一共有多達13顆小晶片，其中計算部分9顆，都是5nm工藝製造，基底和擴展部分4顆，都是6nm工藝製造，集成多達1460億個電晶體。 CPU部分為Zen 4架構，三組CCD共24個核心，GPU為最新的CDNA3架構，還有128GB大容量的HBM3高帶寬內存，可以為CPU、GPU所共享。 MI300A使用了標準的Socket獨立封裝，因此不再需要單獨的CPU處理器，自己就能組建一整套加速平台，大大簡化系統設計。 MI300X則是純GPU加速器，相當於把MI300A里的CPU模塊也替換成GPU，同時將HBM3內存容量增加到史無前例的192GB，帶寬達到驚人的5.2TB/。整體集成的電晶體數量，也達到了同樣史無前例的1530億個。作為對比，NVIDIA最新的H100加速器也只有800億個電晶體，只有MI300X的一半多點，不在一個層級上。為方便客戶部署，AMD全新設計了Instinct平台，基於行業標準的OCP計算標准，單系統可集成最多八塊OAM形態的MI300X，HBM3內存總容量達1.5TB。 Instinct MI300系列也已經開始投入商用，比如美國勞倫斯利弗莫爾實驗室的新一代超級計算機EI Capitan，已開始安裝MI300A加速器，搭檔第四代AMD EPYC處理器。它將在明年上線，預計性能超過200億億次浮點計算每秒，也就是可以超越當今第一的Frontier。 MI300X的強勁性能和超高能效，使之可以輕松應對當今AI對強算力的需求，搞定各種幾百上千億參數的大語言模型，Falcon、GPT-3、PaLM 2、PaLM等等都不在話下。甚至，MI300X單卡就能運行800億參數的大語言模型，尤其是得益於超大容量的HBM3內存，大模型可以完全在HBM3內存中運行，無需動用系統內存，從而省去數據傳輸與拷貝，大大降低延遲、提升性能。相比於 NVIDIA 80GB HBM內存加速器，運行同樣參數規模模型，MI300X所需要的GPU數量也更少，自然成本更低。更關鍵的是，NVIDIA H100/A100加速器過於火爆，價格一路飆升，比如應用最多的H100目前已經要到4.5萬美元一塊，相當於30多萬人民幣，新一代的A100也需要十幾萬。甚至，就算你捨得花錢，也不一定買到。負責代工的台積電也承認，H100/A100的緊缺狀況還要持續大約一年半之久。相比之下，AMD的一貫優良傳統恰恰就是高性價比，正好可以給客戶提供更豐富的選擇空間，而不是吊在一棵樹上。當然了，作為AI加速器，不但需要硬體設計強大，更需要足夠高效的開發平台、足夠優化的軟體和應用適配，才能徹底釋放潛力。 NVIDIA在這方面無疑做得相當透徹，這也是其贏得開發者和市場的一大關鍵。 AMD ROCm開發平台同樣歷史悠久，只是在技術特性、生態適配上一直有待進一步拓展，而今在AI的驅動下正在努力追趕。比如新一代ROCm 5.x版本，針對HPC、AI做了全方位優化，支持各種流行的AI模型、框架和算法，諸如PyTorch、TensorFlow、ONNX、OpenXLA、Triton、DeepSpeed……方便開發者根據自己的實際需要選擇，靈活滿足不同場景。值得一提的是，現在部署MI210，AMD還會提供軟體層面的搭建支持，讓客戶的安裝、使用更加簡單、省心。說到這里順帶一提，除了高性能計算GPU方面，AMD還正在不斷釋放消費級遊戲GPU的AI潛力，比如大火的文生圖應用Stable Diffusion，已經可以在Windows系統下跑在AMD...

AI誕生67年後為什麼看好AMD？EPYC CPU近乎無所不能

前幾年講故事，不帶上XR混合現實、區塊鏈、元宇宙什麼的，你都不好意思和人打招呼。如今，AI也是同樣的待遇。不過，不像前邊幾個更多是停留在概念性，缺乏群眾基礎，有的甚至隱約有些“詐騙”的味道，AI其實有著悠久的歷史，有著很現實、很廣泛的技術和應用，更有著真正廣闊的未來，就像曾經的科幻正在一步一步走入現實。 2023年3月的Adobe峰會期間，AMD執行長蘇姿豐博士在和Adobe執行長Shantanu Narayen進行對話時，她提出，未來10年，最重要的事情就是AI，它甚至可以主導晶片設計。其實早在1956年，人工智慧(Artificial Intelligence)的概念就誕生了，算下來已有長達67年的歷史。不過直到1997年，IBM公司的“深藍”電腦擊敗西洋棋大師卡斯帕羅夫，才讓AI的概念廣為人知，被視為世界三大尖端技術之一(另兩個是空間技術、能源技術)，也被認為是21世紀三大尖端技術之一(另兩個是基因工程、納米科學)。 2016-2017年，Google AlphaGo與李世石、柯潔等高手的圍棋大戰，將AI推向了一個新的高度。 2022年11月，OpenAI ChatGPT的誕生，更是讓AI走向了全民化。自誕生以來，AI的追求始終都是用機器模擬甚至超越人類智能，無論用什麼方法、什麼技術，這一終極目標從未改變。幸運的是，經過半個多世紀的演進，半導體技術已經達到了空前的高度，無論算力性能還是算法應用，都給了AI無限的可能。實現這些可能的根基，毫無疑問是強大的硬體，否則一切都是建築在沙丘之上。能夠運算AI的硬體多種多樣，可以分為兩大類。一是傳統的是CPU處理器，好處是通用性強，什麼都能做，尤其擅長邏輯控制與串行計算，缺點就是計算能力和針對性不夠強。二就是加速卡，又分為三類，其中GPU適合大量重復計算；FPGA靈活性好，集成度高，但是算力一般，成本高；ASIC專用性強，但開發周期長，難度極高。今年6月份的“數據中心與人工智慧技術首映會”上，AMD給出的數據顯示，僅僅是在數據中心， AI加速器的市場價值在2023年就有約300億美元，預計到2027年可超過1500億美元，年復合增長率超過50％，妥妥的藍海。目前，Intel、AMD、NVIDIA三巨頭都有各自豐富的AI軟硬體解決方案，CPU、GPU可以做，但又各自不同。 Intel CPU歷史悠久，一直有領導地位，但近些年遭遇重大挑戰，GPU則剛剛起步。 NVIDIA GPU執行業牛耳，優勢很大，但是CPU受到極大限制，只能走ARM架構。 AMD則一直是綜合性最強的，以往被戲稱“GPU吊打Intel、CPU吊打NVIDIA”，如今更是在CPU方面各種欺負Intel，GPU也在奮起直追、不斷創新，此外，現在AMD還擁有豐富的FPGA和自適應SoC產品系列供選擇。更進一步，不僅僅在數據中心，AMD在消費端的AI也嶄露頭角，銳龍7040系列就是全球首款集成獨立AI引擎的處理器，開啟了AI筆記本的時代。 AMD GPU AI加速器就是Instinct系列，經過多年疊代已經發展得極為成熟，在技術上某些方面更是遙遙領先。比如最新的Instinct MI300A是全球第一款面向HPC、AI的APU加速器，同時集成CDNA 3架構的GPU、Zen 4架構的CPU、128GB HBM3高帶寬內存。MI300X更是整合了史無前例的192GB HBM3內存，電晶體數量多達1530億個，令人嘆為觀止。同時，AMD ROCm開發平台也正進行改革，針對AI進行全方位深度優化。 GPU做AI如此強悍，已經是很多企業、開發者的首選，你也應該聽說過“GPU徹底取代CPU地位”之類的言論，但其實這都是宣傳套路而已，聽聽就行了，切莫認真。不然的話，NVIDIA為啥還要做個Grace CPU來搭檔自家GPU，還號稱“超級晶片”？ CPU、GPU、FPGA、ASIC無論哪一個，在AI面前都無所謂誰好誰壞，關鍵是在靈活多變的AI需求面前，各自做最適合自己的工作。打個比方，GPU、FPGA、ASIC就像是具備不同特殊技能的特種兵，在某項工作上可以做得非常好，CPU則像是核心領導，只有在它的協調指揮下，才能形成強大的整體戰鬥力，否則只是一盤散沙而已。因此，如果非要給大家排個序，CPU反而更有資格排在前列。這也正是AMD的核心優勢，一方面有著極為完整、久經考驗的完整產品線和綜合平台，另一方面其EPYC CPU處理器近些年更是意氣風發，甚至大有完全不把Intel至強放在眼裡的架勢。 EPYC堪稱AMD歷史上最成功的產品之一，每一代都極為閃耀，甚至可以說是一直遙遙領先。 2017年，隨著基於初代Zen架構、代號Naples的第一代EPYC 7001系列的誕生，AMD終於重返高性能計算市場，得到了整個行業的熱烈歡迎。第三代Milan EPYC首次延伸除了專門針對高密度計算需求的Milan-X，通過堆疊3D V-Cache緩存，得到了數倍的性能提升，在業內是獨一無二的存在。最新的第四代Genoa EPYC 9004系列，更是多點開花，從通用計算到高密度計算，從雲服務到邊緣計算，再到AI，幾乎無所不能。其中，標准版的Genoa升級到先進的5nm工藝、Zen 4架構，憑借成熟的Chiplet布局，做到最多96核心192線程，還有12通道DDR5內存、160條PCIe...

不讓NVIDIA吃獨食 AMD下一代Zen5 AI加速器在路上

AI硬體市場上，NVIDIA可謂呼風喚雨，旗下的A100、H100加速器炙手可熱。 Intel、AMD也都在積極投入相關產品，前者主要是GPU Max系列，後者主要是Instinct MI系列。不久前，AMD剛剛正式推出了MI300系列加速器，其中MX300X首次將Zen4 CPU、CDNA3 GPU架構合二為一，並集成多達128GB HBM3，MI300A則是純GPU方案，配備192GB HBM3。據說還有MI300C、MI300P兩種版本，前者是純CPU架構，後者則是MI300X的精簡版，規模砍半。按照規律，這一代產品發布了，下一代產品肯定已經在積極研發中了，但是能從CEO口中確認下一代的名字，還不多見。 AMD CEO蘇姿豐近日表示，AMD持續在AI方面投資，包括下一代MI400系列加速，以及再下一代、再下一代。蘇姿豐還強調，AMD不但有極具競爭力的AI硬體路線圖，還會在軟體方面做出一些改變。她沒有透露更具體的細節，猜測可能終於要大幅革新AMD ROCm開發框架了，不然永遠打不過NVIDIA CUDA。不出意外的話，MI400系列應該會上Zen5 CPU、CDNA4 GPU兩大新架構，既有CPU+GPU融合方案，也有純GPU方案。傳聞稱，AMD正在開發全新的XSwitch高速互連總線技術，對標NVIDIA NVLink，這對於大規模HPC、AI運算來說是至關重要的。來源：快科技

1460億電晶體 AMD全球首創超級APU MI300下半年見

APU，AMD最成功的概念和產品之一，除了在消費級市場上大受歡迎，還將在數據中心、超算領域大放異彩。這就是“Instinct MI300”，AMD的新一代加速器/計算卡，號稱全球第一款數據中心整合CPU+GPU，一改以往Instinct系列產品只有GPU的設計，首次採用融合架構。 AMD CEO蘇姿豐近日確認，Instinct MI300將在今年下半年正式推出！ MI300採用多晶片、多IP整合封裝設計，5nm先進位造工藝，電晶體數量多達瘋狂的1460億個！它同時集成CDNA3架構的GPU單元(具體核心數量未公開)、Zen4架構的24個CPU核心、大容量的Infinity Cache無限緩存，還有8192-bit位寬、128GB容量的HBM3高帶寬記憶體。技術方面支持第四代Infinity Fabric總線、CXL 3.0總線、統一記憶體架構、新的數學計算格式，號稱AI性能比上代提升多達8倍，可滿足百億億次計算需求。事實上，，稱之為XPU，同時集成至強CPU、Xe HPC GPU，以及下一代封裝、記憶體、IO技術，號稱能效、x86計算密度、記憶體容量與帶寬都比現在提升5倍。不過，Intel的要到明年才會出貨。來源：快科技

1460億電晶體 AMD造出最大晶片：13合一、性能飆升8倍

1月6日消息，AMD 在 CES 2023展會上推出了下一代面向數據中心的APU產品Instinct MI300，其採用chiplet設計，擁有13個小晶片，電晶體數量高達1460億個。具體來說，Instinct MI300由13個小晶片整合而成，其中許多基於3D堆疊的，擁有24個Zen4 CPU 內核，並融合了CDNA 3 圖形引擎，以及共享的統一記憶體池，包括 Infinity Cache 高速緩存和8個HBM共享記憶體設計。總體而言，該晶片擁有1460億個電晶體，超過了英特爾的1000億電晶體的Ponte Vecchio，成為了AMD投入生產的最大晶片。從曝光的照片可以看到，MI300兩側擁有八個共計128GB的HBM3晶片，在這些 HBM3晶片之間還放置了多個小塊結構的矽片，以確保冷卻解決方案在封裝頂部擰緊時的穩定性。 MI300的計算部分由9個基於台積電5nm工藝製程的小晶片組成，包括了CPU和GPU內核，但AMD並未提供每個小晶片的詳細信息。由於Zen 4 內核通常部署為八個核芯，因此24核CPU則意味著有3個小晶片是CPU晶片，另外6個則是GPU晶片。 GPU晶片使用AMD的CDNA 3架構，這是AMD數據中心特定圖形架構的第三個版本。 AMD 尚未明確CU數量，不過官方公布的數據顯示，CDNA 3的每瓦特AI性能達到了上代CDNA 2的5倍。這9個小晶片是通過3D封裝堆疊在4個6nm小晶片上，這些晶片不僅僅是無源中介層——這些晶片是有源的，可以處理I/O和各種其他功能。 AMD 代表展示了另一個 MI300 樣品，該樣品打磨了頂部模具，以揭示四個有源中介層模具的結構。這些結構不僅可以在I...

AMD超級APU已經搞定 Zen4 CPU搭檔CDNA3 GPU

AMD APU在桌面上贏興闌珊，在筆記本上倒是全線普及，在數據中心更是接連跨越。，將於明年推出下一代加速計算卡“Instinct MI300”，除了工藝升級5nm，架構升級CDNA3，還會首次融入CPU核心，基於最新的Zen4架構。此外，它還會帶來Infinity Fabric高速總線、nfinity Cache無限緩存、HBM3高帶寬記憶體等，通過3D小晶片立體封裝合為一體。 AMD CTO兼技術與工程業務執行副總裁Mark Papermaster在接受采訪時透露，MI300計算卡已經在AMD實驗室內跑起來了，將在明年按期發布。他表示，MI300是一個真正的數據中心APU，融合了CPU加速、GPU加速，通過Infinity架構共享完全一致性的高帶寬記憶體。美國勞倫斯利弗莫爾國家實驗室將採用MI300計算卡，打造新一代超級計算機“El Capitan”(加州酋長岩)，目標峰值性能2EFlops(每秒200億億次計算)，持續性能超過1EFlops(每秒100億億次計算)，整機功耗不到40兆千瓦。新系統預計2023年即可完成安裝，2024年上線運行，2030年退役。 AMD當前的計算卡MI250X已經用於世界第一超算Frontier，搭檔AMD第三代霄龍 7A53 64核心理器，峰值性能1.69EFlops，最大性能1.10EFlops，功耗21.1兆千瓦。來源：快科技

AMD兩年前的老卡「果體」現身：點不亮都要3600元

eBay二手網站上，出現了一塊特殊的AMD Instinct MI100加速計算卡。，也是AMD首次採用專為AI、HPC領域設計的CDNA計算架構，並且首次直接採用Instinct的產品命名，不再掛以Radeon的前綴。當然，它已經有了後繼者，，下一代MI300系列則會基於 MI100採用7nm工藝，集成7680個流處理器核心，搭載32GB HBM2高帶寬顯存，功耗300W，有PCIe擴展卡樣式。 eBay賣家曬出的這塊卡沒有散熱器(因為在伺服器里都是系統統一散熱)，因此可以一窺內部的GPU核心、整合封裝的四顆HBM顯存、完全不同於遊戲卡的供電電路，還有兩個EPS規格的8針供電接口(空焊一個)。有趣的是，這是一塊壞卡，無法點亮，但賣家依然要價高達500歐元，約合人民幣3600元。當然，新卡可是要6400美元，超過4.6萬元人民幣。不到十分之一的價格收藏一塊，你覺得值嗎？來源：快科技

雙A打造全球第一台百億億次超算陷入麻煩：效率只有60％

今年6月，公開亮相，採用AMD Trento EPYC 7A53處理器、AMD Instinct MI250X GPU加速卡的組合，這也是AMD時隔十年重返超算之巔，性能相當於其後第二到第七名的總和。 Frontier超算部署在美國能源部橡樹嶺國家實驗室，最初計劃2022年內全面投入運行，後推遲到2023年1月1日，但現在卻被曝出自上線之初就存在嚴重的問題，每天都故障不斷。據稱，Frontier超算規劃的FP64雙精度浮點性能為1.685EFlops(168.5億億次計算每秒)，但目前只能勉強跑到1EFlops，也就是只能達到設計目標的60％。具體原因不詳，有一種說法是HPE Cray機櫃使用的Slingshot網絡互連系統與HPE集群存在衝突，另一種說法是Slingshot互連系統與AMD計算平台存在衝突，但究竟怎麼回事不得而知。美國能源部百億億次計算項目的一位對外聯絡發負責人Mike Bernhardt發布了一則簡單聲明，稱感謝HPE、AMD的努力，Frontier系統今年秋天提前交付，目前正在進行安裝和集成，這是一項繁重、復雜的任務，但目前進展順利，將在明年按期想科學界開放。為了沖擊百億億次超算，美國規劃了三條路線。 Intel Sapphire Rapids四代可擴展至強、Ponte Vecchio加速卡打造的“Aurora”進展也很不順，一直在推遲，主要是Intel的兩個新品遲遲無法規模交付。 AMD處理器、NVIDIA加速卡組成的“Polaris”消息非常少，不清楚目前具體進展如何。來源：快科技

AMD Zen4+RDNA3超級APU真猛峰值算力200億億次

AMD日前宣布，除了工藝升級5nm，架構升級CDNA3，還會首次融入CPU核心，基於最新的Zen4架構，還有Infinity Fabric高速總線、nfinity Cache無限緩存、HBM高帶寬記憶體等，通過3D小晶片立體封裝合為一體。 AMD宣稱，MI300 AI訓練性能提升預計可以超過8倍，AI能效則提升超過5倍。產品還沒發布，就找到下家了。在美國橡樹嶺國家實驗室舉辦的第79屆高性能計算用戶論壇上，美國勞倫斯利弗莫爾國家實驗室透露，將採用AMD Instinct MI300計算卡，打造新一代超級計算機「El Capitan」(加州酋長岩)，目標峰值性能2EFlops(每秒200億億次計算)，持續性能超過1EFlops(每秒100億億次計算)。與此同時，整機功耗不到40兆千瓦。作為對比，，配備AMD第三代霄龍 7A53 64核心理器、AMD Instinct MIX250計算卡，峰值性能1.69EFlops，最大性能1.10EFlops，功耗21.1兆千瓦。 El Capitan預計2023年即可完成安裝，2024年上線運行，2030年退役。來源：快科技

8倍性能飆升 AMD公布終極APU：Zen4找到搭檔

除了在桌面和筆記本消費級領域發展APU，AMD還計劃在高性能計算領域打造融合式產品。今天，AMD公布了CDNA計算架構Instinct加速計算卡的路線圖，7nm CDNA MI100系列、6nm CDNA2 MI300系列之後，下一站的發展也很自然：架構升級為CDNA3，工藝升級為5nm，型號升級為MI300系列。 CDNA2開始使用雙芯封裝，CDNA3更進一步，通過3D小晶片立體封裝，統一集成CPU、GPU、緩存、HBM記憶體等。 CPU採用Zen4架構，和下一代霄龍7004系列同宗同源，但核心數應該沒有那麼多。 GPU採用RDNA3架構，加入新的數學格式。緩存是下一代Infinity Cache無限緩存，擔起來不再集成於GPU內部，而是獨立封裝，有些類似Intel計算卡的Rambo Cache。 HBM記憶體是高性能計算的常客了，據說可以做多最多八組。 CDNA2架構已經實現CPU、GPU一致性記憶體架構，CDNA3則會升級為APU統一記憶體架構，通過第四代Infinity Fabric高速總線，CPU、GPU均可直接訪問HBM記憶體，不需要再重復拷貝、轉移數據。這是AMD APU誕生之初就提出的理念，除了提升性能、降低延遲，還可以簡化設計、封裝、開發，降低總體成本。 AMD宣稱，MI300系列相比於MI250X，AI訓練性能提升預計可以超過8倍，AI能效則提升超過5倍。 CDNA3 MI300系列計算卡將在2023年推出。有趣的是，，稱之為XPU，代號「Falcon Shore」，融合至強x86 CPU核心、Xe GPU核心，應該也有HBM記憶體和獨立緩存，號稱能效、計算密度、記憶體容量與密度都能被現在提升5倍以上。但是看路線圖，Intel可能要到2025年才會推出產品。來源：快科技

王者歸來 AMD CPU＋GPU雙雄拿下超算世界第一

近日，全球超級計算機性能榜單Top500同時公布，AMD EPYC霄龍處理器、Instinct加速卡打造的全球第一台百億億次超算「Frontier」一舉拿下第一。這不僅僅是高性能計算領域的里程碑，也是AMD重現輝煌的一刻：AMD平台超算上次拿下第一名，還是整整10年前的「Titan」，用的還是皓龍處理器，搭配的還是NVIDIA加速卡。 Frontier系統位於美國能源部下屬橡樹嶺國家實驗室(ORNL)，Linpack最大計算性能達到了空前的1.1EFlops，也就是每秒可以執行110億億次浮點計算。這比上屆冠軍、本屆亞軍日本「Fugaku」超算系統快了整整1.5倍，同時也超過了第二名到第七名的總和。事實上，根據測試，Frontier的混合精度計算性能達到6.68EFlops(每秒680億億次計算)！下一步，Frontier將繼續進行系統測試和驗證，2022年晚些時候進行最終驗收、早期科學訪問，2023年初向全面科學界開放。 Frontier超算基於HPE Cray EX235a高性能計算系統，擁有超過100個機櫃。每個節點配備一顆AMD Trento EPYC 7A53處理器，7nm工藝，Zen3架構，64核心128線程，主頻2.0GHz，專為超算定製的型號。每個節點還有四塊AMD Instinct MI250X GPU加速卡，這是AMD首次專為百億億次超算設計的加速卡，6nm工藝，CDNA2架構，每塊集成220個計算單元，14080個流處理器核心，搭配8192-bit位寬的128GB HBM2e高帶寬記憶體。 EPYC處理器與Instinct加速卡之間通過AMD Infinity Fabric高速總線互連互通，不同節點之間則通過HPE Slingshot-11互連系統並行，帶寬200Gbps。另外，整台超算還有4.6PB DDR4記憶體、37PB硬碟。第三名的「LUMI」、第十名的「Adastra」、第29名的「Frontier TDS」，同樣都是EPYC 7A53、Instinct MI250X的組合，其中Frontier TDS是單機櫃的測試與開發版本，即便如此性能仍有19.2PFlops(每秒1.92萬億億次計算)。另外，第七名的「Perlmutter」、第八名的「Selene」、第11名的「Booster」等等也都是AMD EPYC處理器，而在前十名里EPYC占了五個名額，前100名里也有39個！全部500台超算中，AMD處理器占了94個，年同比增長95％。 MI250X加速卡這次則是第一次躋身500強，就貢獻了7台系統，性能與其他所有加速系統的總和幾乎相當。更令人稱奇的是，AMD EPYC＋Instinct的組合不僅性能無敵，能效同樣無敵，在同時發布的Green500能效榜單上，四套系統直接壟斷了前四名！其中，Frontier TDS單機櫃版本高居第一，能效達到了62.684GFlops/W，也就是平均每瓦能耗可以帶來626.8億次計算性能。完整的Frontier系統則緊隨其後，能效也有52.227GFlops/W。事實上，green500能效榜單上，前十名中有八個都是AMD EPYC平台，前20名里拿到17個席位，前100名中占了35個位置。這些數據，淋漓盡致地展現了AMD EPYC處理器、Instinct加速卡在節點、機櫃和系統層面的超高性能、效率。美國橡樹嶺國家實驗室主任Thomas...

AMD第一款超級APU驚曝 Zen4搭檔全新GPU

AMD CPU＋GPU正在全面融合，下一代銳龍7000系列處理器將整合Zen4、RDNA2架構，而在高性能高性能計算領域，Instinct加速卡也要這麼幹了。 AMD已經發布了Instinct MI200系列加速卡，基於CDNA2架構，首次採用MCM雙芯封裝，下一代的Instinct MI300此前也有曝光，有可能會採用瘋狂的四芯封裝。 AdoredTV曝光的一張諜照顯示，MI300被稱作「第一代Instinct APU」，將同時整合Zen4 CPU架構、RDNA3 GPU架構，同時還會集成HBM高帶寬記憶體。 MI300的進展相當神速，本月底就會完成所有的流片工作，第三季度拿到第一顆矽片。有趣的是，諜照上已經可以看到MI300加速卡的局部，至少有六顆HBM記憶體晶片，而且整體是Socket獨立封裝接口設計，又和MI200、EPYC霄龍都不一樣。按照之前的曝料，這個接口名叫SH5，與同樣Zen4架構下代霄龍7004系列處理器(代號Genoa)的接口SP5很明顯師出同門。將它和MLID此前曝光的渲染圖對比，還真能掛上鉤。，MI300內部設計分為三層，底部是2750平方毫米的龐大中介層，中間是6nm工藝的Base Die(基礎晶片)，再往上是5nm工藝的Compute Die(計算晶片)、HBM3記憶體晶片。各種Die的數量、組合可以靈活定製，最常見的中等配置是2個6nm基礎晶片、4個5nm計算晶片、4個HBM3，總共10個。最高端的應該是翻一番，4個基礎晶片、8個計算晶片、8個HBM3，總共20個，功耗預計在600W左右，和現在的頂配基本差不多。其實，早在2019年，就有傳聞說AMD正在規劃「Big APU」，當時預計叫做MI200，現在看來將在MI300上實現。還有一份專利顯示，AMD設計了一種「EHP」(百億億次異構處理器)，採用多晶片整合封裝，包括CPU模塊、GPU模塊、HBM模塊，這不就正是MI300？ AMD真的在下一盤大棋啊！來源：快科技

AMD 5nm計算卡瘋狂堆料：20顆晶片、2750mm2面積史無前例

AMD陸續發布了Instinct MI200系列加速計算卡的三款產品，下一代也在路上了，權威曝料高手MILD給出了一大波有趣的信息。 MI200系列首次採用了2.5D雙芯封裝，MI300系列則會進化到多個小晶片3D整合封裝，類似Intel Ponte Vecchio，但沒那麼龐大和復雜。 MI200系列 MI300系列 MI300內部可以大致分為三層結構，底層是龐大的中介層(Interposer)，面積約2750平方毫米，MLID直言這是他見過的最大的。中介層之上，是一系列6nm工藝的Base Die(基礎晶片)，也可以叫做區塊(Tile)，集成負責輸入輸出的IO Die、其他各種IP模塊、可能的緩存，每個區塊面積約320-360平方毫米。每個6nm區塊之上，是兩個5nm工藝的Compute Die(計算晶片)，單個面積約110平方毫米，內部就是各種計算核心和相關模塊，但據說可以定製選擇不同的模塊，滿足不同計算需求。同時，每個計算晶片對應一顆HBM3高帶寬記憶體，容量暫時不詳。不同的Die之間有多達2萬個連接通道，是蘋果M1 Ultra的大約兩倍。各種Die的數量、組合可以靈活定製，最常見的中等配置是2個6nm基礎晶片、4個5nm計算晶片、4個HBM3，總共10個。最高端的應該是翻一番，4個基礎晶片、8個計算晶片、8個HBM3，總共20個，功耗預計在600W左右，和現在的頂配基本差不多。哦對了，PCIe 5.0也是支持的。來源：快科技

10.6萬元 AMD 6nm工藝MI210計算卡日本開賣

去年11月，AMD發布了6nm新工藝、CDNA2新架構的加速計算卡，今年3月底又增加了定位相對較低的 MI250X為雙芯封裝設計，集成了220個計算單元、14080個流處理器核心，最高頻率1.7GHz，並有880個第二代矩陣核心，搭配8192-bit位寬的128GB HBM2e，典型功耗500W，峰值功耗560W。 MI250精簡為208個計算單元、13312個流處理器核心，各項性能指標也順應下降約5.5％，其他規格完全不變。 MI210在形態上從OAM改為傳統的PCIe擴展卡，規格上則是單晶片，整體基本就是MI250的一半，包括291億個電晶體，104組計算單元，6656個流處理器核心，416個矩陣核心，4096-bit 64GB HBM2e顯存，功耗從560W降到了300W。以上產品都已經出貨、部署到客戶方案，但由於是企業級產品，AMD並未公布各自的價格。在日本Ask-Corp，Instinct MI210已經開始接受預訂，本月發貨，含稅價格高達2087800日元，約合人民幣10.6萬元。照這麼算，MI250、MI250X還不得奔著20萬去了？來源：快科技

1082萬核心美國百億億次超算預演：AMD CPU＋GPU贏麻了

目前，中美都在全力推進百億億次超級計算機，而且都准備了多套方案，美國就有三條路線：AMD處理器＋AMD加速卡的「」，Intel處理器＋Intel加速卡的「」，AMD處理器＋NVIDIA加速卡的「」。美國橡樹嶺領先計算設施(OLCF)項目傳來最新消息：作為投資6億美元的「Frontier」超算的縮小版本，「Crusher」現已上線運行，對比當年的超算之王Titan，只用百分之一的體積就得到了更好的性能。不過，Frontier要到2023年1月1日才會正式開放，Crusher可以看做是一次預言，供科研人員提前做好開發准備。美國在2013年打造的Titan超算，使用了18688顆AMD皓龍6274 16核心處理器、18688塊NVIDIA Tesla K20X加速卡，占用200個機櫃，總面積4352平方英尺，功耗8.2兆瓦，Linpack持續性能最高17.6PFlops。 CrushCrusher擁有和Frontier完全相同的計算架構，只占用1.5個機櫃，分別128個、64個計算節點，總計192個，總面積不過44平方英尺。它配備了AMD專門定製的EPYC 7A53 64核心處理器(代號Trento)，搭配最新的AMD Instinct MI250X計算加速卡，每個節點「一配四」，總共192顆處理器(12288核心)、768塊加速卡(10813440核心)，也就是超過1082萬核心，還有32TB記憶體、250PB硬碟。 OLCF沒有透露它的具體性能，只是說比Titan更快，但可以估算一下：Instinct MI250X的峰值雙精度性能為53TFlops，768塊加起來就超過40PFlops(假設線性提升)，兩倍多於Titan，這還沒算EPYC處理器的算力。 EPYC 7A53是專門為超算定製的，具體規格不詳，只知道是Zen3架構，64核心123線程，頻率必然不低。，號稱在同類產品中擁有世界上最快的HPC性能、AI性能，升級為6nm工藝、CDNA2計算架構、2.5D雙芯整合封裝，14080個流處理器核心，80個二代矩陣核心，8192-bit 128GB HBM2e記憶體，典型功耗500W，峰值560W。來源：快科技

AMD發布6nm MI210計算卡：64GB HBM2e顯存、300W功耗

去年11月，AMD發布了，升級6nm工藝、2.5D MCM雙芯整合封裝、第三代Infinity Fabric總線互連技術，集成最多14080個流處理器核心、880個矩陣核心、218GB HBM2e顯存/記憶體。兩款卡均採用OAM模塊形態，現在終於增加了PCIe標準形態，型號「Instinct MI200」，支持PCIe 4.0。 MI200回歸單芯封裝，規格、性能幾乎完全就是MI250砍去一半：291億個電晶體，104組計算單元，6656個流處理器核心，416個矩陣核心，4096-bit 64GB HBM2e顯存，三條Infinity Link互連總線(最多四塊並行)。核心頻率還是1.7GHz，性能也正好減半，FP64/FP32矢量算力22.6TFlops，FP64/FP32矩陣算力45.3TFlops，FP16矩陣算力181TFlops，INT8矩陣算力181Tops。顯存頻率也維持在3.2GHz，所以帶寬減半1.6TB/。整卡功耗從560W降到了300W，採用單個EPS12V 8針輔助供電接口，被動散熱。軟體API支持OpenMP、OpenCL、HIP，計算框架支持TensorFlow、PyTorch、Kokkos、RAJA。 Instinct MI200 PCIe已經出貨，方案客戶包括華碩、戴爾、超微、慧與、聯想。與此同時，AMD還發布了ROCm 5開發套件，硬體新增支持Instinct MI200系列計算卡、Radeon PRO W6800專業顯卡，系統新增支持Red Hat Enterprise Linux 8.5，商業ISV合作夥伴新增Ansys Cascade、TempoQuest，不僅提高了開發者的可用性，還在各種關鍵負載中實現了更出色的性能。 ROCm 5的應用程式支持還包括HPC、AI、機器學習應用程式，以及AMBER、Chroma、CP2K、GRID、GROMACs、LAAMPS、MILC、Mini-HAAC、NAMD、NAMD 3.0、ONNX-RT、OpenMM、PyTorch、RELION、SPECFEM3D Cartesian、SPECFEM3D...

Tag: AMD Instinct