Radeon Instinct | 搜資訊

2.8萬核心怪獸？AMD下代計算卡首次現身：四芯合體

去年11月，AMD發布了，不但升級6nm工藝、CDNA2計算架構，還首次採用多Die整合封裝(MCM)，內部集成兩個晶片，達成最多220個計算單元、14080個核心、128GB HBM2e記憶體，成為AMD的第一款ExaScale百億億次級別加速卡產品。按照路線圖，下一代產品要升級到CDNA3架構，早先有曝料稱將命名為Instinct MI300系列，內部集成多達四個晶片，或者叫四個GCD。現在，AMD ROCm開發者工具更新中出現了四個MCM封裝晶片的設備ID，分別是0x7408、0x740C、0x740F、0x7410，基本坐實了早先傳聞。雖然這份文件里對應的產品代號還是「Alderbaran」，也就是MI250系列，但應該是個占位符，MI300系列的核心代號我們還不知曉。四芯封裝，如果每個還是110個計算單元、每單元64個核心，那麼總計有望達到440單元、2.8萬個核心。即便每個晶片的規模有所縮減，總體也有望超過2萬個核心，相當瘋狂。很顯然，狂堆核心已經是不二法門，NVIDIA下代遊戲卡Ada Lovelace據說會有1.8萬個核心。也難怪功耗扶搖直上，PCIe 5.0甚至制定了最多600W供電能力的新標準。與此同時，Linux修正檔內出現了「AMD GF940」的名字，顯然是新的GPU編號，和目前MIX250系列的「GFX90a」不但命名類似，而且支持的指令集也很接近，不出意外就是下一代CDNA3架構產品。當然，新架構自然有新特性、新指令，而且還不少：來源：快科技

AMD 6nm MI250X加速卡被扒開：1個節點1小時5度電

日前，，基於6nm工藝、CNDA2架構，內部封裝兩顆GPU、八顆HBM2e，最多14080個計算核心、880個矩陣核心、128GB顯存記憶體。作為AMD的第一款百億億次計算級別產品，MI250系列已經得到了很多客戶方案，尤其是聯合美國能源部的超算「Frontier」，已經整裝待發，峰值性能超過150億億次。這就是MI250X加速卡的真容，中間兩顆大的晶片自然是MI200計算模塊，周邊八顆小的就是HBM2e記憶體，單顆32GB，通過2.5D EFB橋接技術彼此互連。整卡採用OAM形態，也就是基於開放計算項目(OCP)指定的加速卡模組標準，NVIDIA、Intel也都採納。這是1U半高刀片規格的單個節點，集成八塊MI250X，另有兩顆霄龍處理器，代號「Trento」，基於三代霄龍7003 Milan的定製版，主要加強了Infinity Fabric IO部分，便於控制八路加速卡。 MI250X單卡功耗就有560W，Trento霄龍暫無具體規格估計也在280W左右，那麼這一個節點的整體功耗，就在5000W左右，一小時就是5度電，散熱上風冷也不夠了，全部都是水冷。而且，這還沒算上12通道記憶體、硬碟、網絡等等。美國的三大百億億次超級計算機中，除了AMD Frontier，，採用超過1.8萬顆下一代可擴展至強Sapphire Rapids、超過5.4萬塊全新加速卡Ponte Vecchio，每個節點雙路CPU加六路GPU，號稱性能超過200億億次，但進度最慢。，聯合AMD第三代霄龍，打造了「Polaris」，分別有1120顆、2240塊，每個節點雙路配四塊卡，性能相對最低，但因為都是成熟硬體，進度是最快的，今年年內上線，明年還會升級一次。來源：快科技

AMD發布Instinct MI250/MI250X加速卡：6nm雙芯、560W功耗

除了基於3D V-Cache堆疊緩存的升級版霄龍7003x系列處理器，AMD還為數據中心帶來了另一款神器：Instinct MI200系列加速卡(加速器)。這是AMD的第一款ExaScale百億億次級別加速卡產品，號稱在同類產品中擁有世界上最快的HPC性能、AI性能。 Instinct MI200系列升級為新的CDNA2計算架構，搭配升級的6nm FinFET工藝，並使用2.5D EFB橋接技術，業內首創多Die整和封裝(MCM)，內部集成了兩顆核心。還有第三代Infinity Fabric總線互連技術，帶寬100GB/，最多8條與第三代霄龍處理器互通，實現CPU/GPU記憶體一致性。軟體API支持OpenMP、OpenCL、HIP、ROCm Open、TensorFlow、PyTorch、Kokkos、RAJA。新系列分為兩款型號，Instinct MI250X集成了220個計算單元、14080個流處理器核心，最高頻率1.7GHz，並有第二代矩陣核心，峰值性能為：FP16半精度383TFlops、FP32單精度/FP64單精度47.9TFlops、FP32單精度/FP64雙精度矩陣95.7TFlops、INT4/INT8/BF16 383TFlops。記憶體/顯存搭配8192-bit位寬的128GB HBM2e，頻率1.6GHz，峰值帶寬3276.8GB/，並支持全晶片ECC。整卡採用OAM模塊形態(未來也會推出PCIe擴展卡形態)，支持PCIe 4.0 x16，被動散熱(系統散熱)，典型功耗500W，峰值功耗560W。 Instinct MI250精簡為208計算單元、13312流處理器核心，各項性能指標也順應下降約5.5％，其他規格完全不變。 AMD宣稱，Instinct MI200系列性能雙精度性能比競品高出最多4.9倍，比上代提升最多4倍。 MI200系列已經贏得了多項客戶解決方案，包括ATOS BullSequana X410-A5 2U1N2S(雙CPU四GPU)、戴爾PowerEdge R7525(雙CPU三GPU)、技嘉G262-Z00(雙CPU四GPU)、HPE Cray EX235a(單CPU四GPU)等等，其他客戶還有話說、聯想、KOI Cmputers等等。尤其是與美國國防部橡樹嶺國家實驗室、HPE合作打造的超級計算機「Frontier」，採用第三代霄龍處理器、MI250X加速卡，峰值算力高達150億億次浮點計算每秒。來源：快科技

AMD官方預熱：Zen3加強版霄龍、CDNA2架構加速卡一起來

AMD官方宣布，將於美國東部時間11月8日11點(8日23點)，舉辦一場題為「加速數據中心首映」(Accelerated Data Center Premiere)的主題活動，展示AMD EPYC霄龍處理器、Instinct加速計算卡的未來創新。 AMD總裁兼CEO蘇姿豐博士、數據中心與嵌入式解決方案事業部總經理Forrest Norrod、高級副總裁兼伺服器業務部總經理Dan McNamara將會分別發表演講，介紹相關技術和產品。如果不出意外，EPYC霄龍新品將是代號「Milan-X」的三代霄龍升級版，仍然基於Zen3架構，但會加入3D V-Cache堆疊緩存，進一步提升性能。根據此前曝料，Milan-X會堆疊512MB 3D V-Cache緩存，加上原有的256MB，具體有四個型號，包括64核心的7773X、32核心的7573X、24核心的7473X、16核心的7373X，都標配256MB三級緩存、512MB堆疊緩存。它對應的消費級版本是Vermeer-3XD，也就是傳說中的銳龍6000系列，可能要到明年初才會發布。計算卡新品則是Instinct MI250X、MI250，代號Aldebaran，CDNA2架構，首次採用MCM雙芯封裝。它擁有最多110個計算單元，，核心頻率1.7GHz，7nm工藝，熱設計功耗達500W。來源：快科技

AMD Instinct MI250X/MI250計算卡曝光：128GB HBM2e、500W TDP

AMD CEO蘇姿豐博士此前曾進口確認，會在明年發布基於下一代架構的全新計算卡，但未透露更多細節。一直以來不斷有曝料稱，AMD CDNA2架構的全新計算卡代號Aldebaran(畢宿五)，將命名為Instinct MI200，會採用MCM雙芯整合封裝設計。根據大神@ExecutableFix的最新情報，AMD全新計算卡將有兩款，分別叫Instinct MI250X、Instinct MI250，都基於Aldebaran GPU。其中，MI250X將集成110個CU計算單元，並集成創記錄的128GB HBM2e顯存。這不但是當前Instinct MI100 32GB HBM2的整整四倍，還遠遠超越競品。——，Intel Sapphire Rapids至強則會集成。另外，MI250X的核心加速頻率為1.7GHz，FP64雙精度浮點性能47.9TFlops，FP32單精度浮點性能95.8TFlops，FP16/BF16半精度浮點性能383TFlops，對比目前的MI100分別提升大約3.1倍、3.1倍、2.1倍。不過代價也比較大，盡管採用了7nm工藝，但是整卡的熱設計功耗依然高達500W，增加了足足三分之二。至於MI250，應該是MI250X的低端版本，或屏蔽部分核心，並降低頻率。來源：快科技

AMD CDNA3架構計算卡MI300首曝：四芯合一

AMD CEO蘇姿豐博士已經親口確認，基於CNDA2新架構的下一代Instinct計算卡會在今年下半年推出，現在，更下一代的曝料來了。初代CDNA架構的計算卡名為Instinct MI100，代號「Arcturus」(大角星)，7nm工藝，120個計算單元，8192個核心，實際開啟7680個，搭配4096-bit 32GB HBM2，功耗300W。 CDNA2架構的預計名為Instinct MI200，代號「Aldebaran」(畢宿五)，首次採用雙芯整合封裝，也就是兩個GCD，可能有110個或220個計算單元，搭配128GB HBM2e。消費級的RNA3架構，也會採用類似的整合封裝。 AMD ROCm開發者工具更新也曝光了MI200的四個不同設備ID，分別是0x7408、0x740C、0x740F、0x7410，看起來對應四款不同型號。 CDNA3架構的自然應該是Instinct MI300，還沒有代號，如果還是沿用紅巨星、紅超巨星的名字，那應該是更大的「Rigel」，也就是參宿七/獵戶座β。更大的還有「Antares」，即心宿二/天蠍座α，以及「Betalgeuse」，即參宿四/獵戶座α。但傳聞稱，MI300將會配備四顆晶片，也就是四個GCD，如此一來理論上核心規模可以再次翻番。 MI300應該會在明年底發布，屆時將正面競爭Intel Xe HPC架構的Ponte Vecchio、NVIDIA Hopper架構的H100。 CDNA3架構如此設計，RDNA4架構應該也會類似，到時候我們就能看到四芯整合封裝的頂級遊戲卡了。來源：快科技

創紀錄128GB顯存：AMD Instinct MI200加速開始出貨

AMD在季度財務會議期間透露，基於第二代CDNA架構的新一代Instinct加速卡已經開始出貨了。 AMD去年11月發布了，而今隨著遊戲卡機構從RDNA2挺進RDNA3，新的CDNA2架構也在路上，對應產品就是Instinct MI200，代號為「Aldebaran」(畢宿五)。 CDNA2的設計和RDNA3有一點相通，那就是都會採用MCM多芯封裝方式，內部同時集成兩個Die，核心規模輕松翻番，預計共有16384個流處理器核心，MI100則只有7680個。顯存方面，MI100配備了32GB HBM2，帶寬高達1.23TB/，MI200則會猛增到128GB，創下全新紀錄，而且升級為新一代的HBM2e，帶寬能突破2TB/。 AMD MI200將搭配下一代霄龍處理器，構建全球首個百億億次超算Frontier，預計今年底推出，，比如澳大利亞的Setonix。 MI100核心與集成封裝的四顆HBM2顯存來源：快科技

AMD Instinct MI200計算卡創紀錄：顯存確認128GB

，但這個記錄很快就要被打破了。近日，高性能計算企業Pawsey SuperComputing透露，他們正在為澳大利亞打造一台算力高達50PFlops(5億億次每秒)的超級計算機「Setonix」(澳洲短尾矮袋鼠)，主要用於大數據方面的研究工作。配置方面，這台超算計劃配備超過20萬個AMD Milan霄龍處理器核心，如果是頂級64核心型號那就是3000多顆處理器，同時搭配750多塊AMD MI-Next計算卡用於加速計算，而每塊計算卡擁有128GB顯存，另外還有至少548TB系統記憶體、2.7PB SSD硬碟。 MI-Next這里指的自然就是多次曝光的Instinct MI200，代號Aldebaran，CDNA2架構，MCM雙芯封裝，預計128個計算單元。就在日前，MI200的內核架構圖曝光，顯示內部確實有兩個Die，總共8個顯存控制器，都是8通道，每通道支持2GB HBM2/HBM2e顯存，最大容量正好就是128GB。目前還不確認MI200的具體顯存類型，估計大機率和NVIDIA一樣也是最新的HBM2e，帶寬預計可達大約2TB/。相比之下，AMD現有的CDNA架構Instinct MI100計算卡的顯存是32GB HBM2，帶寬為1.23TB/。來源：快科技

AMD官方確認：下一代計算卡採用雙芯封裝

在最近的一次Linux內核更新中，AMD工程師終於確認，基於下一代CDNA2架構的加速計算卡，將會採用雙芯封裝。去年11月，AMD發布了頂級加速計算卡Instinct MI100，首次採用針對HPC高性能計算、AI人工智慧全新設計的CDNA架構，和遊戲向的RDNA架構截然不同。 AMD CEO蘇姿豐博士此前接受媒體采訪時確認，會在今年晚些時候推出下一代CDNA架構，自然就是CDNA2。 CDNA2架構的新一代預計叫做Instinct MI200，已經多次曝光，開發代號「Aldebaran」(畢宿五)，將首次引入MCM多晶片封裝設計，有點類似銳龍、霄龍的小晶片封裝，流處理器可以輕松翻番到1.5萬個。在最新的Linux更新中，AMD工程師寫道，Aldebaran會有兩個內核(Die)，但只有主內核能獲取、顯示(整體)功耗數據，另一個內核的功耗值會顯示為零，另外功耗限制也不能通過第二個內核進行設置。但不清楚同時集成的HBM2顯存的功耗是同時由主內核控制，還是走新的I/O模塊。至於兩個內核之間如何連接、通信，目前也不確定，可能會是類似銳龍、霄龍的Infinity Fabric高速總線通道。此外，Intel Xe HP/HPC、NVIDIA Hopper計算卡，也都有望採用MCM多芯封裝。至於遊戲級顯卡何時上雙芯封裝，可能要等到RDNA3架構了。來源：快科技

AMD MI200計算卡第一次多芯封裝集成HBM2E顯存

日前我們首次聽說了，是現有CDNA架構的Instinct MI100的繼任者，有望採用下一代CDNA架構，具體規格不詳，但有大概率會上MCM多芯封裝，類似處理器中的銳龍、霄龍。現在，MI200又出現在了新的Linux內核修正檔中，顯示開發代號為「Aldebaran「，也就是金牛座畢宿五，全天第13亮星，半徑44.13倍於太陽，距離地球68光年。 MI100的代號是「Arcturus」，牧夫座大角星，全天第4亮星，北天夜空第1，不過半徑只有太陽的21倍，距離地球36光年。在內核修正檔中，一位開發者稱，Aldebaran支持新的Performance Determinism性能模式，而且可以根據不同的die進行設置，確保始終不超過功耗限制，並在需要的時候獲得最高頻率。這幾乎就等於證實了，MI200確實會採用MCM多芯封裝樣式，至少將兩個內核封裝在一起，組成更大規模的GPU。這也將是AMD GPU顯卡歷史上的第一次，早些年雖然有過雙芯顯卡，但都是同一塊PCB上搭載兩個獨立的GPU，這次直接坐到了一起。而除了Instinct系列專業卡，RDNA 3架構的下一代遊戲顯卡，也幾乎肯定會上MCM多芯封裝，直接暴力堆核。當然，這其中涉及到復雜的協調通信管理機制，另外，新修正檔還加入了對於HBM2E顯存的支持，Aldebaran自然有極大希望搭載，單個堆棧可以做到16GB容量，而現在MI100上集成的是HBM2顯存，單個堆棧8GB，四顆才達成32GB。多芯的小芯片封裝，AMD早就爐火純青了作者：上方文Q來源：快科技

AMD Instinct MI200計算卡首曝第一次用上MCM多芯封裝

去年11月份，AMD發布了，首次採用，和遊戲向的RDNA架構截然不同。現在，第二代的MI200也首次浮出了水面。 MI100採用台積電7nm工藝製造，集成120個計算單元、7680個流處理器，並專門加入Matrix Core(矩陣核心)用於加速HPC、AI運算，還整合了4096-bit 32GB HBM2顯存，支持PCIe 4.0 x16和八卡並行，整卡功耗300W。它的FP64雙精度浮點性能首次突破10TFlops(也就是每秒1億億次)，混合精度和FP16半精度的AI性能提升接近7倍。根據最新消息，MI200將會採用下一代CNDA架構，並首次引入MCM多芯片封裝，看這樣子翻番到1.5萬個流處理器問題不大。本次曝光的MI200將用於HPE Cray EX超級計算機，執行加速計算，產品名被描述為「MCM Special FIO Accelerator「，其中FIO代表「Factory Installation Option」(廠商安裝選項)，此外還有OAM形態，代表開源加速卡。不過，MI200的具體規格目前一無所知，除了猜測流處理器可能因為MCM封裝而翻一番，還有望加入FullRate640ps指令集、支持全速率FP64浮點計算。 MI200預計今年晚些時候發布，未來將搭配代號「Trento「(特倫托)的霄龍處理器，共同用於AMD為美國國防部打造的百億億次超級計算機「Frontier」。 Trento並未出現在AMD霄龍演進路線圖上，其實是即將發布的第三代「Milan」(米蘭)的定製版，專為超算優化，可能會提前支持PCIe 5.0。作者：上方文Q來源：快科技

AMD RDNA計算卡架構揭秘從零起步、三殺NVIDIA

昨日晚間，AMD正式發布了，首次採用針對HPC高性能計算、AI人工智能全新設計的CDNA架構，和遊戲向的RDNA架構截然不同。 Instinct MI100計算卡採用台積電7nm工藝製造，集成120個計算單元、7680個流處理器，核心頻率最高1502MHz，並專門加入了Matrix Core(矩陣核心)，用於加速HPC、AI運算。它整合封裝了32GB HBM2顯存，位寬4096-bit，頻率1.2GHz，帶寬1228.8GB/，支持ECC。該卡支持PCIe 4.0 x16，具備三條Infinity Fabric互連總線，峰值帶寬92GB/，整卡熱設計功耗300W，雙8針輔助供電。這塊卡的特殊之處還在於頂部設置了橋接金手指，通過橋接器可以將四塊卡綁定在一起，而搭配雙路的AMD霄龍處理器，可以實現八卡並行。類似之前的計算卡，甚至是R9 Fury X、Vega 64/56這樣的遊戲卡，Instinct MI110也是將GPU芯片、HBM芯片整合封裝在了一起，不過如今的HBM2單顆容量已達8GB。對比CDNA(上)、RDNA(下)架構圖，可以發現二者整體框架有些相似之處，但各種單元模塊和布局已經截然不同。 Infinity Fabric互連總線、顯存控制器、PCIe 4.0控制器、多媒體引擎、着色器引擎、ACE異步計算引擎等等都還在(當然也不完全一樣了)，而和圖形渲染輸出相關的都沒了，比如圖形指令處理器、幾何處理器、光柵器、顯示引擎、原語單元等等，同時增加了XGMI連接控制器用於多卡互連，一二級緩存也完全不同。作為AMD GPU的最基本模塊，計算單元(CU)也完全不同了，現在叫做增強型計算單元(XCU)，組成模塊包括調度器、分支與信息單元、12.8KB ECC標量單元、512KB ECC標量寄存器、矢量寄存器、矢量ALU操作單元、矩陣數據操作單元、四個矢量/矩陣SIMD單元、64KB ECC本地數據共享單元、載入/存儲單元、16KB ECC一級緩存等等。顯然，這一些都是為計算服務的，而用於圖形的着色器、紋理相關單元自然都不見了，即便有些單元名字一樣，規格和作用也不同了。計算性能方面，FMA64/FP64雙精度為11.5TFlops(每秒1.15億億次)，FMA32/FP32單精度為23.1TFlops(每秒2.31億億次)，FP32 Matrix單精度矩陣計算為46.1TFlops(每秒4.61億億次)，FP16 Matrix半精度矩陣計算為184.6TFlops(每秒18.46億億次)，Bfloat16浮點為92.3TFlops(每秒9.23億億次)。這樣的一塊卡，已經相當於20年前的世界頂級超級計算機，而體積、功耗都不可同日而語。對比NVIDIA安培架構的最新計算卡A100，AMD也給出了一些對比數據，FP32單精度性能領先18.5％，FP64雙精度性能領先18.6％，AI與機器學習性能更是領先兩倍多，而且功耗低了足足100W。而對比上代產品MI50，新卡的FP64雙精度、FP32單精度性能均提升74％，FP32矩陣性能提升接近2.5倍，AI負載性能更是幾乎7倍的飛躍。當然，除了紙面計算性能優秀，軟件開發也必須跟上，尤其是這種計算性的產品。NVIDIA在這方面要強得多，生態更加穩固和豐富，AMD ROCm平台正在奮起直追中。作者：上方文Q來源：快科技

AMD發布全新架構計算卡Instinct MI100 AI性能暴漲7倍

在遊戲領域，基於RDNA 2架構的Radeon RX 6000系列顯卡已經開始閃亮登場。在高性能計算領域，基於CDNA全新架構的新一代計算卡Instinct MI100也終於登台了！ AMD Radeon Instinct系列計算卡已經發展了多款型號，但是在此之前，AMD GPU一直都是一套架構打天下，遊戲、計算不分家，自然不利於不同方向的深度優化。今年3月份，AMD宣布了，從此與RDNA遊戲架構分道揚鑣。二者雖然還有一些共通點，但在設計、優化上已經涇渭分明，在各自領域的性能、能效也更高。而在產品命名方面，AMD計算卡也放棄了Radeon字樣，不再稱呼Radeon Instinct，而是簡單地叫做Instinct。 AMD Instinct可以說是專為HPC高性能計算而生的，志在推動超級計算機進入百億億次計算時代(ExaScale)。回顧歷史，21世紀的前10個年頭屬於萬億次計算時代(TeraScale)，完全依賴CPU運算；最近10個年頭屬於千萬億次計算時代(PetaScale)，GPU加速運算展露鋒芒。不過近兩年，傳統的GPU加速計算也已經初顯疲態，性能增強曲線也緩了下來，必須實現全新的突破。 CDNA架構和MI100加速卡就是這樣的突破性產品，也是AMD開拓新未來的新旗艦。 AMD Instinct MI100是其迄今為止性能最高的HPC GPU，FP64雙精度浮點性能首次突破10TFlops(也就是每秒1億億次)，並在架構設計上專門加入了Matrix Core(矩陣核心)，用於加速HPC、AI運算，號稱在混合精度和FP16半精度的AI負載上，性能提升接近7倍。另外，新卡的外觀設計也令人眼前一亮，更有質感的拉絲外殼，深灰色調，非常沉穩大氣。它集成多達120個計算單元、7680個流處理器，搭配32GB HBM2，帶寬高達1.23TB/，同時支持PCIe 4.0，集成Infinity Fabric x16高速互聯通道，峰值帶寬達276GB/(相當於PCIe 4.0 x16的大約4倍)，而整卡功耗控制在300W。計算性能方面，FMA64/FP64雙精度為11.5TFlops(每秒1.15億億次)，FMA32/FP32單精度為23.1TFlops(每秒2.31億億次)，FP32 Matrix單精度矩陣計算為46.1TFlops(每秒4.61億億次)，FP16 Matrix半精度矩陣計算為184.6TFlops(每秒18.46億億次)，Bfloat16浮點為92.3TFlops(每秒9.23億億次)。這些數字是什麼概念呢？就拿11.5TFlops的雙精度性能來說，2000年排名世界第一的超級計算機ASCI White，這個指標也不過12.3TFlops，但卻是付出了600萬瓦的功耗、106噸的身材才獲得的，Instinct MI100卻只要300瓦、1.16千克。換言之，如今的一塊卡，就相當於20年前的一個大規模計算集群！ AMD上代計算卡Instinct...

抗擊新冠 AMD捐獻CPU/GPU算力堪比TOP20超算

AMD今天宣布，為協助抗擊新冠肺炎疫情，第二次捐贈高性能計算資源，總算力高達12PFlops(1.2億億次計算每秒)，這樣的性能在TOP500超級計算機排行榜上可以進入前20名。今年4月中旬，AMDD宣布成立新冠疫情高性能計算基金，為醫療、科研機構對抗新冠肺炎提供計算資源支持，首批捐出價值1500萬美元、算力7PFlops的高性能計算系統，基於第二代霄龍處理器、Radeon Instinct MI50計算卡。第二批捐出的計算系統依然基於上述硬件平台，算力5PFlops，同時將支持的醫療、科研機構增加到21家，包括：劍橋大學、卡耐基梅隆大學、GENCI/法國國家高性能計算機構、哈佛兒童醫院、斯圖加特大學高性能計算中心(HLRS)、麻省理工學院、紐約大學、印度CSIR第四範式研究所、萊布尼茲超級計算中心(LRZ) 、賴斯大學、德克薩斯州立大學斯坦福醫學院、不列顛哥倫比亞大學、德克薩斯大學奧斯汀分校、加州大學洛杉磯分校、阿肯色大學、多倫多大學、特倫托大學、佛蒙特大學、佛蒙特大學、弗吉尼亞聯邦大學、華盛頓大學。這一次，AMD沒有透露捐贈計算資源的價值，可能是不想用單純地金錢來衡量吧。作者：上方文Q來源：快科技

NVIDIA安培有對手了AMD官宣第一款CDNA架構計算卡

今年3月份，AMD宣布了全新的CDNA架構，面向高性能計算、AI人工智能，而不再兼顧遊戲和圖形應用，這部分全交給RDNA架構，雙管齊下。這和NVIDIA的思路有些類似，比如後者的伏特架構、圖靈架構，就分別專供計算和遊戲。架構宣布三個多月了，產品何時誕生呢？AMD CTO Mark Papermaster今天公開確認，CDNA架構的首款產品型號為Radeon Instinct MI100，將在今年下半年如期發布，面向高性能計算市場。他沒有透露更多細節，不過，曝料顯示它核心頻率1091-1334MHz，搭配32GB HBM2顯存，可選三星或者SK海力士，頻率1GHz，整卡功耗僅僅200W。當然，這應該只是工程樣卡的規格，頻率比較保守，但也能看出能效比會很可觀。根據AMD此前的介紹，CDNA架構專門針對GPU計算進行優化，專注於計算/張量操作性能，從而加速機器學習、高性能計算，而且可以通過Infinity Fabric互連總線靈活設計性能，並支持增強的企業級RAS特性、安全、虛擬化技術，還將提供更高的能效比，從而降低企業TCO成本。路線圖上，第一代CDNA架構產品採用7nm工藝，使用第二代Infinity Fabric互連總線架構，也就是現在7nm Zen 2架構里應用的，從而可以和與Zen架構的霄龍高效協同。再往後的第二代CDNA 2沒有明確具體工藝，只說是更先進的節點(Advanced Node)，而在技術上將會升級至第三代Infinity Fabric，並拓展支持百億億次計算(Exascale)，預計2022年推出相關產品。 CNDA架構計算卡下半年問世，看節點正好和Zen 3架構的第三代霄龍同步，堪稱絕配，同時也將與NVIDIA安培架構的新品同台競技。 618特惠活動匯總>>作者：上方文Q來源：快科技

AMD捐贈上億CPU/GPU抗擊新冠算力達7千萬億次

為抗擊新冠疫情，AMD在今年4月份宣布成立新冠肺炎高性能計算基金(COVID-19 HPC Fund)，為醫療研究機構提供對抗新冠肺炎以及其它疾病的算力資源支持，首批捐贈價值1500萬美元(約合人民幣1.06億元)的高性能計算系統，基於AMD EPYC霄龍處理器和AMD Radeon Instict計算卡打造。 AMD今天宣布，紐約大學(NYU)、麻省理工(MIT)、萊斯大學已經首批接收AMD捐贈的高性能計算系統，同時捐贈位於Penguin Computing的一套基於霄龍處理器、Radeon Instinct計算卡的雲系統，為全球科研工作者提供遠程計算能力。以上捐贈系統的計算性能合計達7PFlops，也就是7千萬億次浮點計算每秒，相當於全球第一超算「Summit」計算能力的接近二十分之一。捐贈系統的計算節點是技嘉G290-Z21，由一顆48核心的霄龍7642處理器、八塊Radeon Instinct MI50計算卡組成，管理節點則是技嘉R182-291，包含兩顆16核心的霄龍7302處理器，還採用了NVIDIA Mellanox HDR200 InfiniBand千兆網絡方案。另外，位於美國勞倫斯利弗莫爾國家實驗室的Corona超級計算機也正在對新冠病毒進行分子建模研究，使用AMD提供的技術資源，峰值性能翻了一番。作者：上方文Q來源：快科技

AMD下代計算卡配備7680個流處理器兩倍於遊戲卡Radeon VII

3月初，AMD宣布了全新的CDNA GPU架構，專為數據中心計算進行優化，和遊戲卡上的RDNA架構分道揚鑣。現在，CDNA架構的第一款產品看起來不遠了。其實在2月初的時候，我們就聽說過一款新的計算卡Radeon Instinct MI100，核心代號Arcturus(大角星)，大概率配備128個計算單元、8196個流處理器，搭配32GB HBM2顯存，核心加速頻率1334MHz，SoC頻率1091MHz，顯存頻率1000MHz，熱設計功耗僅為200W。現在，著名曝料推主@_rogame發現了一款Arcturus計算卡的測試樣品，擁有120個計算單元，也就是7680個流處理器，核心加速頻率878MHz，SoC頻率750MHz，顯存頻率1200MHz。 Arcturus的具體架構暫時不詳，但沒有理由不是最新的RDNA，這時候不可能再去折騰老舊的Vega，再說當時肯定也沒設計這麼大規模的芯片。 120個單元、7680個流處理器，已經是7nm Radeon VII遊戲卡的整整兩倍，相比於14nm RX Vega 64也多了將近九成，而按照AMD GPU的設計規律，完整版應該是128個單元、8096個流處理器才更符合邏輯，畢竟現在的只是測試樣品，不完整也是正常的。同時，更低的頻率自然也是樣品的緣故，但奇怪的是顯存頻率反而更高了。 CDNA、RDNA架構雖然已經走上兩條路，但底層架構肯定也是有很多相通之處的，自然也可以期待未來的Radeon遊戲卡在核心規模上也會大大提升，翻個一倍什麼的。作者：上方文Q來源：快科技

微軟虛擬機首次引入AMD Radeon Instinct計算卡搭檔32核霄龍

微軟Xbox Series X、索尼PS5都採用了定製的AMD RDNA2 GPU架構，搭檔定製的AMD Zen2架構，成為AMD的又一個高光時刻，而在其他領域，AMD CPU/GPU也是頻頻獲得青睞。比如服務器數據中心市場上，AMD EPYC霄龍經過兩代發展，無論技術規格還是產業生態都越發成熟，應用場景越來越豐富，連帶着Radeon Instinct計算卡也跟着沾光不少。微軟Azure Dav4、Eav4、HBv2、Lsv2等眾多實例早已引入AMD霄龍處理器，而最新的Azure NVv4虛擬機除了配備AMD 32核心的二代霄龍，還首次採納了Radeon Instinct MI25計算卡。 Radeon Instinct MI25其實是AMD的上代產品了，採用的還是14nm Vega核心，最多64個計算單元、4096個流處理器、16GB HBM2顯存。而採用7nm Vega核心的新一代Radeon Instinct MI50/MI60也早已發布，同樣有最多64個計算單元，HBM2顯存容量則是最多32GB，帶寬達到1TB/s，能效更高。不清楚微軟這里為何選擇了上代產品，可能是成本更低吧。微軟NVv4虛擬機提供四種配置可選，頂配提供32個CPU核心、一個完整GPU核心和16GB顯存、112GB記憶體、雙屏4K或四屏1080p，而最低配是4個CPU核心、1/8個GPU核心和2GB顯存、14GB記憶體、單屏1080p。該服務將於4月1日起在美國中南部、美國東部、歐洲西部地區上線，後續會推向更多地區。作者：上方文Q來源：快科技

AMD Instinct MI100 BIOS流出規模翻倍、功耗驟降1/3

今天早些時候，我們聽說了AMD新款服務器加速卡Radeon Instinct MI100的消息，核心規模更大，但是功耗更低，相當不可思議。現在，TechPowerUp發現已經有人上傳了該卡的BIOS，也進一步確認了其規格。 BIOS文件信息顯示，MI100的設備ID字符串為「0x1002 0x738C「，確認來自AMD、代號為Arcturus(大角星)，BIOS文件版本為「000.000.000.000.013547」，今年1月23日新鮮出爐。結合文件內的字符串「MI100 D34303 A1 XL 200W 32GB 1000M」以及相關信息可知，MI100的顯存容量為32GB HBM2，可選三星(KHA884901X)、SK海力士(H5VR64ESA8H)的顆粒，頻率為1GHz，符合三星、SK海力士的官方規范，如果繼續搭配4096-bit位寬的話帶寬就是1TB/s。 200W則是功耗，無疑是相當的低，要知道64個計算單元、4096個流處理器的現有計算卡Radeon Instinct MI60的功耗可是300W，同樣規模的遊戲卡RX Vega 64也是大約300W(水冷版更是345W)，而這款MI100基本可以確定核心規模翻番到128個計算單元、8196個流處理器。瀏覽BIOS文件還可以發現多個頻率數值，比如1334MHz、1091MHz、1000MHz、1200MHz、1403MHz，根據AMD顯卡工程樣品的規律可知，1334MHz是核心最高頻率，1091MHz則是基礎頻率，1000MHz正好對應顯存頻率。這樣的核心頻率無疑是相當低的，要知道MI50可是能加速到1725MHz(MI60未公布)，但即便如此，在核心規模增大1倍、核心頻率降低大約1/4的情況下，能將功耗降低1/3，無疑說明Arcturus核心的能效是極高的，在架構方面重新設計的同時，說不定也升級到了7nm+工藝呢。 Arcturus核心的具體架構暫不確定，但極大概率是基於Vega的升級版，而不是類似Navi，畢竟後者定位遊戲卡，而且從代號命名上，Arcturus、Vega都是恆星，Navi則是星座。作者：上方文Q來源：快科技

AMD Radeon Instinct MI100加速卡曝光 32GB顯存、功耗僅200W

曾經有傳聞稱，AMD Navi核心的下一代將是「Arcturus「(大角星)，但後來得到AMD官方人士證實，這其實是一款針對服務器專業加速卡產品的代號，而不會出現在消費級遊戲卡中。大角星也叫牧夫座α星，是牧夫座(Bootes)中最亮的星，也是北天夜空中第一亮的恆星，亮度全天排名第四，和AMD此前用過的代號Vega(織女星)、Polaris(北極星)同屬一類。今天，硬件曝料專家@KOMACHI_ENSAKA 給出消息稱，發現了一款新的AMD專業加速卡「Radeon Instinct MI100」，應該就是Arcturus核心，核心基礎頻率1090MHz、加速頻率1333MHz，搭載32GB HBM2顯存，而且整卡功耗只有100W。 AMD Radeon Instinct系列產品線中，Vega架構的現有兩款型號MI50、MI60，均採用7nm工藝，分別有4096個、3840個流處理器，分別搭配16/32GB、32GB HBM2顯存，頻率1GHz、位寬4096-bit、帶寬1TB/s，整卡功耗300W。 Arcturus核心的具體規格暫時沒有確切資料，據說仍然是7nm工藝和Vega架構，不排除升級到7nm+，而核心規模將翻番達到8192個流處理器(128個單元)，同時顯存頻率1GHz或者1.2GHz，還是4096-bit位寬的話帶寬就是1.2TB/s。核心規模翻一番，而功耗降低了三分之一，Arcturus核心的效率可謂相當驚人，當然代價就是頻率大大降低，MI50的加速頻率可是能達到1725MHz，但即便如此，新核心新卡的性能肯定也會有極大幅度的提升，值得期待。作者：上方文Q來源：快科技

RDNA已發但Vega還要繼續：AMD提交新Vega GPU的Linux驅動

AMD終於在多年後推出了全新的RDNA架構，全新的GPU架構讓AMD顯卡在遊戲性能上有了很大的提升，不過AMD現在還是在消費級顯卡領域使用。對於工作站等領域，AMD准備依然使用Vega架構，根據Phoronix的報導，AMD提交了有關新的AMD GFX908的AMDGPU LLVM著色器編譯器代碼，而且這指向一個新的Vega GPU。圖片來自AMD 在去年Phoronix網站發現了一個「Arcturus」的代號，不過現在發現這個代號並不是指之前發布的Navi顯卡，而是基於Vega 20的新Vega GPU。在近日也發現了AMD提交了一個「GFX 908」的AMDGPU LLVM著色器編譯器代碼，而且提交的代碼很多，包括了MFMA支持，調度器支持、危險識別等多項功能的代碼。同時這些代碼也是基於已知和成熟的GFX9/Vega開源驅動棧支持，因此可以了解這些新代碼的提交內容。所以有理由相信「Arcturus」應該是這個未發布的Vega GPU。同時在深入了解代碼後發現這是一個沒有3D支持的純計算加速器。而且這份代碼中還出現的VCN 2.5（Vedio Core Next），有關Arcturus GPU僅有3個設備ID被添加在代碼中。而且根據報導稱AMD依舊將在工作站及通用計算領域繼續使用Vega+HBM，因為在專業領域這個組合依舊能夠勝任。由於是針對專業領域的設備，所以應該是屬於Radeon Instinct產品線的，而且由於近期代碼提交量比較大，所以有可能會在不久後的SIGGRAPH會議中公布。從這次提交上看AMD還沒有放棄Vega架構，接下來看AMD還要如何改進這個架構了。 ...

Tag: Radeon Instinct