CDNA | 搜資訊

8倍性能飆升 AMD公布終極APU：Zen4找到搭檔

除了在桌面和筆記本消費級領域發展APU，AMD還計劃在高性能計算領域打造融合式產品。今天，AMD公布了CDNA計算架構Instinct加速計算卡的路線圖，7nm CDNA MI100系列、6nm CDNA2 MI300系列之後，下一站的發展也很自然：架構升級為CDNA3，工藝升級為5nm，型號升級為MI300系列。 CDNA2開始使用雙芯封裝，CDNA3更進一步，通過3D小晶片立體封裝，統一集成CPU、GPU、緩存、HBM記憶體等。 CPU採用Zen4架構，和下一代霄龍7004系列同宗同源，但核心數應該沒有那麼多。 GPU採用RDNA3架構，加入新的數學格式。緩存是下一代Infinity Cache無限緩存，擔起來不再集成於GPU內部，而是獨立封裝，有些類似Intel計算卡的Rambo Cache。 HBM記憶體是高性能計算的常客了，據說可以做多最多八組。 CDNA2架構已經實現CPU、GPU一致性記憶體架構，CDNA3則會升級為APU統一記憶體架構，通過第四代Infinity Fabric高速總線，CPU、GPU均可直接訪問HBM記憶體，不需要再重復拷貝、轉移數據。這是AMD APU誕生之初就提出的理念，除了提升性能、降低延遲，還可以簡化設計、封裝、開發，降低總體成本。 AMD宣稱，MI300系列相比於MI250X，AI訓練性能提升預計可以超過8倍，AI能效則提升超過5倍。 CDNA3 MI300系列計算卡將在2023年推出。有趣的是，，稱之為XPU，代號「Falcon Shore」，融合至強x86 CPU核心、Xe GPU核心，應該也有HBM記憶體和獨立緩存，號稱能效、計算密度、記憶體容量與密度都能被現在提升5倍以上。但是看路線圖，Intel可能要到2025年才會推出產品。來源：快科技

128GB顯存史無前例 AMD確認CDNA2架構加速卡年底問世

AMD的GPU架構去年也開始將遊戲與計算分開了，顯卡現在用的是RDNA2，明年升級RDNA3，加速卡用的是CDNA，第一代是Instinct MI100系列，AMD確認今年底發布CDNA2架構加速卡。在8月份更新的AMD投資者PPT上，AMD更新了加速卡部分的說明，雖然路線圖沒有變化，但是AMD在CDNA2架構加速卡上多了說明，確認今年底前發布。 CDNA2架構的加速卡是Instinct MI200系列，AMD前不久提到開始出貨，應該是已經給部分客戶出樣了，今年底之前會正式發布。 CDNA2的設計和RDNA3有一點相通，那就是都會採用MCM多芯封裝方式，內部同時集成兩個Die，核心規模輕松翻番，預計共有16384個流處理器核心，MI100則只有7680個。顯存方面，MI100配備了32GB HBM2，帶寬高達1.23TB/，MI200則會猛增到128GB，創下全新紀錄，而且升級為新一代的HBM2e，帶寬能突破2TB/。至於性能，不算架構上的改進，僅僅是MCM雙芯封裝，1.5萬個流處理器單元的性能就差不多翻倍了，MI100的FMA64/FP64雙精度性能為11.5TFlops，FMA32/FP32單精度為23.1TFlops，MI200預計至少在20TFLOPS雙精度/40TFLOPS單精度，性能差不多是NVIDIA A100的2倍了，至少紙面上如此。來源：快科技

AMD官方確認：下一代計算卡採用雙芯封裝

在最近的一次Linux內核更新中，AMD工程師終於確認，基於下一代CDNA2架構的加速計算卡，將會採用雙芯封裝。去年11月，AMD發布了頂級加速計算卡Instinct MI100，首次採用針對HPC高性能計算、AI人工智慧全新設計的CDNA架構，和遊戲向的RDNA架構截然不同。 AMD CEO蘇姿豐博士此前接受媒體采訪時確認，會在今年晚些時候推出下一代CDNA架構，自然就是CDNA2。 CDNA2架構的新一代預計叫做Instinct MI200，已經多次曝光，開發代號「Aldebaran」(畢宿五)，將首次引入MCM多晶片封裝設計，有點類似銳龍、霄龍的小晶片封裝，流處理器可以輕松翻番到1.5萬個。在最新的Linux更新中，AMD工程師寫道，Aldebaran會有兩個內核(Die)，但只有主內核能獲取、顯示(整體)功耗數據，另一個內核的功耗值會顯示為零，另外功耗限制也不能通過第二個內核進行設置。但不清楚同時集成的HBM2顯存的功耗是同時由主內核控制，還是走新的I/O模塊。至於兩個內核之間如何連接、通信，目前也不確定，可能會是類似銳龍、霄龍的Infinity Fabric高速總線通道。此外，Intel Xe HP/HPC、NVIDIA Hopper計算卡，也都有望採用MCM多芯封裝。至於遊戲級顯卡何時上雙芯封裝，可能要等到RDNA3架構了。來源：快科技

蘇媽確認AMD新卡：下一代CDNA計算架構、多芯封裝

AMD CEO蘇姿豐博士近日接受媒體采訪時確認，會在今年晚些時候推出下一代CDNA架構，自然就是CDNA2。去年11月，AMD發布了頂級加速計算卡，首次採用針對HPC高性能計算、AI人工智慧全新設計的CDNA架構，和遊戲向的RDNA架構截然不同。它採用台積電7nm工藝製造，集成120個計算單元、7680個流處理器，專門加入Matrix Core(矩陣核心)用於加速HPC、AI運算，FP64雙精度浮點性能首次突破10TFlops(也就是每秒1億億次)，另外整合4096-bit 32GB HBM2顯存，支持PCIe 4.0 x16和八卡並行，整卡功耗300W。 CDNA2架構新品預計叫做，已經多次曝光，開發代號「Aldebaran」(畢宿五)，將首次引入MCM多晶片封裝設計，有點類似銳龍、霄龍的小晶片封裝，流處理器可以因此輕松翻番到1.5萬個。 MI200已確定進入HPE Cray EX超級計算機，未來還會搭配新一代定製版「Trento」霄龍處理器，共同用於AMD為美國國防部打造的百億億次超級計算機「Frontier」。來源：快科技

AMD Instinct MI200計算卡首曝第一次用上MCM多芯封裝

去年11月份，AMD發布了，首次採用，和遊戲向的RDNA架構截然不同。現在，第二代的MI200也首次浮出了水面。 MI100採用台積電7nm工藝製造，集成120個計算單元、7680個流處理器，並專門加入Matrix Core(矩陣核心)用於加速HPC、AI運算，還整合了4096-bit 32GB HBM2顯存，支持PCIe 4.0 x16和八卡並行，整卡功耗300W。它的FP64雙精度浮點性能首次突破10TFlops(也就是每秒1億億次)，混合精度和FP16半精度的AI性能提升接近7倍。根據最新消息，MI200將會採用下一代CNDA架構，並首次引入MCM多芯片封裝，看這樣子翻番到1.5萬個流處理器問題不大。本次曝光的MI200將用於HPE Cray EX超級計算機，執行加速計算，產品名被描述為「MCM Special FIO Accelerator「，其中FIO代表「Factory Installation Option」(廠商安裝選項)，此外還有OAM形態，代表開源加速卡。不過，MI200的具體規格目前一無所知，除了猜測流處理器可能因為MCM封裝而翻一番，還有望加入FullRate640ps指令集、支持全速率FP64浮點計算。 MI200預計今年晚些時候發布，未來將搭配代號「Trento「(特倫托)的霄龍處理器，共同用於AMD為美國國防部打造的百億億次超級計算機「Frontier」。 Trento並未出現在AMD霄龍演進路線圖上，其實是即將發布的第三代「Milan」(米蘭)的定製版，專為超算優化，可能會提前支持PCIe 5.0。作者：上方文Q來源：快科技

AMD發布全新架構計算卡Instinct MI100 AI性能暴漲7倍

在遊戲領域，基於RDNA 2架構的Radeon RX 6000系列顯卡已經開始閃亮登場。在高性能計算領域，基於CDNA全新架構的新一代計算卡Instinct MI100也終於登台了！ AMD Radeon Instinct系列計算卡已經發展了多款型號，但是在此之前，AMD GPU一直都是一套架構打天下，遊戲、計算不分家，自然不利於不同方向的深度優化。今年3月份，AMD宣布了，從此與RDNA遊戲架構分道揚鑣。二者雖然還有一些共通點，但在設計、優化上已經涇渭分明，在各自領域的性能、能效也更高。而在產品命名方面，AMD計算卡也放棄了Radeon字樣，不再稱呼Radeon Instinct，而是簡單地叫做Instinct。 AMD Instinct可以說是專為HPC高性能計算而生的，志在推動超級計算機進入百億億次計算時代(ExaScale)。回顧歷史，21世紀的前10個年頭屬於萬億次計算時代(TeraScale)，完全依賴CPU運算；最近10個年頭屬於千萬億次計算時代(PetaScale)，GPU加速運算展露鋒芒。不過近兩年，傳統的GPU加速計算也已經初顯疲態，性能增強曲線也緩了下來，必須實現全新的突破。 CDNA架構和MI100加速卡就是這樣的突破性產品，也是AMD開拓新未來的新旗艦。 AMD Instinct MI100是其迄今為止性能最高的HPC GPU，FP64雙精度浮點性能首次突破10TFlops(也就是每秒1億億次)，並在架構設計上專門加入了Matrix Core(矩陣核心)，用於加速HPC、AI運算，號稱在混合精度和FP16半精度的AI負載上，性能提升接近7倍。另外，新卡的外觀設計也令人眼前一亮，更有質感的拉絲外殼，深灰色調，非常沉穩大氣。它集成多達120個計算單元、7680個流處理器，搭配32GB HBM2，帶寬高達1.23TB/，同時支持PCIe 4.0，集成Infinity Fabric x16高速互聯通道，峰值帶寬達276GB/(相當於PCIe 4.0 x16的大約4倍)，而整卡功耗控制在300W。計算性能方面，FMA64/FP64雙精度為11.5TFlops(每秒1.15億億次)，FMA32/FP32單精度為23.1TFlops(每秒2.31億億次)，FP32 Matrix單精度矩陣計算為46.1TFlops(每秒4.61億億次)，FP16 Matrix半精度矩陣計算為184.6TFlops(每秒18.46億億次)，Bfloat16浮點為92.3TFlops(每秒9.23億億次)。這些數字是什麼概念呢？就拿11.5TFlops的雙精度性能來說，2000年排名世界第一的超級計算機ASCI White，這個指標也不過12.3TFlops，但卻是付出了600萬瓦的功耗、106噸的身材才獲得的，Instinct MI100卻只要300瓦、1.16千克。換言之，如今的一塊卡，就相當於20年前的一個大規模計算集群！ AMD上代計算卡Instinct...

首款基於CDNA架構的Radeon Instinct MI100可能有120組CU

AMD在今年下半年規劃了不少圖形方面的重要產品，RDNA 2架構的遊戲顯卡是一個重頭戲，而首款基於CDNA架構的Radeon Instinct MI100加速卡就是另外一款重要產品了。最近有靈通消息的AdoredTV在他們的視頻中放出了不少關於這款MI100加速卡的消息，比如說它有120組CU，比如說它的FP32吞吐量可以達到42TFLOPS。圖片來自於VideoCardz，下同在今年的早些時候，MI100加速卡的部分規格通過一份顯卡BIOS泄漏了出來，當時顯示它將會配備32GB的HBM2顯存，現在更為具體的是，它將具備ECC功能。另外，120組CU顯示出這塊加速卡的龐大規模。AdoredTV稱，這款加速卡的FP32性能將達到42TFLOPS之高，不過FP64性能並不是完整的二分之一，而是在四分之一左右。 42TFLOPS的吞吐量比起NVIDIA的A100加速卡要高出一倍左右，後者的規模已經不小，但在純單精度運算方面只提供了19.5TFLOPS的運算量，不過需要注意的是，A100上有很大一部分面積是被提供強大AI算力的Tensor Cores給占用了，而MI100上還不知道會不會有類似的單元。但MI100要達成這個吞吐量，就需要7680個流處理器跑在2.75GHz的頻率上，因此這個數字大機率是錯誤的。 MI100加速卡面向數據中心市場，單卡功耗約為300W，同時它的CDNA架構提供了能與其他MI100加速卡直連的IF總線，也兼容於自家的EPYC處理器，當然用隔壁的Xeon的時候也能做到與其他MI100加速卡直連。 MI100預計將會在今年年末正式發布，屆時AMD在加速卡市場上可能會獲得一定的競爭力。 ...

NVIDIA安培有對手了AMD官宣第一款CDNA架構計算卡

今年3月份，AMD宣布了全新的CDNA架構，面向高性能計算、AI人工智能，而不再兼顧遊戲和圖形應用，這部分全交給RDNA架構，雙管齊下。這和NVIDIA的思路有些類似，比如後者的伏特架構、圖靈架構，就分別專供計算和遊戲。架構宣布三個多月了，產品何時誕生呢？AMD CTO Mark Papermaster今天公開確認，CDNA架構的首款產品型號為Radeon Instinct MI100，將在今年下半年如期發布，面向高性能計算市場。他沒有透露更多細節，不過，曝料顯示它核心頻率1091-1334MHz，搭配32GB HBM2顯存，可選三星或者SK海力士，頻率1GHz，整卡功耗僅僅200W。當然，這應該只是工程樣卡的規格，頻率比較保守，但也能看出能效比會很可觀。根據AMD此前的介紹，CDNA架構專門針對GPU計算進行優化，專注於計算/張量操作性能，從而加速機器學習、高性能計算，而且可以通過Infinity Fabric互連總線靈活設計性能，並支持增強的企業級RAS特性、安全、虛擬化技術，還將提供更高的能效比，從而降低企業TCO成本。路線圖上，第一代CDNA架構產品採用7nm工藝，使用第二代Infinity Fabric互連總線架構，也就是現在7nm Zen 2架構里應用的，從而可以和與Zen架構的霄龍高效協同。再往後的第二代CDNA 2沒有明確具體工藝，只說是更先進的節點(Advanced Node)，而在技術上將會升級至第三代Infinity Fabric，並拓展支持百億億次計算(Exascale)，預計2022年推出相關產品。 CNDA架構計算卡下半年問世，看節點正好和Zen 3架構的第三代霄龍同步，堪稱絕配，同時也將與NVIDIA安培架構的新品同台競技。 618特惠活動匯總>>作者：上方文Q來源：快科技

AMD下代計算卡配備7680個流處理器兩倍於遊戲卡Radeon VII

3月初，AMD宣布了全新的CDNA GPU架構，專為數據中心計算進行優化，和遊戲卡上的RDNA架構分道揚鑣。現在，CDNA架構的第一款產品看起來不遠了。其實在2月初的時候，我們就聽說過一款新的計算卡Radeon Instinct MI100，核心代號Arcturus(大角星)，大概率配備128個計算單元、8196個流處理器，搭配32GB HBM2顯存，核心加速頻率1334MHz，SoC頻率1091MHz，顯存頻率1000MHz，熱設計功耗僅為200W。現在，著名曝料推主@_rogame發現了一款Arcturus計算卡的測試樣品，擁有120個計算單元，也就是7680個流處理器，核心加速頻率878MHz，SoC頻率750MHz，顯存頻率1200MHz。 Arcturus的具體架構暫時不詳，但沒有理由不是最新的RDNA，這時候不可能再去折騰老舊的Vega，再說當時肯定也沒設計這麼大規模的芯片。 120個單元、7680個流處理器，已經是7nm Radeon VII遊戲卡的整整兩倍，相比於14nm RX Vega 64也多了將近九成，而按照AMD GPU的設計規律，完整版應該是128個單元、8096個流處理器才更符合邏輯，畢竟現在的只是測試樣品，不完整也是正常的。同時，更低的頻率自然也是樣品的緣故，但奇怪的是顯存頻率反而更高了。 CDNA、RDNA架構雖然已經走上兩條路，但底層架構肯定也是有很多相通之處的，自然也可以期待未來的Radeon遊戲卡在核心規模上也會大大提升，翻個一倍什麼的。作者：上方文Q來源：快科技

AMD宣布全新CDNA GPU架構數據中心計算專用

AMD CPU架構這幾年發展的順風順水，Zen、Zen+、Zen 2、Zen 3、Zen 4每一代都表現驚艷，GPU架構就相對暗淡一些了：GCN已經服役多年廉頗老矣，RDNA閃亮登場但依然無法和對手全面抗衡。而除了打遊戲、渲染圖形，GPU的另一項核心任務就是計算，尤其是隨着人工智能、神經網絡、深度學習對於高性能計算的需求越來越苛刻，GPU也必須快速跟上。這方面，NVIDIA無疑是相當成功的，從架構到技術、從產品到市場都形勢良好，特別是架構上有專門的針對性設計，Tesla V100所用的「Volta「(伏特)就是最典型的。 AMD雖然也有很多計算卡產品，尤其是Radeon Instinct系列也頗有斬獲，甚至已經躋身兩台超級計算機，但它們用的Vega核心本質上還是一顆遊戲用GPU。今天，AMD官方宣布了全新GPU架構「CDNA」，專門針對GPU計算進行優化，由此和遊戲優化的RDNA架構分道揚鑣。根據介紹，CDNA架構會專注於計算/張量操作性能，從而加速機器學習、高性能計算，而且可以通過Infinity Fabric互連總線靈活設計性能，並支持增強的企業級RAS特性、安全、虛擬化技術。此外，它還將提供更高的能效比，從而降低企業TCO成本。至於更具體的架構細節，AMD將在未來陸續公布。當然了，CDNA架構與專門針對遊戲場景設計的的RDNA架構關系不大，交叉和相通之處甚少，事實上它與GCN架構的關系更密切一些。 AMD GPU計算架構路線圖上，就將7nm GCN列為第一代數據中心GPU，產品包括Radeon Instinct MI50/MI60。 CDNA架構看時間預計會在今年底到明年初誕生，繼續採用7nm工藝，將會使用第二代Infinity Fabric互連總線架構，也就是現在7nm Zen 2架構里應用的，從而可以和與Zen架構的霄龍高效協同。再往後的第二代CDNA 2沒有明確具體工藝，只說是更先進的節點(Advanced Node)，有可能是7nm EUV也有可能是5nm，而在技術上將會升級至第三代Infinity Fabric，並拓展支持百億億次計算(Exascale)，預計2022年推出相關產品。對於第三代Infinity Fabric，AMD也透露了一些高級特性，包括更高帶寬、更低延遲的CPU-GPU互連，GPU-GPU記憶體一體性，提升一致性性能和簡化編程，等等。作者：上方文Q來源：快科技

AMD 2020年財務分析日：NAVI 2x現身，RDNA 2能效比再高50%，CDNA披露

AMD於今日早些時候舉辦了他們今年的財務分析日（Financial Analyst Day）活動，活動上面AMD高層向參與者介紹了他們在去年的成績，同時披露了很多未來兩到三年內他們在各級細分市場中的詳細規劃，包括桌面CPU、GPU市場，數據中心CPU、GPU市場，都有詳盡的方案。本文介紹的是他們在未來兩到三年中在GPU市場上面的規劃，主要有RDNA 2、RDNA 3以及新的計算卡架構——CDNA。首先來看桌面GPU，也就是遊戲顯卡架構上面的規劃。今年AMD將會推出RDNA架構的升級版——RDNA 2架構，主要的改進點有三個：提高每瓦效能；加入光線追蹤支持；加入可變速率著色支持。對於主要性能提升點的每瓦效能，AMD將會在微架構層面上著重進行優化，參照Zen到Zen 2的改動，RDNA 2將會在IPC、電路設計和時鍾頻率上面有提高。 AMD預計，相對於RDNA，RDNA 2架構將會繼續提升50%的每瓦效能。 AMD還簡單展示了一下在RDNA 2晶片上面跑DXR 1.1的效果。另外，RDNA 2晶片的代號也揭曉了，就是NAVI 2x，所以之前的Big Navi晶片實際上就將會採用RDNA 2架構而不是RDNA。另外，RDNA 3架構也已經在規劃之中了，它將會使用更好的製程工藝。除了遊戲顯卡市場，AMD還新規劃了針對計算市場的新架構——CDNA。很明顯，一邊偏遊戲，以提高幀數為目的；另一邊偏計算，以提高運算能力為目的。 CDNA架構將會為機器學習/高性能計算優化，另外還將加強它的虛擬化特性。最為重要的是，它引入了Infinity Architecture為自己贏得了強大的可擴展性。全新的CDNA架構將會支持AMD未來的Infinity互聯架構，這是AMD在他們目前於CPU中使用的Infinity Fabric總線的進化版本，它不僅僅是一個CPU內部用來互聯的總線，更可以用來連接GPU。 Infinity Architecture是AMD用來解決異構數據一致性的互聯方案，它的作用有提高互聯帶寬、降低異構通信延遲等，同時還可以解決異構間數據不一致的問題，降低編程難度。目前AMD已經規劃好了CDNA和CDNA 2兩個架構，其中CDNA將會支持第二代Infinity Architecture，而CDNA 2在這方面的支持將會升級到第三代。初代RDNA架構的表現已經讓我們眼前一亮了，RDNA 2繼續提高50%每瓦性能的目標設定的還是比較高的，不知道在製程不變的情況下，AMD將對架構進行怎樣的調整來達成這個目標，我們拭目以待。而這次新提出的CDNA架構則是拉開了AMD在不同市場上應用不同架構的大幕，有如競爭對手之前做過的一樣，未來的圖形市場上面，根據不同需求細分架構這種做法會越來越常見。配合上表現相當好的EPYC處理器，AMD有望在計算市場上面收獲更大的份額。 ...

Tag: CDNA