高性能計算 Archives

單卡192GB記憶體 SK海力士全球首發12層HBM3

大家最早接觸HBM高帶寬記憶體，應該是AMD Fury系列顯卡，但其實這種記憶體放在遊戲顯卡上大材小用，更適合它的是高性能計算CPU與GPU，比如NVIDIA A100/H100、AMD Instinct MI200/MI300、Intel四代至強等等。作為HBM的開拓者，SK海力士宣布，已經全球率先研發出12層堆疊的HBM3記憶體，單顆容量就能達到24GB。 SK海力士在新品上使用了名為“高級批量回流模製底部填充”(MR-MUF)的技術，將多顆晶片放置在下層基板上，通過回流焊一次性粘合，同時使用用模塑料填充晶片之間或晶片與基板之間的空隙。同時還有經典的TSV矽穿孔技術，將單顆晶片的厚度減少了40％，從而在容量增加50％的情況下，保持整體厚度不變。 SK海力士已經向客戶提供24GB HBM3的樣品，但量產和供貨時間未公布。 NVIDIA H100、AMD Instinct MI250X加速卡分別用了六顆16GB HBM3、八顆16GB HBM2e，物理總容量一個96GB、一個128GB。如果換成新的單顆24GB，一張卡上就能分別有144GB、192GB之多。 NVIDIA H100 AMD Instinct MI250X 來源：快科技

450W功耗 Intel頂級GPU突然生變只為賣給中國？

快科技4月11日消息，Intel在去年11月份發布了，包括三個不同型號，但是現在，Intel突然取消了其中的一款。 Intel GPU Max系列是Intel針對高性能計算加速設計的第一款GPU產品，基於全新的Xe HPC架構，多工藝、多晶片整合，具備5種不同工藝，電晶體數量超過1000億個，模塊多達47個。頂級型號Max 1550具備滿血的128個Xe-HPC核心、128個光追核心、64MB一級緩存、408MB二級緩存、128GB HBM高帶寬記憶體，最高功耗600W，最多八卡並聯。本次取消的是次級型號Max 1350，112核心，96GB記憶體，450W功耗。它下邊還有個Max 1100，56核心，48GB記憶體，300W功耗，最多四卡並聯。 Intel表示，Max 1550原本是針對液冷設計的，但已經成功進行風冷部署，這就和Max 1350的定位產生了衝突，因此將其取消，改為再推出一款新的Max 1450，液冷、風冷均可，今年晚些時候正式推出。 Intel沒有透露Max 1450的具體規格，但有趣的是，Intel特別提到它將會降低IO帶寬。這不由得讓我們想起美國對華禁售NVIDIA A100/HH100這樣的高性能GPU之後，出現了削減帶寬的版本A800、H800，可以正常賣給中國。難道，Intel是為中國市場特意准備的Max 1450？另外值得一提的是，Intel原計劃在今年推出下一代高性能GPU Rialto Bridge，2024年再發布全新XPU Falcon Shores，同時集成x86 CPU、Xe GPU，但最近決定取消Rialto Bridge，，首次集成CPU、GPU，5nm工藝，1460億個電晶體，24個Zen4 CPU核心，未知數量CDNA3 GPU核心，8192-bit 128GB...

華為之後 NVIDIA又痛失一家中國大客戶世界第三被叫停

這些年，NVIDIA利用其加速計算卡、CUDA生態，在高性能計算領域混得風生水起，但因為美國制裁，A100、H100這樣先進產品，已經無法賣給中國客戶，比如之前的華為，比如新近被美國加入“實體清單”的浪潮。在摩根史坦利科技、媒體和電信會議上，NVIDIA CFO Colette Cress表示：“浪潮是我們的合作夥伴，這樣的夥伴幫助我們為終端客戶提供計算解決方案。在未來，我們不得不和其他夥伴合作，為亞太或其他地區的客戶提供解決方案。” 他強調，對於NVIDIA來說，最重要的是嚴格遵守法律和出口管制政策，因此需要其他合作夥伴提供幫助。換言之，NVIDIA等於承認無法再向浪潮提供A100、H100這樣的計算產品，而浪潮是世界第三大伺服器廠商，這對NVIDIA來說意味著巨額的損失。 NVIDIA雖然可以繼續尋找其他合作夥伴，但如此慘重的損失是短時間難以彌補的，而且就算其他夥伴的規模上來了，難免又會被美國高層盯上。根據政策，美國企業不得向中國高性能計算客戶出售算力超過100PFlops雙精度浮點性能、200PFlops單精度浮點性能，且體積小於1180立方米的方案。為了繞過限制，，主要是將NVLink互連總線帶寬削減三分之一降到400GB/，無法組建大規模的計算集群。來源：快科技

派若樂發布4U GPU伺服器：10塊NVIDIA顯卡、8000W電源

近期，ChatGPT所取得的技術突破引起學術界和產業界的熱烈討論，有專家提交的一份提案，建議建立大型科技企業+重點科研機構的產研協同創新模式，打造中國的“微軟+OpenAI”組合引領大模型技術攻關。在過去的兩年時間里，派若樂一直在布局AIoT解決方案，將自己定位為一個全面的人工智慧平台解決方案供應商。日前，派若樂推出了一款4U機架式高密度GPU伺服器“HPCStackRS680-G10i”，一款支持適用於人工智慧訓練端的GPU解決方案，從AI推理到訓練，讓AI成為可能。 HPCStackRS680-G10i高密度GPU伺服器主要功能有：採用兩顆Intel至強第三代金牌系列處理器，提供多達12條PCIe4.0擴展插槽，實現更高的帶寬，提升數據傳輸率。 GPU優化設計，支持10塊雙插槽主動式或被動式加速卡，均來自NVIDIA，但未披露具體型號。支持NVIDIANVLink網橋，可擴展性能以滿足視覺運算工作負載需求。多達24塊2.5英寸硬碟位，四塊冗餘2000W熱插拔電源，優化的節能散熱設計、獨立的CPU和GPU風道，為GPU和CPU提供更好的散熱，使熱量傳遞到周圍的空氣中，以提高能效和整體的節能。 2個Intel晶片千兆乙太網絡接口，支持OCP3.0接口網卡擴展，集成ASPEEDAST2600BMC顯示晶片。集成1個千兆AST2600BMC管理埠，支持IPMI2.0協議遠程管理，可激活高級管理功能，滿足數據中心大規模部署。在深度學習領域，應用程式需要更多與可擴展性並行工作的GPU功能。通過採用均衡負載模式，RS680-G10i實現了點對點功能，縮短了GPU卡之間的延遲，同時加快了計算時間。目前GPU高性能計算(HPC)已經滲透到社會的各個角落，基於派若樂技術有限公司的HPCStack商用級高性能計算（HPC）集群一體化解決方案能夠幫助企業、高等院校、科研機構等組織單位加快大量數據模型的處理並提高應用的解決質量與效率，可為用戶提供可靠、穩定的、強大的計算力。來源：快科技

Intel宣布全新高性能APU：三個5倍提升、沖向十萬億億次

Intel今天公布的新品消息實在太豐富，除了、、、，還有一款特殊的「Falcon Shores」(獵鷹海岸)。它基於x86至強處理器平台(插座接口兼容)，同時融入針對高性能計算的Xe HPC GPU，靈活配備核心數量，再結合下一代封裝、記憶體、IO技術，構成一個強大的「APU」。 Intel表示，這種靈活的架構可滿足所有超級計算負載需求，可為大型密集計算、AI訓練模型帶來巨大的性能、效率提升，並簡化GPU編程。具體來說，對比當今水平，能耗比可提升5倍，x86計算密度可提升5倍，記憶體容量與密度提升5倍。 Falcon Shores產品將於2024年出貨。它是Intel HPC-AI超級計算策略的一部分，也是面向2027年實現ZettaFLOS(十萬億億)超級計算機的主要步驟之一，這需要在目前百億億次計算的基礎上，未來五年內將計算性能提升1000倍。有消息稱，AMD也計劃在Zen4架構的霄龍處理器中，集成支持高性能計算的Instinct GPU，思路如出一轍。另外，Intel還宣布，針對百億億次計算的高性能計算GPU Ponte Vecchio將在今年晚些時候按計劃出貨，首批供給美國能源部的Aurora超級計算機。 Intel宣稱，面對復雜的金融服務工作負載，Ponte Vecchio達到了行業領先的性能標準，並展現出了優於市場領先解決方案2.6倍的性能表現。 Ponte Vecchio將是Intel Xe HPC高性能計算架構的第一款產品，，內部集成多達47個單元模塊(Tile)，包括計算單元、Rambo緩存單元、Foveros封裝單元、基礎單元、HBM單元、Xe鏈路單元、EMIB單元，等等。來源：快科技

高性能計算版DDR5標準發布：最高可達6400MT/s

DDR5記憶體正在走來，不過和歷代標準一樣，初始版本的規格不算太高，頻率只有4800MHz，再加上越來越高的延遲，我們都在期待更強的規格。今天，JEDEC組織正式發布了升級版的JESD79-5A DDR5 SDRAM記憶體標準規范，專門針對HPC高性能計算領域，包括更高的頻率和性能，以及各種穩定性、可靠性的增強。高性能計算版DDR5記憶體標準早在去年7月就發布了，編號JESD79-5，這次的升級版進一步擴展了傳輸速度，內核速度最高支持6400MT/，IO AC速度最高5600MT/，實際頻率最高為5600MHz，對比消費級的DDR5-4800提高了接近17％。同時，新標準還支持一系列可改進系統穩定性的行業標準技術，包括邊界糾錯、軟後期封裝修復(sPPR)撤銷與鎖定、記憶體內建自我測試後封裝修復(MBIST/mPPR)、適應性RFM、MR4擴展。 AMD、Intel、三星、美光、SK海力士都表達了對新標準的歡迎與支持。來源：快科技

Marvell ThunderX3處理器解析 96核心384線程、ARM芯片之王

長久以來，服務器、數據中心領域一直是x86 CPU架構的天下，但是隨着市場需求、應用負載的多元化，隨着雲計算、邊緣計算、高性能計算的不斷演進，RISC-V、ARM等架構也都迎來了新的爆發機遇，尤其是ARM，眾多巨頭紛紛參與，生態建設也是如火如荼。比如最近，亞馬遜就發布了ARM架構的64核心Graviton2，安晟培(Ampere)則推出了80核心的Altra。現在，Mavell(美滿電子)奉上了第三代ARM芯片「ThunderX3「。 Marvell的大名很多人可能不太熟悉，但這家歷史悠久的半導體企業其實隨時都在你身邊，比如機械硬盤主控，絕大部分都出自Marvell的手筆，SSD主控也有豐富的產品。 Marvell成立於1995年，總部位於美國加州聖克拉拉，在美國、以色列、印度、德國、中國都設有研發中心，全球員工超過5000人，全球專利超過1萬件，2020財年收入27億美元，核心業務覆蓋存儲、網絡、計算三大領域，特別是擁有超過15年的高性能多核心CPU研發經驗。 Mavell旗下擁有完整的CPU處理器產品線，包括Armada、Octeon TX、Octeon Fusion、ThunderX四大系列，尤其是已經悄然成為全球最大的ARM服務器處理器供應商，應用范圍、生態支持都獨步全球，累計出貨量已突破1億顆。 2017年，Marvell還以約60億美元的價格收購了美國無工廠半導體企業Cavium(凱為半導體)，進一步增強了ARM平台的設計能力。既然有了成熟的x86，為何要大力推廣ARM？它有什麼吸引整個行業的呢？ Marvell認為，在架構、工藝、性能、能效、生態等多個方面，ARM都展現出了更優秀的品質，雖然不會也不能全方位取代x86，但是在部分特定領域，尤其是雲計算、高性能計算等，已經明顯超越x86。架構方面，x86一直是一個架構打天下，從服務器數據中心到桌面筆記本消費級，都基於同一個架構衍生不同的產品，缺乏靈活性，尤其是在並行處理方面，而且規模越做越大，也導致成本、功耗越來越無法滿足需求。工藝方面，Intel已經失去了領導地位，至強系列至今還是14nm，AMD雖然走到了7nm，但又在架構上「取巧」使用chiplet多芯片誰家，導致記憶體帶寬、記憶體延遲明顯不足，ARM方面則跟着台積電一路走到了7nm，並即將進入5nm。性能和能效方面，Marvell認為ARM架構的單線程性能已經是一流水準，多線程和平台性能更是遙遙領先，記憶體帶寬、延遲同樣優秀，而且功耗低、能效高。生態方面，x86雖然歷史悠久，但負擔也很重，比如考慮各種歷史甚至是消費級兼容性，ARM則沒有過多拖累，架構直接為服務器優化而生。同時，軟硬件行業對ARM的支持也越來越豐富，比如Marvell ThunderX2已經被20多家終端客戶部署在大規模雲計算、高性能計算市場，包括微軟Azure、HPE、Cray、Atos、洛斯阿拉莫斯國家實驗室、桑迪亞國家實驗室、勞倫斯利弗莫爾國家實驗室、橡樹嶺國家實驗室、布里斯托大學、萊徹斯特大學等等。甚至，Intel的一些軟硬件技術同樣支持ARM平台，NVIDIA、AMD GPU同樣也支持。接下來說說具體產品。Marvell ThunderX系列嚴格遵循每兩年升級一代的路線圖，ThunerX2系列誕生於2018年，而在今天的主角ThunerX3之後，2022年還將看到ThunerX4，工藝也是一路升級，28nm、16nm、7nm…… ThunerX3採用台積電7nm DUV工藝製造，基於Marvell自主研發架構，指令集兼容ARM v8.3+，最多96個核心，而且繼續支持4線程，也就是最多384個線程，是上一代的整整三倍，而且支持雙路並行，此時單系統可提供128個核心、768個線程。同時，頻率方面基準最高2.4GHz，最高加速3.1GHz，比上代還提高了100MHz。新的內核集成四個128-bit Neon SIMD單元，就寬度而言等效於一個x86 AVX-512，從而大大提高了浮點性能。Intel至強最高端型號兩個，AMD霄龍則是每核心兩個256-bit SIMD單元，基本等效。記憶體支持八通道DDR4，頻率達3200MHz，並支持64條PCIe 4.0(16個控制器)，比上代PCIe 3.0更進一步而且增加了8條通道，未來還會隨着PCIe 5.0/6.0標準的演進而升級。當然了，企業級的RAS、虛擬化這些都是必不可少的元素。接下來說說性能，當然都是來自Marvell官方的數據，而且具體性能表現取決於特定的工作負載。綜合性能方面，ThunderX3對比上代IPC(每時鍾周期指令數)性能提升超過25％，基本可視為架構本身的進步幅度，而結合更高的運行頻率，單核心性能提升超過60％，再加上大大增加的核心數，整體性能提升可以超過3倍！對比x86雙雄，ThunderX3的優勢不在於絕對性能，而是更好的能效，相比於AMD Rome二代霄龍可高出30％，對比Intel二代可擴展至強更是領先多達1.2倍。 ThunderX3並不貪大求全，主攻市場只有兩個，一是雲計算，包括大數據、數據庫、流媒體、Web、搜索、存儲、移動應用開發、手遊等等，其高度並行、豐富I/O、超低延遲、ARM原生都是獨特優勢。性能方面，單核心四線程可以帶來可觀的性能提升，常見應用中最多可以提升達80％，特定負載下甚至能見到3-4倍的提升。對比AMD二代霄龍、Intel二代可擴展至強，ThunderX3在雲端也毫不示弱，所服務的領域內已經全面勝出，而且延遲更低，而且支持更多數量的虛擬機。第二個主攻方向就是高性能計算，包括政府部門、天氣預報、油氣勘探、計算機輔助工程、生物基因、電子設計自動化等，高記憶體帶寬、高能效、高並行性的特點可以說非常適合。對比兩家x86方案， ThunderX3在浮點、記憶體帶寬指標以及量子化學、計算流體動力學、計算化學、矢量物理等應用方面，都有着不俗的表現。對於ThunderX3的市場前景，Marvell也是非常積極樂觀，透露現在部署ThunderX2的超過20家客戶，都在准備升級ThunderX3，而後續的ThunderX4還會繼續帶來大幅度的提升。中間的是上代ThunderX2 作者：上方文Q來源：快科技

黃仁勛宣布 NVIDIA GPU為ARM超級計算加速

在最新的超級計算大會上，NVIDIA創始人兼CEO黃仁勛宣布了一套用於構建GPU加速ARM服務器的參考設計，從而大大擴展GPU加速對於超級計算機的支持。 ARM架構在智能手機、物聯網設備中隨處可見，早已成為全球最流行的處理器架構，黃仁勛更是預計ARM如今已經覆蓋1000多億台計算設備，未來幾年這個數字將超過1萬億。 NVIDIA GPU加速的ARM服務器參考設計包括硬件和軟件基礎模塊，得到了高性能計算和ARM生態系統主要成員的支持，幾乎所有能在高性能計算中運行的工作都應該能夠在任何CPU上運行，目前已有30個應用已經啟動並開始運行。比如，多家全球頂尖的超級計算中心已開始測試，包括美國橡樹嶺國家實驗室和桑迪亞國家實驗室、英國布里斯托大學、日本理化學研究所。同時，NVIDIA正在與ARM、Ampere、富士通、美滿電子、HPE及其旗下Cray等生態夥伴展開合作，許多高性能計算軟件公司已開始使用NVIDIA CUDA-X庫為ARM生態帶來基於GPU的管理和監控工具。今年早些時候，NVIDIA宣布CUDA-X軟件平台登陸ARM生態。根據此前的承諾，NVIDIA正在提供ARM兼容軟件開發套件的預覽版本，包含NVIDIA CUDA-X庫和加速計算開發工具。文章糾錯作者：上方文Q來源：快科技

Tag: 高性能計算