超級計算機 | 搜資訊

黃仁勛拋出2700W功耗的真核彈還有240TB顯存的AI超級計算機

快科技3月19日消息，今天凌晨，黃仁勛正式拿出了新一代Blackwell GPU架構，以及基於此的B100/B200 GPU晶片、GB200超級晶片、DGX超級計算機，再次將“戰術核彈”提升了全新的境界，傲視全球。 Blackwell B200 GPU首次採用了chiplet晶粒封裝，包含兩顆B100，而B200之間再通過帶寬翻倍達1.8TB/的第五代NVLink 5總線互連，最多可連接576塊。 B100採用專門定製的台積電4NP工藝製造(H100/RTX 40 4N工藝的增強版)，已經達到雙倍光刻極限尺寸，彼此通過10TB/帶寬的片間互聯帶寬，連接成一塊統一的B200 GPU。 B100集成多達1040億個電晶體，比上代H100 800億個增加了足足30％，B200整體就是2080億個電晶體。核心面積未公布，考慮到工藝極限應該不會比814平方毫米的H100大太多。 CUDA核心數量也沒說，但肯定會大大超過H100 16896個，不知道能不能突破2萬個？每顆B100連接四顆24GB HBM3E顯存/內存，等效頻率8GHz，位寬4096-bit，帶寬達4TB/。如此一來，B200就有多達192GB HBM3E，總位寬8096-bit，總帶寬8TB/，相比H100分別增加1.4倍、58％、1.4倍。性能方面，B200新增支持FP4 Tensor數據格式，性能達到9PFlops(每秒9千萬億次)，INT/FP8、FP16、TF32 Tensor性能分別達到4.5、2.25、1.1PFlops，分別提升1.2倍、1.3倍、1.3倍，但是FP64 Tensor性能反而下降了40％(依賴GB200)，FP32、FP64 Vector性能則未公布。 Blackwell GPU還支持第二代Transformer引擎，支持全新的微張量縮放，在搭配TensorRT-LLM、NeMo Megatron框架中的先進動態范圍管理算法，從而在新型4位浮點AI推理能力下實現算力和模型大小的翻倍。其他還有RAS可靠性專用引擎、安全AI、解壓縮引擎等。至於功耗，B100控制在700W，和上代H100完全一致，B200則首次達到了1000W。 NVIDIA宣稱，Blackwell GPU能夠在10萬億參數的大模型上實現AI訓練和實時大語言模型推理。 GB200 Grace Blackwell是繼Grace Hopper之後的新一代超級晶片(Superchip)，從單顆GPU＋單顆CPU升級為兩顆GPU加一顆CPU，其中GPU部分就是B200，CPU部分不變還是Grace，彼此通過900GB/的帶寬實現超低功耗片間互聯。在大語言模型推理工作負載方面，GB200超級晶片的性能對比H100提升了多達30倍。不過代價也很大，GB200的功耗最高可達2700W，可以使用分冷，更推薦使用液冷。基於GB200超級晶片，NVIDIA打造了新一代的AI超級計算機“DGX SuperPOD”，配備36塊超級晶片，也就是包含36顆Grace...

美國NASA的超級計算機嚴重落後：18000顆CPU 卻只有48顆GPU

快科技3月17日消息，曾經引領世界的NASA(美國航空航天局)，近些年卻經常不太順利，很多大型航天項目不但預算嚴重超支，而且進度嚴重滯後。現在，NASA終於找到了“罪魁禍首”：局裡的超級計算機太落後了。目前，NASA擁有五台超算，安放在加州艾莫斯的NASA先進超算中心(NAS)、馬里蘭州戈達德的NASA氣候模擬中心(NCCS)。性能最好的是Aitken，性能也只有13.12PFlops(每秒1.312億億次浮點計算)，美國重返月球項目用的就是它。還有Electra 8.32PFlops、Discover 8.1PFlops、Pleiades 7.09PFlops、Endeavour 15.48TFlops。這些超算不但性能平平，而且架構技術都不算先進，仍然幾乎完全依賴傳統CPU處理器。 NAS擁有總計超過18000顆GPU，卻只有48顆GPU，NCSS部署的GPU更少。 NASA在報告中稱，超算基礎設置的嚴重落伍，嚴重影響了NASA的項目進展，而且管理方式落後，利用效率低下，還存在很多安全隱患，因此強烈建議轉向GPU為主的新型超算。兩個字總結：打錢！來源：快科技

十二連冠聯想169套超級計算機殺入TOP500榜單獨占超1/3

快科技11月22日消息，近日，最新全球超級計算機（HPC）TOP500榜單揭曉，聯想以169套的成績，第12次問鼎HPC TOP500榜單份額榜首。據了解，HPC TOP500榜單用於衡量全球高性能計算機的算力性能，於每年6月和11月發布。在本次發布的HPC TOP500榜單中，聯想共計入圍169套科學計算集群，以33.8%的占有率連續12次摘得榜單份額的榜首。不僅如此，聯想的科學計算集群分布在全球19個國家和地區，並在其中11個市場占有率位居首位。聯想共有58套在中國部署打造的科學計算集群入圍本次HPC TOP500榜單。超級計算，又稱高性能計算 ( HPC ) ，指利用並行工作的多台計算機系統 ( 即“超級計算機”) 的集中式計算資源。超算能力是衡量一個國家或地區科技核心競爭力和綜合國力的重要標志。超級計算機可不是攢機“攢”出來的，數十萬計的CPU和GPGPU（通用計算圖形處理器）需要低延遲數據互通，如何分發與存儲數據，怎樣為系統散熱與節能都是大課題。聯想自主研發的海神溫水水冷技術可將PUE值降低至1.1，散熱效率可高達98%。此外，聯想液冷技術還覆蓋了風液冷混合、全液冷、整機櫃液冷、單相浸沒式液冷主流液冷技術。來源：快科技

AMD超算全球四連冠性能第一還特省電

快科技11月15日消息，第62屆全球超級計算機排行榜TOP500已經出爐，AMD再次光彩奪目。在全部500套超算中，AMD平台已經占到了140套，相比去年大幅增加39％之多。如此進步，歷年罕見。 AMD EPYC 7A53 64核心處理器、Instinct MI250X GPU加速器組成的頂級超算“Frontier”繼續穩居榜首，並實現了霸氣的四連冠，依然是迄今唯一一套公開的完全通過驗證並投入實用的百億億次級超算。圖源：AMD 2022年6月，Frontier系統首次拿下世界第一，最大浮點性能1102PFlops(每秒110.2億億次)，相比前冠軍日本Fugaku高出了足足50％，甚至超過了當時第二名到第七名的總和。當時，Frontier系統擁有8730112個核心，後來調整減少到8699904個核心，但是經過同步優化，最大性能反而提升了8％而達到1194PFlops(每秒119.4億億次)，峰值性能為1679.8PFlops(167.98億億次)。 Frontier對比本屆榜單上的第二名，Intel CPU＋GPU平台的“Aurora”，性能領先了整整一倍，後者最大性能僅為585.34PFlops(每秒58.534億億次)，遠遠沒有摸到百億億次計算的門檻。事實上，第二名Aurora和第三名Eagle的計算性能加起來，相比於Frontier也還差了47.46PFlops(每秒4.746億億次)，第二名Aurora的功耗反而還比Frontier高了一丟丟。可以說，Frontier真正做到了“遙遙領先”。值得一提的是，在更關注系統級性能的HPCG測試中，Frontier繼續位列第二名，成績為14.05 HPCG-TFops，和第一名差距極小，同時相當於第三名的整整3倍。事實上，HPCG榜單上第三名的“LUMI”作為歐洲第一、世界第三超算，使用的也是AMD第三代EPYC 64核心處理器、Instinct MI250X加速器的組合，最大性能379.7PFlops(每秒37.97億億次)。更難得的是，AMD平台超算在性能強勁的同時，能效更加突出。同步發布的Green500綠色超算榜單上，TOP10里有8套都是基於AMD平台，比去年又增加了1套。其中，Frontier TDS測試系統高居第二，每瓦性能達到62.684GFlops(每秒626.84億次)，而且和第一名Henri的差距只有區區4％。完整的Frontier系統也排在第八名。可以說，在對高性能算力需求越來越高的今天，在全人類高度重視綠色環保、可持續發展的今天，能效的重要性日益凸顯。 AMD也設定了雄偉的“30x25”目標，目標是到2025年，AI/HPC平台的能效要比2020年提到足足30倍。 AMD超算系統優秀的能效表現，正是實現這一目標的切實行動體現。最後，另一套基於AMD平台的百億億次超算“El Capitan”，也已經開始組裝，使用的加速器是AMD Instinct MI300A，全球第一款單封裝整合CPU、GPU、HBM高帶寬內存的數據中心APU。它完工並正式上線之後，預計可提供超過2EFlops的雙精度浮點性能，也就是二百億億次！目前，HPE Cray Supercomputing EX255a、Eviden BullSequana XH3000高性能計算平台，都已引入Instinct 300A。來源：快科技

每秒150億億次中國頂級超算入圍美國戈登·貝爾大獎

據媒體The next platform報導，美國計算機協會（Associationfor Computing Machinery; ACM）近期公布了戈登·貝爾獎（被譽為“超級計算應用領域的諾貝爾獎”）的入圍名單。基於中國1.5 EXAFLOPS（百億億次）超級計算機的一篇研究論文再次入圍，該獎項將在今年11月在美國丹佛舉行的SC23超級計算大會上頒發。中國超級計算機再度入圍 ACM表示，雖然最終的系統規模以及模擬和模型運行的結果尚未完成，但基於新一代的 1.5 exaflops中國神威超級計算機（oceanlite，太湖之光升級版）完成的一篇題為《渦輪機械流動的精確計算》論文（將在11月SC23會議之前正式發布）已經入圍。早在2021年11月，中國的超級計算機就曾以4190萬個核心的量子模擬而獲得了戈登貝爾獎。當時阿里巴巴集團、清華大學、DAMO學院，浙江實驗室和北京人工智慧研究院在Oceanlite機器中運行了一個名為“八卦路”的預訓練機器學習模型，該模型涉及3700多萬個核心和14.5萬億個參數。此次《渦輪機械流動的精確計算》論文，則是由Weiqi Shen， Jiahuan Cui， Yao Zheng等（共 19 位作者），來自浙江大學、清華大學、國家超級計算無錫中心、劍橋大學、佛羅里達大學團隊共同完成。該團隊開發了一種新的大渦流模擬代碼，用於解決渦輪機械中的可壓縮流。他們將該代碼應用於美國國家航空航天局（NASA）的重大挑戰問題，使用高階非結構化求解器求解高壓渦輪級聯的 16.9 億個網格元素和 8650 億個自由度。根據該論文的作者顯示，Oceanlite系統擁有超過100000個由中國國家並行計算機工程與技術研究中心（NRCPC）設計的定製SW26010 Pro處理器。 2022年4月，中國科學技術大學、國家海洋科學與技術試點實驗室（青島）、北京大學數學科學學院、無錫國家超級計算中心和中國海洋大學組成的聯合團隊，公布了一篇超級計算機模擬復雜量子多體的文章介紹，SW26010 pro是sw26010改進型，擁有6個核心模塊，每個模塊有1個管理Linux線程的核心（MPE）和64個計算核心。而組成太湖之光的SW26010處理器，只有4個核心模塊，說明SW26010 pro單片應該有50%的性能提升。 The next...

每秒40億億次俄羅斯最強AI超算上線：中國GPU？

俄羅斯雖然遭到了前所未有的封鎖和限制，但從未放棄。莫斯科國立大學(MSU)就上線了最新的超級計算機“MSU-270”，AI計算性能高達400PFlops(40億億次浮點計算每秒)。關於這台超算的配置，MSU披露的很少，只說配備了大約100塊“最新的圖形加速器”，並在供電、散熱、通信方面採用了全新的設計。俄羅斯並沒有自己的高端計算GPU，大機率來自外部供應，但是NVIDIA、AMD、Intel都不能向俄羅斯出口此類產品，媒體就想到了中國廠商，比如一度號稱比肩NVIDIA的壁仞科技。在此之前，MSU使用的GPU加速器都來自NVIDIA。 MSU-270 40億億次計算的性能單指AI方向，也就是FP16半精度浮點格式。目前，俄羅斯最強的通用計算超算最大性能只有21.5PFlops，也就是2.15億億次FP64雙精度浮點計算每秒。除了AI，MSU-270還可廣泛用於各種科學領域的研究，包括物理學、化學、生物學、心理學、社會學、地質學、醫學等等。來源：快科技

中國罕見披露百億億次超算：1920萬核心 2.2倍於美國第一

美國已經或正在打造多台百億億次級別的超級計算機，而由於眾所周知的原因，中國這幾年在頂級超算方面非常低調，不公開，不參與排名，搞得老美也很好奇。 Tom's Haredware報導稱，無錫國家超算中心、開發了申威處理器的江南計算技術研究所，最近向美國計算機協會(ACM)戈登·貝爾獎提交了一台新超算的部分數據，披露其具有49230個計算節點、大約1920萬個CPU核心。工程師開發了一種新的大型旋渦模擬算法，配合這台超算，可處理渦輪機械中的可壓縮流體，並解決了NASA提出的一個難題：使用高級非結構化求解器，處理一個具備16.9億網格組件、8650億自由度(變量)的高壓渦輪機序列。相比之下，現在公開排名世界第一的超算Frontier，使用的是AMD EPYC 64核心處理器，總計8699904個CPU核心，中國這台超算是它的2.2倍。目前尚不清楚這台超算的具體身份，不知道是不是2021年完成的神威·海洋之光(Oceanlite)，它的性能就高達每秒150億億次浮點計算(1.5EFlops)，事實上已經超過了Frontier，後者升級後為每秒119.4億億次。媒體猜測，這台新超算的處理器，很可能是2016年面世的前輩神威·太湖之光里那顆申威26010的升級版本，單顆核心數量更多。值得一提的是，神威·太湖之光曾多次在世界超算TOP500榜單上蟬聯冠軍，還在2016年、2017年連續拿下過戈登·貝爾獎。神威·海洋之光原型機神威·太湖之光神威·太湖之光里的申威處理器雙路節點神威·太湖之光里的申威26010處理器來源：快科技

NVIDIA正在「壟斷」AI 中國廠商怎麼辦？

“為了計算和人類的未來，我捐出世界上第一台 DGX-1 。” 2016 年 8 月，NVIDIA 創始人黃仁勛，帶著一台裝載了 8 塊 P100晶片的超級計算機 DGX-1 ，來到了 OpenAI 的辦公大樓。在現場人員到齊後，老黃拿出記號筆，在 DGX-1 的機箱上寫下這句話。與其一同前往的還有特斯拉和 OpenAI 的創始人，埃隆馬斯克。這次 OpenAI 之行，老黃不為別的，就是為了把這台剛出爐的超算送給 OpenAI ，給他們的人工智慧項目研究加一波速。這台 DGX-1 價值超過百萬，是...

全球第一四連冠日本宣布下代超級CPU：能效2倍於Intel/AMD

2020年6月-2021年11月，日本理化學研究所(RIKEN)的日本超級計算機“富岳”(Fugaku)曾經連續四次拿下世界第一，富士康開發的A64FX處理器功不可沒，下一代也正在推進中。富士通A64FX採用台積電7nm工藝製造，集成87.86億個電晶體，Arm架構，集成52個核心，包括48個計算核心(分為四組每組8MB二級緩存)、4個結構管理核心，主頻2.2GHz，並集成HBM2高帶寬記憶體。富岳超算一共用了近16萬顆A64FX處理器，總核心數量多達7630848個。去年11月，富士通就曾披露，將設計更先進的處理器，採用台積電2nm工藝，預計2026年推出。現在，富士通官方宣布，下代超級處理器代號“Monaka”(日本點心最中/もなか)，依然基於Arm架構指令集(可能Armv9或更高)，重點提升能效。 Monaka現定於2027年推出，號稱對比屆時的競品，應用性能可領先1.7倍，能效可領先2倍，包括Intel、AMD的方案。同時，它的應用潛力和范圍也會更廣，包括超大規模運算、HPC高性能計算、AI人工智慧、數據分析等等。不過，官方未公開製造工藝、核心數量等細節。日本也會基於富士通Monaka，打造下一代超算，暫時名為Fugaku Next，日本理化學研究所正在進行設計評估。來源：快科技

華為之後 NVIDIA又痛失一家中國大客戶世界第三被叫停

這些年，NVIDIA利用其加速計算卡、CUDA生態，在高性能計算領域混得風生水起，但因為美國制裁，A100、H100這樣先進產品，已經無法賣給中國客戶，比如之前的華為，比如新近被美國加入“實體清單”的浪潮。在摩根史坦利科技、媒體和電信會議上，NVIDIA CFO Colette Cress表示：“浪潮是我們的合作夥伴，這樣的夥伴幫助我們為終端客戶提供計算解決方案。在未來，我們不得不和其他夥伴合作，為亞太或其他地區的客戶提供解決方案。” 他強調，對於NVIDIA來說，最重要的是嚴格遵守法律和出口管制政策，因此需要其他合作夥伴提供幫助。換言之，NVIDIA等於承認無法再向浪潮提供A100、H100這樣的計算產品，而浪潮是世界第三大伺服器廠商，這對NVIDIA來說意味著巨額的損失。 NVIDIA雖然可以繼續尋找其他合作夥伴，但如此慘重的損失是短時間難以彌補的，而且就算其他夥伴的規模上來了，難免又會被美國高層盯上。根據政策，美國企業不得向中國高性能計算客戶出售算力超過100PFlops雙精度浮點性能、200PFlops單精度浮點性能，且體積小於1180立方米的方案。為了繞過限制，，主要是將NVLink互連總線帶寬削減三分之一降到400GB/，無法組建大規模的計算集群。來源：快科技

Intel至強終於沖到56核心：8倍性能提升、功耗比AMD上代低68％

Intel面向HPC、AI市場發布了兩款新品，開辟了全新的Max系列產品線，，另一個就是Sapphire Rapids HBM至強處理器。 Sapphire Rapids就是Intel第四代可擴展至強，，這次發布的至強Max CPU只是其一個子系列，區別是集成HBM高帶寬記憶體，專門用於加速計算。規格方面披露得不多，只說最多56核心112線程(還有4個未開啟)，分為四個部分(Title)，彼此通過EMIB互連橋接技術整合在一起。集成最多64GB HBM，每核心分配超過1GB，可滿足絕大多數HPC負載的需求，而且可以靈活選擇HBM、DDR兩種不同記憶體模式來運行。擴展連接方面支持PCIe 5.0、CXL 1.1。性能上，官方宣稱至強Max的真實HPC負載性能比競品高出最多4.8倍，HBM記憶體模式MPAS-A氣候建模性能比AMD Milan-X高最多2.4倍，DDR記憶體模式DeePMD分子動力學性能比精心高最多2.8倍。還支持AMX擴展指令，提升AI性能，INT8/INT32整數累加運算的峰值吞吐相比AVX-512指令集高出多達8倍。有趣的是，雖然至強Max的熱設計功耗高達350W，Intel宣稱，同樣的HPCG性能下，可比AMD Milan-X集群可節省68％的功耗。要知道，AMD Genoa EPYC已經可以做到96核心360W…… 至強Max CPU現在已有30多款系統設計，首要的當然是美國能源部阿拉貢國家實驗室旗下的頂級超算“Aorura”(極光)，兩顆至強Max CPU搭配六顆Max GPU組成一個節點，總計超過1萬個節點，峰值雙精度浮點性能將首次突破2百億億次每秒，目前正在建設中，預計明年上線。作為先行平台，Intel和阿拉貢實驗室還打造了一台“Sunspot”(太陽黑子)，只有128個節點，今年底開放給研究人員。此外，美國阿拉莫斯國家實驗室Crossroads、勞倫斯利弗莫爾國家實驗室CTS-2、桑迪亞國家實驗室、日本東京大學Camphor3，也都會使用Intel Max系列產品。雙11紅包活動推薦：來源：快科技

Intel正式發布Max GPU：1000+億電晶體、600W峰值功耗

新一屆超算大會到來之際，Intel正式發布了兩款全新的HPC/AI計算產品，並劃入全新的Max系列，明年1月上市。一個是至強CPU Max系列，代號Sapphire Rapids HBM；一個是數據中心GPU Max系列，代號Ponte Vecchio。關注硬體的朋友對這兩個代號名字應該很熟悉了，磨嘰了幾年終於要落地了，將攜手用於美國能源部阿拉貢國家實驗室的百億億次級超算“Aurora”，和AMD EPYC處理器、Instinct計算卡組成的“Frontier”一個性質。這一篇先說說Max GPU。這是Intel針對高性能計算加速設計的第一款GPU產品，基於全新的Xe HPC架構，和桌面上的Arc系列顯卡同源，但面向計算而非圖形。 Max GPU採用了多工藝、多晶片整合製造，5種製造工藝，總計擁有恐怖的1000多億個電晶體，集成多達47個模塊(tile)，包括基礎單元、計算單元、Foveros封裝單元、EMIB封裝單元、Rambo緩存單元、HBM記憶體單元、Xe鏈路單元，等等。最多擁有128個Xe-HPC核心、128個光追核心，一級緩存就有64MB，可提升吞吐和性能，二級緩存更是多達408MB二級緩存，業內密度最高，還集成最多128GB HBM高帶寬記憶體。 Max GPU是業界唯一支持光追的HPC/AI GPU，可用於科學視覺、動畫等工作的加速。具體分為三款型號：－ Max 1550：滿血狀態，128核心，128GB HBM，OAM形態，最高功耗達600W，最多八路並聯。－ Max 1350： 112核心，96GB HBM，OAM形態，450W功耗，最多八路並聯。－ Max 1100： 56核心，48MB HBM2e，PCIe形態，300W功耗，可通過Xe Link橋接器最多四卡並聯。性能方面，Intel宣稱，對比NVIDIA A100，Riskfuel金融分析性能領先最多2.4倍，NekRS核模擬物理性能領先最多1.5倍。至於為何不對比最新的NVIDIA...

雙A打造全球第一台百億億次超算陷入麻煩：效率只有60％

今年6月，公開亮相，採用AMD Trento EPYC 7A53處理器、AMD Instinct MI250X GPU加速卡的組合，這也是AMD時隔十年重返超算之巔，性能相當於其後第二到第七名的總和。 Frontier超算部署在美國能源部橡樹嶺國家實驗室，最初計劃2022年內全面投入運行，後推遲到2023年1月1日，但現在卻被曝出自上線之初就存在嚴重的問題，每天都故障不斷。據稱，Frontier超算規劃的FP64雙精度浮點性能為1.685EFlops(168.5億億次計算每秒)，但目前只能勉強跑到1EFlops，也就是只能達到設計目標的60％。具體原因不詳，有一種說法是HPE Cray機櫃使用的Slingshot網絡互連系統與HPE集群存在衝突，另一種說法是Slingshot互連系統與AMD計算平台存在衝突，但究竟怎麼回事不得而知。美國能源部百億億次計算項目的一位對外聯絡發負責人Mike Bernhardt發布了一則簡單聲明，稱感謝HPE、AMD的努力，Frontier系統今年秋天提前交付，目前正在進行安裝和集成，這是一項繁重、復雜的任務，但目前進展順利，將在明年按期想科學界開放。為了沖擊百億億次超算，美國規劃了三條路線。 Intel Sapphire Rapids四代可擴展至強、Ponte Vecchio加速卡打造的“Aurora”進展也很不順，一直在推遲，主要是Intel的兩個新品遲遲無法規模交付。 AMD處理器、NVIDIA加速卡組成的“Polaris”消息非常少，不清楚目前具體進展如何。來源：快科技

特斯拉 AI DAY 2022：馬斯克造出了那個會跳舞的機器人，還透露了他的下一步計劃

當我得知特斯拉要在 10 月 1 日舉辦 AI DAY 時，我是快樂的，這意味著我能夠在國慶節當天投身工作，與祖國共奮進。馬斯克同志可能和我一樣愛國—— AI DAY 原定於今早 8 點開始，但最終延至 9:15。我想，應該是老馬昨晚忙著給祖國母親慶生，睡過頭了。嗯，一定不是因為現場的機器人出了問題。沒錯，這次 AI DAY 的主角是機器人，馬斯克舞台上表達了自己的看法：如果未來機器人無所不在，人類經濟會發展得更好，人們可以去做體力話，但這不是必須的，我們可以更多地選擇腦力勞動。我也希望，10 年後的國慶節，坐在工位上碼字的不是我，而是某個生下來就會工作的人型機器人。去年的擎天柱，現在怎樣了講真，去年登場的擎天柱（Optimus），比今天的要靈活多了，它甚至會跳舞。玩笑歸玩笑，去年的擎天柱確實長得更討喜些。當時的擎天柱還不叫擎天柱，馬斯克簡單將其稱作 Tesla Bot；現在的擎天柱，我也不太願意把它叫做擎天柱，因為它看起來好像不太聰明，我覺得，叫威震天可能會更合適。 ▲你不要過來啊我不禁想起了十幾年前聽過的一首歌，是這樣唱的：判若兩人，丟給我去承受想像中，很不同想像中一切都和後來不同雖然長得想像之中不太一樣，但這個「威震天」還是能幹一點活兒的，比如搬東西：比如澆花：再比如，在超級工廠里搬磚：看起來，這位「威震天」能乾的活還真不少，馬斯克說，成本下降以後，一台「威震天」大概會賣 2 萬美元。所以，要想找個人替我上班，我至少得准備 14 萬元人民幣…… 打擾了，我還是自己來吧。正當我嘗試說服自己接受這個事實時，舞台上突然出現了一位新人，它的顏值要比剛剛那位「威震天」高多了。實際上，「威震天」是今年 2...

美國研發全新液晶計算機：不止0、1兩種狀態比量子計算機還簡單

大家都知道傳統的電子計算機是通過電晶體開關狀態實現0、1變換的，量子計算機則是可以同時出現0、1狀態，因此計算能力更強大，但也更復雜，現在美國研究人員開始研發新的液晶計算機，它不止有0、1兩個狀態，而且要比量子計算機更簡單。提到液晶，很多人都知道這種材料可以用於LCD面板，液晶材料由棒狀分子組成，可以流動，用於顯示屏時需要將液晶分子的所有朝向一致，除去那些朝向不同的液晶，而這恰好就是製造液晶計算機的基礎。來自美國麻省理工學院的約恩·鄧克爾及斯洛維尼亞盧布爾雅那大學的伊格·科斯提出了這種設想，通過使用朝向不同的液晶材料來構建新的計算機。與電子計算機的信息存儲為0、1兩種狀態不同，在液晶計算機中，信息將被轉換成一系列有缺陷的朝向，根據朝向的不同，液晶缺陷可編碼為不同的值。電場可用來操縱分子進行基本計算，類似於普通計算機內簡單的邏輯門電路的工作方式，在所提出的新型計算機上，這些計算將顯示為在液體內傳播的波紋。由於有多種狀態，液晶計算機比電子計算機更為強大，而且相比量子疊加狀態的量子計算機，它又沒有那麼復雜的的結構。當然了，最後還是要說一句，這種新型結構的計算機理論上各種強大，但是距離實用化都是很遠的事，畢竟現代的電子計算機有一套成熟的生態，其他新型計算機很難顛覆，只有可能在個別領域發揮奇效。來源：快科技

AMD Zen4+RDNA3超級APU真猛峰值算力200億億次

AMD日前宣布，除了工藝升級5nm，架構升級CDNA3，還會首次融入CPU核心，基於最新的Zen4架構，還有Infinity Fabric高速總線、nfinity Cache無限緩存、HBM高帶寬記憶體等，通過3D小晶片立體封裝合為一體。 AMD宣稱，MI300 AI訓練性能提升預計可以超過8倍，AI能效則提升超過5倍。產品還沒發布，就找到下家了。在美國橡樹嶺國家實驗室舉辦的第79屆高性能計算用戶論壇上，美國勞倫斯利弗莫爾國家實驗室透露，將採用AMD Instinct MI300計算卡，打造新一代超級計算機「El Capitan」(加州酋長岩)，目標峰值性能2EFlops(每秒200億億次計算)，持續性能超過1EFlops(每秒100億億次計算)。與此同時，整機功耗不到40兆千瓦。作為對比，，配備AMD第三代霄龍 7A53 64核心理器、AMD Instinct MIX250計算卡，峰值性能1.69EFlops，最大性能1.10EFlops，功耗21.1兆千瓦。 El Capitan預計2023年即可完成安裝，2024年上線運行，2030年退役。來源：快科技

x86/ARM勁敵第三大CPU架構RISC-V進入超算：表現驚人

一個歐洲大學生團隊組裝出第一台能夠平衡功耗和性能的 RISC-V 超級計算機。更重要的是，它展示了 RISC-V 在高性能計算方面的巨大潛力，為歐洲擺脫對美國晶片技術的依賴提供了機會。「Monte Cimone」集群不會很快用於處理大規模的天氣模擬等，因為它只是一台實驗機器。這台設備由博洛尼亞大學和義大利最大的超級計算中心 CINECA 的人員構建，六節點集群設計，旨在展示除浮點能力之外的各種 HPC 性能元素。它使用 SiFive 的 Freedom U740 片上系統RISC-V 的電源模塊，這個2020 年推出的 SoC 有五個 64 位 RISC-V CPU 內核——四個...

國際首次華中大圖計算機DepGraph單機性能超超級計算機

6月2日消息，據@長江日報報導，在6月1日德國漢堡舉辦的國際高性能計算大會上，公布了第24屆Graph 500排名。據悉，由華中科技大學圖計算團隊研發的圖計算機DepGraph性能打破圖計算性能世界紀錄，登頂全球最權威圖計算榜單，同時，在國際上首次實現單機性能超越超級計算機圖計算性能。在去年公布的Graph 500排名中，DepGraph就已經登頂，而在此次排名中，DepGraph Supernode性能超過日本「富岳」等超級計算機，蟬聯全球第一並打破世界紀錄。據了解，圖計算是一種重要的大數據算法模型，圖計算里的圖並非指圖像，而是指一種抽象的數據結構，由頂點和邊構成。人們在圖之上進行個體分析、關系挖掘和復雜計算，實現知識推理和事件溯源及預判。圖計算目前已被應用於醫療、教育、金融等多個領域國際超級計算大會的Graph 500是由國際計算機學會ACM和IEEE聯合組織的國際上評價超級計算機圖計算性能的最權威榜單。全球所有超級計算機都會力爭在Graph500榜單上排名，以此證明自己計算能力。來源：快科技

王者歸來 AMD CPU＋GPU雙雄拿下超算世界第一

近日，全球超級計算機性能榜單Top500同時公布，AMD EPYC霄龍處理器、Instinct加速卡打造的全球第一台百億億次超算「Frontier」一舉拿下第一。這不僅僅是高性能計算領域的里程碑，也是AMD重現輝煌的一刻：AMD平台超算上次拿下第一名，還是整整10年前的「Titan」，用的還是皓龍處理器，搭配的還是NVIDIA加速卡。 Frontier系統位於美國能源部下屬橡樹嶺國家實驗室(ORNL)，Linpack最大計算性能達到了空前的1.1EFlops，也就是每秒可以執行110億億次浮點計算。這比上屆冠軍、本屆亞軍日本「Fugaku」超算系統快了整整1.5倍，同時也超過了第二名到第七名的總和。事實上，根據測試，Frontier的混合精度計算性能達到6.68EFlops(每秒680億億次計算)！下一步，Frontier將繼續進行系統測試和驗證，2022年晚些時候進行最終驗收、早期科學訪問，2023年初向全面科學界開放。 Frontier超算基於HPE Cray EX235a高性能計算系統，擁有超過100個機櫃。每個節點配備一顆AMD Trento EPYC 7A53處理器，7nm工藝，Zen3架構，64核心128線程，主頻2.0GHz，專為超算定製的型號。每個節點還有四塊AMD Instinct MI250X GPU加速卡，這是AMD首次專為百億億次超算設計的加速卡，6nm工藝，CDNA2架構，每塊集成220個計算單元，14080個流處理器核心，搭配8192-bit位寬的128GB HBM2e高帶寬記憶體。 EPYC處理器與Instinct加速卡之間通過AMD Infinity Fabric高速總線互連互通，不同節點之間則通過HPE Slingshot-11互連系統並行，帶寬200Gbps。另外，整台超算還有4.6PB DDR4記憶體、37PB硬碟。第三名的「LUMI」、第十名的「Adastra」、第29名的「Frontier TDS」，同樣都是EPYC 7A53、Instinct MI250X的組合，其中Frontier TDS是單機櫃的測試與開發版本，即便如此性能仍有19.2PFlops(每秒1.92萬億億次計算)。另外，第七名的「Perlmutter」、第八名的「Selene」、第11名的「Booster」等等也都是AMD EPYC處理器，而在前十名里EPYC占了五個名額，前100名里也有39個！全部500台超算中，AMD處理器占了94個，年同比增長95％。 MI250X加速卡這次則是第一次躋身500強，就貢獻了7台系統，性能與其他所有加速系統的總和幾乎相當。更令人稱奇的是，AMD EPYC＋Instinct的組合不僅性能無敵，能效同樣無敵，在同時發布的Green500能效榜單上，四套系統直接壟斷了前四名！其中，Frontier TDS單機櫃版本高居第一，能效達到了62.684GFlops/W，也就是平均每瓦能耗可以帶來626.8億次計算性能。完整的Frontier系統則緊隨其後，能效也有52.227GFlops/W。事實上，green500能效榜單上，前十名中有八個都是AMD EPYC平台，前20名里拿到17個席位，前100名中占了35個位置。這些數據，淋漓盡致地展現了AMD EPYC處理器、Instinct加速卡在節點、機櫃和系統層面的超高性能、效率。美國橡樹嶺國家實驗室主任Thomas...

800W恐怖功耗 Intel官宣下一代加速卡

AMD Instinct MI250X加速卡已經殺入全球超算500強，並撐起了第一名「Frontier」，也是第一台公開的百億億次超算。 Intel也與美國能源部有合作，利用其首款加速卡Ponte Vecchio打造百億億次超算「Aorura」，據說最大性能可以超過2百億億次，很快也就要上線了，11月份的下一次榜單應該就能看到。現在，Intel又迫不及待地宣布了下一代加速卡，代號「Rialto Bridge」(義大利威尼斯里亞托橋) Rialto Bridge將會採用Intel IDM 2.0製造模式，擁有更先進的工藝(Intel 4?)，集成最多160個Xe核心，比現在的Ponte Vecchio多了32個，也就是增加25％，帶來更高的浮點性能、IO帶寬，官方稱實際應用性能可提升30％。看起來，性能提升主要來自更多計算單元。 Rialto Bridge示意圖 Rialto Bridge還會採用尚未公布的新一代形態規格OAM 2.0(開放加速器模塊)，相比現在的OAM 1.x，最大功耗從700W增加到800W。當然，實際產品功耗不一定非得達到800W，只是有這個空間。換形態的同時，Rialto Bridge在平台上向下兼容，依然可以四卡並聯組成一個節點。 Rialto Bridge計劃在2023年完成樣品，但是考慮到Ponte Vecchio的開發周期，它落地商用估計至少還得2-3年。來源：快科技

全球超算TOP500：美國突破百億億次、中國笑而不語

2022年5月30日，在德國漢堡舉行的 ISC 2022公布了第59屆的全球超算TOP500榜單，位於美國橡樹嶺國家實驗室 (ORNL) 的新型超級計算機Frontier以絕對優勢，成功超越日本的Fugaku，成為了全球最強超級計算機，同時也是全球首個真正的百億億次超級計算機。中國的神威·太湖之光和天河二號排名下滑至第六和第九。百億億次超級計算機Frontier：性能最強，能效最高據介紹，Frontier 在美國橡樹嶺國家實驗室的計算設施 (OLCF) 占地 372 平方米，由 74 個 Cray EX 機櫃組成，擁有 9，408 個節點，每個節點配備一個 AMD Milan 「Trento」 7A53 Epyc CPU 和四個AMD...

銀河系中心黑洞照片問世：中國高校第1算力計算集群立功

昨晚，天文學家展示了關於銀河系中心的一項突破性成果——首次拍攝到銀河系中心超大質量黑洞人馬座A*（Sagittarius A *）的照片！銀河系中心黑洞照片是拍出來的，也是算出來的。黑洞不發光，只能間接觀測，而銀河系的天體還會「擋光」、「搶鏡」。所以全球300多名研究人員花了五年時間，用一堆照片才組合製作成了模糊的「甜甜圈」。據聯想官方微博透露，其中，上海交通大學的思源一號擬生成了超過20萬張圖像，為照片的最終形成添磚加瓦。而思源一號是聯想打造的高性能計算集群，每秒運算可達6千萬億次，其算力為中國高校第1。 2021年4月10日，上海交通大學125周年校慶時，楊元慶宣布個人出資一億元人民幣，為母校捐建思源一號高性能計算機。歷時僅半年多之後，思源一號即在上海交通大學落成。在2021年11月發布的全球TOP500高性能計算機榜單上，思源一號的算力排名第132位，在中國高性能計算TOP100榜單上，它排名第12位。來源：快科技

1082萬核心美國百億億次超算預演：AMD CPU＋GPU贏麻了

目前，中美都在全力推進百億億次超級計算機，而且都准備了多套方案，美國就有三條路線：AMD處理器＋AMD加速卡的「」，Intel處理器＋Intel加速卡的「」，AMD處理器＋NVIDIA加速卡的「」。美國橡樹嶺領先計算設施(OLCF)項目傳來最新消息：作為投資6億美元的「Frontier」超算的縮小版本，「Crusher」現已上線運行，對比當年的超算之王Titan，只用百分之一的體積就得到了更好的性能。不過，Frontier要到2023年1月1日才會正式開放，Crusher可以看做是一次預言，供科研人員提前做好開發准備。美國在2013年打造的Titan超算，使用了18688顆AMD皓龍6274 16核心處理器、18688塊NVIDIA Tesla K20X加速卡，占用200個機櫃，總面積4352平方英尺，功耗8.2兆瓦，Linpack持續性能最高17.6PFlops。 CrushCrusher擁有和Frontier完全相同的計算架構，只占用1.5個機櫃，分別128個、64個計算節點，總計192個，總面積不過44平方英尺。它配備了AMD專門定製的EPYC 7A53 64核心處理器(代號Trento)，搭配最新的AMD Instinct MI250X計算加速卡，每個節點「一配四」，總共192顆處理器(12288核心)、768塊加速卡(10813440核心)，也就是超過1082萬核心，還有32TB記憶體、250PB硬碟。 OLCF沒有透露它的具體性能，只是說比Titan更快，但可以估算一下：Instinct MI250X的峰值雙精度性能為53TFlops，768塊加起來就超過40PFlops(假設線性提升)，兩倍多於Titan，這還沒算EPYC處理器的算力。 EPYC 7A53是專門為超算定製的，具體規格不詳，只知道是Zen3架構，64核心123線程，頻率必然不低。，號稱在同類產品中擁有世界上最快的HPC性能、AI性能，升級為6nm工藝、CDNA2計算架構、2.5D雙芯整合封裝，14080個流處理器核心，80個二代矩陣核心，8192-bit 128GB HBM2e記憶體，典型功耗500W，峰值560W。來源：快科技

Intel宣布全新高性能APU：三個5倍提升、沖向十萬億億次

Intel今天公布的新品消息實在太豐富，除了、、、，還有一款特殊的「Falcon Shores」(獵鷹海岸)。它基於x86至強處理器平台(插座接口兼容)，同時融入針對高性能計算的Xe HPC GPU，靈活配備核心數量，再結合下一代封裝、記憶體、IO技術，構成一個強大的「APU」。 Intel表示，這種靈活的架構可滿足所有超級計算負載需求，可為大型密集計算、AI訓練模型帶來巨大的性能、效率提升，並簡化GPU編程。具體來說，對比當今水平，能耗比可提升5倍，x86計算密度可提升5倍，記憶體容量與密度提升5倍。 Falcon Shores產品將於2024年出貨。它是Intel HPC-AI超級計算策略的一部分，也是面向2027年實現ZettaFLOS(十萬億億)超級計算機的主要步驟之一，這需要在目前百億億次計算的基礎上，未來五年內將計算性能提升1000倍。有消息稱，AMD也計劃在Zen4架構的霄龍處理器中，集成支持高性能計算的Instinct GPU，思路如出一轍。另外，Intel還宣布，針對百億億次計算的高性能計算GPU Ponte Vecchio將在今年晚些時候按計劃出貨，首批供給美國能源部的Aurora超級計算機。 Intel宣稱，面對復雜的金融服務工作負載，Ponte Vecchio達到了行業領先的性能標準，並展現出了優於市場領先解決方案2.6倍的性能表現。 Ponte Vecchio將是Intel Xe HPC高性能計算架構的第一款產品，，內部集成多達47個單元模塊(Tile)，包括計算單元、Rambo緩存單元、Foveros封裝單元、基礎單元、HBM單元、Xe鏈路單元、EMIB單元，等等。來源：快科技

Meta公布AI超級計算機：採用NVIDIA GPU，向元宇宙進軍

去年底，元宇宙成為全球非常火爆的一個概念，它的本質就是利用科技手段進行連結與創造的，與現實世界映射與交互的虛擬世界，具備新型社會體系的數字生活空間。許多大牌企業也紛紛入局，最有代表性的就是扎克伯格的Facebook了，在「Facebook Connect 2021」增強現實和虛擬現實發布會上，他們改名「Meta」，全面向元宇宙進軍。（圖片來源：Shutterstock） Meta之後的動作很多，根據媒體的最新報導，他們近期正式推出了一台人工智慧超級計算機，命名為AI Research SuperCluster，簡稱RSC。是一種專門為訓練機器學習系統而設計的高速計算機，雖然已經可以運行，但仍在開發中。根據Meta官方的說法，它如果能在2022年完工，那將成為全球最快的AI超級計算機。對於這台超級計算機，Meta ECO扎克伯格表示：「我們為元宇宙構建的體驗需要巨大的計算能力，而RSC將使新的人工智慧模型能夠從數萬億的例子中學習，理解數百種語言等。」 RSC超級計算機的規格也值得一看，據了解，目前這台AI超級計算機正處於第一階段的運行狀態，採用760個NVIDIA GGX A100系統，包含了6080個連接起來的GPU，可以提供出色的圖形處理能力。而第二階段預計會在2022年7月份完成安裝，到時這台機器將迎來升級，採用多塊16000塊NVIDIA GPU以及額外的1240個DGX節點。可以看出，Meta打造出這台AI超級計算機，是已經將科研AI置於企業核心，同時也向著元宇宙邁進一大步。 ...

AMD 6nm MI250X加速卡被扒開：1個節點1小時5度電

日前，，基於6nm工藝、CNDA2架構，內部封裝兩顆GPU、八顆HBM2e，最多14080個計算核心、880個矩陣核心、128GB顯存記憶體。作為AMD的第一款百億億次計算級別產品，MI250系列已經得到了很多客戶方案，尤其是聯合美國能源部的超算「Frontier」，已經整裝待發，峰值性能超過150億億次。這就是MI250X加速卡的真容，中間兩顆大的晶片自然是MI200計算模塊，周邊八顆小的就是HBM2e記憶體，單顆32GB，通過2.5D EFB橋接技術彼此互連。整卡採用OAM形態，也就是基於開放計算項目(OCP)指定的加速卡模組標準，NVIDIA、Intel也都採納。這是1U半高刀片規格的單個節點，集成八塊MI250X，另有兩顆霄龍處理器，代號「Trento」，基於三代霄龍7003 Milan的定製版，主要加強了Infinity Fabric IO部分，便於控制八路加速卡。 MI250X單卡功耗就有560W，Trento霄龍暫無具體規格估計也在280W左右，那麼這一個節點的整體功耗，就在5000W左右，一小時就是5度電，散熱上風冷也不夠了，全部都是水冷。而且，這還沒算上12通道記憶體、硬碟、網絡等等。美國的三大百億億次超級計算機中，除了AMD Frontier，，採用超過1.8萬顆下一代可擴展至強Sapphire Rapids、超過5.4萬塊全新加速卡Ponte Vecchio，每個節點雙路CPU加六路GPU，號稱性能超過200億億次，但進度最慢。，聯合AMD第三代霄龍，打造了「Polaris」，分別有1120顆、2240塊，每個節點雙路配四塊卡，性能相對最低，但因為都是成熟硬體，進度是最快的，今年年內上線，明年還會升級一次。來源：快科技

AMD發布Instinct MI250/MI250X加速卡：6nm雙芯、560W功耗

除了基於3D V-Cache堆疊緩存的升級版霄龍7003x系列處理器，AMD還為數據中心帶來了另一款神器：Instinct MI200系列加速卡(加速器)。這是AMD的第一款ExaScale百億億次級別加速卡產品，號稱在同類產品中擁有世界上最快的HPC性能、AI性能。 Instinct MI200系列升級為新的CDNA2計算架構，搭配升級的6nm FinFET工藝，並使用2.5D EFB橋接技術，業內首創多Die整和封裝(MCM)，內部集成了兩顆核心。還有第三代Infinity Fabric總線互連技術，帶寬100GB/，最多8條與第三代霄龍處理器互通，實現CPU/GPU記憶體一致性。軟體API支持OpenMP、OpenCL、HIP、ROCm Open、TensorFlow、PyTorch、Kokkos、RAJA。新系列分為兩款型號，Instinct MI250X集成了220個計算單元、14080個流處理器核心，最高頻率1.7GHz，並有第二代矩陣核心，峰值性能為：FP16半精度383TFlops、FP32單精度/FP64單精度47.9TFlops、FP32單精度/FP64雙精度矩陣95.7TFlops、INT4/INT8/BF16 383TFlops。記憶體/顯存搭配8192-bit位寬的128GB HBM2e，頻率1.6GHz，峰值帶寬3276.8GB/，並支持全晶片ECC。整卡採用OAM模塊形態(未來也會推出PCIe擴展卡形態)，支持PCIe 4.0 x16，被動散熱(系統散熱)，典型功耗500W，峰值功耗560W。 Instinct MI250精簡為208計算單元、13312流處理器核心，各項性能指標也順應下降約5.5％，其他規格完全不變。 AMD宣稱，Instinct MI200系列性能雙精度性能比競品高出最多4.9倍，比上代提升最多4倍。 MI200系列已經贏得了多項客戶解決方案，包括ATOS BullSequana X410-A5 2U1N2S(雙CPU四GPU)、戴爾PowerEdge R7525(雙CPU三GPU)、技嘉G262-Z00(雙CPU四GPU)、HPE Cray EX235a(單CPU四GPU)等等，其他客戶還有話說、聯想、KOI Cmputers等等。尤其是與美國國防部橡樹嶺國家實驗室、HPE合作打造的超級計算機「Frontier」，採用第三代霄龍處理器、MI250X加速卡，峰值算力高達150億億次浮點計算每秒。來源：快科技

3.6萬CPU核心、1550萬GPU核心：AMD＋NVIDIA打造世界第一AI超算

為了沖擊百億億次計算，美國官方准備了三套不同系統，分別由Intel、AMD、AMD+NVIDIA聯合打造。現在看起來，AMD+NVIDIA的聯合方案進展最快。這套名為「Polaris」(北極星)的超算，隸屬於美國能源部阿貢國家實驗室ALCF(阿貢領先計算設施)，主要為用戶的算法和科學領域的超級規模的研究和探索提供支持，並對學術界、政府機構、行業研究人員開放使用。它基於Cray Slingshot 10高性能可擴展互連架構，惠與(HPE)負責建造，共有560個節點，每個節點配備兩顆AMD EPYC 7532處理器、四塊NVIDIA A100計算卡，合計1120顆處理器、2240塊計算卡。 EPYC 7532擁有32核心64線程(Zen2機構)，A100計算卡則有6912個CUDA核心(Ampere架構)，因此這套超算總共有多達35840個CPU核心、15482880個GPU核心，只是不知道A100這里的顯存是40GB還是80GB。整套系統的FP64雙精度浮點峰值性能將達44PFlops(44千萬億次每秒)，在當今全球超算TOP500榜單上可以排在第十位。不過，它的理論AI性能可以高達驚人的1.4EFlops(140億億次每秒)，通過處理數據密集型和AI高性能計算工作負載，將模擬和機器學習相結合。 Polaris超算將在今年年內上線，明年3月份升級為Slingshot 11架構，處理器更換為Zen3架構的EPYC 7543，仍是32核心，但性能將再上一個台階。 AMD為美國能源部橡樹嶺國家實驗室(ORNL)打造的百億億次超算名為「Frontier」，配備Zen4架構下代EPYC處理器、Instinct計算卡，合同價值6億美元。 Intel中標的超算名為「Aurora」，基於其下代Sapphire Rapids至強處理器、Xe HPC Ponte Vecchio計算卡。不過，AMD、Intel的新平台都尚未發布，大部分都要到明年才會完成，超算系統也順應延期，預計會在2022-2023年才會陸續上線。來源：快科技

5種工藝、1000+億電晶體 Intel Xe HPC頂級計算卡秀肌肉

我們知道，Intel Xe GPU架構分為四個層級，或者說四種微架構，其中以上是的Xe LP低功耗版僅供核顯、入門獨顯，即將到來的Xe HPG高性能圖形版面向中高端遊戲顯卡，Xe HP高性能版適合加速計算、AI、ML等但所知最少，Xe HPC高性能計算版則是最頂級的存在，主攻大型數據中心、超算。，這里來看看Xe HPC和首款產品Ponte Vecchio，競爭對手是NVIDIA A系列、AMD Instinct系列。當然，它們距離普通人非常非常遙遠，但卻是技術實力的最高體現。 Xe HPC架構的基礎也是Xe核心(Xe Core)，但因為面向的是計算而非圖形，內部結構有所不同，包括8個512-bit矢量引擎、8個4096-bit矩陣引擎，數量對比Xe HPG都減半，但位寬分別翻了一倍、兩倍，算力更兇猛。矢量引擎每時鍾周期可執行256個FP32、256個FP64、512個FP16等數據操作，矩陣引擎則每時鍾周期支持2048個FP32、4096個FP64、4096個BF16、8192個INT8。與矢量引擎、矩陣引擎搭檔的，是一個更寬的寬加載/存儲單元，每個時鍾周期取回512位元組數據。每個Xe核心集成512KB一級數據緩存，這是目前業內最大的，而且可以通過軟體配置作為暫存區使用，又稱共享內部顯存。 Xe核心的上一層級叫做「切片」(Slice)，不同於Xe HPG上的渲染器切片(Slice)，畢竟一個是做計算，一個是做圖形渲染。 Xe HPC每個切片集成多達16個Xe核心，四倍於Xe HPG渲染切片的規模，同時還有8MB一級緩存、16個光追單元、一個硬體上下文(Hardware Context)單元，其中光追支持光線遍歷、邊界框相交、三角形相交，提供固定函數計算。硬體上下文單元大家可能比較陌生，它能讓GPU同時執行多個應用，而無需昂貴的基於軟體的文本切換。切片的上一級則是「堆棧」(Stack)，至此才算一個完整的GPU。一個堆棧包含4個切片，因此總計64個Xe核心、64個光追單元、4個硬體上下文。同時，堆棧內還有大規模二級緩存、4個HBM2e記憶體控制器、1個媒體引擎、8個Xe鏈路，以及拷貝引擎、PCle控制器。 Xe HPC架構是可以輕松擴展的，支持多堆棧設計，屬於業內首創，依靠的是EMIB封裝和堆棧間互連通道，可保持堆棧之間的記憶體一致性。比如這是雙堆棧，整體規模直接翻番，它就是後邊要說的首款Ponte Vecchio，但看架構圖，似乎不支持四堆棧。不同的Xe HPC GPU之間通過Xe鏈路互連，支持最多8顆並行，算力直接暴力乘以8。 Ponte Vecchio作為基於Xe HPC架構的首款產品，一切的一切都是全新的，包括驗證方法、軟體、可靠性方法、信號完整性機制、互連、供電、封裝、I/O架構、記憶體架構、IP架構、SoC架構。 Ponte...

超級計算機幫助保護地球免受太空風暴影響

密西根大學研究人員使用Frontera超級計算機來改進空間天氣預報系統，避免極端空間天氣事件的最壞影響。上一次重大的空間天氣事件在1859年襲擊了地球，但是破壞度較小的空間天氣事件經常發生。這些事件會炸毀電子產品和電網，擾亂全球定位系統，導致北極光的范圍發生變化，並提高太空人或穿越兩極飛機乘客的輻射風險。如果像1859年那樣的極端事件再次發生，它將完全摧毀電網、衛星和通信系統。『在白宮國家空間天氣戰略和行動計劃以及國家戰略計算倡議的推動下，2020年，美國國家科學基金會（NSF）和美國國家航空航天局創建了空間天氣與量化不確定性（SWQU）計劃。它匯集了來自各學科的研究團隊，在空間天氣建模領域內推進最新的統計分析和高性能計算方法。這個計劃是六個項目的組合，其中包括Gabor Toth的項目，不僅有領先的大學團體參與，而且還有NASA中心、國防部和能源部國家實驗室，以及私營部門。Gabor Toth幫助開發了當今卓越的空間天氣預測模型，該模型被美國國家海洋和大氣管理局（NOAA）用於業務預測。2021年2月3日，NOAA開始使用Geospace模型2.0版，這是密西根大學空間天氣建模框架的一部分，用於預測地磁干擾。 Geospace模型2.0版主要變化是細化了磁層的數值網格，對算法進行了若干改進，並對經驗參數進行了重新校準。Geospace模型是基於對地球空間環境的全球表述，其中包括磁流體動力學，像等離子體這樣的導電流體與磁場相互作用的特性和行為，這在空間天氣的動力學中起著關鍵作用。Geospace模型預測了地球空間與太陽風相互作用所產生的地面上磁擾動。這樣的磁擾動會誘發地電場，從而損害大規模的電導體，如電網。該模型發出的短期預警為電網運營商提供了關於有害電流的預報，並允許它們有時間來緩解問題和維護電網的完整性。盡管Geospace模型很先進，但它只提供了大約30分鍾的預先警告。現在團隊致力於將提前量增加到1至3天，這樣做意味著了解太陽表面的活動如何導致可能影響地球的事件。改善空間天氣預報的提前量需要新的方法和算法，這些方法和算法的計算速度遠遠超過今天使用的方法和算法，並且可以在高性能計算機上有效部署。Gabor Toth使用德克薩斯高級計算中心的Frontera超級計算機來開發和測試這些新方法。其中，一個關鍵的算法改進涉及在一個模擬模型中結合等離子體的動力學和流體細節，研究者通過發明智能近似值和算法，比粗暴的模擬快了一百萬倍，這可以使Geospace模型預測速度加快10到100倍。 Gabor Toth團隊一直在努力使空間天氣建模框架在未來的超級計算機上高效運行，這些超級計算機嚴重依賴圖形處理單元（GPU）。作為第一個目標，他們著手使用帶有OpenACC指令的英偉達Fortran編譯器將Geospace模型移植到GPU。他們最近設法在單個GPU上以更快的速度運行整個Geospace模型。他們使用支持GPU的Longhorn機器來達到這一里程碑。在傳統的超級計算機上以同樣的速度運行該模型需要至少100個CPU核心。來源：cnBeta

NV推出英國最強超級計算機性能位列世界前50名

NVIDIA在今天（7月7日）正式推出英國最強大的超級計算機——劍橋1號，該計算機致力於推進醫療保健的研究，通過利用人工智慧和模擬的強大組合，加速數字生物學革命，並推動英國世界領先的生命科學產業。NVIDIA在劍橋1號中投資了1億美元。劍橋1號應用的首個項目是加深對痴呆症等腦部疾病的了解，使用人工智慧設計新藥與提高發現人類基因組中致病變異的准確性。劍橋-1是一款NVIDIA DGX超級POD，共擁有80個DGX A100系統，計算速度可以躋身世界前50名，由100%的可再生能源供電。據一家經濟學咨詢公司前沿經濟學的報告稱，劍橋1號有可能在未來10年內創造6億英鎊（約合8.25億美元）的估計價值。來源：遊民星空

英偉達發布英國最牛超級計算機擁有4423680個GPU核心

NVIDIA今天宣布，正式啟動英國最強超級計算機「Cambridge-1」(劍橋一號)，主要用於英國的醫療健康研究，這也是NVIDIA為英國貢獻的第一台專用於先進科研的超算。劍橋一號基於NVIDIA DGX SuperPOD超算系統方案，包含80套DGX A100計算系統，每個節點內有八塊Ampere架構頂級大核心A100計算卡、兩顆AMD霄龍7742 64核心處理器，總共640塊計算卡(4423680個核心)、160顆處理器(10240個核心)。另外，該超算還採用了NVIDIA BlueField-2 DPU數據處理單元、NVIDIA HDR InfiniBand高速網絡。它可以提供8PFlops(8千萬億次每秒) Linpack浮點性能、400PFlops(40億億次每秒) AI性能，官方號稱可以排到全球前50名，那應該說的是持續性能。值得一提的是，該超算採用了100％可再生能源，Green500綠色超算榜單上躋身前三。為了這條超算，NVIDIA已經投入了1億美元，而研究顯示，未來10年它可以帶來大約8.25億美元的價值回報。來源：3DMGAME

NVIDIA正式發布英國最強超級計算機：4423680個GPU核心

研究：超級計算機提高了空間天氣預報能力

據媒體報導，太陽表面充滿了能量並經常向地球噴射大量的高磁化等離子體。有時，這些噴射物的強度足以穿透磁層--保護地球的天然磁屏蔽--破壞衛星或電網。這種空間天氣事件可能是災難性的。幾個世紀以來，天文學家對太陽活動的研究越來越深入。現在，計算機是了解太陽行為及其在空間天氣事件中的作用的核心。美國兩黨合作的《PROSWIFT（促進空間天氣研究和觀測以改善未來預測）法案》於2020年10月通過成為法律，該法案使得開發更好的空間天氣預測工具的必要性正式確立。阿拉巴馬州亨茨維爾大學空間科學的傑出教授Nikolai Pogorelov表示：「空間天氣需要實時產品，這樣我們才能在事件發生前預測影響，而不僅僅是在事件發生後。這個主題--跟國家太空計劃、環境和其他問題有關--最近升級到了一個更高的水平。」據悉，他已經使用計算機研究空間天氣數十年了。對許多人來說，空間天氣似乎是一個遙遠的問題，但就像一種流行病--我們知道這是可能的和災難性的--我們可能直到為時已晚才意識到它的危險。 Pogorelov指出：「我們沒有想到，電子通信、GPS和日常用品都可能受到極端太空天氣的影響。」此外，美國正在計劃其他行星和月球的任務。所有這些都需要非常精確的空間天氣預測--用於宇宙飛船的設計並向太空人發出極端事件的警報。在美國國家科學基金會(NSF)和NASA的資助下，Pogorelov領導了一個致力於提高空間天氣預報的先進水平的團隊。 NSF大氣和地球空間科學部空間天氣項目主任Mangala Sharma表示：「這項研究結合了復雜的科學、先進的計算技術和令人興奮的觀測，其將促進我們對太陽如何驅動空間天氣及其對地球的影響的理解。這項工作將幫助科學家預測太空天氣事件並建立我們國家抵禦這些潛在自然災害的能力。」這項多機構合作的工作包括NASA戈達德和馬歇爾太空飛行中心、勞倫斯伯克利國家實驗室及兩家私營公司--預測科學公司和空間系統研究公司。 Pogorelov使用Frontera超級計算機在德克薩斯高級計算中心(TACC)--全球第九快--及在位於NASA艾姆斯研究中心的NASA先進超級計算機(NAS)設施和聖地亞哥超級計算中心來提高核心空間天氣預報的模型和方法。湍流在太陽風和日冕物質拋射的動力學中起著關鍵作用。這一復雜的現象有許多方面，包括激波-湍流相互作用和離子加速的作用。「太陽等離子體並不處於熱平衡狀態。這創造了有趣的特徵，」Pogorelov說道。。 Pogorelov、Michael Gedalin（以色列內蓋夫本古里安大學）和Vadim Roytershteyn）（空間科學研究所）於2021年4月的《Astrophysical Journal》上發表的文章描述了在宇宙帶電粒子加速中逆流拾起離子的作用。回流的離子--無論是來自星際還是本地--都被磁化的太陽風等離子體吸收並從太陽向外輻射移動。 Pogorelov指出：「一些非熱粒子可以進一步加速，從而產生太陽能量粒子，這些粒子對地球上的空間天氣條件和太空中的人特別重要。」 Pogorelov在Frontera上進行了模擬從而更好地理解這一現象，並將其跟旅行者1號和旅行者2號的觀測結果進行比較。旅行者1號和旅行者2號探索了日球層的外層，現在正在提供來自本地星際介質的獨特數據。空間天氣預報的主要焦點之一是正確預測日冕物質拋射的到來--日冕釋放的等離子體和伴隨的磁場--並確定其所攜帶的磁場方向。Pogorelov團隊對回流流離子的研究有助於實現這一目標。該研究利用基於磁通繩的磁流體力學模型預測了2012年7月12日日冕物質拋射的到達地球時間和磁場結構。 Pogorelov繼續說道：「15年前，我們對星際介質或太陽風的性質了解不多。我們現在有如此多的觀測數據，這使我們能夠驗證我們的代碼並使得它們更加可靠。」 Pogorelov是帕克太陽探測器上一個被稱為SWEAP的組件的合作研究者。該探測器每繞一圈就會靠近太陽一點，它負責提供有關太陽風特徵的新信息。「很快，它將穿透太陽風變成超快磁聲速的臨界層，我們將獲得關於太陽風加速和傳輸的物理信息，這是我們以前從未有過的，」Pogorelov說道。隨著探測器和其他新的觀測工具的使用，Pogorelov預計會有大量的新數據，這些數據可以為跟空間天氣預報相關的新模型提供信息並推動其發展。出於這個原因，在其基礎研究之外，Pogorelov正在開發一個軟體框架。據悉，該軟體框架是靈活的，它可以被世界各地的不同研究小組使用並可以整合新的觀測數據。「毫無疑問，在未來的幾年里，來自光球層和日冕的數據質量將顯著提高，因為有新的數據和更復雜的數據處理方法。我們正在嘗試構建這樣一種軟體，如果用戶在新的科學任務中提出更好的邊界條件，他們將更容易整合這些信息，」Pogorelov說道。來源：cnBeta

超級計算機助科學家展開恆星中奇異物質的研究工作

據媒體報導，在宇宙中一些最小、密度最大的恆星的中心存在著可能以前所未見的奇異相存在的核物質。中子星是大質量恆星核心在一次發光的超新星爆炸中坍塌時形成，科學家們認為中子星所包含的物質的能量大於粒子加速器實驗如大型強子對撞機和相對論重離子對撞機所能達到的能量。雖然科學家們無法在地球上重現這些極端條件，但他們可以利用中子星作為現成的實驗室來更好地了解外來物質。許多中子星的直徑只有12.5英里，但質量卻是太陽的1.4到2倍，模擬中子星可以幫助我們人類了解可能存在於它們內部的物質並提供線索以了解它們在如此密度下的行為。由石溪大學的Michael Zingale領導的一個核天體物理學家團隊正在使用橡樹嶺領導計算設施(OLCF)的IBM AC922 Summit--這是美國最快的超級計算機--來模擬一種被稱為X射線爆炸的中子星現象。這是一種熱核爆炸，發生在中子星的表面，當它的引力場將足夠多的物質從附近的恆星上拉下來時出現。現在，該團隊已經模擬了2D X射線火焰在中子星表面的移動，這樣能幫助研究人員確定下火焰在不同條件下是如何作用的。模擬這一天體物理現象為科學家提供了可以幫助他們更好地測量中子星半徑的數據。研究小組發現，不同的初始模型和物理原理會導致不同的結果。在該項目的下一階段，該團隊計劃在研究結果的基礎上運行一個大型3D模擬以獲得更准確的X射線爆發現象的圖像。改變物理由於中子星模擬需要大量的物理輸入，因此需要大量的計算能力。即使在峰頂，研究人員也只能模擬出中子星表面的一小部分。為了准確地理解火焰的行為，Zingale的團隊利用Summit為中子星下面的各種特徵建立了火焰模型。該團隊的模擬是在Innovative and Novel Computational Impact on Theory and Experiment(INCITE)計劃的計算時間分配下完成的。該團隊通過改變表面溫度和自轉速率來代替不同的吸積速率，即恆星從附近恆星積累額外物質時質量增加的速度。石溪大學博士後研究員、論文第一作者Alice Harpole表示，該團隊模擬了一個更熱的地殼以此獲得了意想不到的結果。「這個項目最令人興奮的結果之一是我們在模擬中改變地殼溫度時所看到的。在我們之前的工作中，我們使用的是更冷的地殼。我認為雖然使用更熱的外殼可能會有不同，但實際上看到溫度上升產生的不同是非常有趣的，」Harpole說道。更大規模的計算和更高的復雜度該團隊在美國能源部橡樹嶺國家實驗室(ORNL)的OLCF的Summit上模擬了X射線爆發火焰現象。勞倫斯伯克利國家實驗室(LBNL)本科生科學實驗室實習項目實習生Nicole Ford在美國國家能源研究科學計算中心(NERSC)的Cori超級計算機上進行了補充模擬。OLCF和NERSC都是能源部科學辦公室的用戶設施，分別位於ORNL和LBNL。在水平方向上模擬9216個網格單元和在垂直方向上模擬1536個網格單元需要大量的計算能力。團隊成員在團隊完成模擬後利用OLCF的Rhea系統來分析和繪制他們的結果。在Summit上，該團隊在百億億級庫的自適應網格細化(AMReX)中使用了Castro代碼--它能對爆炸性天體物理現象進行建模，這使得團隊成員能在網格的不同部分實現不同的解析度。AMReX是百億億次計算項目正在開發的庫之一，該項目旨在使科學應用程式在能源部即將推出的百億億次系統上運行。據悉，百億億次系統能以每秒1018次的速度進行運算。 AMReX提供了一個在超級計算機上並行化的框架，但Castro並不總是能夠利用GPU，這使得Summit對科學研究如此有吸引力。該團隊參加了由OLCF支持的、在布魯克海文國家實驗室(Brookhaven National Laboratory)和ORNL舉行的黑客馬拉松以獲得將代碼移植到Summit的GPU上的幫助。團隊表示，他們計劃運行的即將到來的3D模擬不僅需要GPU，而且還會消耗掉團隊全年INCITE的幾乎全部時間。 Zingale說道：「我們需要竭盡所能。幸運的是，我們已經從這些2D模擬中了解到3D模擬需要做什麼，所以我們為下一個大的努力做好了准備。」來源：cnBeta

超級計算機模擬解開了太陽風為什麼沒有快速冷卻之謎

科學家們長期以來一直質疑為什麼來自太陽的高溫氣體爆發沒有像預期那樣快速冷卻，現在一個由UCL領導的研究小組已經使用一台超級計算機找到了原因。該小組現在將把他們的模擬結果與來自歐洲航天局太陽軌道器任務的真實數據進行比較，希望這將證實他們的預測，並提供一個結論性的答案。太陽風是一股不斷從太陽射出到太陽系的帶電粒子流。這些噴射物極大地影響了我們太陽系的狀況，並不斷地撞擊地球。當太陽風擊中地球時，它的溫度幾乎是預期的10倍，溫度約為10萬至20萬攝氏度。太陽風發源地，即太陽外層大氣，通常溫度是一百萬攝氏度。如果太陽風特別強，它可能會給衛星、太空中的太空人、行動電話、交通，甚至給我們的家庭供電電力網絡帶來問題。為了成功地預測和准備這樣的空間天氣事件，一個科學家團隊正試圖解決空間天氣所蘊含的奧秘，包括太陽風是如何被加熱和加速的。該團隊在科技設施委員會（STFC）和歐洲航天局（ESA）的資助下，在一台強大的超級計算機上運行並分析了太陽風的模擬結果。這些模擬是使用DiRAC高性能計算（HPC）設施的萊斯特數據密集型服務進行的，由STFC資助。利用這些模擬，研究小組推斷，太陽風保持高溫的時間更長，因為在太陽風的湍流中形成了小規模的磁重聯。這種現象發生在兩條對立的磁場線斷裂並相互重新連接，釋放出巨大的能量。這也是觸發太陽外層大氣爆發大型耀斑的過程。在湍流太陽風中，磁重聯幾乎是自發地、一直地發生的。這種類型的重聯通常發生在幾百公里的范圍內，與空間的巨大尺寸相比，這實在是很小。利用超級計算機的力量，科學家已經能夠以前所未有的方式處理這個問題。科學家們在模擬中觀察到的磁重聯事件是如此復雜和不對稱，他們正在繼續分析這些事件。來源：cnBeta

超級計算機模擬揭示了SARS-CoV-2優勢菌株是如何與宿主結合並屈服於抗體的

洛斯阿拉莫斯國家實驗室的超級計算機模擬表明，SARS-CoV-2的G型，即引起COVID-19的優勢病毒株，變異為一種構象，更頻繁地 "抬頭 "以吸附在受體上，但這使它更容易被中和。原子層面的大規模超級計算機模擬顯示，導致人們罹患COVID-19的SARS-CoV-2優勢菌株G型變體更具感染性，部分原因是與其他變種相比，它更有能力輕易地與體內的目標宿主受體結合。洛斯阿拉莫斯國家實驗室領導的團隊的這些研究成果闡明了G型病毒的感染和對它的抗體抵抗的機制，這可能有助於未來的疫苗開發。 "我們發現穗狀蛋白的基本構件之間的相互作用在G型中變得更加對稱，這使它有更多機會與宿主，也就是我們的受體結合，"最近發表在《科學進展》上的論文的通訊作者Gnana Gnanakaran說。"但與此同時，這意味著抗體可以更容易地中和它。實質上，該變體抬頭與受體結合，這給了抗體攻擊它的機會"。研究人員知道這個也被稱為D614G的變種更具感染性，可以被抗體中和，但他們不知道如何中和。這項新工作模擬了超過一百萬個單獨的原子，並需要大約2400萬個CPU小時的超級計算機時間，提供了關於這個變體的Spike行為的分子水平細節。目前針對SARS-CoV-2（導致COVID-19的病毒）的疫苗是基於該病毒的原始D614形式。對G變體的這種新理解--在原子水平上對G形式進行的最廣泛的超級計算機模擬--可能意味著它為未來的疫苗提供了一個骨架。該團隊在2020年初發現了D614G變種，當時由SARS-CoV-2病毒引起的COVID-19大流行正在加緊進行。這些發現發表在《細胞》上。科學家們曾觀察到尖峰蛋白中的一個突變。在所有的變種中，正是尖峰蛋白使病毒具有特徵性。這種D614G突變，因SARS-CoV-2基因組上第614位的胺基酸被天冬氨酸取代而得名，在幾周內就在全球范圍內流行起來。穗狀蛋白通過穗狀蛋白的受體結合域與我們許多細胞中發現的特定受體結合，最終導致宿主被感染。這種結合要求受體結合域在結構上從不能結合的封閉構象過渡到可以結合的開放構象。這項新研究的模擬結果表明，在新的G型變體中，尖峰蛋白的構件之間的相互作用比原始D型菌株中的相互作用更加對稱。這種對稱性導致更多的病毒Spike處於開放構象，因此它可以更容易地感染一個人。來自洛斯阿拉莫斯的一個博士後團隊--Rachael A. Mansbach（現為康科迪亞大學物理學助理教授）、Srirupa Chakraborty和Kien Nguyen--領導了這項研究，對這兩種變體在受體結合域的兩種構象下進行了多次微秒級模擬，以闡明Spike蛋白如何與宿主受體以及有助於保護宿主免受感染的中和抗體相互作用。研究小組的成員還包括洛斯阿拉莫斯國家實驗室的Bette Korber和杜克人類疫苗研究所的David C. Montefiori。研究小組感謝洛斯阿拉莫斯的機構計算主管保羅·韋伯為這項研究提供了使用該實驗室的超級計算機的機會。來源：cnBeta

PC玩家可參與最大分布式超級計算機的構建還有福利送

Salad Technologies 目前正在努力呼籲世界各地的玩家們貢獻其閒置算力，同時它也將給予一定的數字獎勵。Salad Technologies這樣做的目的是為了構建一個基於分布式運算的全球最大超算網絡。 TechPowerUp 指出，Salad Technologies正在打造一個市場，以將 PC 玩家的綜合硬體性能用於執行其合作夥伴的高級計算任務。Salad 的分布式計算網絡隨著時間的推移，有望與數百上千萬美元的其它超算項目展開更直接的競爭。據悉，自 2018 年成立以來，Salad 已經在 25 萬名 PC 玩家的幫助下，利用閒置的硬體算力、以及開源的桌面應用程式，來幫助驗證區塊鏈交易。作為獎勵，Salad 用戶能夠分享計算資源，以及從超過 1.5 萬個數字獎勵庫中獲取遊戲、禮品卡、以及訂閱服務。僅在過去三個月，這些分布在世界各地的項目參與者（Salad 幽默地稱之為「大廚」）已經產出了超過 50 萬美元的價值，並且換取了 4 萬多個獨特的獎勵。隨著網絡平均性能穩定在...

Salad邀請PC玩家參與全球最大分布式超級計算機的構建

為了構建一個基於分布式運算的全球最大超算網絡，Salad Technologies 正呼籲世界各地的玩家們貢獻其閒置算力，同時將給予一定的數字獎勵。TechPowerUp 指出，該公司正在打造一個市場，以將 PC 玩家的綜合硬體性能用於執行其合作夥伴的高級計算任務。隨著時間的推移，Salad 的分布式計算網絡，有望與數百上千萬美元的其它超算項目展開更直接的競爭。（來自：Salad 官網）據悉，自 2018 年成立以來，Salad 已經在 25 萬名 PC 玩家的幫助下，利用閒置的硬體算力、以及開源的桌面應用程式，來幫助驗證區塊鏈交易。作為獎勵，Salad 用戶能夠分享計算資源，以及從超過 1.5 萬個數字獎勵庫中獲取遊戲、禮品卡、以及訂閱服務。僅在過去三個月，這些分布在世界各地的項目參與者（Salad 幽默地稱之為「大廚」）已經產出了超過 50 萬美元的價值，並且換取了 4 萬多個獨特的獎勵。隨著網絡平均性能穩定在 30...

AMD Zen3核心輕松賣出去10萬個：搭檔352個NVIDIA大核心

新加坡構架超算中心(NSCC)宣布，將採用AMD第三代霄龍處理器、NVIDIA A100 GPU加速卡，打造新一代超級計算機，算力可達10PFlops，即每秒1億億次浮點計算。這個計算水平在如今的TOP500超算里根本排不上號，只有第一名的1/442，但對於新加坡這樣一個小國家來說已經不低了，而且是當前新加坡第一超算ASPIRE1的大約8倍。 ASPIRE1是新加坡目前唯一的一台超算，2016年投用，1288個節點，每個節點兩顆12核心的至強E5-2690 v3處理器，搭配128GB DDR4記憶體、10TB硬碟，總計3.1萬個CPU核心，另外還有128塊NVIDIA Tesla K40加速卡(克卜勒架構)。而這台尚未命名的新超算基於HPE Cray EX高性能計算平台，總計接近900個節點，採用AMD霄龍7003 64核心處理器，總共超過10萬個AMD Zen3架構的CPU核心(至少1560顆)，同時搭檔352塊安培架構的NVIDIA GA100 GPU核心， NVIDIA A100的峰值浮點性能為19.5TFlops，352塊就是6.8PFlops，而剩下的3.2PFlops則由霄龍處理器提供。新超算投資2億美元，預計2022年初上線，後續直到2025年還會有一系列新的超算項目。來源：快科技

12 Page 1 of 2

Tag: 超級計算機