性能秒殺Intel、NVIDIA 離譜的「萬能CPU」升級192核心

斯洛伐克的伺服器晶片設計公司Tachyum去年曾推出了128核的Prodigy(神童)處理器,號稱在性能、功耗、成本等方面均吊打IntelXeon處理器的。

近期,Tachyum又帶來了更為強大的Prodigy2處理器,不僅內核數量提升到了192核,同時在緩存容量等眾多方面都有提升。

性能秒殺Intel、NVIDIA 離譜的「萬能CPU」升級192核心

性能秒殺Intel、NVIDIA 離譜的「萬能CPU」升級192核心

升級192核心,AI性能翻倍

Tachyum表示,通過利用最新的 EDA 工具,Prodigy 2 處理器的CPU內核由原來的64位128核心升級到了192核心,主頻依然高達高達5.7GHz;L2/L3緩存容量也從128MB增加到了192MB;晶片的 SERDES 數量也從64個增加到了96個;增加了對16 x DDR5 7200 記憶體的支持,單個Prodigy晶片可連接多達32條DIMM;還擁有48個PCIe 5.0控制器。

性能方面,在AI訓練和推理任務中,能夠實現24個AI PetaFLOPS,相比上一代AI性能翻倍;在HPC(高性能計算)負載中,可達到90 TeraFLOPS。

性能秒殺Intel、NVIDIA 離譜的「萬能CPU」升級192核心

性能秒殺Intel、NVIDIA 離譜的「萬能CPU」升級192核心

雖然官網的資料顯示192核心的Prodigy 2是基於5nm工藝,但是今年6月的一篇新聞稿顯示,Prodigy 2可能將會升級成3nm工藝。

以上的諸多提升,也使得Prodigy 2 處理器die size從 500mm2增加到 600mm2,增加了 20%。

後續,Prodigy 處理器可能還會進一步增加內核數量,但晶片將會受到帶寬限制。

目前Prodigy 2 支持的是 16 通道 DDR5 記憶體接口,速度可達 7200 MT/ 及以上,如果要增加額外的內核,就需要更高速的記憶體,比如HBM。預計這款處理器將會在2025年推向市場。

全新“萬能CPU”架構

需要指出的是,Tachyum公司所設計的Prodigy處理器號稱是全球首個真正的“通用處理器。

不同於傳統的CPU和GPU解決方案,Prodigy旨在將 CPU、GPGPU 和 TPU 的功能統一到同一個內核當中,並配備強大向量計算單元和矩陣計算單元,讓HPC和AI工作負載在同一架構上運行。

單顆核心就可以支持廣泛的數據類型,包括 FP64、FP32、TF32、BF16、Int8、FP8 和 TAI。

更為關鍵的是,Prodigy還可以運行x86、Arm、RISC-V的二進位文件。堪稱“萬能CPU”。

據此前媒體chipsandcheese此前的分析,Prodigy的內核架構是將GPU的矢量吞吐量與CPU的單線程性能相結合,但代價是高功耗。

不過,他們認為Prodigy有可能成為具有競爭力的 HPC 或 AI 晶片。

性能吊打IntelXeon和NVIDIA H100?

資料顯示,Tachyum於2022年發布的上一代的Prodigy處理器擁有64核心(T864)及128核心(T16128)兩個版本。其中64核心版本,主頻4GHz,基於台積電7nm工藝。

128核心版本,基於5nm工藝,FCLGA封裝,尺寸為64毫米×84毫米,工作頻率高達5.7GHz,擁有超過128MB的L2+L3高速緩存、16個DDR5記憶體控制器和64個PCIe5.0通道,可以處理通用計算、高性能計算(HPC)和AI工作負載。

Tachyum表示,Prodigy處理器每個核心能夠擁有2x 1024位矢量單元(IntelGolden Cove核心也只有2×512 位向量單元),4096位矩陣單元,以及每時鍾4條失序指令。還可支持虛擬化和高級RAS。

當時Tachyum公司還宣稱,128核版的Prodigy超級計算機晶片在HPC(高性能計算)負載中,能夠執行12個AI PetaFLOPS和90 TeraFLOPS,性能是Intel最快的Xeon處理器的4倍,是英偉達(NVIDIA) H100 GPU的雙精度浮點性能的3倍;在 AI 工作負載中,FP8性能是NVIDIA H100的6倍。

同時,Prodigy處理器電源效率也達到了Xeon處理器的10倍,而且成本大約只有傳統硬體的三分之一。

從Tachyum公司的描述來看,128核的Prodigy處理器的AI性能可直接吊打IntelXeon、NVIDIA H100,並且能效也更高,成本還更低。

更為關鍵的是,還能運行x86、Arm、RISC-V的二進位文件。也就是說,可以直接兼容x86、Arm、RISC-V生態,簡直是強大的離譜!

對此,外界一直是持懷疑高度態度,認為是“PPT造芯”。

相比之下,最新的192核的Prodigy處理器在在AI訓練和推理性能方面,提升到了24個AI PetaFLOPS。看來性能更是要吊打IntelXeon了。

有意思的是,目前Tachyum公司的官網已經看不到了關於64核心(T864)及128核心(T16128) Prodigy處理器的介紹,僅保留了更早之前的48核心(T848)及96核心(T896) Prodigy處理器,以及最新發布的196核心(T16192)Prodigy處理器。

如此看來,48核心(T848)及96核心(T896) Prodigy處理器已經被取消。

性能秒殺Intel、NVIDIA 離譜的「萬能CPU」升級192核心

不過,Tachyum公司官網上仍留有關於Prodigy處理器“在性能在優於Xeon的前提下,耗電僅為Xeon的十分之一”、“每MIPS (每秒百萬條指令)只有Xeon三分之一的售價”、“數據中心年度總體建立成本降低4倍”之類的描述。

性能秒殺Intel、NVIDIA 離譜的「萬能CPU」升級192核心

Tachyum在推出性能更強的192核心的Prodigy 2 處理器的同時,還推出了基於其Prodigy 2通用處理器和液體/空氣混合冷卻的百億億次級(E級)人工智慧超級計算機的設計。

該設計將在60MW的功率預算和6,000平方英尺的占地面積中提供20 ExaFlops的FP64矢量運算性能。

已獲得歐盟2640萬歐元支持

值得一提是,Tachyum雖然是一家斯洛伐克晶片設計公司,但實際上其是於2016年由多位資深半導體大咖在美國矽谷成立的,只不過,Tachyum在獲得斯洛伐克政府的1700萬美元投資之後,就將總部設在了斯洛伐克。

Tachyum公司CEO Radoslav Danilak曾是SSD主控廠商SandForce(2011年被LSI收購)和Skyera(2014年被西部數據收購)的創始人,此外還曾擔任過NVIDIA的晶片組和GPU架構師、Nishan Systems和Toshiba的CPU架構師,擁有25年的半導體行業經驗;

公司聯合創始人兼首席架構師Rodney Mullendore 曾是SandForce的首席硬體架構師、Nishan Systems的聯合創始人,擁有30多年半導體行業從業經驗。

性能秒殺Intel、NVIDIA 離譜的「萬能CPU」升級192核心

得益於斯洛伐克晶片設計公司的身份,在今年6月,包括Tachyum在內的來自歐盟的56家公司,獲得了歐盟81億歐元的資金支持,作為此前宣布的歐洲共同利益微電子和通信技術重要項目 (IPCEI ME/CT) 的一部分。

其中,Tachyum獲得了 2640 萬歐元的支持,以加速Prodigy 2 通用處理器的交付。

來源:快科技