AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

這是一個無AI不歡的時代,而日益高漲的算力需求,對各類硬體提出了越來越苛刻的要求,也使得天生具備超強並行計算能力的GPU加速器大放異彩,仿佛成為聖物一般的存在,人們甚至不惜花三十多萬元去搶一塊卡。

但是同時,CPU處理器的光芒卻被完全掩蓋,甚至出現了“GPU可以徹底取代CPU”這樣令人哭笑不得的言論。

事實上,在AI的硬體世界里,CPU、GPU、FPGA、ASIC都是重要的成員,各有各的特點和優劣,無所謂誰比誰好,只能說需要在最合適的地方使用最合適的硬體,彼此之間也可以有機配合,達到效率的最優化。

其中,CPU的計算性能不是最強的,在處理特定負載時甚至可能是最弱的,但作為計算機行業一直以來的中樞,它有著不可替代的地位,不但扮演著核心指揮官的角色,還在不斷跟隨時代的變化而不斷演進,有著無可比擬的靈活性、適應性。

舉個例子,業內一度普遍認為,生成式AI和大語言模型(LLM)只適合在高性能GPU上運行,但事實上在CPU上同樣有著極高的效率,特別是配合特定加速器,效率與規模不受限制,從而提供極具競爭力的不同選擇。

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

近些年,在伺服器與數據中心領域,CPU持續快速疊代、升級,無論是AMD EPYC還是Intel至強,每一代都是舊貌換新顏,如今更成為AI浪潮的堅定基石。

尤其是AMD EPYC,2017年誕生重返高性能計算市場以來,憑借優秀的Zen系列架構,性能越來越強,能效越來越高,能力越來越豐富:高性能計算、邊緣計算、人工智慧、雲服務、5G與通信基礎設施、虛擬化……幾乎無所不能。

回想2017年之前,整個數據中心市場被Intel至強完全壟斷,客戶沒有任何選擇空間,Intel提供什麼就只能用什麼,Intel要多錢就只能給多少錢,也難怪AMD EPYC 2017年橫空出世的時候,整個行業的態度幾乎都是“歡迎歸來”。

AMD EPYC也確實沒有令大家失望,經過連續四代的進化,如今擁有業界最高的計算密度、最高的性能、最高的效率,或者直白地說有著最多的核心、最大的緩存、最高的頻率,以及極為豐富的技術特性,更關鍵的是不忘初心,一直堅持極高的性價比,可謂不二之選。

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

2022年11月11日,一個特殊的日子里,Genoa EPYC 9004系列正式誕生,而對手規劃的Sapphire Rapids第四代可擴展至強反復跳票接近兩年,不但速度慢得多,性能表現也相去甚遠。

全新的5nm製造工藝、全新的Zen 4架構、Chiplet芯粒布局與最多96核心192線程、最多384MB海量三級緩存、最高4.4GHz加速頻率、12通道DDR5-4800記憶體(單路最大容量6TB)、128條PCIe 5.0總線、CXL 1.1+高速互連標准、全新升級的加密計算……

這些亮點,每一個單獨拿出來都值得說道半天,EPYC 9004卻把它們一網打盡,而且還有著相當高的能效,即便是旗艦級的96核心型號EPYC 9654熱設計功耗也只有360W,標准風冷散熱即可輕松搞定。

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

作為對比,Intel Sapphire Rapids四代至強還是Intel 7製造工藝(原名10nm)、最多60核心120線程與112.5MB三級緩存、4.2GHz最高頻率、8通道DDR5記憶體(單路最大容量4TB)、80條PCIe 5.0……幾乎全面落於下風,只有各種加速器相當惹眼,但也側面反映了CPU本身能力的欠缺。

實際性能方面,按照AMD在今年6月份舉辦的“數據中心與AI技術首映”上給出的數據,EPYC 9654對比至強鉑金8490H,96核心旗艦對比60核心旗艦,雲服務性能領先1.8倍,企業計算性能領先1.7-1.9倍,能效領先1.8倍,AI性能領先1.9倍,性價比領先近乎2.6倍……

四代對四代,AMD EPYC明顯碾壓了Intel至強。

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

如果到這里結束,AMD EPYC的表現已經近乎完美,但它還有著更高的追求,開始面向不同細分市場延伸、深入,通過不同的設計為不同的負載和場景提供最優化解決方案,第一次全面開花。

具體來說,EPYC 97X4系列(Bergamo)通過更高能效的Zen 4c架構,主打雲原生市場;

EPYC 9084X系列(Genoa-X)通過集成大容量高速3D V-Cache堆疊緩存,提供頂級計算能力;

即將發布的Siena系列,則主打邊緣計算等,能效同樣非常高。

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

其中,Bergamo EPYC 97X4系列創新地採用了“同構小核心”設計,Zen 4架構核心衍生出來的Zen 4c,最大核心數從96個增加到128個,從而擁有業界最高核心密度。

但是,Zen 4c架構並沒有為了增加核心數而簡單粗暴地閹割功能、性能,它和Zen 4擁有完全相同的製造工藝、架構設計,無論x86 ISA指令集還是IPC理論性能,都保持百分百一致。

12通道DDR5記憶體、128條PCIe 5.0總線……這些關鍵技術特性也原汁原味地保留。

通過緊湊結構、精簡緩存、優化頻率,Zen 4c核心擁有了更高的能效,或者可以說是業內最高的能效,從而完美匹配雲服務的場景需求。

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

Zen 4c核心仍然是5nm工藝製造,單個核心加對應二級緩存的總面積僅為2.48平方毫米,相比於Zen 4核心加二級緩存的3.84平方毫米,縮小了足足35%。

Zen 4架構的Genoa集成最多達12組CCD,每個都是8核心,總計最多96核心。

到了Bergamo之上,正是憑借Zen 4寸高超的能效、單位面積設計,每一組CCD的核心數翻番達到16個,因此只用了8組CCD,就達成了128核心的頂級規格。

哦對了,三級緩存容量依然高達256MB,仍舊是對手的兩倍有餘。

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

Bergamo在雲原生應用中的性能可謂大殺四方,別說是Intel Sapphire Rapids四代至強這種稍顯“笨重臃腫”的設計,就連同樣專為雲服務而生的一系列Arm架構產品也完全不是對手。

根據官方數據,128核心旗艦EPYC 9754對比同樣128核心的Ampere AltraMax,一系列雲原生應用中的平均吞吐性能領先多達2.9倍,最高達驚人的3.7倍,此外每台伺服器容器數量領先3倍,系統能效領先2.7倍。

架設同樣性能的機櫃,EPYC 9754所需要的機架數量可節省最多55%,每年省電最多39%,節省運營成本最多39%,節省總擁有成本最多19%!

對於海量規模的數據中心而言,Bergamo不但可以增效,更能大大降本,完全滿足當下的客戶需求與行業趨勢。

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

如果說官方數據都是理想化的,那就看看EPYC 9754在實際測試與應用中的亮眼表現。

根據中國電子技術標准化研究院組織的CPUBench公開測試(參考行業權威基準測試工具SPECCPU開發設計且不收費),EPYC 9754的Typical典型分數領先至強鉑金8490H 27.5%之多。

憑借128核心的極高密度,EPYC 9754的雙路多核性能超過雙路至強鉑金8490H 121%,即使面對四路至強鉑金8490H,也有著27.5%的優勢。

同時,64核心型號的EPYC 9554,憑借更多核心、更高頻率,在雙路多核性能測試中,也可以領先雙路至強鉑金8490H 63%之多。

如果按照Extreme極限分數排序,AMD EPYC 9754同樣高居第一,而且前四名都是AMD EPYC。

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案 ↑↑↑數據來源:

根據《微型計算機》的實測,SPECrate 2017基準測試中,兩顆EPYC 9754對比兩顆EPYC 9654,256核心對比192核心,整數性能可以領先多達12.1%,浮點性能也可以領先5.2%。

高性能計算中通用的HPL Linpack測試中,雙路EPYC 9754更是大勝雙路EPYC 9654,領先幅度達到了17.7%。

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案 ↑↑↑數據來源:

再說3D V-Cache堆疊緩存,在數據中心端、消費端已經應用了兩代,發展極為成熟,這可是AMD獨有的大殺器。

大家對於桌面上的銳龍7 5800X3D、銳龍7 7800X3D應該都不陌生了,它們憑借上百兆緩存在遊戲性能上遙遙領先,加上高性價比,備受遊戲玩家追捧。

銳龍9 7945HX3D更是第一次將3D V-Cache緩存帶入了遊戲本,直接碾壓所有對手。

到了數據中心,3D V-Cache的作用就更大了,遠不是玩遊戲能比的。

Genoa-X在Genoa的基礎上,每一組CCD都額外堆疊64MB 3D V-Cache,12組CCD就是768MB,加上原生的384MB,總的三級緩存容量就達到了驚人的1152MB,也是處理器緩存史上第一次突破1GB。

如果再算上6MB一級緩存(每核心獨享64KB)、96MB二級緩存(每核心獨享1MB),Genoa-X的緩存總量就是1254MB!

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

海量緩存帶來的性能優勢可以說是斷崖式的,對於競品簡直就是降維打擊。

按照官方數據,96核心的EPYC 9684X對比至強鉑金8490H,各種性能測試都是兩三倍的差異。

如果你覺得EPYC 9684X還有更多的核心加持,那麼用32核心的EPYC 9384X對比同樣32核心的至強鉑金8462Y+,同樣都是一個頂倆一般的碾壓。

按照官方說法,Genoa-X只需要8個節點,就可以達成傳統14個節點的性能水平,可以節省最多43%的伺服器空間、38%的伺服器功耗、38%的運營成本、44%的碳排放、39%的總擁有成本。

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

實際應用測試結果也令人滿意,3D緩存在特定負載中有著無可比擬的優勢。

根據《微型計算機》的實測,在Libxsmm中,一個用於密集和稀疏矩陣運算、深度學習原語的開源庫,EPYC 9684X測出的算力高達7445GFLOPS,相對EPYC 9654領先多達67.5%。

還有NASA為高性能計算系統開發的基準測試NAS Parallel Benchmarks,EPYC 9684X也有著壓倒性的優勢,領先EPYC 9654 40.1%之多。

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案 ↑↑↑數據來源:

總的來說,在這個AI前所未有繁榮的時代,CPU處理器的作用不但沒有絲毫削弱,反而更加強大,在更多舞台上綻放光芒。

對於任何應用來說,算力永遠是優先級最高的,沒有高性能其他一切都無從談起,尤其是隨著應用場景的細化,越來越需要更有針對性的算力,才能達成最高效率。

同時,隨著時代的進步,無論是出於節省成本的需要,還是對我們這個地球的保護,半導體和電子產品的能效必須越來越高。

這一切,AMD EPYC都幾乎完美地可以滿足。無論是已發布的Genoa、Genoa-X、Bergamo,還是即將推出的Siena,都有著各自鮮明的特點,可以靈活滿足不同市場的需求,性能上沒有任何競品可以媲美,效率上也是超一流的。

AMD還在2021年就做出了承諾,要在2025年實現 EPYC處理器、Instinct加速器能效提升30倍的目標,從而節省數十億度的電力消耗,單個計算所需電力減少97%之多。

從目前的進展看,AMD EPYC處理器實現這一目標不會有什麼難度,而且明年我們就能看到全新設計的Zen 5架構,無論性能還是能效都勢必實現一次巨大的飛躍。

如果時光回到2017年之前,誰能想到AMD可以做到如此高度呢?

AI浪潮中 CPU能做些什麼?AMD EPYC全面開花給出完美答案

來源:快科技