AMD Zen4架構深入揭秘 49%性能提升從何而來?

一、全新的Zen4內核:前端大變、不一樣的AVX-512

,提升幅度可能沒有預想得那麼猛,但依然誠意十足。

銳龍9 7900X作為次旗艦,就足以碾壓12代酷睿頂級灰燼版i9-12900KS。主流的銳龍5 7600X更是再次展現爆款潛質,直接讓i5-12600K抬不起頭來。

至於和Intel 13代酷睿究竟鹿死誰手,還要到這個月底才能見分曉了。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

按照AMD的官方數據,Zen4相比於Zen3,同等性能下功耗可降低至多62%,同等功耗下性能可提升至多49%!

今天,我們就來深入了解一下Zen4架構、平台的革新之處,看看如此巨大的提升是從而來的。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

先從Zen架構的歷史講起……

AMD Zen4架構深入揭秘 49%性能提升從何而來?

Zen4已經是AMD Zen系列架構的第四代(Zen/Zen+算作一代),對比來看它的改革、提升幅度都不是最大的,更多的是在Zen3基礎上的一次深度優化增強,並在新工藝的加持下大幅提升頻率,最高加速頻率不但首次突破5GHz,而且跨越性地達到了5.7GHz!

對比四代架構,初代Zen的變革、提升幅度最猛(當然主要是推土機實在太弱了),Zen2是一次優化升級,尤其chiplet設計奠定未來基礎,Zen3則是再一次革命性的大變,19% IPC提升也非常感人,Zen4再來個小步快跑就非常符合情理和邏輯了。

按照AMD的說法,Zen4架構的設計目標有三個方面:

一是性能,IPC(每時鍾周期指令數或同頻性能)和頻率提升幅度都要達到兩位數(超過10%);

二是延遲,通過增大二級緩存、改進緩存有效性,大幅降低平均延遲;

三是能效,在整個TDP(熱設計功耗)范圍內,顯著降低動態功耗。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

為了達成以上目標,Zen4對整個微架構體系進行了升級優化,包括前端、執行引擎、載入/存儲單元、緩存、指令集等等,後邊我們會一一講到。

整體而言,Zen4架構的核心升級點包括:改進分支預測、增大OP指令作緩存、增大指令退役隊列、增大整數/浮點寄存器文件、加深核心緩沖吞吐、浮點單元支持AVX-512指令、改進載入/存儲單元、增大二級緩存。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

前端部分變化較大,這里包括指令緩存、分支預測、解碼器、指令緩存、微指令隊列等模塊。

Zen4架構重點改進了分支預測部分,包括每時鍾周期預測兩個跳轉分支、一級緩存BTB(分支目標緩沖)增大50%達到1.5K條目、二級緩存BTB擴容從6.5K略增至7K。

另外,指令緩存(Op Cache)增大了約68%達到6.75K條目,每時鍾周期可以完成多達9個宏指令(增加1個)。

不變的則是解碼器每時鍾周期發出4條指令、微指令隊列每時鍾周期分派6個整數+浮點指令。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

執行引擎部分變化較小,尤其是每時鍾周期10次整數、6次浮點的指令分派保持不變。

指令退役隊列或者說ROB(重排序緩沖)從256條目增大25%至320條目,整數寄存器從192個增至224個,浮點寄存器從160個增至192個,緩存與核心之間的吞吐能力也提升了。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

載入/存儲單元部分,載入隊列從72個增大至88個(22%),存儲隊列維持64個不變,二級緩存DTLB(數據頁表緩沖)從2K條目增大了多達50%至3K條目,另外還減少了數據緩存埠的衝突幾率。

也許有同學會問,很多模塊都是不斷增大、再增大,為什麼不一步到位,從設計之初就做個大容量呢?

一方面,誰也無法精準預測每個模塊多大容量下效率最好,而且不同模塊之間需要彼此協調配合;

另一方面,更大容量意味著更多電晶體、更大核心面積、更高功耗、更高成本,需要在性能、能效之間做出妥協、尋求平衡。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

緩存體系也做了優化,尤其是二級緩存,不但容量翻了一番,每核心來到1MB,還提升了速度。

同時,從二級緩存到三級緩存、從三級緩存到記憶體,都支持更多命中失敗(outstanding miss),可以減少流水線的停頓,增加緩存回填帶寬,提升整體效率。

不過整體緩存架構沒變,一級緩存依然是32KB+32KB的每核心容量組合,三級緩存則繼續每8個核心一組共享32MB。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

AVX-512指令集或許是大家對Zen4最感興趣的地方之一,畢竟在以往這是Intel處理器的專屬技術,而且爭議非常大,有人覺得它非常有用,有人覺得它只是徒增功耗,甚至成為極限烤機專用……

Zen4支持的AVX-512並非直接將Intel那套技術照搬過來(也不允許),而是選擇了不一樣的實現方式。

Intel處理器執行AVX-512指令時,是完整的512-bit通道(這也是該指令集命名的來源),但是AMD走的是256-bit通道,也就是砍了一半,因此遇到512-bit的指令就需要拆分成兩個256-bit指令來執行。

事實上,AMD推土機家族、Zen家族在執行AVX-2 256-bit指令的時候,也是拆分成兩個128-bit。這都是一脈相承的

AMD表示,這麼做可以節省晶片面積,並且避免執行AVX-512指令時發熱過大、頻率下降的情況出現(峰值性能確有輕微損失),因為真正長達512-bit的指令並不多,就像以前256-bit的指令不夠多。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

Zen4支持的AVX-512指令一覽並不是把Intel的全都搬了過來,而是選擇性地加入,除了一些基礎指令,特別值得注意的是用於AI加速的VNNI、BF16,這也是Intel之前宣傳的重點。

VNNI是面向AI模型推理的矢量指令,可將多個8-bit或16-bit整數串聯成512-bit,提升卷積神經網絡常用的MAC(乘法累加)的速度。

另一個是BF16,面向AI加速,將雙精度浮點FP32中的23位小數減少到7位,並保留1位符號、8位指數,結果與FP32相比范圍相同,只是精度較差,但仍遠高於單精度FP16。

按照AMD的說法,加入AVX-512指令集後,Zen4架構的FP32浮點推理多線程性能可提升1.31倍,VNNI INT8整數推理多線程性能可提升2.47倍!

AMD Zen4架構深入揭秘 49%性能提升從何而來?

另外,Zen4還增加了一些虛擬化、安全性方面的新指令,就不贅述了。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

以上是Zen4、Zen3的具體變化對比,可以看到其中不少都維持不變,其他很多則只是數量/容量上的擴充,因此說Zen4就是個放大優化版的Zen3也沒什麼毛病。

值得注意的是,Zen4二級緩存、三級緩存的延遲甚至還略微加大了。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

AMD宣稱,Zen4 IPC平均提升了13%,這是在固定4GHz八核心情況下,通過22個項目對比Zen3得出的幾何平均結果。

當然不同項目的變化幅度差異很大,比如說CPU-Z單線程只提升了1%(所以這個測試項目跑分變化不大),寒霜引擎遊戲、《俠盜獵車手 V》、PUBG吃雞、CineBench R23單線程這些項目提升也有限。

wPrime 1024M是變化最大的提升幅度達驚人的39%,另外像是Dolphin Web測試和《看門狗:軍團》、《F1 2022》、《駭客入侵:人類分裂》、《戰慄深隧:離去》等遊戲的提升也很喜人。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

13%的提升進一步劃分,可以看到前端架構改進帶來的提升幅度最大,其次是載入/存儲單元、分支預測單元,而來自執行引擎、二級緩存的貢獻相對較小。

這和前邊架構分析的變化幅度是相符合的。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

IPC提升之外,銳龍7000系列的頻率也達到了前所未有的高度,旗艦銳龍9 7950X最高可以加速到5.7GHz(還有個5.85GHz fMax頻率但官方一直保持緘默)。

當然,5.7GHz的頻率只有單核心加速可以做到,AMD也公布了銳龍9 7950X在不同核心/線程下的最高加速頻率,可以看到2核心可以到5.6GHz,8核心可以接近5.4GHz,16核心全開也能到5.2GHz。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

13% IPC提升,加上頻率拉到最高5.7GHz,銳龍7000的單線程性能提高了最多29%。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

一個很容易被忽略的點,就是銳龍7000系列支持Eco模式,運行在更低的TDP,比如170W的可以低至105W或者65W,105W的可以低至65W。

AMD宣稱,銳龍9 7950X 65W Eco模式下的性能,依然可以超過正常的銳龍9 5950X。

Eco模式未來會集成在主板BIOS的超頻模塊,可一鍵開啟,還會集成在銳龍Master軟體中。

AMD Zen4架構深入揭秘 49%性能提升從何而來?

有趣的是,得益於新的架構和工藝,Zen4單個核心加二級緩存總面積僅為3.84平方毫米,相比於Intel 7工藝的12代酷睿的7.46平方毫米,小了幾乎一半,能效則高了幾乎一半。

來源:快科技