AVX-512 Archives - 搜資訊

AMD Zen5性能暴漲40％的秘密：獨享AVX-512指令集大升級

快科技4月8日消息，之前有說法稱，，相當不可思議，而根據MLID的最新說法，其中的秘密應該來自AVX-512指令集。 AVX-512指令集原本是Intel的獨門秘籍，AMD Zen4架構開始支持，包括消費級的銳龍、數據中心級的霄龍，而尷尬的是，Intel因為使用大小核架構設計，下一代的Arrow Lake、Lunar Lake很大機率不再支持AVX-512(也沒有超線程)，反倒成了AMD獨享。 Zen4架構的AVX-512指令集是通過兩個256位FPU浮點單元來組合執行的，可以更靈活一些，功耗也更低，但性能達不到極致。 Zen5架構將會引入512位FPU單元，可以直接執行AVX-512，性能更強，也可高效執行VNNI等指令，更有利於提升AI表現。為此，Zen5架構也會在其他方面升級配合，方便餵給FPU單元足夠的數據和指令。比如增大一級緩存DTLB，一級數據緩存容量從32KB增大到48KB，比如載入存儲隊列加寬，比如FPU MADD延遲縮短一個時鍾周期，等等。此外，Zen5架構的整數執行流水線也會從8條增加到10條。不過，二級緩存容量保持不變，每核心還是1MB。來源：快科技

24線程 Intel下代Arrow Lake處理器首次浮現：有兩點很奇怪

快科技2月2日消息，Intel將在今年內推出Arrow Lake、Lunar Lake兩款處理器，分別主打高性能、低功耗，其中Arrow Lake將回歸桌面，接口也改為LGA1851，現在它的工程樣品首次出現了。從監測信息看，這個樣品的頻率僅為3GHz，線程則有24個，相比目前的Meteor Lake酷睿Ultra多了2個。最大可能就是E核小核心增加了2個，從6+8+2規格變成了6+10+2。當然了，7+8+2也可以湊成24線程，但這種組合不太可能，或者也可以沒有低功耗E核，比如8+8的組合。詭異的是，有傳聞稱，Arrow Lake將會取消超線程技術，這24個線程可能是24個物理核心，果真如此那就是一次飛躍了，比如8+16、16+8這樣的組合。另一點，至少目前的測試平台並不支持AVX-512指令集。有傳聞說，Intel下一代處理器物理上就不支持AVX-512，但也有可能只是晶片固件或者主板BIOS沒有開啟而已。畢竟，Intel已經規劃未來讓E核小核也支持AVX-512，沒理由突然全面取消。 PS：Meteor Lake酷睿Ultra也有一看新品首次曝光，命名很奇怪變成了四位數字編號，酷睿Ultra 7 1002H，還是6+8+2 16核心22線程的規格，基準頻率3GHz。來源：快科技

英特爾發布AVX10指令集架構：讓P-Core和E-Core同時支持AVX-512

英特爾在2021年推出了首款採用混合架構的Alder Lake處理器，本身與前一代的Rocket Lake一樣，都支持AVX-256和AVX-512指令集。不過基於多方面因素考慮，英特爾最終強制禁用了AVX-512，不但讓晶片失去了一項特性，而且浪費了寶貴的晶片面積，直到現在的Raptor Lake也不支持。反觀競爭對手AMD，基於Zen 4架構的Ryzen 7000系列則完全支持AVX-512指令集，使其在某些特定工作負載中有更好的性能表現。今天英特爾發布了新的高級性能擴展指令集（APX），並披露了AVX10指令集架構，這將首次讓P-Core和E-Core同時支持AVX-512指令集，解決了Alder Lake和Raptor Lake上遇到的問題。其具備AVX-512指令集的所有功能，適用於具有256位和512位矢量寄存器的處理器。AVX10指令集架構並不支持當前一代處理器，而是用於未來的晶片，面向消費端和伺服器處理器。作為全新高級性能擴展指令集的一部分，AVX10指令集架構提供了：可選512-bit FP/int 128/256-bit FP/int 32個矢量寄存器 8個掩碼寄存器 256/512-bit嵌入式捨入嵌入式廣播 Scalar/SSE/AVX "promotions" 本地媒體添加 HPC新增功能 Gather/Scatter Transcendental support Version-based enumeration 支持P-Core和E-Core AVX10指令集架構有兩個版本，分別為AVX10.1和AVX10.2，前者只支持P-Core，後者增加了對E-Core的支持，其中還包括256位矢量長度和其他新功能。簡單來說，P-Core可以使用512位矢量長度運行，而E-Core以256位模擬運行，類似於Arm的SVE（可伸縮矢量擴展）指令集。英特爾將會從Granite Rapids開始支持AVX10指令集架構首個版本，也就是AVX10.1，標志著開始從AVX-512向AVX10過渡。 ...

英特爾消費級處理器或重新支持AVX-512，將選擇合適的方式和時機回歸

英特爾在2021年推出了首款採用混合架構的Alder Lake處理器，本身與前一代的Rocket Lake一樣，都支持AVX-256和AVX-512指令集。不過隨後英特爾退縮了，開始在新批次的Alder Lake晶片上禁用了對AVX-512的支持，集成散熱器（IHS）甚至有標記區分。同時英特爾還強制要求主板製造商取消了相關支持，不得通過BIOS啟用。英特爾僅在至強處理器上保留了支持，在消費級市場上，最新的Raptor Lake也不支持AVX-512。反觀競爭對手AMD，基於Zen 4架構的Ryzen 7000系列則完全支持AVX-512指令集，使其在某些特定工作負載中有更好的性能表現，比如PlayStation 3模擬器RPCS3這樣的應用程式里有更明顯的優勢。近日有網友透露，英特爾正計劃在消費級處理器上重新支持AVX-512指令集，不過需要花一些時間，尋找一種合適的方法引入。傳聞英特爾出於一些支持方面的限制原因，無法提供完整支持，可能因此進行改名，比如名為「AVX-256 Plus」。有消息稱，英特爾下一代Crestmont架構，也就是用於Meteor Lake和Sierra Forest晶片內的能效核，並不支持AVX-512指令集，要等到再下一代的Skymont架構能效核才提供支持，也就是Arrow Lake所使用的能效核。不過英特爾還有其他的可能性，就是禁用能效核時，就能啟用對AVX-512指令集的支持，這與Alder Lake最早時的情況是一樣的。 ...

Intel AVX-512指令集發飆性能暴漲17倍：自家CPU卻不能跑

Intel近日更新了開源的C++頭文件庫，正式支持AVX-512 SIMD指令集，相比此前的AVX-2指令集，可以提供更高性能的SIMD排序。基於AVX-512指令集，C++頭文件庫可以對16位、64位數據類型進行快速排序，實測在一套Intel Tiger Lake 11代酷睿系統上，NumPy Python的性能提升了多達10-17倍。具體來說，16位數據排序性能提升了17倍，32位數據也有12-13倍，64位浮點數據則可以提速10倍。這證明，AVX-512隻要適配優化得當，帶來的性能提升是十分顯著的，而且不一定非得吃掉多高功耗。不過，Intel 12/13代酷睿因為引入混合架構，不得不犧牲了AVX-512，自然無法從中受益，AMD Zen4架構的銳龍7000系列則首次加入了AVX-512。這就有點尷尬了。來源：快科技

Intel引以為傲的AVX-512指令集：被AMD打得一敗塗地

AVX-512指令集因為功耗太高、應用場景稀少而一直備受爭議，但這只是針對消費級平台而言，在伺服器和數據中心里，它有著很多用武之地，AI、HPC、ML都用得著。這一指令集是Intel開發的，一直是其獨門絕技，不過AMD Zen4架構也獲得授權開始支持，包括銳龍7000系列、霄龍9000系列，也是AMD的一大宣傳賣點。 Intel新發布的第四代可擴展至強當然也支持AVX-512，但畢竟是傳統技能，Intel幾乎沒怎麼提及，談論更多的是新引入的AMX指令集。 Phoronix就針對AVX-512指令集做了一次有趣的測試，參測三顆旗艦級處理器分別是：至強8380： Ice Lake架構，10nm工藝，40核心80線程，三級緩存60MB，頻率2.3-3.4GHz，TDP 270W。至強8490H： Sapphire Rapids架構u，Intel 7工藝，60核心120線程，三級緩存112.5MB，TDP 350W。霄龍9654： Zen4架構，5nm工藝，96核心192線程，三級緩存384MB，TDP 360W(可調范圍320-400W)。三者開啟AVX-512指令集後，平均性能提升幅度分別為34.1％、44.2％、20.7％，Intel處理器上果然有更好的加持，尤其是四代至強上。但是，四代至強即便開啟AVX-512，也只是勉強超過霄龍9000，而後者打開AVX-512，可以輕松領先接近20％！ AMD用Intel的“魔法”打敗Intel，這就有趣了。來源：快科技

被酷睿封殺的AVX512成AMD殺手鐧：性能提升34% 功耗還低了3%

AMD的銳龍7000升級了Zen4架構，帶來了很多新技術，其中就包括AVX512指令集，這原本是Intel首發的新技術，主要用於至強處理器，消費級的酷睿之前有過支持，但12代酷睿上又給封殺了。 Intel不願意在消費級x86上推廣AVX512，很重要一個原因就是該指令集雖然可以提升性能，但是也會導致功耗增加，CPU要降頻。但在Zen4架構上，AMD之前介紹過，他們吸取教訓，Zen4 AVX-512指令集主要用於AI、HPC應用加速，FP32浮點推理多線程性能可提升最多1.3倍，INT8整數推理多線程性能可提升最多2.5倍。那AMD的AVX512指令集支持到底能帶來什麼樣的變化？Phoronix網站基於EPYC 9654做了測試，詳細內容很多，我們只看下最後的匯總吧。性能方面，匯總多個結果之後，不開AVX512的話，性能是17.56，開啟之後是23.56，性能提升34%。最讓人擔心的功耗中，不開AVX512平均系統功耗449.58，開啟之後是434.8，還低了3%，不過這個結果有點玄，看最高功耗應該還是增加了一些的，而且開啟之後的最低系統功耗不太正常。即便如此，對AMD來說，Zen4架構支持AVX512這波算是成了，性能提升很明顯，功耗不說電表倒著轉，至少也沒有大幅增加，整體是賺的。來源：快科技

AMD Zen4銳龍7000打修正檔：正式開啟AVX-512指令集

AMD銳龍7000系列不但帶來了5nm工藝、Zen4架構、RDNA2 GPU核心、DDR5記憶體、PCIe 5.0總線、AM5接口，，這在之前可是Intel的獨門絕技。近日，AMD更新了Linux GCC編譯器的基礎代碼，相當於為新的Zenver4打了個小修正檔，加入了對AVX-512指令集的支持。具體支持指令包括：AVX512F、AVX512DQ、AVX512IFMA、AVX512CD、AVX512BW、AVX512VL、AVX512BF16、AVX512VBMI、AVX512VBMI2、GFNI、AVX512VNNI、AVX512BITALG、AVX512VPOPCNTDQ。即將在年底發布的同樣Zen4架構的下一代霄龍9004系列，同樣會為AMD的伺服器、數據中心方案帶來AVX-512指令集。值得一提的是，同樣是AVX-512指令集，Intel是完整的512-bit通道，AMD則砍到了256-bit，因此在執行512-bit的指令就需要拆分成兩個256-bit指令，官方稱這可以節省晶片面積，避免發熱過大、性能降低。諸多新指令中，VNNI、BF16是面向AI加速的，官方號稱FP32浮點推理多線程性能可提升1.31倍，VNNI INT8整數推理多線程性能可提升2.47倍！來源：快科技

跳票2年的「鴿王」 Intel 60核心至強首次公開支持AVX-512

Intel Sapphire Rapids第四代可擴展至強原計劃2021年發布，但因為瑕疵太多，一再跳票，目前僅出貨了少數評估樣品給客戶，消息稱正式發布要到明年第二季度，推遲足足兩年。創新大會上，Intel首次公開展示了新至強，並首次進行了跑分，還是60核心頂級版本。正面照，被散熱頂蓋捂得嚴嚴實實，還是工程樣品。背面照，新的LGA4677封裝，觸點密密麻麻。展示使用的伺服器，八通道DDR5記憶體。 Sapphire Rapids至強的一大特點就是集成了各種專用加速器模塊，包括動態負載均衡器(DLB)、數據流加速器(DSA)、記憶體內分析加速器(IAA)、快速助手技術(QAT)，都可以為特定負載加速，減輕CPU負擔。其中，QAT是從晶片組轉移到CPU內部，其他則都是全新的。 CPU還支持高級矩陣擴展(AMX)、AVX-512。跑分測試很多，也對比了AMD霄龍，但都是伺服器應用，就不細說了，感興趣的自己看吧。來源：快科技

AMD Zen4有了AVX-512指令集性能暴增2.5倍首批優化殺來

AMD Zen4架構的銳龍7000系列將首次支持Intel AVX-512，雖然只是一部分而不是完全體，但也是個重大突破，尤其是Intel 12/13代酷睿因為混合架構反而不能開啟這一指令集，更先得非比尋常。 AVX-512已經誕生很多年，但應用范圍一直不大，普通玩家最熟悉的大概就是極限烤機時的超高功耗了。按照AMD的官方說法，Zen4 AVX-512指令集主要用於AI、HPC應用加速，FP32浮點推理多線程性能可提升最多1.3倍，INT8整數推理多線程性能可提升最多2.5倍。來自Riot Games的圖形工程師Joey(Wunkolo)對於AMD Zen4 AVX-512指令集的支持非常感興趣，在一系列模擬器中已經加入了相應的優化。具體包括：Switch模擬器Yuzu、3DS模擬器Citra、PS Vita模擬器Vita3K、Xbox 360模擬器Xenia。如果使用銳龍7000系列平台運行這些模擬器，將帶來極為明顯的性能提升，但具體提升幅度沒說。根據經驗，12代酷睿最初還能用AVX-512的時候，PS3模擬器RPCS3的性能提升了最多30％，但隨後，Intel就把12代酷睿的AVX-512給強行屏蔽了。來源：快科技

PS3模擬器RPCS3放出AVX-512修正檔，性能提升了30%

AVX-512在傳統的消費級PC領域作用並不是很大，Intel在11代酷睿處理器短暫的加入AVX-512指令集後，又在12代酷睿上禁用了這一指令集，但這指令集對於PlayStation 3模擬器來說還是很有用的，RPCS3模擬器的開發者Whatcookie最近發布了一個修正檔，它利用AVX-512指令讓模擬器的性能提升了30%之多。到目前為止，AVX-512指令對於傳統的PC遊戲是沒太大作用的，但對於PS3模擬器來說，支持AVX-512的CPU所具備的大型文件寄存器、數據級並行性和LLVM編譯器是相當有用的，因為你需要模擬Cell處理器時就需要這些東西，LVVM編譯器會自動選擇可能的最佳代碼路徑，AVX-512還添加了新的掩碼寄存器，可以選擇與EVEX編碼指令一起使用。索尼的PS3用的是IBM的Cell處理器，該CPU擁有一個Power內核和八個協處理器，採用順序執行和128位SIMD的專有指令集架構，因為通用性問題後續就沒有遊戲主機廠採用這種架構的處理器了，它多核多線程和數據級並行性的特性非常適合高性能計算領域，也適合編碼、加密等工作，甚至是遊戲領域，但想利用好的話學習成本很高，對於遊戲廠商來說還得考慮多平台兼容的問題，這也是為什麼索尼和微軟現在的主機都採用x86架構CPU的原因。其實現在用Core i9-12900K使用RPCS3模擬器即使不用AVX-512也能達到每秒120幀以上，聽上去這AVX-512修正檔可有可無，但目前支持AVX-512的處理器性能大多都比Core i9-12900K低，對於它們來說性能提升30%效果還是相當明顯的，而且未來AMD的銳龍7000處理器也會加入對AVX-512指令的支持。 ...

Intel打算進一步限制12代酷睿的AVX-512，接下來會從硬體上屏蔽這指令集

關於Intel第12代酷睿處理器對AVX-512指令集的支持情況，其實挺讓人迷惑的，Alder Lake處理器里面有Golden Cove和Gracemont兩種內核，其中Golden Cove在硬體上是支持AVX-512的，雖然Intel官方一直否認Alder Lake支持AVX-512，但開發人員指南上給出的解決方法是開啟E-Core後AVX-512會被禁用，而AVX-512的開關則交給板廠決定怎麼處理。結果就是首發的時候所有板廠的Z690都可以通過關閉E-Core來開啟AVX-512，這顯然讓Intel很不滿，他們在新固件中已經把AVX-512禁用了，實際上現在許多B660都無法啟用AVX-512，但對於Z690來說，用戶可以通過刷舊的BIOS繞開這一限制，要徹底解決這問題，Intel決定從硬體上下手，他們告訴TomsHardware，他們沒有在早期的Alder Lake在硬體上禁用AVX-512，但Intel計劃在未來的Alder Lake從硬體上徹底屏蔽AVX-512。如果從硬體上切割的話，無論板廠想用什麼方法繞開固件的限制都無法再啟用AVX-512了，如果想用Intel最新的處理器並啟用AVX-512的話，你就只能選擇昂貴的Xeon，有趣的是，傳聞AMD准備在Zen 4架構上加入對AVX-512的支持，Intel反而把這指令從自家處理器上除去，這真是個有趣的現象。 ...

Linus Torvalds向AVX-512開炮：「我希望它死的痛快點」

為了提高處理器的浮點運算性能，Intel不斷拓寬處理器的後端執行單元，從128-bit進化到了今天的512-bit，同時引入新的指令集來讓程序利用好硬體特性，但這也對開發者造成了相當的不便。近日Linux的締造者Linus Torvalds就向Intel的AVX-512開炮了：我希望AVX512死的痛快點，這樣Intel就能面對現實的問題，而不是通過創造魔法指令集讓他們在基準測試中看上去很厲害。我希望Intel回歸基礎：讓他們的流程重新轉起來，更關注常規的代碼，而不是HPC或是其他什麼沒有意義的特殊情況。我以前已經說過了，我現在再說一次：在x86的全盛時期，當Intel一路笑到銀行，並殺死他們所有的競爭對手的時候，其他所有人在浮點負載上都絕對要比Intel做的好。Intel的浮點性能很差勁（相對而言），它也並不重要。因為絕對沒有人會在乎基準測試之外的東西。 AVX512現在——以及未來也大體如此。是的，你可以找到你需要的東西。但那些東西對賣機器的大局來說沒有用。另外AVX512有真正的缺點。我寧願看到電晶體預算被用在其他更為相關的東西上。就算仍然是浮點性能（用在GPU上都比AVX512強）。或者就像AMD那樣給我更多的核心（有良好的單線程性能，但沒有AVX512這樣的垃圾）。我希望常規的整數代碼能夠利用完我的功耗限制，而不是什麼奪走最高頻率的AVX512功耗病毒（因為人們最後總是用它來做memcpy！），還奪走了核心數量（因為那些無用的垃圾單元占據了空間）。是的，是的，我帶有偏見。我絕對討厭浮點的基準測試，我也知道其他人對此很關注。我只是覺得AVX512是絕對錯誤的東西。它是讓我特別討厭的東西。這是一個典型的用來說明Intel做錯了的例子，部分原因來自於Intel增加了市場的碎片化。停止使用特殊情況的垃圾，讓所有人都關注的那些核心的共同東西盡其所能地運行。然後在旁邊做一個基本夠用的FPU，人們就很開心了。AVX2已經夠用了。是的，我脾氣暴躁。 Linus Intel在Skylake-Server架構中首次引入了AVX-512特性，但它並沒有像之前引入AVX和AVX2那樣順利，因為在使用過程中，用戶發現在AVX-512負載下，核心頻率會有較大幅度的下降，讓性能不升反降，Cloudflare的運維人員在兩年前就已經對此做過詳細的分析了。圖片來自於DeviantArt，有修改正如Linus所說的，這些「魔法指令集」也讓x86 CPU變得更為碎片化，程序優化變得越來越困難。而AVX-512在不少場景中是為了AI相關的應用所服務的，對傳統應用的作用較小，Linus說的「AVX2夠用」確實是目前的情況，更多的浮點運算交給對這方面更拿手的GPU去做才是正確的選擇。 ...

因為小核不支持，Alder Lake似乎砍掉了對AVX-512的支持

一般來說，CPU廠家在推出新架構的CPU之前都會向編譯器提交與新架構相關的修正檔，以讓編譯器更好地支持新架構上面的新特性和新指令集，這也能夠讓我們提前得知新架構的很多信息。最近Intel方面向GCC提交了有關於Sapphire Rapids和Alder Lake平台的相關優化代碼，其中Alder Lake不會支持AVX-512指令集這點讓人深感意外。 Sapphire Rapids是Intel計劃於明年發布的新處理器平台，而Alder Lake則是繼Rocket Lake之後的新桌面平台，它將會使用新的大小核混合技術，根據Intel的內核微架構路線圖，它將會用上Golden Cove+Gracemont的組合。在GCC 11的編譯選項中，Alder Lake支持MOVBE, MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, POPCNT, AVX, AVX2, AES, PCLMUL, FSGSBASE, RDRND,...

Tag: AVX-512