Home Tags AVX-512

Tag: AVX-512

AMD Zen5性能暴漲40%的秘密:獨享AVX-512指令集大升級

快科技4月8日消息,之前有說法稱,,相當不可思議,而根據MLID的最新說法,其中的秘密應該來自AVX-512指令集。 AVX-512指令集原本是Intel的獨門秘籍,AMD Zen4架構開始支持,包括消費級的銳龍、數據中心級的霄龍,而尷尬的是,Intel因為使用大小核架構設計,下一代的Arrow Lake、Lunar Lake很大機率不再支持AVX-512(也沒有超線程),反倒成了AMD獨享。 Zen4架構的AVX-512指令集是通過兩個256位FPU浮點單元來組合執行的,可以更靈活一些,功耗也更低,但性能達不到極致。 Zen5架構將會引入512位FPU單元,可以直接執行AVX-512,性能更強,也可高效執行VNNI等指令,更有利於提升AI表現。 為此,Zen5架構也會在其他方面升級配合,方便餵給FPU單元足夠的數據和指令。 比如增大一級緩存DTLB,一級數據緩存容量從32KB增大到48KB,比如載入存儲隊列加寬,比如FPU MADD延遲縮短一個時鍾周期,等等。 此外,Zen5架構的整數執行流水線也會從8條增加到10條。 不過,二級緩存容量保持不變,每核心還是1MB。 來源:快科技

24線程 Intel下代Arrow Lake處理器首次浮現:有兩點很奇怪

快科技2月2日消息,Intel將在今年內推出Arrow Lake、Lunar Lake兩款處理器,分別主打高性能、低功耗,其中Arrow Lake將回歸桌面,接口也改為LGA1851,現在它的工程樣品首次出現了。 從監測信息看,這個樣品的頻率僅為3GHz,線程則有24個,相比目前的Meteor Lake酷睿Ultra多了2個。 最大可能就是E核小核心增加了2個,從6+8+2規格變成了6+10+2。 當然了,7+8+2也可以湊成24線程,但這種組合不太可能,或者也可以沒有低功耗E核,比如8+8的組合。 詭異的是,有傳聞稱,Arrow Lake將會取消超線程技術,這24個線程可能是24個物理核心,果真如此那就是一次飛躍了,比如8+16、16+8這樣的組合。 另一點,至少目前的測試平台並不支持AVX-512指令集。 有傳聞說,Intel下一代處理器物理上就不支持AVX-512,但也有可能只是晶片固件或者主板BIOS沒有開啟而已。 畢竟,Intel已經規劃未來讓E核小核也支持AVX-512,沒理由突然全面取消。 PS:Meteor Lake酷睿Ultra也有一看新品首次曝光,命名很奇怪變成了四位數字編號,酷睿Ultra 7 1002H,還是6+8+2 16核心22線程的規格,基準頻率3GHz。 來源:快科技

英特爾發布AVX10指令集架構:讓P-Core和E-Core同時支持AVX-512

英特爾在2021年推出了首款採用混合架構的Alder Lake處理器,本身與前一代的Rocket Lake一樣,都支持AVX-256和AVX-512指令集。不過基於多方面因素考慮,英特爾最終強制禁用了AVX-512,不但讓晶片失去了一項特性,而且浪費了寶貴的晶片面積,直到現在的Raptor Lake也不支持。反觀競爭對手AMD,基於Zen 4架構的Ryzen 7000系列則完全支持AVX-512指令集,使其在某些特定工作負載中有更好的性能表現。 今天英特爾發布了新的高級性能擴展指令集(APX),並披露了AVX10指令集架構,這將首次讓P-Core和E-Core同時支持AVX-512指令集,解決了Alder Lake和Raptor Lake上遇到的問題。其具備AVX-512指令集的所有功能,適用於具有256位和512位矢量寄存器的處理器。AVX10指令集架構並不支持當前一代處理器,而是用於未來的晶片,面向消費端和伺服器處理器。 作為全新高級性能擴展指令集的一部分,AVX10指令集架構提供了: 可選512-bit FP/int 128/256-bit FP/int 32個矢量寄存器 8個掩碼寄存器 256/512-bit嵌入式捨入 嵌入式廣播 Scalar/SSE/AVX "promotions" 本地媒體添加 HPC新增功能 Gather/Scatter Transcendental support Version-based enumeration 支持P-Core和E-Core AVX10指令集架構有兩個版本,分別為AVX10.1和AVX10.2,前者只支持P-Core,後者增加了對E-Core的支持,其中還包括256位矢量長度和其他新功能。簡單來說,P-Core可以使用512位矢量長度運行,而E-Core以256位模擬運行,類似於Arm的SVE(可伸縮矢量擴展)指令集。 英特爾將會從Granite Rapids開始支持AVX10指令集架構首個版本,也就是AVX10.1,標志著開始從AVX-512向AVX10過渡。 ...

英特爾消費級處理器或重新支持AVX-512,將選擇合適的方式和時機回歸

英特爾在2021年推出了首款採用混合架構的Alder Lake處理器,本身與前一代的Rocket Lake一樣,都支持AVX-256和AVX-512指令集。不過隨後英特爾退縮了,開始在新批次的Alder Lake晶片上禁用了對AVX-512的支持,集成散熱器(IHS)甚至有標記區分。同時英特爾還強制要求主板製造商取消了相關支持,不得通過BIOS啟用。 英特爾僅在至強處理器上保留了支持,在消費級市場上,最新的Raptor Lake也不支持AVX-512。反觀競爭對手AMD,基於Zen 4架構的Ryzen 7000系列則完全支持AVX-512指令集,使其在某些特定工作負載中有更好的性能表現,比如PlayStation 3模擬器RPCS3這樣的應用程式里有更明顯的優勢。 近日有網友透露,英特爾正計劃在消費級處理器上重新支持AVX-512指令集,不過需要花一些時間,尋找一種合適的方法引入。傳聞英特爾出於一些支持方面的限制原因,無法提供完整支持,可能因此進行改名,比如名為「AVX-256 Plus」。 有消息稱,英特爾下一代Crestmont架構,也就是用於Meteor Lake和Sierra Forest晶片內的能效核,並不支持AVX-512指令集,要等到再下一代的Skymont架構能效核才提供支持,也就是Arrow Lake所使用的能效核。不過英特爾還有其他的可能性,就是禁用能效核時,就能啟用對AVX-512指令集的支持,這與Alder Lake最早時的情況是一樣的。 ...

Intel AVX-512指令集發飆 性能暴漲17倍:自家CPU卻不能跑

Intel近日更新了開源的C++頭文件庫,正式支持AVX-512 SIMD指令集,相比此前的AVX-2指令集,可以提供更高性能的SIMD排序。 基於AVX-512指令集,C++頭文件庫可以對16位、64位數據類型進行快速排序,實測在一套Intel Tiger Lake 11代酷睿系統上,NumPy Python的性能提升了多達10-17倍。 具體來說,16位數據排序性能提升了17倍,32位數據也有12-13倍,64位浮點數據則可以提速10倍。 這證明,AVX-512隻要適配優化得當,帶來的性能提升是十分顯著的,而且不一定非得吃掉多高功耗。 不過,Intel 12/13代酷睿因為引入混合架構,不得不犧牲了AVX-512,自然無法從中受益,AMD Zen4架構的銳龍7000系列則首次加入了AVX-512。 這就有點尷尬了。 來源:快科技

Intel引以為傲的AVX-512指令集:被AMD打得一敗塗地

AVX-512指令集因為功耗太高、應用場景稀少而一直備受爭議,但這只是針對消費級平台而言,在伺服器和數據中心里,它有著很多用武之地,AI、HPC、ML都用得著。 這一指令集是Intel開發的,一直是其獨門絕技,不過AMD Zen4架構也獲得授權開始支持,包括銳龍7000系列、霄龍9000系列,也是AMD的一大宣傳賣點。 Intel新發布的第四代可擴展至強當然也支持AVX-512,但畢竟是傳統技能,Intel幾乎沒怎麼提及,談論更多的是新引入的AMX指令集。 Phoronix就針對AVX-512指令集做了一次有趣的測試,參測三顆旗艦級處理器分別是: 至強8380: Ice Lake架構,10nm工藝,40核心80線程,三級緩存60MB,頻率2.3-3.4GHz,TDP 270W。 至強8490H: Sapphire Rapids架構u,Intel 7工藝,60核心120線程,三級緩存112.5MB,TDP 350W。 霄龍9654: Zen4架構,5nm工藝,96核心192線程,三級緩存384MB,TDP 360W(可調范圍320-400W)。 三者開啟AVX-512指令集後,平均性能提升幅度分別為34.1%、44.2%、20.7%,Intel處理器上果然有更好的加持,尤其是四代至強上。 但是,四代至強即便開啟AVX-512,也只是勉強超過霄龍9000,而後者打開AVX-512,可以輕松領先接近20%! AMD用Intel的“魔法”打敗Intel,這就有趣了。 來源:快科技

被酷睿封殺的AVX512成AMD殺手鐧:性能提升34% 功耗還低了3%

AMD的銳龍7000升級了Zen4架構,帶來了很多新技術,其中就包括AVX512指令集,這原本是Intel首發的新技術,主要用於至強處理器,消費級的酷睿之前有過支持,但12代酷睿上又給封殺了。 Intel不願意在消費級x86上推廣AVX512,很重要一個原因就是該指令集雖然可以提升性能,但是也會導致功耗增加,CPU要降頻。 但在Zen4架構上,AMD之前介紹過,他們吸取教訓,Zen4 AVX-512指令集主要用於AI、HPC應用加速,FP32浮點推理多線程性能可提升最多1.3倍,INT8整數推理多線程性能可提升最多2.5倍。 那AMD的AVX512指令集支持到底能帶來什麼樣的變化?Phoronix網站基於EPYC 9654做了測試,詳細內容很多,我們只看下最後的匯總吧。 性能方面,匯總多個結果之後,不開AVX512的話,性能是17.56,開啟之後是23.56,性能提升34%。 最讓人擔心的功耗中,不開AVX512平均系統功耗449.58,開啟之後是434.8,還低了3%,不過這個結果有點玄,看最高功耗應該還是增加了一些的,而且開啟之後的最低系統功耗不太正常。 即便如此,對AMD來說,Zen4架構支持AVX512這波算是成了,性能提升很明顯,功耗不說電表倒著轉,至少也沒有大幅增加,整體是賺的。 來源:快科技

AMD Zen4銳龍7000打修正檔:正式開啟AVX-512指令集

AMD銳龍7000系列不但帶來了5nm工藝、Zen4架構、RDNA2 GPU核心、DDR5記憶體、PCIe 5.0總線、AM5接口,,這在之前可是Intel的獨門絕技。 近日,AMD更新了Linux GCC編譯器的基礎代碼,相當於為新的Zenver4打了個小修正檔,加入了對AVX-512指令集的支持。 具體支持指令包括:AVX512F、AVX512DQ、AVX512IFMA、AVX512CD、AVX512BW、AVX512VL、AVX512BF16、AVX512VBMI、AVX512VBMI2、GFNI、AVX512VNNI、AVX512BITALG、AVX512VPOPCNTDQ。 即將在年底發布的同樣Zen4架構的下一代霄龍9004系列,同樣會為AMD的伺服器、數據中心方案帶來AVX-512指令集。 值得一提的是,同樣是AVX-512指令集,Intel是完整的512-bit通道,AMD則砍到了256-bit,因此在執行512-bit的指令就需要拆分成兩個256-bit指令,官方稱這可以節省晶片面積,避免發熱過大、性能降低。 諸多新指令中,VNNI、BF16是面向AI加速的,官方號稱FP32浮點推理多線程性能可提升1.31倍,VNNI INT8整數推理多線程性能可提升2.47倍! 來源:快科技

跳票2年的「鴿王」 Intel 60核心至強首次公開 支持AVX-512

Intel Sapphire Rapids第四代可擴展至強原計劃2021年發布,但因為瑕疵太多,一再跳票,目前僅出貨了少數評估樣品給客戶,消息稱正式發布要到明年第二季度,推遲足足兩年。 創新大會上,Intel首次公開展示了新至強,並首次進行了跑分,還是60核心頂級版本。 正面照,被散熱頂蓋捂得嚴嚴實實,還是工程樣品。 背面照,新的LGA4677封裝,觸點密密麻麻。 展示使用的伺服器,八通道DDR5記憶體。 Sapphire Rapids至強的一大特點就是集成了各種專用加速器模塊,包括動態負載均衡器(DLB)、數據流加速器(DSA)、記憶體內分析加速器(IAA)、快速助手技術(QAT),都可以為特定負載加速,減輕CPU負擔。 其中,QAT是從晶片組轉移到CPU內部,其他則都是全新的。 CPU還支持高級矩陣擴展(AMX)、AVX-512。 跑分測試很多,也對比了AMD霄龍,但都是伺服器應用,就不細說了,感興趣的自己看吧。 來源:快科技

AMD Zen4有了AVX-512指令集 性能暴增2.5倍 首批優化殺來

AMD Zen4架構的銳龍7000系列將首次支持Intel AVX-512,雖然只是一部分而不是完全體,但也是個重大突破,尤其是Intel 12/13代酷睿因為混合架構反而不能開啟這一指令集,更先得非比尋常。 AVX-512已經誕生很多年,但應用范圍一直不大,普通玩家最熟悉的大概就是極限烤機時的超高功耗了。 按照AMD的官方說法,Zen4 AVX-512指令集主要用於AI、HPC應用加速,FP32浮點推理多線程性能可提升最多1.3倍,INT8整數推理多線程性能可提升最多2.5倍。 來自Riot Games的圖形工程師Joey(Wunkolo)對於AMD Zen4 AVX-512指令集的支持非常感興趣,在一系列模擬器中已經加入了相應的優化。 具體包括:Switch模擬器Yuzu、3DS模擬器Citra、PS Vita模擬器Vita3K、Xbox 360模擬器Xenia。 如果使用銳龍7000系列平台運行這些模擬器,將帶來極為明顯的性能提升,但具體提升幅度沒說。 根據經驗,12代酷睿最初還能用AVX-512的時候,PS3模擬器RPCS3的性能提升了最多30%,但隨後,Intel就把12代酷睿的AVX-512給強行屏蔽了。 來源:快科技

PS3模擬器RPCS3放出AVX-512修正檔,性能提升了30%

AVX-512在傳統的消費級PC領域作用並不是很大,Intel在11代酷睿處理器短暫的加入AVX-512指令集後,又在12代酷睿上禁用了這一指令集,但這指令集對於PlayStation 3模擬器來說還是很有用的,RPCS3模擬器的開發者Whatcookie最近發布了一個修正檔,它利用AVX-512指令讓模擬器的性能提升了30%之多。 到目前為止,AVX-512指令對於傳統的PC遊戲是沒太大作用的,但對於PS3模擬器來說,支持AVX-512的CPU所具備的大型文件寄存器、數據級並行性和LLVM編譯器是相當有用的,因為你需要模擬Cell處理器時就需要這些東西,LVVM編譯器會自動選擇可能的最佳代碼路徑,AVX-512還添加了新的掩碼寄存器,可以選擇與EVEX編碼指令一起使用。 索尼的PS3用的是IBM的Cell處理器,該CPU擁有一個Power內核和八個協處理器,採用順序執行和128位SIMD的專有指令集架構,因為通用性問題後續就沒有遊戲主機廠採用這種架構的處理器了,它多核多線程和數據級並行性的特性非常適合高性能計算領域,也適合編碼、加密等工作,甚至是遊戲領域,但想利用好的話學習成本很高,對於遊戲廠商來說還得考慮多平台兼容的問題,這也是為什麼索尼和微軟現在的主機都採用x86架構CPU的原因。 其實現在用Core i9-12900K使用RPCS3模擬器即使不用AVX-512也能達到每秒120幀以上,聽上去這AVX-512修正檔可有可無,但目前支持AVX-512的處理器性能大多都比Core i9-12900K低,對於它們來說性能提升30%效果還是相當明顯的,而且未來AMD的銳龍7000處理器也會加入對AVX-512指令的支持。 ...

Intel打算進一步限制12代酷睿的AVX-512,接下來會從硬體上屏蔽這指令集

關於Intel第12代酷睿處理器對AVX-512指令集的支持情況,其實挺讓人迷惑的,Alder Lake處理器里面有Golden Cove和Gracemont兩種內核,其中Golden Cove在硬體上是支持AVX-512的,雖然Intel官方一直否認Alder Lake支持AVX-512,但開發人員指南上給出的解決方法是開啟E-Core後AVX-512會被禁用,而AVX-512的開關則交給板廠決定怎麼處理。 結果就是首發的時候所有板廠的Z690都可以通過關閉E-Core來開啟AVX-512,這顯然讓Intel很不滿,他們在新固件中已經把AVX-512禁用了,實際上現在許多B660都無法啟用AVX-512,但對於Z690來說,用戶可以通過刷舊的BIOS繞開這一限制,要徹底解決這問題,Intel決定從硬體上下手,他們告訴TomsHardware,他們沒有在早期的Alder Lake在硬體上禁用AVX-512,但Intel計劃在未來的Alder Lake從硬體上徹底屏蔽AVX-512。 如果從硬體上切割的話,無論板廠想用什麼方法繞開固件的限制都無法再啟用AVX-512了,如果想用Intel最新的處理器並啟用AVX-512的話,你就只能選擇昂貴的Xeon,有趣的是,傳聞AMD准備在Zen 4架構上加入對AVX-512的支持,Intel反而把這指令從自家處理器上除去,這真是個有趣的現象。 ...

Linus Torvalds向AVX-512開炮:「我希望它死的痛快點」

為了提高處理器的浮點運算性能,Intel不斷拓寬處理器的後端執行單元,從128-bit進化到了今天的512-bit,同時引入新的指令集來讓程序利用好硬體特性,但這也對開發者造成了相當的不便。近日Linux的締造者Linus Torvalds就向Intel的AVX-512開炮了: 我希望AVX512死的痛快點,這樣Intel就能面對現實的問題,而不是通過創造魔法指令集讓他們在基準測試中看上去很厲害。 我希望Intel回歸基礎:讓他們的流程重新轉起來,更關注常規的代碼,而不是HPC或是其他什麼沒有意義的特殊情況。 我以前已經說過了,我現在再說一次:在x86的全盛時期,當Intel一路笑到銀行,並殺死他們所有的競爭對手的時候,其他所有人在浮點負載上都絕對要比Intel做的好。Intel的浮點性能很差勁(相對而言),它也並不重要。 因為絕對沒有人會在乎基準測試之外的東西。 AVX512現在——以及未來也大體如此。是的,你可以找到你需要的東西。但那些東西對賣機器的大局來說沒有用。 另外AVX512有真正的缺點。我寧願看到電晶體預算被用在其他更為相關的東西上。就算仍然是浮點性能(用在GPU上都比AVX512強)。或者就像AMD那樣給我更多的核心(有良好的單線程性能,但沒有AVX512這樣的垃圾)。 我希望常規的整數代碼能夠利用完我的功耗限制,而不是什麼奪走最高頻率的AVX512功耗病毒(因為人們最後總是用它來做memcpy!),還奪走了核心數量(因為那些無用的垃圾單元占據了空間)。 是的,是的,我帶有偏見。我絕對討厭浮點的基準測試,我也知道其他人對此很關注。我只是覺得AVX512是絕對錯誤的東西。它是讓我特別討厭的東西。這是一個典型的用來說明Intel做錯了的例子,部分原因來自於Intel增加了市場的碎片化。 停止使用特殊情況的垃圾,讓所有人都關注的那些核心的共同東西盡其所能地運行。然後在旁邊做一個基本夠用的FPU,人們就很開心了。AVX2已經夠用了。 是的,我脾氣暴躁。 Linus Intel在Skylake-Server架構中首次引入了AVX-512特性,但它並沒有像之前引入AVX和AVX2那樣順利,因為在使用過程中,用戶發現在AVX-512負載下,核心頻率會有較大幅度的下降,讓性能不升反降,Cloudflare的運維人員在兩年前就已經對此做過詳細的分析了。 圖片來自於DeviantArt,有修改 正如Linus所說的,這些「魔法指令集」也讓x86 CPU變得更為碎片化,程序優化變得越來越困難。而AVX-512在不少場景中是為了AI相關的應用所服務的,對傳統應用的作用較小,Linus說的「AVX2夠用」確實是目前的情況,更多的浮點運算交給對這方面更拿手的GPU去做才是正確的選擇。 ...

因為小核不支持,Alder Lake似乎砍掉了對AVX-512的支持

一般來說,CPU廠家在推出新架構的CPU之前都會向編譯器提交與新架構相關的修正檔,以讓編譯器更好地支持新架構上面的新特性和新指令集,這也能夠讓我們提前得知新架構的很多信息。最近Intel方面向GCC提交了有關於Sapphire Rapids和Alder Lake平台的相關優化代碼,其中Alder Lake不會支持AVX-512指令集這點讓人深感意外。 Sapphire Rapids是Intel計劃於明年發布的新處理器平台,而Alder Lake則是繼Rocket Lake之後的新桌面平台,它將會使用新的大小核混合技術,根據Intel的內核微架構路線圖,它將會用上Golden Cove+Gracemont的組合。在GCC 11的編譯選項中,Alder Lake支持MOVBE, MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, POPCNT, AVX, AVX2, AES, PCLMUL, FSGSBASE, RDRND,...