Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

兩年前推出的Alder Lake處理器可以說是Intel的一次重大的技術革新,這是混合架構x86處理器首次大規模推向消費市場,它和它的後繼者Raptor Lake可以說是相當成功的產品,也為後續產品打下基礎。而今天在英特爾on技術創新大會上推出的Meteor Lake處理器採用分離式模塊架構,由四個獨立的模塊組成,並通過Foveros 3D封裝技術連接,其計算模塊首次採用Intel 4製程工藝打造,使Meteor Lake成為Intel史上能效最高的客戶端平台。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

同時Meteor Lake也是首款內置神經網絡處理單元NPU的Intel CPU,這也就意味著在未來搭載著Meteor Lake的筆記本在大規模售出以後,會為人工智慧在PC端實現非常好的普及化的這樣一個動作。

接下來我們來快速的看下組成Meteor Lake的四個模塊:

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

本次會議對於計算模塊所透露的信息並不多,已知的是它將採用Intel 4製程工藝,包含6個P-Core與8個E-Core,性能核架構升級至Redwood Cove,能效核升級至Crestmont架構,依然使用環形總線。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

SOC模塊里麵包含了全新的低功耗島E-Core,用與新型低功耗負載,進一步優化節能與性能間的平衡。NPU也整合在SOC模塊內,還有包括一些常規的連接模塊,Wi-Fi 6E和藍牙模塊是整合在SOC模塊內的,如果想用Wi-Fi 7則需要外接,以往整合在核顯里面的媒體處理計算單元現在也整合到了SOC模塊內,還包含顯示輸出單元和記憶體控制器,支持8K HDR和AV1格式的視頻編解碼,支持HDMI 2.1與DP 2.1的視頻輸出,這個SOC模塊就相當於一個迷你的小CPU。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

圖形模塊採用了Intel最新的ARC圖形架構,Meteor Lake能夠提供上一代兩倍的圖形性能,能夠在核顯中提供獨顯級別的性能,支持光線追蹤,有更全面的DX12功能集。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

IO模塊就如它的名字那樣是用來提供IO擴展的,內部整合了Thunderbolt 4和PCI-E 5.0控制器,還有視頻輸出的一部分也在IO模塊里面,為IO擴展提供了非常好的靈活性。

神經網絡處理單元NPU

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

其實現在處理器里面的CPU和GPU都能實現AI運算,然而AI任務也分很多種,而Meteor Lake新引入的NPU則是為了更好的分擔不同的AI任務,讓不同的處理器單元在多種AI任務中實現性能核功耗的平衡:

GPU具有性能並行性和高吞吐量,非常適合在媒體、3D應用程式和渲染管道中引入AI功能。
NPU是一種專用的低功耗AI引擎,用於持續AI運行和AI卸載。
CPU具有快速響應能力,非常適合輕量級、單推理、低延遲的AI任務。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

CPU、GPU、NPU都是很合適的AI引擎,有各自不同的特徵,NPU是個專屬的AI低功耗的引擎,適合那些持續性的AI任務,比如進行電話時開啟的AI攝像頭效果就相當適合NPU。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

NPU由一個多引擎架構組成,該架構配備兩個神經計算引擎,可以共同處理單一工作負載或各自處理不同的工作負載。在神經計算引擎中,有兩個主要的計算組件:

推理管道:這是高能效計算的核心驅動因素,通過最大限度地減少數據移動並利用固定功能運作來處理常見的大計算量任務,可以在神經網絡執行中實現高效節能。絕大多數計算發生在推理管道上,這個固定功能管道硬體支持標準的神經網絡運作。該管道由一個乘積累加運算(MAC)陣列、一個激活功能塊和一個數據轉換塊組成。
SHAVE DSP:這是一款專為AI設計的高度優化的VLIW DSP(超長指令字數位訊號處理器)。流式混合架構向量引擎(SHAVE)可以與推理管道和直接記憶體訪問(DMA)引擎一起進行管道化,實現在NPU上並行進行的真正異構計算,從而最大限度地提高性能。
DMA引擎:該引擎能夠優化編排數據移動,實現最高的能效和性能。

NPU的驅動是符合微軟新出的MCDM驅動框架的,所以能夠在任務管理器里面就能夠看到NPU,它就像CPU、GPU一樣能夠在任務管理器顯示它的工作負載,這點和友商是不一樣的。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

Meteor Lake的GPU、NPU、CPU都可以承載AI算力,而且可以相互協同工作,以Stable Diffusion負載為例,如果把Unet、VAE都跑在CPU上的時候,在中間Unet上跑20步,花了43秒,功耗是40W。如果全部跑在GPU上,耗時 14.5秒,功耗是37W。如果以把正負Unet中間的部分跑在NPU上,其他的用CPU來跑,時間縮短到20.7秒,功耗降至10W。如果把正向提示詞的Unet跑在GPU上面,負向提示詞的Unet跑在NPU上,用時縮短到11.3秒,因為有GPU的參與,所以功耗為30W。

可見在NPU的介入下,AI負載的功耗大幅下降,整體性能也要優於純CPU或純GPU負載,整體能耗比大幅提升。

SOC模塊

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

Meteor Lake為了達成高性能計算和低功耗做了重大的架構更改,上圖是Alder Lake和Raptor Lake的框架圖,基本上所有東西都掛在環形總線上,CPU核心、GPU或者媒體引擎要訪問記憶體的時候都要穿過環形總線,對於記憶體訪問來說是一個非常高效的方案。

但在節能方面就不怎麼好了,環形總線上的任何區塊去訪問記憶體的時候,會把一些在該應用場景下不需要的計算單元激活,就會產生較高功耗,比如在流媒體播放時,GPU是不需要被打開的,但是由於這樣的一個結構,使得媒體引起要對記憶體訪問的時候,必須要把Ring整個打開。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

在Meteor Lake上為了解決這一問題,Intel把媒體引擎從GPU中剝離,現在GPU在獨立的圖形模塊上,媒體引擎整合在SOC模塊里面,Ring總線現在只用在計算模塊中,SOC模塊有自己的總線,這樣他們之中其中一個要訪問記憶體時,都不需要把別的其他模塊供電激活了。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

比如在播放流媒體視頻時,只需要激活記憶體控制器、媒體引擎以及顯示模塊,理論上無需激活GPU與計算單元,以此實現節能的目的。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

SOC模塊里面還有兩個LP E-Core,它們的工作頻率非常低,但能效比很高,可以承擔一些對CPU需求較低的負載,比如流媒體播放,這樣就不需要激活計算模塊了。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

電源管理也重新進行設計,不同模塊里面都有分立的電源管理控制器在內部,在SOC上面有一個主要的P單元,它對整個SOC進行電源管理,通過跟不同模塊上的分電源管理器進行溝通,這個架構為Meteor Lake提供了很多新的電源管理功能,為將來的晶片設計上的電源管理奠定了非常好的基礎。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

上圖是Meteor Lake架構SOC模塊的方塊圖,可以看到里面有兩個總線,上面的是的Scalable fabric,也稱為NOC,它的帶寬高達128GB/s,響應速度也很快,夠讓掛在上面的所有的設備去快速、低功耗的訪問整個記憶體。

可以看到外部的計算模塊和圖形模塊也掛在NOC上面,在SOC內部,包括LP E-Core,記憶體控制器、多媒體引擎、顯示模塊、NPU、IPU都掛在NOC總線上。

下面那個總線是IO fabric,外部的IO模塊接在這總線上,SOC內部的PCI-E、SATA、USB、Wi-Fi、乙太網、音頻、傳感器以及兩個負責安全的區塊也連接在這總線上,IO fabric與NOC總線之間由IOC模塊進行交互,這兩條總線連接了整個SOC模塊,甚至說它們連接了Meteor Lake所有的關鍵部件。

此外我們可以看到IO模塊和SOC模塊都是有PCI-E控制器的,區別在於IO模塊是可以提供PCI-E 5.0的,而SOC模塊只提供PCI-E 4.0,具體line數量目前還沒公開。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

利用先行的Foveros封裝技術,模塊間通信帶寬基本就是記憶體級的帶寬,速度相當之快,延遲也很低,是一個非常低功耗、高性能的一個互連結構。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

由於SOC模塊引入了兩個LP E-Core,現在一個完整的Meteor Lake是由6個P-Core,8個E-Core和2個LP E-Core所構成,上圖是三種核心的能耗表現,橫坐標是功耗,縱坐標是性能,當功耗低於一定程度的時候P-Core的性能表現就不如E-Core,同理在某個功耗點上LP E-Core的性能表現會優於E-Core,所以硬體線程調度器需要更新。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

在Meteor Lake的硬體線程調度器增強了對OS的反饋,在其他IP占用功耗的時候,核心的功耗會被動態分配,把這個條件也考慮在內,更加精準的報告我們整個核心和每個Core的能力。Meteor Lake能夠更准確的去做內部能耗比的評估和判斷,提供更加精確的表格給到OS。

在系統層面,結合各個系統的操作模式、軟體的操作模式,包括對應的平台的硬體特徵等等,全部納入到控制邏輯當中,對核心做更優的控制。由於需要系統的配合,所以Meteor Lake建議搭配最新的Windows系統使用,也就是Windows 11 23H2。

圖形模塊與媒體單元

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

Meteor Lake的GPU被移動到獨立的顯示模塊上,用的是Xe-LPG架構,它是在現有Xe-LP核顯架構上發展而來的,並引入了Arc A系列獨顯的一些技術。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

除了顯示模塊的GPU外,Meteor Lake的多媒體引擎與顯示引擎都移到了SOC模塊里面,IO模塊上也有顯示的物理層負責視頻信號的輸出。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

與上一代的核顯相比,Meteor Lake的GPU擁有更高的主頻,電壓也更低,Xe核心從6個增加到8個,共128個矢量引擎,增長了33%,幾何圖形渲染管線數量翻倍,有更高的像素與采樣能力,並且加入了8個光追單元,現在Intel的核顯也支持光線追蹤了。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代
各種改進讓核顯性能較上代番了一倍

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

多媒體引擎也有升級,現在最高支持8K 60Hz 10bit的HDR視頻解碼以及8K 30Hz 10bit的HDR視頻編碼,支持包括VP9、AVC、HEVC、AV1以及其他的傳統格式。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

顯示方面,Meteor Lake支持HDMI 2.1、DP 2.1以及完整的eDP 1.4的輸出規范,解析度最高支持一個8K60 HDR,或者4個4K60 HDR,或者是更高刷新率的1080p或者1440p 360Hz。

Meteor Lake架構詳解:全新LP E-Core和NUC引入,讓PC進入高能效AI時代

總而言之Meteor Lake的改進非常多,新增的LP E-Core是Intel高性能混合架構的首個重大進展,模塊化設計代表著Intel 40年來重大的架構轉變,NPU的引入代表Intel會將AI廣泛引入PC,讓PC進入AI時代,龐大的x86生態系統將提供廣泛的軟體模型和工具,全新的處理器通過踐行XPU戰略,為高能效AI PC做出了進一步創新。

來源:超能網