60核120線程 Intel首個Chiplet處理器正式發布:售價達1.7萬美元

在經過多次的延期以後,英特爾首個基於Chiplet設計的第四代至強可擴展伺服器處理器Sapphire Rapids終於正式發布。據介紹,該系列處理器包括了包括常規版本和注入 HBM 的Max版本。

媒體tomshardware更是直言,英特爾擁有 52 款全新 CPU 的龐大產品組合將與去年首次亮相的 AMD EPYC Genoa系列展開激烈競爭。

據報導,雖然 AMD 的晶片以單個晶片上最多 96 個內核保持核心數量領先,但英特爾的 Sapphire Rapids 晶片使該公司最多達到 60 個內核,比之前第三代Ice Lake至強的 40 個內核的峰值提高了 50%.

英特爾聲稱這將使通用計算能力比其上一代晶片提高 53%,但在演示期間,他們基本上避免與 AMD 的晶片進行直接比較。然而,英特爾已向媒體提供樣品以供不受限制的第三方審查,因此它並沒有迴避競爭。

60核120線程 Intel首個Chiplet處理器正式發布:售價達1.7萬美元

Sapphire Rapids 非常依賴新的加速技術,這些技術可以直接購買,也可以通過新的現收現付模式購買。

晶片的這些新的專用加速器區域旨在從根本上提高多種類型工作的性能,例如壓縮、加密、數據移動和數據分析,這些工作通常需要獨立的加速器才能實現最佳性能。

盡管擁有明顯的核心數量領先優勢,但 AMD 的 Genoa 處理器並沒有類似的加速功能。

在使用新加速器時,英特爾聲稱在某些工作負載中,每瓦性能比其上一代模型平均提高 2.9 倍。英特爾還聲稱 AI 推理和訓練提高了 10 倍,數據分析工作負載提高了 3 倍。

英特爾的 Sapphire Rapids 採用“Intel 7”工藝製造,還帶來了一系列新的連接技術,例如對 PCIe 5.0、DDR5 記憶體和 CXL 1.1 接口(type 1 and 2 devices)的支持,為公司提供了對AMD的Genoa站穩腳跟。

英特爾的 Sapphire Rapids 產品堆棧涵蓋 52 個型號,分為“性能”和“主流”雙插槽晶片,用於通用型號。還有用於液冷、單路、網絡、雲、HPC 和存儲/HCI 系統的專用型號。

結果,感覺幾乎每個工作負載都有一個專門的晶片,這就創建了一個令人困惑的產品堆棧。

然後,這些晶片被分為各種 Max、Platinum、Gold、Silver 和 Bronze 子層(sub-tiers),每個子層表示不同級別的插槽可擴展性、對 Optane 持久記憶體的支持、RAS 功能、SGX 飛地容量等。

60核120線程 Intel首個Chiplet處理器正式發布:售價達1.7萬美元

Sapphire Rapids 晶片現在還配備了不同數量的板載啟用加速器設備。目前,重要的是要知道每個晶片都可以啟用可變數量的加速器“設備”(在上面的規格表中列出——將“設備”的數量視為類似於加速器“內核”)。

您可以購買完全支持所有加速器的四個設備的晶片,或者您可以選擇支持設備數量較少的較便宜的晶片型號。

如果晶片未完全啟用,您可以稍後通過稱為Intel on Demand的新的現收現付機制激活加速器. “+”模型默認啟用每種類型的至少一個加速器。但是,有兩類晶片具有兩種不同的加速器分配。

我們將在下面深入探討這些細節以及不同類型的加速器。

新處理器都支持 AVX-512、深度學習提升 (DLBoost) 和新的高級矩陣擴展 (AMX) 指令,後者通過使用一組稱為圖塊的新二維寄存器在 AI 工作負載中提供爆炸性的性能提升。

英特爾的 AMX 實施將主要用於提高 AI 訓練和推理操作的性能。

和以前一樣,英特爾的第 4 代至強可擴展平台支持 1、2、4 和 8 插槽配置,而 AMD 的 Genoa 僅可擴展到兩個插槽。

AMD 在 PCIe 連接選項方面處於領先地位,提供多達 128 個 PCIe 5.0 通道,而 Sapphire Rapids 最高提供 80 個 PCIe 5.0 通道。

Sapphire Rapids 還支持高達 1.5TB 的 DDR5-4800 記憶體分布在每個插槽的八個通道中,而 AMD 的 Genoa 支持高達 6TB 的 DDR5-4800 記憶體分布在每個插槽的 12 個通道中。

英特爾已將其 2DPC(每通道 DIMM 數)配置指定為 DDR5-4400,而 AMD 尚未完成其 2DPC 傳輸速率的資格認證(該公司預計將在本季度發布 2DPC 規格)。

Sapphire Rapids 處理器能提供從八核型號到 60 核型號等不等的SKU,旗艦 Xeon Scalable Platinum 8490H 的起價為 415 美元,最高價為 17,000 美元。

8490H 有 60 個內核和 120 個線程,所有四種加速器類型都已完全啟用。該晶片還具有 112.5 MB 的 L3 緩存和 350W TDP 額定值。

Sapphire Rapids TDP envelopes span從 120W 到 350W。350W 的額定功率明顯高於英特爾上一代 Ice Lake Xeon 系列的 280W 峰值,但對更高性能的不懈追求使整個行業都在推向更高的極限。

例如,AMD 的 Genoa 以類似的 360W TDP 達到頂峰,盡管是針對 96 核型號,甚至可以配置為高達 400W。

8490H 是唯一的 60 核型號,並且僅在啟用所有加速引擎的情況下才可用。

回到 56 核 Platinum 8480+ 將花費 10,710 美元,但每種類型的加速設備中只有一個處於活動狀態。該處理器具有 3.8 GHz 升壓時鍾、350W TDP 和 105MB 的三級緩存。

60核120線程 Intel首個Chiplet處理器正式發布:售價達1.7萬美元

英特爾的新型片上(on-die )加速器是其 Sapphire Rapids 處理器的關鍵新組件。

如上所述,您可以購買已激活所有加速器選項的晶片,也可以選擇更便宜的型號並根據需要通過 Intel On Demand 服務購買加速器許可證。並非所有晶片都具有相同的加速器選項,我們將在下面介紹。

英特爾尚未提供加速器的定價指南,但許可證將通過伺服器 OEM 提供,並通過軟體和許可 API 激活。

無需直接購買完整許可證,您還可以選擇按使用量計費的現收現付功能,以衡量您使用了多少服務。此功能可能會在 CSP 中流行。

Intel On Demand 服務背後的想法是讓客戶只激活他們需要的功能並支付費用,同時還提供了不需要購買新伺服器或處理器的未來升級路徑。

相反,客戶可以選擇使用加速引擎來提高性能。這也讓英特爾及其合作夥伴能夠從同一個功能晶片中“雕刻”出多種類型的 SKU,從而簡化供應鏈並降低成本。

這些功能代表了英特爾將固定功能加速器引入處理器裸片的悠久歷史的延續。盡管如此,Sapphire Rapids 上強大的單元仍需要軟體支持才能發揮全部性能。

英特爾已經與多家軟體供應商合作,以支持廣泛的應用程式,您可以在上面的相冊中看到其中的許多應用程式。

60核120線程 Intel首個Chiplet處理器正式發布:售價達1.7萬美元

英特爾有四種類型的加速器可用於 Sapphire Rapids。數據流加速器 (DSA:Data Streaming Accelerator) 通過卸載 CPU 的數據復制和數據轉換操作來改進數據移動。

當系統負載波動時,動態負載平衡器 (DLB:Dynamic Load Balancer) 加速器介入以提供數據包優先級並動態平衡 CPU 內核之間的網絡流量。

英特爾還有一個記憶體分析加速器 (IAA:In-Memory Analytics Accelerator),可以加速分析性能並卸載 CPU 內核,從而提高資料庫查詢吞吐量和其他功能。

60核120線程 Intel首個Chiplet處理器正式發布:售價達1.7萬美元

英特爾還將其快速輔助技術 (QAT:Quick Assist Technology) 加速器帶入了 CPU。此功能過去駐留在晶片組上。該硬體卸載加速器增強了加密和壓縮/解壓縮性能。

英特爾使用 QAT 加速器已有一段時間,因此該技術已經享有廣泛的軟體支持。

60核120線程 Intel首個Chiplet處理器正式發布:售價達1.7萬美元

不幸的是,這些晶片具有不同的加速能力——你不能在所有型號上購買四個“設備”。Sapphire Rapids 處理器由兩種類型的設計(Die Chops)組成,如 SKU 表中所列。

XCC 晶片由四個die組成,每個die都有一個加速器(IAA、QAT、DSA、DLB)。這意味著您最多可以在這些晶片上激活每種類型的四個加速器(例如,4 個 IAA、4 個 QAT、4 個 DSA、4 個 DLB)。

相比之下,一些晶片使用單個 MCC die,因此它們只有一個 IAA 和 DSA 加速器以及兩個 QAT 和 DLB 加速器(2 個 QAT、2 個 DLB、1 個 IAA、1 個 DSA)。

Intel Max CPU 系列和 Ponte Vecchio Max GPU 系列

英特爾最近公布了有關其即將推出的至強 Max 系列 CPU 和英特爾數據中心 GPU Max 系列(Ponte Vecchio) 的詳細信息。今天標志著正式啟動。

英特爾配備 HBM2e 的 Max CPU 型號上市,具有 32 至 56 個內核,並基於標準的 Sapphire Rapids 設計。這些晶片是第一批採用 HBM2e 記憶體封裝的 x86 處理器,從而為處理器提供了更大的 64GB 本地記憶體池。

HBM 記憶體將有助於處理對內核數量不那麼敏感的記憶體綁定工作負載,因此 Max 型號的內核數量少於標準型號。

目標工作負載包括計算流體動力學、氣候和天氣預報、人工智慧訓練和推理、大數據分析、記憶體資料庫和存儲應用程式。

60核120線程 Intel首個Chiplet處理器正式發布:售價達1.7萬美元

Max CPU 可以在多種配置下運行,例如將 HBM 記憶體用於所有記憶體操作(僅 HBM – 不需要 DDR5 記憶體),將 HBM 呈現為單獨記憶體區域的 HBM“平面模式”(這需要廣泛的軟體支持),或者在使用 HBM2e 作為 DRAM 支持的緩存的 HBM“緩存模式”中。後者不需要更改代碼,很可能是最常用的操作模式。

Xeon Max CPU 將與AMD 的 EPYC Milan-X 處理器相抗衡,後者帶有一個稱為 3D V-Cache 的 3D 堆疊 L3 緩存。Milan-X 模型每個晶片具有高達 768MB 的總 L3 緩存,可提供令人難以置信的帶寬量,但它提供的容量不如英特爾的 HBM2e 方法。這兩種方法各有優缺點,因此我們迫不及待地想對 Xeon Max 處理器進行測試。

值得注意的是,富士通的 A64FX Arm 處理器使用了類似的 HBM 技術。配備 HBM 的 A64FX 處理器為 Fugaku 超級計算機提供動力,該超級計算機多年來一直是世界上最快的(直到去年由AMD 驅動的百億億級 Frontier接管)。Fugaku 仍然保持在 Top500 的第二位。

英特爾還推出了之前代號為 Ponte Vecchio 的 Max GPU 系列。英特爾此前推出了三種不同的 GPU 型號,它們均採用標準 PCIe 和 OAM 外形規格。

英特爾傲騰持久記憶體 (PMem) 300

作為 Sapphire Rapids 發布的一部分,英特爾悄悄推出了最後一個系列的傲騰持久記憶體 DIMM。最後一代代號為 Crow's Pass 但正式名稱為 Intel Optane Persistent Memory 300,將提供 128、256 和 512 GB 容量,並以 DDR5-4400 運行。這比之前的 DDR4-3200 峰值有了很大的改進,但這也意味著如果 Sapphire Rapids 系統計劃使用傲騰,則必須將標準記憶體從支持的 DDR5-4800 降頻到 DDR5-4400。

英特爾聲稱 300 系列在隨機工作負載中提供的順序帶寬增加了 56%,帶寬增加了 214%,同時支持每個插槽高達 4TB 的 Optane,或系統總容量為 6TB。

就像上一代 Optane 200 系列一樣,DIMM 的運行功率為 15W。但是,他們現在升級到 DDR-T2 接口和 AES-XTS 256 位加密。

在 2015 年首次亮相時,英特爾和合作夥伴美光吹捧其底層技術 3D XPoint,其性能和耐用性是 NAND 存儲的 1000 倍,同時密度是 DRAM 的 10 倍,但該技術現在即將走到盡頭。

英特爾已經停止生產用於客戶端 PC 的 Optane 存儲產品,這是有道理的,因為它是將其 NAND 業務出售給 SK 海力士。

然而,英特爾保留了其數據中心的記憶體業務,包括其持久記憶體 DIMM ,它可以作為主記憶體的附件——只有英特爾提供的功能。在 300 系列模塊之後,這些產品也不會出現任何後代。

英特爾將行業轉向基於 CXL 的架構作為結束 Optane 業務的原因,反映了英特爾前合作夥伴美光去年退出該業務時的情緒. Sapphire Rapids 同時支持 Optane DIMM 和 CXL 接口,但這將是最後一次看到兩者同時出現——CXL 將成為未來業界將奇異存儲器連接到晶片的首選方法。

英特爾延遲交付旗艦晶片的內幕

去年 5 月,晶片巨頭英特爾的高管桑德拉里維拉 (Sandra Rivera)得到了一些令人震驚的消息。

工程師們花了五年多的時間來開發一種功能強大的新型微處理器,以在數據中心執行計算任務,並且確信他們最終得到了正確的產品。但在討論該項目的例行早會上,出現了潛在嚴重技術缺陷的跡象。

這個問題非常麻煩,以至於微處理器的代號 Sapphire Rapids 不得不推遲發布——這是英特爾多年來最重要的產品之一遭遇的一系列挫折中的最新一次。

“我們非常沮喪,”負責英特爾數據中心和人工智慧集團的執行副總裁里維拉女士說。“這是一個痛苦的決定。”

Sapphire Rapids 的發布時間最終從 2022 年年中推遲到本周二,比預期晚了近兩年。該產品的長期開發——在一個封裝中結合了四個晶片——凸顯了在美國試圖確立其在基礎計算機技術領域的主導地位時英特爾扭虧為盈所面臨的一些挑戰。

自 1970 年代以來,英特爾一直是運行大多數電子設備的小矽片領域的領先者,最著名的是一種稱為微處理器的品種,它在大多數計算機中充當電子大腦。但這家矽谷公司近年來失去了在製造技術方面的長期領先優勢,而這有助於決定晶片的計算速度。

2021 年成為英特爾執行長的派屈克·蓋爾辛格 ( Patrick Gelsinger ) 誓言要恢復其製造優勢並在美國建立新工廠。

Sapphire Rapids 的坎坷發展對英特爾能否反彈以按時交付未來晶片具有影響。這是一個可能會影響許多計算機製造商和雲服務提供商的問題,更不用說數百萬使用可能由英特爾技術提供支持的在線服務的消費者了。

“我們想要的是一個可預測的穩定節奏,”聯想負責伺服器銷售的執行副總裁柯克斯考根說,這家中國公司計劃推出 25 個基於新處理器的新系統。“Sapphire Rapids 是旅程的開始。”

對英特爾來說,壓力還在。隨著對用於個人電腦的晶片的需求下降,該公司在其最賺錢的業務伺服器晶片方面面臨著激烈的競爭。這個問題令華爾街感到擔憂,自從 Gelsinger 上任以來,英特爾的市值暴跌超過 1200 億美元。

在周二的在線活動中討論以科羅拉多河的一部分命名的 Sapphire Rapids,英特爾客戶描述了使用該處理器的計劃,他們表示這將為人工智慧任務帶來特別的好處。該產品的正式名稱為第 4 代英特爾至強可擴展處理器,與至強晶片系列的另一個延遲添加一起推出。該產品以前的代號為 Ponte Vecchio,旨在加速特殊用途的工作,並與 Sapphire Rapids 一起用於高性能計算機。

Gelsinger先生在接受采訪時說,盡管有延誤,但 Sapphire Rapids 已經具備了成功的條件。他在 2021 年選擇里維拉女士接管開發它的部門,她正在利用經驗教訓改變英特爾設計和測試其產品的方式。他說英特爾已經對 Sapphire Rapids 發生的事情進行了幾次內部審查。

Sapphire Rapids 始於 2015 年,由一小群英特爾工程師進行討論。該產品是該公司首次嘗試採用新的晶片設計方法。公司現在通常在每塊矽片上封裝數百億個微型電晶體,但像Advanced Micro Devices和其他公司這樣的競爭對手已經開始用塑料封裝中捆綁在一起的多個晶片製造處理器。

英特爾工程師提出了一種包含四個裸片的設計,每個裸片都有 15 個處理器“內核”,就像用於通用計算工作的獨立計算器一樣。該公司還決定為特殊任務(包括人工智慧和加密)添加額外的電路塊,並與其他組件通信,例如存儲數據的晶片。

共同領導英特爾設計工程團隊的 Shlomit Weiss 說,這麼多元素之間的相互作用“非常復雜”。“復雜性通常會帶來問題。”

Sapphire Rapids 團隊努力解決由設計人員錯誤或製造故障引起的缺陷、缺陷,這些缺陷可能導致晶片進行錯誤計算、工作緩慢或停止運行。他們還受到產品製造過程延遲的影響。

但到 2019 年 12 月,工程師們達到了一個里程碑,稱為“流片”。那時,包含完整設計的電子文件會被轉移到工廠製作樣品晶片。

由於 Covid-19 迫使封鎖,樣品晶片於 2020 年初運抵。工程師們很快就讓 Sapphire Rapids 上的計算核心相互通信,該項目的總工程師 Nevine Nassif 說。但比預期更多的工作仍然存在。

一項關鍵的雜務是“驗證”,這是一個測試過程,英特爾及其客戶在樣本晶片上運行軟體以模擬計算雜務並發現錯誤。一旦發現並修復缺陷,設計可能會返回工廠製造新的測試晶片,這通常需要一個多月的時間。

重復該過程導致錯過最後期限。Nassif 女士說,Sapphire Rapids 旨在對抗 AMD 的 Milan 處理器,該處理器於 2021 年 3 月推出。但到 6 月它仍未准備就緒,當時英特爾宣布推遲到明年進行更多驗證。

就在那時,里維拉女士介入了。這位長期擔任英特爾高管的人在 2019 年被任命為首席人力資源官之前,已經成功地建立了網絡產品業務。

“我們必須恢復執行力,”基辛格先生說。“我需要有人能夠挺身而出,為我解決這個問題。”

2021 年 10 月,Rivera 女士和一位高級設計主管建立了每周一次的 Sapphire Rapids 狀態會議,每周一早上 7 點舉行。她說,這些會議表明在查找和修復錯誤方面取得了穩步進展,這增強了人們對 2022 年第二季度開始生產的信心.

然後是去年五月發現的缺陷。里維拉女士不願詳細描述,但表示它影響了處理器的性能。6 月,她利用一次投資者活動宣布延遲至少四分之一,這將 Sapphire Rapids 推遲到了 11 月。

“我們已經准備好發貨了,”納西夫女士說。最後的延遲“考慮到已經付出的所有努力,真是太令人難過了。”

里維拉女士從挫折中看到了一系列教訓。一個原因很簡單,英特爾在 Sapphire Rapids 中包含了太多的創新,而不是更早地提供一個不那麼雄心勃勃的產品。

她還得出結論,該團隊應該花更多時間使用計算機模擬來完善和測試其設計。里維拉女士說,在樣品晶片出現錯誤之前發現錯誤成本較低,並且可以刪除功能以簡化產品。此後,她轉而加強英特爾的模擬和驗證能力。

“我們曾經有很多這樣的肌肉,我們任其萎縮,”里維拉女士說。“現在我們正在重建。”

她還確定英特爾安排的產品數量超過了其工程師和客戶能夠輕松處理的數量。因此,她簡化了產品路線圖,包括將 Sapphire Rapids 的繼任者從 2023 年推遲到 2024 年。

更廣泛地說,里維拉女士和其他英特爾高管推動該組織開發更好的流程來記錄技術問題,並在公司內外共享該信息。

來源:快科技