Ponte Vecchio | 搜資訊

Intel馬來西亞工廠游記：全球唯一綜合基地酷睿Ultra全力量產中

一、Intel馬來西亞工廠簡介近日，文Q作為快科技代表，受Intel特別邀請，在馬來西亞參加了下一代酷睿Ultra(Meteor Lake)處理器的技術溝通會，並參觀了Intel設在馬來西亞的工廠、實驗室。其實在去年，Intel曾邀請參觀位於以色列的晶圓廠，但因為疫情限制未能成行，甚為遺憾。馬來西亞工廠是Intel在美國本土之外的第一個基地，已有長達51年的歷史，也是Intel在全球范圍內唯一的綜合性基地。很多時候，我們購買的Intel處理器，表面上都可以看到馬來西亞字樣，就是這里出品的。這一次，是這座大型基地第一次對媒體開放，與有榮焉。 Intel馬來西亞設有三大工廠、兩大實驗室，覆蓋除晶圓製造之外的處理器產品誕生全部流程，技術含量非常高，包括產品設計與開發、技術開發、先進封裝、晶片制備與分揀、組裝與測試、故障分析、平台驗證、電路板與系統集成、客戶支持、銷售與營銷、全球服務等等。在這里，Intel幾乎所有的處理器產品都能做。眼下最重要的，也是本次參觀最多的，包括酷睿Ultra Meteor Lake、第四代可擴展至強Sapphire Rapids、Max GPU加速器Ponte Vecchio，都是目前最新、最高端、最復雜的產品。其中，Ponte Vecchio採用5種不同工藝，集成47個不同模塊、1000多億個電晶體，是迄今為止Intel最復雜的產品。尤為值得強調的是，Intel在馬來西亞做的不僅僅是製造、裝配、測試，還有大量的設計與開發工作，匯聚了多達6000名工程師，可以為Intel所有類別的產品提供解決方案。 IP設計、USB、PCIe、DDR、SoC、CPU、FPGA、晶片組等產品與技術的設計，Intel在馬來西亞都可以做，覆蓋Intel 80％以上的產品范疇。 ↑↑↑13代酷睿處理器製作的鑰匙扣紀念品 ↑↑↑廠內合影目前，Intel正在全力推進IDM 2.0戰略，相信大家都有所耳聞。它包括三大部分，一是內部工廠網絡，集合Intel位於全球各地的晶圓廠、封裝廠、組裝測試廠，完成Intel自家大部分產品的製造，但在財務上獨立核算，需要自己爭取自家產品的訂單。二是外部代工，與台積電等第三方代工廠合作，靈活使用最合適的工藝製程，製造自家部分產品。三是對外代工，也就是Intel代工服務(IFS)，利用Intel先進的製造工藝，對第三方客戶提供一流的晶片製造服務。作為摩爾定律的忠實信徒與執行者，Intel正在推動“四年五個製程節點”的宏偉計劃。其中，Intel 7工藝早已量產，應用於12/13代酷睿、第四代可擴展至強，還會用於14代酷睿、五代可擴展至強(Emerald Rapids)。 Intel 4工藝已經投產並持續擴大產能，將用於酷睿Ultra(Meteor Lake)等產品。 Intel 3將在今年下半年做好投產准備，將用於再下一代至強Sierra Forest、Granite Rapids等產品。 Intel 20A將在明年上半年做好投產准備，將用於下一代酷睿Arrow Lake等產品。 Intel 18A將在明年下半年做好投產准備，將用於2025年的新至強Clearwater Forest等產品這就是Intel遍布全球的製造網絡，分為三種類型。晶圓廠：分布在美國俄勒岡州/俄亥俄州/亞利桑那州、愛爾蘭、以色列，正計劃在德國建廠。先進封裝廠：分布在美國墨西哥州、馬來西亞。組裝測試廠：分布在哥斯大黎加、馬來西亞、越南、中國成都，正計劃在波蘭建廠。——我們在Intel處理器上看到的地理標簽，就是這些地方。相比於其他工廠相對單一的職能，馬來西亞廠是唯一一個同時具備兩種屬性的，既可以做先進封裝，也可以做組裝測試。早在半個世紀前的1972年，Intel就在馬來西亞設立了第一家美國之外的工廠，也就是組裝廠A1，當時有大約100名員工。如今，51年過去了，Intel在馬來西亞的檳城(Penang)、居林(Kulin)兩地已有16座建築物，總建築面積700萬平方英尺(約65萬平方米)，其中工廠面積90萬平方英尺(約8.4萬平方米)。員工總數也已經達到了1.5萬人，本次活動為我們提供導覽、介紹的，幾乎清一色都是有著二十年左右工作經驗的資深工程師。目前，Meteor Lake處理器已經在馬來西亞工廠內啟動了批量生產。此外，Intel馬來西亞早在1991年就成立了第一個設計中心，從8位微處理器開始，2015年又成立了FPGA設計團隊。面向未來，Intel還在持續加大對馬來西亞的投資，上圖中綠色部分就是要擴建的，包括新的辦公室、高級封裝廠、組裝測試廠，工廠面積將達到200萬平方英尺左右(約18.6萬平方米)。這是Intel馬來西亞工廠的工作流程。這里先說個大概，每一處的細節後邊分章節詳述。簡單來說，在拿到晶圓廠製造的晶圓之後，首先在位於居林的晶片分揀與制備工廠(KMDSDP)進行切割、分揀，劃分不同級別，2020年來已經分類處理了大約5億顆裸片(Die)。然後送到位於居林和檳城的組裝測試廠(KuAT/PGAT)，進行組裝、檢測，得到成品，過去10年已經處理了大約12億顆處理器。期間，系統集成與製造服務(SIMS)會提供各種相關工具，總量超過500種。目前，Intel正在馬來西亞Pelican建設一座新的高級封裝廠，進一步向上游延伸，可以說除了晶圓製造啥都能做，同時還在Falcon建設一座新的組裝測試廠，產能規模將大大擴充。 Intel在馬來西亞持續半個世紀的高技術含量巨額投資，給這個國家的社會、經濟、教育都產生了強力的推動和深遠的影響。經濟方面，截至2023年，Intel已經向馬來西亞累計投資140億美元，每年向當地供應鏈注入3.3億美元。馬來西亞全國的電子電器產業出口額之中，Intel自己就貢獻了大約20％！人力方面，Intel在馬來西亞雇員多達1.5萬人，其中98％都是馬來西亞人，而按照性別劃分，40％都是女性，另外還有大約1.3萬人的臨時工。教育方面，Intel在馬來西亞30多座高校開設了各種課程，每年培訓超過3000名學生。作為企業擔當，Intel在馬來西亞也堅持可持續發展。 Intel在當地建設有美國海外規模最大的太陽能發電場，2020-2022年節能8600萬千瓦。淨水比例達84％，2020年以來累計回收水1100萬加侖。 2022年垃圾填埋率已經低於1％，固體垃圾回收率超過99％。由於保密限制，工廠和實驗室內部無法自行拍照、錄像，以下文中使用的內景照片、視頻來自Intel官方，外景、展示品等均為個人實拍。來源：快科技

英特爾公布Aurora超算系統規格：21248個CPU和63744個GPU，性能可達2E級別

英特爾在2019年中標了美國能源部阿貢國家實驗室的超級計算機項目，將基於Sapphire Rapids和Ponte Vecchio構建Aurora超算系統，實現每秒百億億級（ExaFLOP）的運算能力。不過由於英特爾的研發問題已延誤數月，Aurora超算系統延誤了很長一段時間，美國能源部甚至要先行購置由AMD和英偉達晶片構建的Polaris超算系統使用。 Aurora由英特爾的Xeon Max系列CPU和Max系列GPU晶片提供支持，計劃最早源於2015年，最初目標是1ExaFLOP，後來又提高至2ExaFLOP，理論上可以超越目前超算Top500榜單的第一名，也就是美國橡樹嶺國家實驗室的Frontier。近日，英特爾宣布Aurora將會在今年晚些時候全面投入使用，目前已交付了超過1萬個刀片式機架伺服器，並分享了有關這台超級計算機的一些信息。 Aurora超算系統包括了基於Sapphire Rapids-SP並帶有HBM的21248個Xeon CPU，以及基於Ponte Vecchio的63744個GPU，另外還有5.95 PB/s 峰值帶寬的10.9PB容量DDR5記憶體，30.5 PB/s峰值帶寬的1.36PB容量HBM連接到CPU，208.9 PB/s峰值帶寬的8.16PB容量HBM連接到GPU，以及有著31 TB/s峰值帶寬的230PB存儲容量。整個系統由166個機架構成，每個機架有64個刀片式機架伺服器，組成了10624個節點。由於項目延期，導致現階段並非所有CPU都是Xeon Max晶片，大概只占了75%，這使得該系統無法發揮全部性能，也導致了Aurora沒有及時提交超算Top500榜單。當今年年底全面上線時，Aurora超算系統很可能會達到預期性能。 ...

450W功耗 Intel頂級GPU突然生變只為賣給中國？

快科技4月11日消息，Intel在去年11月份發布了，包括三個不同型號，但是現在，Intel突然取消了其中的一款。 Intel GPU Max系列是Intel針對高性能計算加速設計的第一款GPU產品，基於全新的Xe HPC架構，多工藝、多晶片整合，具備5種不同工藝，電晶體數量超過1000億個，模塊多達47個。頂級型號Max 1550具備滿血的128個Xe-HPC核心、128個光追核心、64MB一級緩存、408MB二級緩存、128GB HBM高帶寬記憶體，最高功耗600W，最多八卡並聯。本次取消的是次級型號Max 1350，112核心，96GB記憶體，450W功耗。它下邊還有個Max 1100，56核心，48GB記憶體，300W功耗，最多四卡並聯。 Intel表示，Max 1550原本是針對液冷設計的，但已經成功進行風冷部署，這就和Max 1350的定位產生了衝突，因此將其取消，改為再推出一款新的Max 1450，液冷、風冷均可，今年晚些時候正式推出。 Intel沒有透露Max 1450的具體規格，但有趣的是，Intel特別提到它將會降低IO帶寬。這不由得讓我們想起美國對華禁售NVIDIA A100/HH100這樣的高性能GPU之後，出現了削減帶寬的版本A800、H800，可以正常賣給中國。難道，Intel是為中國市場特意准備的Max 1450？另外值得一提的是，Intel原計劃在今年推出下一代高性能GPU Rialto Bridge，2024年再發布全新XPU Falcon Shores，同時集成x86 CPU、Xe GPU，但最近決定取消Rialto Bridge，，首次集成CPU、GPU，5nm工藝，1460億個電晶體，24個Zen4 CPU核心，未知數量CDNA3 GPU核心，8192-bit 128GB...

英特爾獨立顯卡銷量超AMD是誤會，官方統計中包含了數據中心GPU

此前人們發現Jon Peddie Research的GPU市場數據統計里，英特爾在2022年第四季度銷售的獨立顯卡數量已趕超AMD成為了第二，這似乎是一個巨大的勝利。也有人對此提出質疑，畢竟市場上沒看到那麼多英特爾的獨立顯卡，雖然AMD表現不佳，但短短幾個月就做到這點有點太不可思議。當時Jon Peddie就善意地提醒過，統計的出貨量是基於英特爾的財報數據等信息，有可能不准確。據TomsHardware報導，英特爾在2022年第四季度並沒有銷售那麼多獨立顯卡，很大一個原因是將Ponte Vecchio這類數據中心GPU也計算在內，使得出貨量和銷售金額明顯上升。英特爾的市場占有率也由原來的9%修正為6%，對於一家初入市場的公司來說，這樣的表現也很不錯了。不過英特爾顯卡的平均售價（ASP）低於英偉達和AMD，很大部分出貨量應該集中在中低端的移動獨立顯卡上。英特爾在官方統計中，將GPU都計入其加速計算和圖形部門（AXG）的營收里，所以其中包含了消費端和數據中心使用的部分。英特爾目前正在為美國能源部阿貢國家實驗室構建Aurora超級計算機，可能很大部分Ponte Vecchio是統計在2022年第四季度的出貨里，從而拉高了季度出貨量。據推測，英特爾並非有意誤導行業，而是本身公司業務分類上的原因。不過隨著英特爾將加速計算和圖形部門拆分成兩部分，未來統計上會更方便。其消費端圖形團隊將加入客戶端計算事業部（CCG），加速計算團隊加入數據中心和人工智慧業務部（DCAI），消費端和數據中心使用的GPU會劃分到兩個不同部門的統計里。 ...

英特爾更新HPC GPU路線圖：取消Rialto Bridge，Falcon Shores延至2025年

英特爾公司副總裁兼超級計算集團總經理jeffMcVeigh今天發布了一篇新的Blog網誌文章，宣布英特爾將取消Ponte Vecchio的後續改進產品Rialto Bridge，並將數據中心GPU的發布周期改為兩年，下一次更新要等到2025年。英特爾下一款數據中心GPU將是Falcon Shores，這原本是一款採用混合架構的XPU，將CPU和GPU融合在一起，類似於AMD的Instinct MI300 APU，比原計劃的2024年晚一年出現。 Ponte Vecchio是英特爾首個百億億次級計算GPU，使用了英特爾有史以來最先進的封裝技術，擁有超過1000億個電晶體，是現階段英特爾先進技術的集大成者。Rialto Bridge可以看作是Ponte Vecchio的優化升級版本，採用新工藝去製造模塊，並與後者子系統相兼容，保持軟體的一致性。這次路線圖更新後，Max系列GPU至少到2025年之前，也僅有Ponte Vecchio一款產品。與原有方案不同，Falcon Shores到2025年首先會以純GPU架構出現，這意味著英特爾的產品定位受到了嚴重的影響，不但改變了高端數據中心晶片的設計，而且還將時間節點大幅度後移。Falcon Shores基於英特爾的小晶片架構，可以集成各類IP，以滿足指數級遞增的HPC和AI計算需求。由於英偉達的Grace Hopper Superchips和AMD Instinct MI300都會在今年推出，英特爾的CPU+GPU方案不知道要到什麼時候才出現，這將導致HPC產品落後競爭對手數年。此外，英特爾將取消Flex系列數據中心GPU的Lancaster Sound。其被設計用於低強度工作，比如媒體編碼等，英特爾不再推進Lancaster Sound，而是會專注於Flex系列再下一代的Melville Sound產品。 ...

英特爾Borealis測試系統上線：為Aurora超算系統最終部署做好准備

Aurora超算系統是美國能源部阿貢國家實驗室的超級計算機項目，將基於英特爾Sapphire Rapids和Ponte Vecchio構建，實現每秒百億億級（ExaFLOP）的運算能力。由於英特爾研發方面的問題，該項目出現了延誤。近期英特爾為Aurora超算系統部署的Borealis測試系統終於上線了，將用於在全面上線之前運行系統性能評估、壓力測試以及調試技術和架構，總算跨出了里程碑的一步。英特爾還發布了Borealis測試系統的視頻，有興趣的可以點擊去官網觀看。 Aurora將有大約10000個刀片伺服器，每個都配有兩個Xeon Max CPU和六個Ponte Vecchio GPU。英特爾Borealis測試系統與Aurora超算系統架構是一樣的，配置和可擴展設置方面是相同的，只不過只有128台刀片伺服器，同時CPU暫時使用的是第四代英特爾至強可擴展處理器，並不是性能更強、配有HBM的型號。據了解，其節點為八個HPE Slingshot-11互連系統，採用了蜻蜓拓撲結構。此前英特爾曾表示，Aurora超算系統旨在處理高性能計算、AI/ML和大數據分析工作負載，可以實現2 ExaFLOP的峰值計算能力。整個Aurora超算系統大概占地兩個籃球場大小，在正式推出的時候，預計將成為少數幾個達到Exascale級別的超級計算機之一。 ...

Intel正式發布Max GPU：1000+億電晶體、600W峰值功耗

新一屆超算大會到來之際，Intel正式發布了兩款全新的HPC/AI計算產品，並劃入全新的Max系列，明年1月上市。一個是至強CPU Max系列，代號Sapphire Rapids HBM；一個是數據中心GPU Max系列，代號Ponte Vecchio。關注硬體的朋友對這兩個代號名字應該很熟悉了，磨嘰了幾年終於要落地了，將攜手用於美國能源部阿拉貢國家實驗室的百億億次級超算“Aurora”，和AMD EPYC處理器、Instinct計算卡組成的“Frontier”一個性質。這一篇先說說Max GPU。這是Intel針對高性能計算加速設計的第一款GPU產品，基於全新的Xe HPC架構，和桌面上的Arc系列顯卡同源，但面向計算而非圖形。 Max GPU採用了多工藝、多晶片整合製造，5種製造工藝，總計擁有恐怖的1000多億個電晶體，集成多達47個模塊(tile)，包括基礎單元、計算單元、Foveros封裝單元、EMIB封裝單元、Rambo緩存單元、HBM記憶體單元、Xe鏈路單元，等等。最多擁有128個Xe-HPC核心、128個光追核心，一級緩存就有64MB，可提升吞吐和性能，二級緩存更是多達408MB二級緩存，業內密度最高，還集成最多128GB HBM高帶寬記憶體。 Max GPU是業界唯一支持光追的HPC/AI GPU，可用於科學視覺、動畫等工作的加速。具體分為三款型號：－ Max 1550：滿血狀態，128核心，128GB HBM，OAM形態，最高功耗達600W，最多八路並聯。－ Max 1350： 112核心，96GB HBM，OAM形態，450W功耗，最多八路並聯。－ Max 1100： 56核心，48MB HBM2e，PCIe形態，300W功耗，可通過Xe Link橋接器最多四卡並聯。性能方面，Intel宣稱，對比NVIDIA A100，Riskfuel金融分析性能領先最多2.4倍，NekRS核模擬物理性能領先最多1.5倍。至於為何不對比最新的NVIDIA...

英特爾發布首款採用HBM記憶體的x86處理器Xeon Max，以及Max系列GPU

英特爾宣布，推出MAX系列CPU和GPU，分別基於代號Sapphire Rapids-HBM和Ponte Vecchio的晶片構建，這是用於高性能計算（HPC）和人工智慧（AI）的領先產品。英特爾表示，新產品將為美國能源部阿貢國家實驗室的Aurora超級計算機提供動力。 Xeon Max是第一款、也是迄今唯一一款x86高帶寬記憶體CPU，無需更改代碼即可加速多種HPC工作負載。其最多提供56個基於Golden Cove架構的性能內核，由四個集群組成，使用了EMIB技術進行連接然後封裝在一起，TDP為350W，採用了Intel 7工藝製造。每顆Xeon Max包含了64GB的HBM2e記憶體，另外還支持PCIe Gen5、CXL 1.1（Compute Express Link）和八通道DDR5記憶體，同時會延續英特爾的內置AI加速策略，支持英特爾高級矩陣擴展（AMX）。英特爾稱，Xeon Max配備的高帶寬記憶體足以滿足最常見的HPC工作負載，與競爭對手的產品相比，在實際HPC工作負載中，Xeon Max的性能會高出4.8倍。 MAX系列GPU採用了Xe-HPC架構的計算晶片，是唯一具有原生光線追蹤加速功能的HPC/AI GPU，旨在加速科學可視化，是針對要求最苛刻的計算工作負載的新基礎架構。其擁有64MB的L1緩存和408MB的L2緩存（業界最高），提高了可吞吐量和性能。根據英特爾過往的介紹，MAX系列GPU所採用的Ponte Vecchio晶片，是英特爾首個百億億次級計算GPU，使用了英特爾有史以來最先進的封裝技術，擁有超過1000億個電晶體。其總共有63個模塊，包括了16個Xe-HPG架構的計算晶片、8個Rambo cache晶片、2個Xe基礎晶片、11個EMIB連接晶片、2個Xe Link I/O晶片和8個HBM晶片、以及16個負責TDP輸出的模塊，通過EMIB與Foveros 3D封裝中整合在一起。 MAX系列GPU提供了多種外形尺寸，以滿足不同客戶的需求，分別有： MAX 1100 - 雙槽PCIe外形，56個Xe核心和48GB的HBM2e顯存，克通過英特爾Xe Link橋接器實現多卡連接，TDP為300W。 MAX 1350...

12VHPWR接口不再是英偉達獨享，英特爾Max 1100數據中心GPU也將採用

16Pin的PCIe 5.0外接供電接口，也就是12VHPWR接口並不是ATX 3.0電源的硬性要求，不過直到目前為止，一般支持ATX 3.0的電源都會帶有至少一個12VHPWR接口留給顯卡使用。英偉達率先在GeForce RTX 40系列顯卡上採用了12VHPWR接口，取代了原有的8Pin外接供電接口，最大可提供600W的功率。不過這種設計暫時對英偉達來說談不上非常成功，近期用戶接二連三地提交了12VHPWR連接器及線纜融化損壞的報告，英偉達還在調查這些事故的原因。除了已經在市場上銷售的GeForce RTX 4090以外，下周即將開售的RTX 4080也將採用12VHPWR接口。與此同時，英特爾宣布將推出基於Ponte Vecchio的數據中心GPU，分別為PCIe規格的Max 1100，以及OAM規格的MAX 1350/1550，其中Max 1100也將採用12VHPWR接口，不再是英偉達獨有的接口。在宣傳片中可以看到，與EVGA的GeForce RTX 4090 FTW3一樣，12VHPWR接口放到了板卡尾部的短邊一側。對於需要多卡並聯的數據中心伺服器來說，這樣的設計非常合理。英特爾計劃在2023年1月推出Max 1100 PCIe系列數據中心GPU，不過桌面平台上，英特爾暫時還沒有採用12VHPWR接口的計劃。由於AMD最新的Radeon RX 7000系列顯卡仍然採用傳統的8Pin外接供電接口，桌面遊戲顯卡方面，短時間內12VHPWR接口仍然屬於GeForce RTX顯卡的專享，暫時沒有新的加入者。 ...

Intel GPU號稱領先NVIDIA 2.5倍細看尷尬了

Hot Chips 34大會史昂，Intel又公布了Ponte Vecchio GPU高性能計算卡的更多細節，包括性能數據。 Ponte Vecchio GPU基於全新的Xe HPC高性能計算架構，使用5種不同製造工藝(Intel 7和台積電N7/N5等)、多種封裝技術，整合了多達47個不同計算模塊，電晶體數量超1000億個。它一個模塊有128個Xe核心、128個光追單元、64MB一級緩存、408MB二級緩存、128GB HBM2e高帶寬記憶體，支持PCIe 5.0，可以四路甚至八路並聯。 Intel給出的最新數據聲稱，Ponte Vecchio FP32單精度、FP64雙精度性能可達52TFlops，TF3.2浮點性能可達419TFlops，BF16、PF16浮點性能可達839TFlops，INT8整數性能則可達1678Tops。 Data Parallel C++ (DPC++)測試項目中，Ponte Vecchio的性能相比於NVIDIA A100可以領先1.4-2.5倍。另外，ExaSMR OpenMC計算性能可領先2倍，NekRS性能則領先0.3-1.7倍。當然， Ponte Vecchio的使命是將聯合下一代可擴展至強Sapphire Rapids，用於美國的首批三台百億億次超算之一Aorura，但不幸的是，Sapphire Rapids一再推遲，預計明年第二季度才能發布，Ponte Vecchio也一直沒有量產上市。相比之下，AMD三代霄龍處理器、Instinct MI250X加速卡組成的Frontier已經上線運行，並以1.6EFlops的性能，成為當今(公開的)超算之王。來源：快科技

Rialto Bridge將接替Ponte Vecchio？英特爾或在2023年發布新款計算GPU

在GTC 2022上，英偉達發布了新一代基於Hopper架構的H100，用於下一代加速計算平台，不過要等到今年第三季度才會供貨，距離現在還有幾個月的時間。這意味著競爭對手可以調整自己產品的發布時間，作出針對性的部署。近日Moore's Law is Dead表示，雖然英特爾還沒有正式推出Ponte Vecchio，但後續產品的代號已確定，稱為Rialto Bridge，且計劃在明年推出。相比於AMD的Instinct MI250X，以及英偉達的GH100，英特爾第一款HPC GPU在時間上已經落後了。直到現在，英特爾還沒有確定Ponte Vecchio具體的發布日期。 Ponte Vecchio是英特爾首個百億億次級計算GPU，使用了英特爾有史以來最先進的封裝技術，擁有超過1000億個電晶體，是現階段英特爾先進技術的集大成者。根據英特爾在ISSCC 2022（IEEE 國際固態電路會議）上的介紹，Ponte Vecchio擁有63個模塊，包括了16個Xe-HPG架構的計算晶片、8個Rambo cache晶片、2個Xe基礎晶片、11個EMIB連接晶片、2個Xe Link I/O晶片、8個HBM晶片、以及16個負責TDP輸出的模塊，通過EMIB與Foveros 3D封裝中整合在一起。 AMD和英偉達也不會減慢新一代計算GPU研發的腳步，前者接下來會有基於CDNA 3架構和採用MCM多晶片封裝的Instinct MI300系列，後者應該是基於Blackwell架構的GPU。加上英特爾尚未確認的Rialto Bridge，預計這些計算GPU都會在未來兩年內推出。 ...

1000億電晶體 Intel怪物級GPU後繼有人

Intel Xe GPU架構野心勃勃，從入門級核顯，到頂級加速計算卡，統統都要拿下。其中，，首批供給美國能源部的百億億次級超算「Aurora」，將在今年晚些時候按計劃出貨，競爭對手包括、它使用了Intel 7、台積電N7/N5等五種不同工藝製造，電晶體數量超過1000億個，集成多達63個Tile單元模塊(47個功能性)，總封裝面積4844平方毫米，整體功耗最高600W。據大神MLID最新曝料，Ponte Vecchio的下一代產品已經浮出水面，代號「Rialto Bridge」，還是取自義大利的橋梁名。 Ponte Vecchio是佛羅倫斯的韋基奧橋，意思是「舊橋」，是一座橫跨阿爾諾河的中世紀石橋。幾個世紀以來，各種商店一直排在這座橋的兩側，現在大多數都出售珠寶。 Rialto Brideg則是威尼斯400多座橋中最有名的里亞托橋，也是威尼斯的象徵，又名商業橋，全部採用白色大理石築成。大橋長48米，寬22米，離水面7米高，橋兩頭用12000根插入水中的木樁支撐，橋上中部建有廳閣，一度曾作為歐洲的商業中心達300年之久，兩側則是20多個首飾商店和賣紀念品的小攤，是威尼斯最重要的商業區之一。里亞托橋建於1180年，原是木橋，後改為吊橋，1444年的一次慶典中不堪重負而折斷，1580-1592年改建為現在的石橋。值得一提的是，莎士比亞的名劇《威尼斯商人》就是以這座橋為背景。說了半天橋，目前對於Rialto Bridge的具體信息一無所知，猜測可能會基於下一代的Xe HPC架構，預計要到2024年才會發布了。到時候，NVIDIA將會有基於下代Blackwell架構的B100，AMD則會有CNDA3架構的Instinct MI300系列，競爭更加激烈。來源：快科技

英特爾發布新版數據中心路線圖：引入E-Core，推出Arctic Sound-M加速卡

在2022年投資者會議上，英特爾展示了新的伺服器/數據中心領域相關的路線圖。其中很重要的一點是，英特爾會在未來的伺服器處理器中採用雙軌產品路線，將客戶端的能效核（Efficient Core）引入到伺服器市場，與性能核（Performance Core）並存。如果與過去英特爾公布的伺服器/數據中心路線圖比較，會發現因10nm製程節點的延誤，導致不斷的調整和延遲，凸顯了產品線的混亂狀況。從2022年第一季度開始，英特爾將交付Sapphire Rapids處理器，其採用了Intel 7製程工藝（10nm Enhanced SuperFin），是迄今為止功能最為豐富的至強伺服器處理器。其最高會配備56個核心，使用Golden Cove架構，TDP為350W。新平台還支持PCIe Gen5、CXL 1.1（Compute Express Link）和八通道DDR5記憶體，同時會延續英特爾的內置AI加速策略，支持英特爾高級矩陣擴展（AMX）。英特爾還會提供帶有64GB記憶體的HBM版本，能夠為應用程式提供多達4倍的記憶體帶寬，實現了高達2.8倍的性能提升。英特爾計劃在2023年推出Emerald Rapids處理器，同樣採用了Intel 7製程工藝，在提升性能的同時，進一步增強平台在記憶體和安全性方面的優勢。預計Emerald Rapids處理器將使用Raptor Cove架構核心，最高可以提供64核心和128線程，且會與Sapphire Rapids保持兼容，仍使用Eagle Stream平台。接替Emerald Rapids的將是Granite Rapids處理器，英特爾會做出一些較大的改變。根據過往資料，英特爾原計劃是基於Intel 4製程工藝（原來的7nm EUV工藝），不過現在改成了Intel 3製程工藝，工藝的升級凸顯了英特爾的信心。傳聞Granite Rapids處理器將使用Redwood...

英特爾Ponte Vecchio將會有兩個版本，高端型號帶XT後綴

據Phoronix報導，英特爾最新的C for Metal編譯器增加了對當前和即將推出的各款GPU的支持，包括了集成和獨立顯卡使用的GPU，比如Intel Arc Alchemist和Ponte Vecchio。有趣的是，Ponte Vecchio計算卡將至少有兩個版本，分別名為「Ponte Vecchio」和「Ponte Vecchio XT」。 Ponte Vecchio是英特爾首個百億億次級計算GPU，使用了英特爾有史以來最先進的封裝技術，擁有超過1000億個電晶體，由47個被稱為「魔術貼」的晶片組成，包括了16個Xe-HPG架構的計算晶片、8個Rambo cache晶片、2個Xe基礎晶片、11個EMIB連接晶片、2個Xe Link I/O晶片和8個HBM晶片，通過EMIB與Foveros 3D封裝中整合在一起，是現階段英特爾先進技術的集大成者。 Ponte Vecchio會使用不同節點的工藝製造，據稱至少會有五種，包括了：2塊基礎單元，英特爾10nm SuperFin工藝。16個Xe-HPG架構的計算晶片，初期由台積電負責，當英特爾准備好7nm工藝，則會轉為英特爾自行製造。8個Rambo cache晶片，英特爾10nm Enhanced SuperFin工藝。11個EMIB連接晶片，英特爾自行製造，工藝未知。2個Xe Link I/O晶片，很可能交由晶圓代工廠製造，工藝未知。8個HBM晶片，DRAM製造商負責，工藝未知。眾所周知，英特爾高級副總裁、首席架構師兼架構、圖形與軟體部門總經理Raja Koduri曾在AMD工作了十幾年，而「Ponte Vecchio...

英特爾表示Sapphire Rapids將有64GB HBM2e，並確認Ponte Vecchio緩存容量

在近日舉行的Supercomputing 2021上，英特爾進一步披露了稱為Sapphire Rapids的新一代至強（Xeon）可擴展處理器的信息。據HardwareLuxx報導，英特爾已確認將推出兩種Sapphire Rapids處理器，區別在於是否有配備HBM2e記憶體。在這次大會上，英特爾表示，配置有記憶體的Sapphire Rapids處理器會採用四組HBM2e，每組容量為16GB，總有64GB記憶體，峰值帶寬介乎於1.432 TB/s到1.640 TB/s之間，並會與普通版的Sapphire Rapids處理器共享插座。如果平常有留意Sapphire Rapids處理器的相關消息，這並不會感到驚訝，早在去年12月份，就已經有這方面的傳言了。 Eagle Stream平台的Sapphire Rapids處理器最高會配備56個核心，使用Golden Cove架構，採用10nm Enhanced SuperFin工藝製造，TDP為350W。下一代平台還支持PCIe Gen5、CXL 1.1（Compute Express Link）和八通道DDR5記憶體，同時會延續英特爾的內置AI加速策略，支持英特爾高級矩陣擴展（AMX）。英特爾還確認了Ponte Vecchio的L1和L2緩存配置，分別為64MB和408MB，採用HBM2e。作為數據中心使用的GPU，將用於Aurora等超級計算機，與Sapphire Rapids成為搭檔。據了解，Aurora超級計算機將採用超過18000個Sapphire Rapids處理器，以及超過54000張Ponte Vecchio計算卡，單個計算節點內會配置兩個Sapphire Rapids處理器和六張Ponte Vecchio計算卡，通過Xe-Link協議全對全拓撲相互連接。此外，英特爾還與SiPearl合作，在歐洲部署超級計算機。SiPearl目前正在開發一款基於Arm架構的處理器，名為Rhea，將採用台積電7nm工藝製造，而基於Xe-HPC架構的Ponte...

Intel披露頂級加速卡：自帶472MB一二級緩存

今天，Intel披露了下一代可擴展至強Sapphire Rapids、全新加速計算卡Ponte Vecchio的部分細節，它們將聯手為美國能源部組建百億億次超級計算機「Aurora」。 (屏蔽4個)，內部四個Die通過EMIB進行整合封裝，可選集成HBM2e記憶體，支持DDR5記憶體、PCIe 5.0總線、CXL 1.1互連協議。 Intel確認，Sapphire Rapids可選集成最多64GB HBM2e，一共四顆，單顆容量16GB，8-Hi堆疊，總的峰值帶寬至少1.4TB/，最高可超過1.6TB/。 HBM2e、DDR5可以並存使用，甚至HBM2e還可以脫離DDR5獨立運行。 Sapphire Rapids的核心面積約400平方毫米，沒有HBM2e的封裝面積4448平方毫米，加入HBM2e的則擴大到5700平方毫米。 PowerVR加速卡更有趣，它基於頂級的Xe HPC高性能計算架構，以雙堆棧的方式組合，共擁有64MB一級緩存、408MB二級緩存，並搭配128MB HBM2e。相比之下，NVIDIA A100加速卡只有40MB二級緩存，AMD MIX250X加速卡更是不過16MB。，Ponte Vecchio加速卡集成超過1000億個電晶體，採用Intel 7、台積電N7/N5等五種不同工藝，內部集成多達47個不同單元(Tile)，擁有128個Xe核心、128個光追單元。基礎單元面積650平方毫米，整體封裝尺寸77.5×62.5＝4843.75平方毫米。 Aurora超算的每個節點有兩顆Sapphire Rapids處理器、六塊Ponte Vecchio加速卡，後者通過Xe Link高速總線兩兩彼此互連。整台超算將用到超過1.8萬顆處理器、5.4萬塊加速卡，性能超過2EFlops，也就是200億億次計算每秒。 Intel將從今年第四季度開始陸續交付Ponte Vecchio加速卡。最後是一張幾乎毫無意義的路線圖：2023年或者更遠，Intel還會推出再下一代的可擴展至強(可選HBM)、Xe加速卡，但甚至連個代號都沒有給出。來源：快科技

英特爾表示光線追蹤也能用於HPC領域，已向合作夥伴提供公版Alchemist顯卡

近日，英特爾高級副總裁、首席架構師兼架構、圖形與軟體部門總經理Raja Koduri，以及英特爾高級副總裁、數據中心XPU產品部門總經理Jeff McVeigh接受了日本網站ASCII的采訪，透露了有關英特爾Ponte Vecchio，以及全新高性能遊戲顯卡品牌Intel Arc（銳炫）的首款產品，即Alchemist顯卡的一些信息。 Raja Koduri表示，Alchemist顯卡選擇台積電N6工藝而不是英特爾的7nm工藝，是由於產能的原因造成的，未來英特爾銳炫品牌顯卡可能會由自己的晶圓廠直接負責製造。同時英特爾目前已經向合作夥伴提供了公版顯卡，以協助開發非公版顯卡。英特爾也將為工作站市場提供類似英偉達Quadro或AMD Radeon Pro這樣的專業顯卡，不過未透露更詳細的信息。所謂的公版顯卡，很可能是此前泄露的那款產品，類似的設計也出現在英特爾的宣傳中。英特爾的顯卡合作夥伴可能會在首批產品中採用同樣的散熱設計，或者在這基礎上稍加修改，提供類似半定製解決方案。 Jeff McVeigh則表示，即便是HPC也需要光線追蹤技術，比如可用於大規模模擬的結果可視化。同時光線追蹤技術也在不斷發展，一個方向是獲得超高精度圖像質量和提高性能，另一個是可視化和用於內容生產和AI/ML。目前Xe-Link可以讓所有模塊通過點對點方式連接，無論是樹狀組合還是2D/3D網格，甚至向外擴展。不過Xe-Link連接能力仍然有限，只能以8-tile互聯的形式使用，而且不能用於橫向擴展。不過使用Xe-Link配置多GPU的可能性被否決，僅適用於Ponte Vecchio，不包括其他產品。 ...

英特爾介紹了更多有關Sapphire Rapids和Ponte Vecchio的晶片封裝信息

在2021年英特爾架構日上，英特爾公開了包括Alder Lake、Sapphire Rapids、Ponte Vecchio和Alchemist等信息。據Wccftech報導，在隨後的HotChips 33上，英特爾分享了更多有關Sapphire Rapids-SP處理器的信息，還介紹了一些有關Ponte Vecchio的晶片封裝問題。英特爾表示，Sapphire Rapids使用了全新內核和加速器引擎，樹立了下一代數據中心處理器的標準。其核心是一個模塊化的分區SoC架構，受益於EMIB互連封裝技術和先進網格架構，有著很好的可擴展性，同時仍保持單晶片CPU接口的優勢。Sapphire Rapids將基於Intel 7製程工藝，支持PCIe Gen5、CXL 1.1（Compute Express Link）、八通道DDR5記憶體和HBM技術。 Sapphire Rapids支持英特爾加速器接口架構指令集（AIA），以及英特爾高級矩陣擴展（AMX）。前者支持對加速器和設備的有效調度、同步和信號傳遞，後者可以為深度學習算法核心的Tensor處理提供大幅加速，每個周期內進行2000次INT8運算和1000次BFP16運算。此外，還支持英特爾數據流加速器（DSA），旨在卸載最常見的數據移動任務，以提供更高的整體工作負載性能。與此前流傳的信息一樣，Sapphire Rapids-SP將會有兩種不同的封裝型號，一種是標準配置，另外一種是HBM配置。標準配置將由四個XCC晶片構成的小晶片設計，單個XCC晶片的面積約為400平方毫米，通過EMIB互聯，EMIB間距為55u，核心間距為100u。標準的Sapphire Rapids-SP將有10個EMIB互聯，整個封裝的尺寸為4446平方毫米。如果是HBM配置的型號，將有14個EMIB互聯，因為需要將HBM2E記憶體互聯到核心，整個封裝的尺寸為5700平方毫米。AMD代號Genoa的EPYC處理器的封裝面積為5428平方毫米，高於Sapphire Rapids-SP標準配置版，略小於HBM配置版。英特爾表示，與標準封裝設計相比，EMIB鏈路提供兩倍的帶寬和四倍的電源效率。受益的還有基於Xe HPC架構的Ponte Vecchio，這是英特爾現階段先進技術的集大成者，擁有超過1000億個電晶體，專門針對HPC和AI工作負載設計。其內部總共有47個不同的單元（Tile），包括了計算單元、Rambo緩存單元、Foveros封裝單元、基礎單元、HBM單元、Xe鏈路單元和EMIB單元等，採用了5種不同的製造工藝。與Alchemist顯卡一樣，Ponte Vecchio的Xe HPC架構也是基於全新的Xe核心（Xe Core），不過結構上有所不同，擁有8個512位的矢量引擎和8個4096位的矩陣引擎（Xe Matrix...

5種工藝、1000+億電晶體 Intel Xe HPC頂級計算卡秀肌肉

我們知道，Intel Xe GPU架構分為四個層級，或者說四種微架構，其中以上是的Xe LP低功耗版僅供核顯、入門獨顯，即將到來的Xe HPG高性能圖形版面向中高端遊戲顯卡，Xe HP高性能版適合加速計算、AI、ML等但所知最少，Xe HPC高性能計算版則是最頂級的存在，主攻大型數據中心、超算。，這里來看看Xe HPC和首款產品Ponte Vecchio，競爭對手是NVIDIA A系列、AMD Instinct系列。當然，它們距離普通人非常非常遙遠，但卻是技術實力的最高體現。 Xe HPC架構的基礎也是Xe核心(Xe Core)，但因為面向的是計算而非圖形，內部結構有所不同，包括8個512-bit矢量引擎、8個4096-bit矩陣引擎，數量對比Xe HPG都減半，但位寬分別翻了一倍、兩倍，算力更兇猛。矢量引擎每時鍾周期可執行256個FP32、256個FP64、512個FP16等數據操作，矩陣引擎則每時鍾周期支持2048個FP32、4096個FP64、4096個BF16、8192個INT8。與矢量引擎、矩陣引擎搭檔的，是一個更寬的寬加載/存儲單元，每個時鍾周期取回512位元組數據。每個Xe核心集成512KB一級數據緩存，這是目前業內最大的，而且可以通過軟體配置作為暫存區使用，又稱共享內部顯存。 Xe核心的上一層級叫做「切片」(Slice)，不同於Xe HPG上的渲染器切片(Slice)，畢竟一個是做計算，一個是做圖形渲染。 Xe HPC每個切片集成多達16個Xe核心，四倍於Xe HPG渲染切片的規模，同時還有8MB一級緩存、16個光追單元、一個硬體上下文(Hardware Context)單元，其中光追支持光線遍歷、邊界框相交、三角形相交，提供固定函數計算。硬體上下文單元大家可能比較陌生，它能讓GPU同時執行多個應用，而無需昂貴的基於軟體的文本切換。切片的上一級則是「堆棧」(Stack)，至此才算一個完整的GPU。一個堆棧包含4個切片，因此總計64個Xe核心、64個光追單元、4個硬體上下文。同時，堆棧內還有大規模二級緩存、4個HBM2e記憶體控制器、1個媒體引擎、8個Xe鏈路，以及拷貝引擎、PCle控制器。 Xe HPC架構是可以輕松擴展的，支持多堆棧設計，屬於業內首創，依靠的是EMIB封裝和堆棧間互連通道，可保持堆棧之間的記憶體一致性。比如這是雙堆棧，整體規模直接翻番，它就是後邊要說的首款Ponte Vecchio，但看架構圖，似乎不支持四堆棧。不同的Xe HPC GPU之間通過Xe鏈路互連，支持最多8顆並行，算力直接暴力乘以8。 Ponte Vecchio作為基於Xe HPC架構的首款產品，一切的一切都是全新的，包括驗證方法、軟體、可靠性方法、信號完整性機制、互連、供電、封裝、I/O架構、記憶體架構、IP架構、SoC架構。 Ponte...

英特爾表示Ponte Vecchio正在進行系統驗證，並開始發送DG2顯卡工程樣品

在近日舉行的ISC 2021上，英特爾還介紹了Xe-HPG架構的DG2（Discrete Graphics 2）系列GPU，以及基於Xe-HPC架構，針對HPC和AI工作負載的Ponte Vecchio的相關情況。 Ponte Vecchio是英特爾現階段先進技術的集大成者，擁有超過1000億個電晶體。其47個晶片包括了16個Xe-HPC架構的計算晶片、8個Rambo cache晶片、2個Xe基礎晶片、11個EMIB連接晶片、2個Xe Link I/O晶片和8個HBM晶片。這些晶片會使用不同節點的工藝製造，包括了台積電的7nm或5nm工藝，以及英特爾的7nm和10nm工藝，並通過EMIB與Foveros 3D封裝中整合在一起。英特爾確認了Ponte Vecchio正在進行系統驗證，產品將分為至少三種形態，包括了此前曝光的OAM模塊，以及x4子系統配置。有消息指，AMD的Instinct MI200也會使用前者，這將是Ponte Vecchio的潛在競爭對手。 DG2系列GPU作為英特爾即將重返遊戲獨立顯卡市場的產品，受到了不少遊戲玩家的關注，希望引入新的競爭可以促進遊戲顯卡的發展，同時舒緩供應短缺的情況。英特爾確認正在向合作夥伴出貨，提供DG2系列顯卡的工程樣品，不過沒有確認是否在年內推出。隨著OEM廠商開始進行測試，相信會有性能方面的信息泄露。英特爾在其官方推特帳號上表示將會迎來里程碑，涉及即將推出的Xe-HPG架構遊戲顯卡，呼籲收到英特爾「Odyssey（奧德賽）」卡的人，現在可以填入一些資料後進行兌換，以獲得「好東西」。接下來英特爾可能會有一些活動，不過沒有透露更多的信息。 ...

英特爾Ponte Vecchio將採用了OAM模塊，需通過定製水冷裝置散熱

在今年3月份的Intel Unleashed活動中，英特爾CEO帕特·基辛格（Pat Gelsinger）談到了Xe-HPC架構的Ponte Vecchio，並做了公開展示。這是Raja Koduri被聘為英特爾圖形部門首席架構師以來，負責的一項重大項目。 Ponte Vecchio是英特爾首個百億億次級計算GPU，使用了英特爾有史以來最先進的封裝技術，擁有超過1000億個電晶體。其47個晶片包括了16個Xe-HPG架構的計算晶片、8個Rambo cache晶片、2個Xe基礎晶片、11個EMIB連接晶片、2個Xe Link I/O晶片和8個HBM晶片。Ponte Vecchio作為開放加速器模塊的時候，英特爾會使用專門的液冷散熱模塊進行散熱，其標準為600W。近日，Igor'sLAB獲得了更多的資料並進行了分享，讓人們可以對這款怪獸晶片有更多的認識。 Raja Koduri展示的是Xe-HPC 2-Tile封裝版本（相當於早期版本的Ponte Vecchio），圖片上可以看到左右兩邊相同的結構封裝在一起。據了解，除了2-Tile封裝版本，還會有1-Tile封裝版本和4-Tile封裝版本。 Ponte Vecchio的47個晶片會使用不同節點的工藝製造，包括了台積電的7nm或5nm工藝，以及英特爾的7nm和10nm工藝，並通過EMIB與Foveros 3D封裝中整合在一起。為了應付高達600W甚至更高的TDP，英特爾為其設計了一個復雜的散熱器。Ponte Vecchio採用了OAM模塊，這是一種開放式硬體計算加速器形態和互連結構，共有五層，從下到上分別是底板、PCB電路板、頂板、水冷裝置和固定蓋板。 ...

Intel頂級顯卡功耗超600W 標配水冷、五層結構

除了已經發布的Xe LP低功耗架構、Xe HP/HPG主流遊戲架構，Intel這次重返獨立顯卡市場，還准備了專門面向高性能計算的Xe HPC頂級架構，定位於超級計算機加速器，開發代號「Ponte Vecchio」，官方也曾多次預告。，並透露它採用Intel迄今最先進的封裝工藝，集成多達47顆不同晶片模塊，電晶體規模也突破1000億大關，可在掌中提供千萬億次(PFlops)的計算能力。曝料大拿Igor's Lab今天放出了Ponte Vecchio的更多設計、技術細節。首先是內部結構平面圖，可以看到幾十個不同IP模塊組合在一起。這是其中的2-Tile版本(還有1-Tile、4-Tile)，可以看到左右兩個完全相同的部分整合封裝在一起。 IP模塊一共多達47個，包括計算模塊、基礎模塊、Rambo Cache緩存模塊、Xe Link互連模塊等等，分別採用不同工藝，包括Intel 7nm、Intel 10nm SuperFin、台積電7nm(或者5nm)，然後就通過EMIB、3D Foveros等不同封裝技術合體。當然這里只是平面圖，而這個結構其實是立體整合封裝的，所以更確切的結構這里看不完整。 Ponte Vecchio不同於一般的加速卡，採用了OAM模塊形態，也就是OCP Accelerator Module，一種專門定義的開放式硬體計算加速器形態、互連結構。可以看到它一共有五層，從下到上分別是底部墊板、PCB電路板、頂部墊板、水冷(液冷)、固定墊板。為什麼要用水冷？因為據說這傢伙的功耗高達恐怖的600W，甚至可能更高一些，相當於兩塊頂級的遊戲卡了。這是底部、頂部墊板和PCB電路板的細節圖，可以看到為了安裝墊板，PCB上也預留了不少空間。這是頂部墊板的細節尺寸圖。來源：快科技

英特爾進一步揭示DG2具體規格，以及Ponte Vecchio更詳細信息

近日英特爾官方更新了相關的資料，這些文檔並不是一般用戶可以訪問，需要有相關權限的人員才能查看。其中GPU方面涉及了Xe-HPG架構的DG2（Discrete Graphics 2）獨顯，以及前幾天曾公開露面的Ponte Vecchio。英特爾的DG2的多個型號覆蓋桌面以及移動平台，新的GPU將支持PCIe 5.0和GDDR6顯存，支持HDMI 2.1接口和Type-C接口的DisplayPort輸出，分別會配置16GB、8GB、6GB和4GB顯存。據VideoCardz報導，資料顯示移動平台會有五款不同配置的型號，桌面平台至少會有兩款，兩者或許會有重疊的配置。具體情況如何，還要等進一步消息了，應該也不需要等太久。 DG2將會有三個規格的產品，分別配備了512個EU、384個EU和128個EU。意味著最高規格的DG2-512EU擁有4096個流處理器，其移動平台型號的TDP為150W。另外資料顯示，DG2-512EU使用BGA2660封裝，而DG2-128EU將使用BGA1379封裝。而擁有超過1000億個電晶體的Ponte Vecchio也有了更詳細的資料，據TomsHardware報導，其47個晶片包括了16個Xe-HPG架構的計算晶片、8個Rambo cache晶片、2個Xe基礎晶片、11個EMIB連接晶片、2個Xe Link I/O晶片和8個HBM晶片。面對如此龐大而復雜的結構，Ponte Vecchio作為開放加速器模塊的時候，英特爾會使用專門的液冷散熱模塊進行散熱，其標準為600W，說明其TDP相當高。作為即將在年底投入使用的Aurora超算系統中的配件，散熱方面不會是問題。 ...

Intel揭曉Ponte Vecchio謎底：用於高性能計算領域的Xe顯卡

今天早些時候Intel在SC19 HPC峰會正式開始前舉辦了一場「展前發布會」，會上Raja Koduri介紹了他們在HPC領域中的最新戰略，更為重要的是，他揭曉了Intel新的，代號為"Ponte Vecchio"的計算用顯卡，它基於Intel傾力打造的Xe架構。現在的GPU不僅僅是一個渲染計算機圖形的處理器，它更是高性能計算領域的常客，Intel表示他們的Xe圖形架構非常靈活，可以做到從低功耗領域到高性能計算領域的全覆蓋：「一種架構，多種微架構，通用編程模型」，從圖上我們也可以看出Intel在GPU領域中的野心非常大，未來Xe顯卡架構也將覆蓋他們幾乎所有的產品線。圖片來自於AnandTech Xe架構的靈活性在於內部微架構的可定製性，或者說就是針對不同市場的關鍵應用推出相對應的架構，比如說在高性能計算市場上面推出具有高雙精度浮點運算性能的產品，而針對AI加速市場可以在架構中塞入更多張量單元來進行針對性的加速。 AnandTech 上圖指出了HPC版本的Xe架構將具有的三個特徵，首先是針對AI領域的彈性數據並行向量矩陣引擎，它可以有效加速AI訓練。第二個是雙精度浮點單元，目前普通遊戲圖形對於雙精度計算的需求並不高，不過在傳統的高性能計算市場中，它仍然有著非常大的工作量，所以雙精度計算單元仍然是高性能計算卡架構中的一個不可或缺的成員。最後是超高的緩存&記憶體帶寬，對於計算卡來說這是幫助它實現高計算吞吐量的助推力量。圖片來自於Tom's Hardware 圖片來自於AnandTech Ponte Vecchio是義大利佛羅倫斯阿諾河上面的一座著名的古橋（AC2故事線起始地），Intel使用了這座古橋的名字作為新的計算卡的代號，它將會使用Intel近年來研發的一系列新技術，比如7nm製程、Foveros 3D堆疊技術和EMIB片間互聯技術，不過顯卡要等到2021年才會正式登場。而最新基於PCIe 5.0的CXL互聯技術可能在它的另一個分支，代號為"Sapphire Rapids"的數據中心級晶片身上亮相。圖片來自於Tom's Hardware ...

英特爾首批Xe GPU代號為Ponte Vecchio，用做高性能計算

英特爾的首批Xe架構圖形卡現在已經確認了代號，他們以義大利佛羅倫斯的一座古老的石橋的名稱「 Ponte Vecchio」來作為首批Xe架構圖形卡的代號，看起來這主要是凸顯了其GPU之間強大的互連特性，據稱Ponte Vecchio圖形卡將使用高速Compute Express Link（CXL）互連技術。不過，Ponte Vecchio圖形卡首發時並不是作為遊戲顯卡，而是用做高性能計算。英特爾有望首先將Ponte Vecchio整合到美國能源部（DOE）的下一代百億億次超級計算機Aurora中。據稱Aurora配備了兩個Intel Xeon Sapphire Rapids處理器和六個Intel Xe Ponte Vecchio圖形卡。該超級計算機還可能具有One API，這是Intel用於統一編程模型的項目，可促進跨不同計算體系結構的軟體開發。此外，Ponte Vecchio還有望用上英特爾的3D Foveros技術進行3D封裝。據稱，英特爾將為Ponte Vecchio配備高帶寬記憶體（大機率就是HBM了），並且還將具有超高緩存容量和高雙精度FP吞吐量。英特爾已經為Xe架構圖形卡制定了宏偉計劃。據傳，英特爾在一張幻燈片中列出了所有將使用Xe圖形的市場：HPC/Exascale、DL/Training、Cloud GFX、Media Transcore Analytics、工作站、遊戲、PC Mobile和Ultra Mobile在內的所有市場。 ...

Tag: Ponte Vecchio