Intel Gaudi Archives

封閉沒有前途 Intel打造開放AI生態誓要虎口奪食

Intel日前舉辦了Vision 2024年度產業創新大會，亮點不少，號稱大幅超越NVIDIA H100的新一代AI加速器Gaudi 3、品牌全新升級的至強6、AI算力猛增的下一代超低功耗處理器Lunar Lake，都吸引了不少目光。不過對於AI開發者、AI產業尤其是企業AI而言，這次大會上還有一件大事： Intel聯合眾多行業巨頭，發起了開放企業AI平台，推動企業AI創新應用，同時通過超乙太網聯盟(UEC)和一系列AI優化乙太網解決方案，推進企業AI高速互連網絡創新。如今說到大規模AI部署，很多人腦海中會立刻浮現兩個名字：一個是OpenAI，大模型和算法的一枝獨秀；另一個是NVIDIA，硬體算力和生態的典型代表。但是每每說到NVIDIA，以及CUDA為代表的生態圈，其一貫以來的封閉做法頗為人所詬病，被譽為「矽仙人」的晶片開發大神 Jim Keller就一直對NVIDIA的做法極為不滿，斥責CUDA不是護城河而是沼澤，NVLink這種私有互連標准也應該摒棄。坦白說，NVIDIA AI不僅僅在硬體性能上「遙遙領先」，更大的資本正是耗費十幾年時間和無數美元砸出來的CUDA生態，成為其「壟斷行業」、獲利無數的制勝法寶。只不過時代在變化，無論企業還是開發者，都不希望被束縛在一個小圈子裡，更希望在開放共享的世界裡自由前行，這正好給了其他廠商追趕甚至超越NVIDIA的大好機會。 Intel就瞅准這一趨勢和需求，聯合Anyscale、Articul8、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、VMware、Yellowbrick、Zilliz等眾多行業夥伴宣布，將聯合創建企業AI開放平台，助力企業推動AI創新。它將為企業AI提供一個從下到上的完整平台，底層基於Intel完整覆蓋雲、數據中心、邊緣、PC各個領域的AI算力硬體，也就是XPU理念。構築其上的是標准化和可擴展的基礎設施生態、安全可靠的軟體生態、開放便捷的應用生態，而且全都是對整個行業開放的。這一計劃凝結了全行業的力量，旨在開發開放的、多供應商的AIGC系統，通過RAG(檢索增強生成)技術，提供一流的部署便利性、性能和價值。對於企業當前正在標准雲基礎設施上運行的大量專有數據源，RAG可以幫助他們通過開放大語言模型進行功能上的增強，從而加速AIGC在企業中的應用。在Intel看來，堅持開源開放，並以此撬動開放的AI生態飛速發展，至關重要。 Intel副總裁、Intel中國軟體和先進技術事業部總經理李映在接受采訪時表示：「傳統模式中，幾家領導公司組建一個開放聯盟，各自有明確分工，更多的是一個選擇問題。如今基於AI大模型的變化，開放開源第一次和整個行業的技術創新爆發結合在一起。現在，開放開源和閉源同時出現，不再是選擇，而是一個自然演變、發展的過程。」 Intel院士、大數據技術全球首席技術官、大數據分析和人工智慧創新院院長戴金權也指出，一個開放的生態，可以讓同一生態的創新相互促進，在新的應用場景可以互通。整個行業都在逐漸意識到，構建一個AIGC應用，並不是只需要一個大模型，一些最先進的系統解決方案，其實更多的是相當於構建一個AI系統來解決問題。在這個企業AI開放平台中，Intel的一個突出重點就是加快構建開放的AI軟體生態，通過構建基礎軟體為開發者提供便利，幫助大企業簡化和深入AI的大規模開發和部署。李映指出，在開放AI軟體生態方面，對於Intel而言，非常重要的一個點是如何通過軟體加速企業AI的發展，如何把企業原來的雲架構和未來基於大模型、數據的AI架構融合在一起。軟體可以在這個過程中起到非常重要的加速作用，而從整個軟體堆棧的角度來講，Intel正是極少數可以真正在各個層面上通過軟體提供優化、提供技術的頭部企業之一。同時，Intel一直在極力推動基於AI的軟體創新，最典型的就是oneAPI，下載量已經超過100萬次。第三就是如何幫助開發者提高開發效率，其中很重要的一部分就是Intel開發者雲平台。它不但可以讓開發者最早接觸到最新的至強、Gaudi AI加速器，還能保證各種開源框架、組件在同一環境中的兼容性，從而提升開發效率、優化用戶體驗。另外非常值得一提的是，Intel也在積極為開源社區貢獻技術、創新和經驗，推進開放標准。比如，PyTorch已逐漸成為標準的AI框架，Intel一直都是PyTorch非常靠前的重要貢獻者，並以高級會員的身份加入了PyTorch基金會。除了對PyTorch本身進行優化，Intel的一些技術創新都投入到了PyTorch開源框架之中，讓更多企業和開發者共享，讓整個AI軟體框架更加開源、開放。再比如openEuler、龍蜥這些開源的中國Linux社區，Intel對其的投入都已經和國際同步，甚至在某些領域領先於國際上其他一些Linux的分布和發展。最後再來回顧一下Intel本次揭曉的三大算力產品。採用台積電5nm工藝，配備8個矩陣引擎、64個張量核心、96MB SRAM緩存、1024-bit 128GB HBM2E內存(帶寬3.7TB/)，還有16個PCIe 5.0通道、24個2000GbE網絡、JPEG/VP9/H.264/H.265解碼器。功耗有600/900W兩個級別，提供OAM兼容夾層卡、通用基板、PCIe擴展卡三種形態。 Gaudi 3相比上代擁有2倍的FP8 AI算力(1835TFlops)、4倍的BF16 AI算力、2倍的網絡帶寬、1.5倍的內存帶寬。 Intel還聲稱，它對比NVIDIA H100 LLM推理性能領先50％、訓練時間快40-70％，能效領先最多達2.3倍。另外，得益於強大、便捷的開發工具，開發者最少只需改變3行代碼，就能將其他AI應用移植到Gaudi 3之上。，其中Sierra Forest第二季度發布，堪稱至強處理器歷史上最大的一次變革，首次採用純能效核(E核)設計。它重點針對效率進行優化，適合高密度、可擴展的工作負載，最多288核心288線程。按照官方說法，相比第二代至強，Sierra Forest可以帶來2.4倍的能效提升，機架密度則可以提高2.7倍。 Granite Rapids則是傳統的純性能核(P核)設計，重點針對性能優化，適合計算密集型應用和高強度的AI負載。它新增了對MXFP4數據格式的軟體支持，能夠運行700億參數的Llama...

Intel Gaudi 3 AI加速器可以賣給中國但揮刀砍掉一半

快科技4月12日消息，Intel日前發布了，本來美國政府是不會允許賣給中國的，但是沒想到Intel已經同步准備好了中國特供版本！ Gaudi 3採用台積電5nm工藝，配備了8個矩陣引擎、64個張量核心、96MB SRAM緩存、1024-bit 128GB HBM2E內存(帶寬3.7TB/)，還有16個PCIe 5.0通道、24個2000GbE網絡、JPEG/VP9/H.264/H.265解碼器，提供OAM兼容夾層卡、通用基板、PCIe擴展卡三種形態。 Intel聲稱，它相比上代擁有2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的網絡功耗為600W帶寬、1.5倍的內存帶寬，而對比NVIDIA H100 LLM推理性能領先50％、訓練時間快40％。 Gaudi 3的首發版本編號HL-325L，OAM形態，已經出貨，功耗900W，風冷散熱。它的中國特供版將在6月份推出，編號HL-328，功耗減半至450W，HMB內存、緩存、解碼器等完全保留，但既然功耗少了一半，算力差不多也會被腰斬。 10月份還會有個液冷版本HL-335，支持雙路並聯，但不能賣給中國，也沒有特供版。 PCIe擴展卡形態將在9月份出貨，風冷，滿血版編號HL-338，，中國特供版編號HL-388，功耗又被限制在450W。通用基板形態的編號為HLB-325，但具體規格和出貨時間暫時不詳。說起來，NVIDIA是最早做中國特供版AI加速器的，也就是H800、A800，後來也被禁售了，最近又拿出了H20、L20、L2、RTX 4090D，都能賣。 AMD也設計了特供版，但都被美政府以算力還是太強為由給打回，來源：快科技

超越NVIDIA H100 訓練快40% 推理快50%：Intel Gaudi3憑什麼

4月9日晚間，Intel在美國召開了“Intel Vision 2024”大會，介紹了Intel在AI領域取得的成功，並發布了新一代的雲端AI晶片Gaudi 3及第六代至強（Xeon）可擴展處理器，進一步拓展了Intel的AI產品路線圖。 AI晶片市場的巨大機遇在生成式AI持續爆發背景之下，市場對於AI晶片的需求正高速增長。根據市場研究機構Gartner最新預測，到2024年AI晶片市場規模將較上一年增長 25.6%，達到671億美元，預計到2027年，AI晶片市場規模預計將是2023年規模的兩倍以上，達到1194億美元。 Intel也表示，到2030年，半導體市場規模將達1萬億美元，人工智慧是主要推動力。創新技術正在以前所未有的速度發展，每家公司都在加速成為AI公司，這一切都需要半導體技術提供支持。從PC到數據中心再到邊緣，Intel正在讓AI走進千行百業。在邊緣AI市場，Intel已經發布了涵蓋Intel酷睿Ultra、Intel酷睿、Intel凌動處理器和Intel銳炫顯卡系列產品在內的全新邊緣晶片，主要面向零售、工業製造和醫療等關鍵領域。 Intel邊緣AI產品組合內的所有新品將於本季度上市，並將在今年年內獲得Intel剛剛發布的Intel Tiber邊緣解決方案平台的支持，以簡化企業軟體和服務的部署，包括生成式AI。對於去年推出的面向AI PC產品的Intel酷睿Ultra處理器，憑借強大的AI內核，為生產力、安全性和內容創作提供了全新能力，並為企業煥新其PC設備提供了巨大動力。Intel預計將於2024年出貨4000萬台AI PC，以及超過230種的設計，覆蓋輕薄PC和遊戲掌機設備。同時，Intel透露將於2024年推出的下一代Intel酷睿Ultra客戶端處理器家族（代號Lunar Lake），將具備超過100 TOPS平台算力，以及在神經網絡處理單元（NPU）上帶來超過46 TOPS的算力，從而為下一代AI PC提供強大支持。在面向雲端的數據中心市場，Intel在2022年就推出了AI加速晶片Gaudi 2，在去年年底還推出了集成了AI內核的代號為“Emerald Rapids”的面向數據中心的第五代 Xeon處理器。 Intel公司執行長帕特·基辛格表示：“創新技術正在以前所未有的速度發展，每家公司都在加速成為AI公司，這一切都需要半導體技術提供支持。從PC到數據中心再到邊緣，Intel正在讓AI走進千行百業。Intel最新的Gaudi、至強和酷睿平台將提供靈活的、可定製化的解決方案，滿足客戶和合作夥伴不斷變化的需求，把握住未來的巨大機遇。” Gaudi 3：BF16性能提升4倍，支持1800億參數大模型而在雲端AI加速晶片市場，Intel早在2019年12月就斥資20億美元收購Habana Labs（其於2019 年 7 月推出了 Gaudi 1 加速器），雖然當時英偉達在AI晶片市場的體量還很小，但是在AI晶片的技術積累上，英偉達更為深厚。因此，我們可以看到，當2022年Gaudi 2...

Intel發布Gaudi 3 AI加速器：4倍性能提升、無懼1800億參數大模型

快科技4月10日消息，美國當地時間4月9日，Intel舉辦了一場面向客戶和合作夥伴的Intel Vision 2024產業創新大會，做出多項重磅宣布，包括全新的Gaudi 3 AI加速器，包括全新的至強6品牌，以及涵蓋全新開放、可擴展系統，下一代產品和一系列戰略合作的全棧解決方案。數據顯示，預計到2030年，全球半導體市場規模將達1萬億美元，AI是主要推動力，不過在2023年，只有10％的企業能夠成功將其AIGC項目產品化。 Intel的最新解決方案，有望幫助企業應對推廣AI項目時所面臨的挑戰，加速實現AIGC落地商用。 Intel現有的Gaudi 2誕生於2022年5月，，擁有極高的深度學習性能、效率，以及極高的性價比。它採用台積電7nm工藝製造，集成24個可編程的Tenor張量核心(TPC)、48MB SRAM緩存、21個10萬兆內部互連乙太網接口(ROCEv2 RDMA)、96GB HBM2E高帶寬內存(總帶寬2.4TB/)、多媒體引擎等，支持PCIe 4.0 x16，最高功耗800W，可滿足大規模語言模型、生成式AI模型的強算力需求。新一代的Gaudi 3面向AI訓練和推理，升級為台積電5nm工藝，帶來了2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的網絡帶寬、1.5倍的內存帶寬。對比NVIDIA H100，它在流行LLM上的推理性能領先50％、訓練時間快40％。 Gaudi 3預計可大幅縮短70億和130億參數Llama2模型、1750億參數GPT-3模型的訓練時間。在Llama 70億/700億參數、Falcon 1800億參數大型語言模型上，Gaudi 3的推理吞吐量和能效也都非常出色。 Gaudi 3提供多種靈活的形態，包括OAM兼容夾層卡、通用基板、PCIe擴展卡，滿足不同應用需求。 Gaudi 3提供開放的、基於社區的軟體，以及行業標准乙太網網絡，可以靈活地從單個節點擴展到擁有數千個節點的集群、超級集群和超大集群，支持大規模的推理、微調和訓練。 Gaudi 3 AI加速器具備高性能、經濟實用、節能、可快速部署等優點，能夠充分滿足復雜性、成本效益、碎片化、數據可靠性、合規性等AI應用需求。 Gaudi 3將於2024年第二季度面向OEM廠商出貨，包括戴爾、慧與、聯想、超威等。目前，Intel...

60億參數AI模型測試：Intel 2.4倍領先唯一可替代NVIDIA

快科技9月12日消息，MLCommons官方公布針對60億參數大語言模型及計算機視覺與自然語言處理模型GPT-J的 MLPerf推理v3.1的性能基準測試結果，Intel CPU處理器、現亮眼，在AI推理方面相當有競爭力。，Intel Gaudi2 AI加速器在先進的視覺語言模型上，表現完全可以超越NVIDIA H100 股加速器，堪稱可唯一替代NVIDIA H100/A100的可行方案，最新結果再次驗證了這一點。 GPT-J模型上，Intel Gaudi2加速器的GPT-J-99、GPT-J-99.9伺服器查詢和離線樣本的推理性能分別為78.58次/秒、84.08 次/秒。對比競品，H100相較於Gaudi2隻有1.09 倍（伺服器）、1.28 倍（離線）的性能領先優勢，Gaudi2對比A100的優勢則可達2.4倍（伺服器）、2倍（離線）的性能。值得一提的是，Gaudi2提交的結果採用FP8數據類型，准確率達到99.9％。 Gaudi2軟體每6-8周就會更新一次，將繼續提升MLPerf基準測試性能，並擴大模型覆蓋范圍。同時，Intel提交了基於Sapphire Rapids第四代至強可擴展處理器的7個推理基準測試，其中就包括GPT-J模型。結果顯示，包括視覺、語言處理、語音和音頻翻譯模型，以及更大的DLRM v2深度學習推薦模型、ChatGPT-J模型在內，四代至強在處理通用AI負載時性能非常出色。截至目前，Intel仍是唯一一家使用行業標準的深度學習生態系統軟體提交公開CPU結果的廠商。根據最新結果，使用GPT-J對大約1000-1500字新聞稿進行100字總結的任務，四代至強在離線模式下每秒完成兩段，實時伺服器模式下則可完成每秒一段。此外，Intel首次提交了至強CPU Max處理器的MLPerf測試結果，其集成最多64GB HBM3高帶寬內存，對於GPT-J而言是唯一能夠達到99.9％准確度的CPU，非常適合精度要求極高的應用。來源：快科技

Tag: Intel Gaudi

封閉沒有前途 Intel打造開放AI生態 誓要虎口奪食

Intel Gaudi 3 AI加速器可以賣給中國 但揮刀砍掉一半

超越NVIDIA H100 訓練快40% 推理快50%：Intel Gaudi3憑什麼

Intel發布Gaudi 3 AI加速器：4倍性能提升、無懼1800億參數大模型

60億參數AI模型測試：Intel 2.4倍領先 唯一可替代NVIDIA

封閉沒有前途 Intel打造開放AI生態誓要虎口奪食

Intel Gaudi 3 AI加速器可以賣給中國但揮刀砍掉一半

60億參數AI模型測試：Intel 2.4倍領先唯一可替代NVIDIA