Home Tags Intel Gaudi

Tag: Intel Gaudi

封閉沒有前途 Intel打造開放AI生態 誓要虎口奪食

Intel日前舉辦了Vision 2024年度產業創新大會,亮點不少,號稱大幅超越NVIDIA H100的新一代AI加速器Gaudi 3、品牌全新升級的至強6、AI算力猛增的下一代超低功耗處理器Lunar Lake,都吸引了不少目光。 不過對於AI開發者、AI產業尤其是企業AI而言,這次大會上還有一件大事: Intel聯合眾多行業巨頭,發起了開放企業AI平台,推動企業AI創新應用,同時通過超乙太網聯盟(UEC)和一系列AI優化乙太網解決方案,推進企業AI高速互連網絡創新。 如今說到大規模AI部署,很多人腦海中會立刻浮現兩個名字: 一個是OpenAI,大模型和算法的一枝獨秀;另一個是NVIDIA,硬體算力和生態的典型代表。 但是每每說到NVIDIA,以及CUDA為代表的生態圈,其一貫以來的封閉做法頗為人所詬病,被譽為「矽仙人」的晶片開發大神 Jim Keller就一直對NVIDIA的做法極為不滿,斥責CUDA不是護城河而是沼澤,NVLink這種私有互連標准也應該摒棄。 坦白說,NVIDIA AI不僅僅在硬體性能上「遙遙領先」,更大的資本正是耗費十幾年時間和無數美元砸出來的CUDA生態,成為其「壟斷行業」、獲利無數的制勝法寶。 只不過時代在變化,無論企業還是開發者,都不希望被束縛在一個小圈子裡,更希望在開放共享的世界裡自由前行,這正好給了其他廠商追趕甚至超越NVIDIA的大好機會。 Intel就瞅准這一趨勢和需求,聯合Anyscale、Articul8、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、VMware、Yellowbrick、Zilliz等眾多行業夥伴宣布,將聯合創建企業AI開放平台,助力企業推動AI創新。 它將為企業AI提供一個從下到上的完整平台,底層基於Intel完整覆蓋雲、數據中心、邊緣、PC各個領域的AI算力硬體,也就是XPU理念。 構築其上的是標准化和可擴展的基礎設施生態、安全可靠的軟體生態、開放便捷的應用生態,而且全都是對整個行業開放的。 這一計劃凝結了全行業的力量,旨在開發開放的、多供應商的AIGC系統,通過RAG(檢索增強生成)技術,提供一流的部署便利性、性能和價值。 對於企業當前正在標准雲基礎設施上運行的大量專有數據源,RAG可以幫助他們通過開放大語言模型進行功能上的增強,從而加速AIGC在企業中的應用。 在Intel看來,堅持開源開放,並以此撬動開放的AI生態飛速發展,至關重要。 Intel副總裁、Intel中國軟體和先進技術事業部總經理李映在接受采訪時表示:「傳統模式中,幾家領導公司組建一個開放聯盟,各自有明確分工,更多的是一個選擇問題。如今基於AI大模型的變化,開放開源第一次和整個行業的技術創新爆發結合在一起。現在,開放開源和閉源同時出現,不再是選擇,而是一個自然演變、發展的過程。」 Intel院士、大數據技術全球首席技術官、大數據分析和人工智慧創新院院長戴金權也指出,一個開放的生態,可以讓同一生態的創新相互促進,在新的應用場景可以互通。 整個行業都在逐漸意識到,構建一個AIGC應用,並不是只需要一個大模型,一些最先進的系統解決方案,其實更多的是相當於構建一個AI系統來解決問題。 在這個企業AI開放平台中,Intel的一個突出重點就是加快構建開放的AI軟體生態,通過構建基礎軟體為開發者提供便利,幫助大企業簡化和深入AI的大規模開發和部署。 李映指出,在開放AI軟體生態方面,對於Intel而言,非常重要的一個點是如何通過軟體加速企業AI的發展,如何把企業原來的雲架構和未來基於大模型、數據的AI架構融合在一起。 軟體可以在這個過程中起到非常重要的加速作用,而從整個軟體堆棧的角度來講,Intel正是極少數可以真正在各個層面上通過軟體提供優化、提供技術的頭部企業之一。 同時,Intel一直在極力推動基於AI的軟體創新,最典型的就是oneAPI,下載量已經超過100萬次。 第三就是如何幫助開發者提高開發效率,其中很重要的一部分就是Intel開發者雲平台。 它不但可以讓開發者最早接觸到最新的至強、Gaudi AI加速器,還能保證各種開源框架、組件在同一環境中的兼容性,從而提升開發效率、優化用戶體驗。 另外非常值得一提的是,Intel也在積極為開源社區貢獻技術、創新和經驗,推進開放標准。 比如,PyTorch已逐漸成為標準的AI框架,Intel一直都是PyTorch非常靠前的重要貢獻者,並以高級會員的身份加入了PyTorch基金會。 除了對PyTorch本身進行優化,Intel的一些技術創新都投入到了PyTorch開源框架之中,讓更多企業和開發者共享,讓整個AI軟體框架更加開源、開放。 再比如openEuler、龍蜥這些開源的中國Linux社區,Intel對其的投入都已經和國際同步,甚至在某些領域領先於國際上其他一些Linux的分布和發展。 最後再來回顧一下Intel本次揭曉的三大算力產品。 採用台積電5nm工藝,配備8個矩陣引擎、64個張量核心、96MB SRAM緩存、1024-bit 128GB HBM2E內存(帶寬3.7TB/),還有16個PCIe 5.0通道、24個2000GbE網絡、JPEG/VP9/H.264/H.265解碼器。 功耗有600/900W兩個級別,提供OAM兼容夾層卡、通用基板、PCIe擴展卡三種形態。 Gaudi 3相比上代擁有2倍的FP8 AI算力(1835TFlops)、4倍的BF16 AI算力、2倍的網絡帶寬、1.5倍的內存帶寬。 Intel還聲稱,它對比NVIDIA H100 LLM推理性能領先50%、訓練時間快40-70%,能效領先最多達2.3倍。 另外,得益於強大、便捷的開發工具,開發者最少只需改變3行代碼,就能將其他AI應用移植到Gaudi 3之上。 ,其中Sierra Forest第二季度發布,堪稱至強處理器歷史上最大的一次變革,首次採用純能效核(E核)設計。 它重點針對效率進行優化,適合高密度、可擴展的工作負載,最多288核心288線程。 按照官方說法,相比第二代至強,Sierra Forest可以帶來2.4倍的能效提升,機架密度則可以提高2.7倍。 Granite Rapids則是傳統的純性能核(P核)設計,重點針對性能優化,適合計算密集型應用和高強度的AI負載。 它新增了對MXFP4數據格式的軟體支持,能夠運行700億參數的Llama...

Intel Gaudi 3 AI加速器可以賣給中國 但揮刀砍掉一半

快科技4月12日消息,Intel日前發布了,本來美國政府是不會允許賣給中國的,但是沒想到Intel已經同步准備好了中國特供版本! Gaudi 3採用台積電5nm工藝,配備了8個矩陣引擎、64個張量核心、96MB SRAM緩存、1024-bit 128GB HBM2E內存(帶寬3.7TB/),還有16個PCIe 5.0通道、24個2000GbE網絡、JPEG/VP9/H.264/H.265解碼器,提供OAM兼容夾層卡、通用基板、PCIe擴展卡三種形態。 Intel聲稱,它相比上代擁有2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的網絡功耗為600W帶寬、1.5倍的內存帶寬,而對比NVIDIA H100 LLM推理性能領先50%、訓練時間快40%。 Gaudi 3的首發版本編號HL-325L,OAM形態,已經出貨,功耗900W,風冷散熱。 它的中國特供版將在6月份推出,編號HL-328,功耗減半至450W,HMB內存、緩存、解碼器等完全保留,但既然功耗少了一半,算力差不多也會被腰斬。 10月份還會有個液冷版本HL-335,支持雙路並聯,但不能賣給中國,也沒有特供版。 PCIe擴展卡形態將在9月份出貨,風冷,滿血版編號HL-338,,中國特供版編號HL-388,功耗又被限制在450W。 通用基板形態的編號為HLB-325,但具體規格和出貨時間暫時不詳。 說起來,NVIDIA是最早做中國特供版AI加速器的,也就是H800、A800,後來也被禁售了,最近又拿出了H20、L20、L2、RTX 4090D,都能賣。 AMD也設計了特供版,但都被美政府以算力還是太強為由給打回, 來源:快科技

超越NVIDIA H100 訓練快40% 推理快50%:Intel Gaudi3憑什麼

4月9日晚間,Intel在美國召開了“Intel Vision 2024”大會,介紹了Intel在AI領域取得的成功,並發布了新一代的雲端AI晶片Gaudi 3及第六代至強(Xeon)可擴展處理器,進一步拓展了Intel的AI產品路線圖。 AI晶片市場的巨大機遇 在生成式AI持續爆發背景之下,市場對於AI晶片的需求正高速增長。根據市場研究機構Gartner最新預測,到2024年AI晶片市場規模將較上一年增長 25.6%,達到671億美元,預計到2027年,AI晶片市場規模預計將是2023年規模的兩倍以上,達到1194億美元。 Intel也表示,到2030年,半導體市場規模將達1萬億美元,人工智慧是主要推動力。創新技術正在以前所未有的速度發展,每家公司都在加速成為AI公司,這一切都需要半導體技術提供支持。從PC到數據中心再到邊緣,Intel正在讓AI走進千行百業。 在邊緣AI市場,Intel已經發布了涵蓋Intel酷睿Ultra、Intel酷睿、Intel凌動處理器和Intel銳炫顯卡系列產品在內的全新邊緣晶片,主要面向零售、工業製造和醫療等關鍵領域。 Intel邊緣AI產品組合內的所有新品將於本季度上市,並將在今年年內獲得Intel剛剛發布的Intel Tiber邊緣解決方案平台的支持,以簡化企業軟體和服務的部署,包括生成式AI。 對於去年推出的面向AI PC產品的Intel酷睿Ultra處理器,憑借強大的AI內核,為生產力、安全性和內容創作提供了全新能力,並為企業煥新其PC設備提供了巨大動力。Intel預計將於2024年出貨4000萬台AI PC,以及超過230種的設計,覆蓋輕薄PC和遊戲掌機設備。 同時,Intel透露將於2024年推出的下一代Intel酷睿Ultra客戶端處理器家族(代號Lunar Lake),將具備超過100 TOPS平台算力,以及在神經網絡處理單元(NPU)上帶來超過46 TOPS的算力,從而為下一代AI PC提供強大支持。 在面向雲端的數據中心市場,Intel在2022年就推出了AI加速晶片Gaudi 2,在去年年底還推出了集成了AI內核的代號為“Emerald Rapids”的面向數據中心的第五代 Xeon處理器。 Intel公司執行長帕特·基辛格表示:“創新技術正在以前所未有的速度發展,每家公司都在加速成為AI公司,這一切都需要半導體技術提供支持。從PC到數據中心再到邊緣,Intel正在讓AI走進千行百業。Intel最新的Gaudi、至強和酷睿平台將提供靈活的、可定製化的解決方案,滿足客戶和合作夥伴不斷變化的需求,把握住未來的巨大機遇。” Gaudi 3:BF16性能提升4倍,支持1800億參數大模型 而在雲端AI加速晶片市場,Intel早在2019年12月就斥資20億美元收購Habana Labs(其於2019 年 7 月推出了 Gaudi 1 加速器),雖然當時英偉達在AI晶片市場的體量還很小,但是在AI晶片的技術積累上,英偉達更為深厚。因此,我們可以看到,當2022年Gaudi 2...

Intel發布Gaudi 3 AI加速器:4倍性能提升、無懼1800億參數大模型

快科技4月10日消息,美國當地時間4月9日,Intel舉辦了一場面向客戶和合作夥伴的Intel Vision 2024產業創新大會,做出多項重磅宣布,包括全新的Gaudi 3 AI加速器,包括全新的至強6品牌,以及涵蓋全新開放、可擴展系統,下一代產品和一系列戰略合作的全棧解決方案。 數據顯示,預計到2030年,全球半導體市場規模將達1萬億美元,AI是主要推動力,不過在2023年,只有10%的企業能夠成功將其AIGC項目產品化。 Intel的最新解決方案,有望幫助企業應對推廣AI項目時所面臨的挑戰,加速實現AIGC落地商用。 Intel現有的Gaudi 2誕生於2022年5月,,擁有極高的深度學習性能、效率,以及極高的性價比。 它採用台積電7nm工藝製造,集成24個可編程的Tenor張量核心(TPC)、48MB SRAM緩存、21個10萬兆內部互連乙太網接口(ROCEv2 RDMA)、96GB HBM2E高帶寬內存(總帶寬2.4TB/)、多媒體引擎等,支持PCIe 4.0 x16,最高功耗800W,可滿足大規模語言模型、生成式AI模型的強算力需求。 新一代的Gaudi 3面向AI訓練和推理,升級為台積電5nm工藝,帶來了2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的網絡帶寬、1.5倍的內存帶寬。 對比NVIDIA H100,它在流行LLM上的推理性能領先50%、訓練時間快40%。 Gaudi 3預計可大幅縮短70億和130億參數Llama2模型、1750億參數GPT-3模型的訓練時間。 在Llama 70億/700億參數、Falcon 1800億參數大型語言模型上,Gaudi 3的推理吞吐量和能效也都非常出色。 Gaudi 3提供多種靈活的形態,包括OAM兼容夾層卡、通用基板、PCIe擴展卡,滿足不同應用需求。 Gaudi 3提供開放的、基於社區的軟體,以及行業標准乙太網網絡,可以靈活地從單個節點擴展到擁有數千個節點的集群、超級集群和超大集群,支持大規模的推理、微調和訓練。 Gaudi 3 AI加速器具備高性能、經濟實用、節能、可快速部署等優點,能夠充分滿足復雜性、成本效益、碎片化、數據可靠性、合規性等AI應用需求。 Gaudi 3將於2024年第二季度面向OEM廠商出貨,包括戴爾、慧與、聯想、超威等。 目前,Intel...

60億參數AI模型測試:Intel 2.4倍領先 唯一可替代NVIDIA

快科技9月12日消息,MLCommons官方公布針對60億參數大語言模型及計算機視覺與自然語言處理模型GPT-J的 MLPerf推理v3.1的性能基準測試結果,Intel CPU處理器、現亮眼,在AI推理方面相當有競爭力。 ,Intel Gaudi2 AI加速器在先進的視覺語言模型上,表現完全可以超越NVIDIA H100 股加速器,堪稱可唯一替代NVIDIA H100/A100的可行方案,最新結果再次驗證了這一點。 GPT-J模型上,Intel Gaudi2加速器的GPT-J-99、GPT-J-99.9伺服器查詢和離線樣本的推理性能分別為78.58次/秒、84.08 次/秒。 對比競品,H100相較於Gaudi2隻有1.09 倍(伺服器)、1.28 倍(離線)的性能領先優勢,Gaudi2對比A100的優勢則可達2.4倍(伺服器)、2倍(離線)的性能。 值得一提的是,Gaudi2提交的結果採用FP8數據類型,准確率達到99.9%。 Gaudi2軟體每6-8周就會更新一次,將繼續提升MLPerf基準測試性能,並擴大模型覆蓋范圍。 同時,Intel提交了基於Sapphire Rapids第四代至強可擴展處理器的7個推理基準測試,其中就包括GPT-J模型。 結果顯示,包括視覺、語言處理、語音和音頻翻譯模型,以及更大的DLRM v2深度學習推薦模型、ChatGPT-J模型在內,四代至強在處理通用AI負載時性能非常出色。 截至目前,Intel仍是唯一一家使用行業標準的深度學習生態系統軟體提交公開CPU結果的廠商。 根據最新結果,使用GPT-J對大約1000-1500字新聞稿進行100字總結的任務,四代至強在離線模式下每秒完成兩段,實時伺服器模式下則可完成每秒一段。 此外,Intel首次提交了至強CPU Max處理器的MLPerf測試結果,其集成最多64GB HBM3高帶寬內存,對於GPT-J而言是唯一能夠達到99.9%准確度的CPU,非常適合精度要求極高的應用。 來源:快科技