人工智慧 | 搜資訊

Intel自研AI開發工具：6周晶片設計變幾分鍾

快科技4月17日消息，Intel官方宣布，工程師內部研發了一種新的AI增強工具，可以讓系統級晶片設計師原本需要耗費6個星期才能完成的熱敏傳感器設計，縮短到區區幾分鍾。在晶片電路設計中，工程師一般會參考歷史數據，確定熱感應器在CPU處理器中的安放位置，還會根據經驗，判斷熱點容易出現的區域。這是一個復雜的流程，需要進行各種測試，包括模擬工作負載、傳感器位置優化等等，經常需要重新開始整個步驟，而且一次只能研究一兩個工作負載。 Intel客戶端計算事業部高級首席工程師、人工智慧解決方案架構師Olena Zhu博士領銜增強智能團隊開發的這款AI工具，可以幫助系統架構師將數千個變量納入未來的晶片設計中，包括精確分析激活CPU核心、I/O和其他系統功能的復雜並發工作負載，從而精準地確定熱點的位置，並放置對應的熱敏傳感器。這款工具解決了這些需要靠推測進行的工作。工程師只需輸入邊界條件，它就可以處理數千個變量，幾分鍾內就返回理想的設計建議。最新發布的酷睿Ultra Meteor Lake處理器的設計工作就使用了該工具，未來的客戶端處理器，比如將在今年晚些時候發布的Lunar Lake，以及後續產品，都會繼續用它。 Intel客戶端計算事業部高級首席工程師、人工智慧解決方案架構師Olena Zhu博士此外，Olena Zhu博士和其團隊成員首席工程師、AI解決方案架構師Ivy Zhu還開發了一個能快速識別關鍵熱工作負荷的配套工具。他們基於少數工作負載的模擬或測量結果訓練AI模型，然後使用這些模型預測Intel尚未進行模擬或測量的其他工作負載。 Intel客戶端計算事業部增強智能團隊的在AI方面的其他進展還有： ● 對於高速I/O的快速准確信號完整性分析工具，設計時長從幾個月縮短至1個小時。Intel是業界首個採用此技術的公司，已經為多代晶片的設計提供支持。 ● 基於AI的自動故障分析工具，用於高速I/O設計，2020年就已部署，設計效率已提升60％。 ● 增強型智能工具AI Assist，能夠使用AI模型自動確定不同平台的定製超頻值，將超頻所需的准備時間從幾天減少到1分鍾。14代酷睿已提供該工具。 ● 基於AI的自動化矽片版圖設計優化器，已納入Intel SoC設計流程。 ● 一種智能采樣工具，可以幫助動力和性能工程師處理智能設計實驗，測試用例數量減少40％。 ● 一種用戶交互工具構建的AI模型，可以預測架構方案的性能，並幫助解決CPU設計的平衡問題。 ● 一種自動放置微型電路板組件的新方式，將循環時間從幾天縮短至幾個小時。此外，Intel工程團隊還利用內部開發的AI算法，成功將單個處理器的測試時間減少了50％。不過Intel強調，盡管這些工具都非常有用，不會或者很少出現任何錯誤，但是增強智能在短期內並不會取代真正的工程師。 Intel增強智能團隊成員Mark Gallina、Olena Zhu、Michael Frederick在俄勒岡州希爾斯伯勒的Intel客戶端計算事業部實驗室來源：快科技

封閉沒有前途 Intel打造開放AI生態誓要虎口奪食

Intel日前舉辦了Vision 2024年度產業創新大會，亮點不少，號稱大幅超越NVIDIA H100的新一代AI加速器Gaudi 3、品牌全新升級的至強6、AI算力猛增的下一代超低功耗處理器Lunar Lake，都吸引了不少目光。不過對於AI開發者、AI產業尤其是企業AI而言，這次大會上還有一件大事： Intel聯合眾多行業巨頭，發起了開放企業AI平台，推動企業AI創新應用，同時通過超乙太網聯盟(UEC)和一系列AI優化乙太網解決方案，推進企業AI高速互連網絡創新。如今說到大規模AI部署，很多人腦海中會立刻浮現兩個名字：一個是OpenAI，大模型和算法的一枝獨秀；另一個是NVIDIA，硬體算力和生態的典型代表。但是每每說到NVIDIA，以及CUDA為代表的生態圈，其一貫以來的封閉做法頗為人所詬病，被譽為「矽仙人」的晶片開發大神 Jim Keller就一直對NVIDIA的做法極為不滿，斥責CUDA不是護城河而是沼澤，NVLink這種私有互連標准也應該摒棄。坦白說，NVIDIA AI不僅僅在硬體性能上「遙遙領先」，更大的資本正是耗費十幾年時間和無數美元砸出來的CUDA生態，成為其「壟斷行業」、獲利無數的制勝法寶。只不過時代在變化，無論企業還是開發者，都不希望被束縛在一個小圈子裡，更希望在開放共享的世界裡自由前行，這正好給了其他廠商追趕甚至超越NVIDIA的大好機會。 Intel就瞅准這一趨勢和需求，聯合Anyscale、Articul8、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、VMware、Yellowbrick、Zilliz等眾多行業夥伴宣布，將聯合創建企業AI開放平台，助力企業推動AI創新。它將為企業AI提供一個從下到上的完整平台，底層基於Intel完整覆蓋雲、數據中心、邊緣、PC各個領域的AI算力硬體，也就是XPU理念。構築其上的是標准化和可擴展的基礎設施生態、安全可靠的軟體生態、開放便捷的應用生態，而且全都是對整個行業開放的。這一計劃凝結了全行業的力量，旨在開發開放的、多供應商的AIGC系統，通過RAG(檢索增強生成)技術，提供一流的部署便利性、性能和價值。對於企業當前正在標准雲基礎設施上運行的大量專有數據源，RAG可以幫助他們通過開放大語言模型進行功能上的增強，從而加速AIGC在企業中的應用。在Intel看來，堅持開源開放，並以此撬動開放的AI生態飛速發展，至關重要。 Intel副總裁、Intel中國軟體和先進技術事業部總經理李映在接受采訪時表示：「傳統模式中，幾家領導公司組建一個開放聯盟，各自有明確分工，更多的是一個選擇問題。如今基於AI大模型的變化，開放開源第一次和整個行業的技術創新爆發結合在一起。現在，開放開源和閉源同時出現，不再是選擇，而是一個自然演變、發展的過程。」 Intel院士、大數據技術全球首席技術官、大數據分析和人工智慧創新院院長戴金權也指出，一個開放的生態，可以讓同一生態的創新相互促進，在新的應用場景可以互通。整個行業都在逐漸意識到，構建一個AIGC應用，並不是只需要一個大模型，一些最先進的系統解決方案，其實更多的是相當於構建一個AI系統來解決問題。在這個企業AI開放平台中，Intel的一個突出重點就是加快構建開放的AI軟體生態，通過構建基礎軟體為開發者提供便利，幫助大企業簡化和深入AI的大規模開發和部署。李映指出，在開放AI軟體生態方面，對於Intel而言，非常重要的一個點是如何通過軟體加速企業AI的發展，如何把企業原來的雲架構和未來基於大模型、數據的AI架構融合在一起。軟體可以在這個過程中起到非常重要的加速作用，而從整個軟體堆棧的角度來講，Intel正是極少數可以真正在各個層面上通過軟體提供優化、提供技術的頭部企業之一。同時，Intel一直在極力推動基於AI的軟體創新，最典型的就是oneAPI，下載量已經超過100萬次。第三就是如何幫助開發者提高開發效率，其中很重要的一部分就是Intel開發者雲平台。它不但可以讓開發者最早接觸到最新的至強、Gaudi AI加速器，還能保證各種開源框架、組件在同一環境中的兼容性，從而提升開發效率、優化用戶體驗。另外非常值得一提的是，Intel也在積極為開源社區貢獻技術、創新和經驗，推進開放標准。比如，PyTorch已逐漸成為標準的AI框架，Intel一直都是PyTorch非常靠前的重要貢獻者，並以高級會員的身份加入了PyTorch基金會。除了對PyTorch本身進行優化，Intel的一些技術創新都投入到了PyTorch開源框架之中，讓更多企業和開發者共享，讓整個AI軟體框架更加開源、開放。再比如openEuler、龍蜥這些開源的中國Linux社區，Intel對其的投入都已經和國際同步，甚至在某些領域領先於國際上其他一些Linux的分布和發展。最後再來回顧一下Intel本次揭曉的三大算力產品。採用台積電5nm工藝，配備8個矩陣引擎、64個張量核心、96MB SRAM緩存、1024-bit 128GB HBM2E內存(帶寬3.7TB/)，還有16個PCIe 5.0通道、24個2000GbE網絡、JPEG/VP9/H.264/H.265解碼器。功耗有600/900W兩個級別，提供OAM兼容夾層卡、通用基板、PCIe擴展卡三種形態。 Gaudi 3相比上代擁有2倍的FP8 AI算力(1835TFlops)、4倍的BF16 AI算力、2倍的網絡帶寬、1.5倍的內存帶寬。 Intel還聲稱，它對比NVIDIA H100 LLM推理性能領先50％、訓練時間快40-70％，能效領先最多達2.3倍。另外，得益於強大、便捷的開發工具，開發者最少只需改變3行代碼，就能將其他AI應用移植到Gaudi 3之上。，其中Sierra Forest第二季度發布，堪稱至強處理器歷史上最大的一次變革，首次採用純能效核(E核)設計。它重點針對效率進行優化，適合高密度、可擴展的工作負載，最多288核心288線程。按照官方說法，相比第二代至強，Sierra Forest可以帶來2.4倍的能效提升，機架密度則可以提高2.7倍。 Granite Rapids則是傳統的純性能核(P核)設計，重點針對性能優化，適合計算密集型應用和高強度的AI負載。它新增了對MXFP4數據格式的軟體支持，能夠運行700億參數的Llama...

Intel發布Gaudi 3 AI加速器：4倍性能提升、無懼1800億參數大模型

快科技4月10日消息，美國當地時間4月9日，Intel舉辦了一場面向客戶和合作夥伴的Intel Vision 2024產業創新大會，做出多項重磅宣布，包括全新的Gaudi 3 AI加速器，包括全新的至強6品牌，以及涵蓋全新開放、可擴展系統，下一代產品和一系列戰略合作的全棧解決方案。數據顯示，預計到2030年，全球半導體市場規模將達1萬億美元，AI是主要推動力，不過在2023年，只有10％的企業能夠成功將其AIGC項目產品化。 Intel的最新解決方案，有望幫助企業應對推廣AI項目時所面臨的挑戰，加速實現AIGC落地商用。 Intel現有的Gaudi 2誕生於2022年5月，，擁有極高的深度學習性能、效率，以及極高的性價比。它採用台積電7nm工藝製造，集成24個可編程的Tenor張量核心(TPC)、48MB SRAM緩存、21個10萬兆內部互連乙太網接口(ROCEv2 RDMA)、96GB HBM2E高帶寬內存(總帶寬2.4TB/)、多媒體引擎等，支持PCIe 4.0 x16，最高功耗800W，可滿足大規模語言模型、生成式AI模型的強算力需求。新一代的Gaudi 3面向AI訓練和推理，升級為台積電5nm工藝，帶來了2倍的FP8 AI算力、4倍的BF16 AI算力、2倍的網絡帶寬、1.5倍的內存帶寬。對比NVIDIA H100，它在流行LLM上的推理性能領先50％、訓練時間快40％。 Gaudi 3預計可大幅縮短70億和130億參數Llama2模型、1750億參數GPT-3模型的訓練時間。在Llama 70億/700億參數、Falcon 1800億參數大型語言模型上，Gaudi 3的推理吞吐量和能效也都非常出色。 Gaudi 3提供多種靈活的形態，包括OAM兼容夾層卡、通用基板、PCIe擴展卡，滿足不同應用需求。 Gaudi 3提供開放的、基於社區的軟體，以及行業標准乙太網網絡，可以靈活地從單個節點擴展到擁有數千個節點的集群、超級集群和超大集群，支持大規模的推理、微調和訓練。 Gaudi 3 AI加速器具備高性能、經濟實用、節能、可快速部署等優點，能夠充分滿足復雜性、成本效益、碎片化、數據可靠性、合規性等AI應用需求。 Gaudi 3將於2024年第二季度面向OEM廠商出貨，包括戴爾、慧與、聯想、超威等。目前，Intel...

AMD發布第二代Versal自適應SoC：10倍標量性能、全程AI加速

快科技4月9日消息，AMD今天宣布，旗下的Versal自適應片上系統(SoC)產品升級全新第二代，包括面向AI驅動型嵌入式系統第二代的Versal AI Edge系列、面向經典嵌入式系統的第二代Versal Prime系列。新一代產品很好地平衡了性能、功耗、面積，以及先進的功能安全與信息安全，可廣泛應用於汽車、工業、視覺、醫療、廣播、專業音視頻等市場領域。新品在單器件內集成了預處理、AI推理、後處理，可為AI嵌入式系統提供端到端的全程加速。這也是AMD董事會主席及CEO蘇姿豐此前提出的「AI無處不在」戰略的最新體現。對於AI驅動的嵌入式系統，核心當然是AI推理，也就是AI算法執行的階段，但是預處理、後處理兩個階段同樣不容忽視。一般而言，預處理階段主要是攝像頭、雷達、雷射雷達等傳感器的處理、融合，以及數據的交集和調節。這一階段需要嵌入式系統與環境進行實時交互與處理，決定著整個系統的性能，因此需要可編程邏輯來實現靈活的實時處理，包括連接任意傳感器和接口，保證低時延、確定性，以及現場部署後依然可升級，一般還要加上FPGA、SoC進行優化。 AI推理階段需要實時嵌入式系統解決感知、分析、情境感知問題，一般使用矢量處理器，也就是非自適應性SoC。後處理階段需要實現決策、控制、反饋，一般使用高性能嵌入式CPU。這三個階段都必須能夠加速，才可以真正實現全系統的實時。但是，之前沒有任何一類處理器可以同時針對三個階段進行優化加速，都需要多晶片共同組成解決方案。比如說用AMD第一代Versal AI Edge系列的可編程邏輯做預處理，然後用矢量處理或者AI引擎做推理，後處理階段再配置外部處理器。類似方案都存在功耗更高、供電更復雜、占用空間更大、外部內存需求更多、晶片間時延更長等問題，還容易存在更多安全漏洞。 AMD的第二代 Versal 系列自適應SoC以第一代為基礎升級而來。無論是面向AI驅動型嵌入式系統的AI Edge系列，還是面向經典嵌入式系統的Prime系列，同樣具備強大的全新AI引擎，每瓦TOPS算力(即能效)是第一代AI Edge系列的最多3倍。處理系統部分(PS)集成了全新的高性能Arm CPU核心，包括Cortex-A78AE應用處理器核心、Cortex-R52實時處理器核心，標量計算性能預計可比第一代提升最多10倍，全新的AMD可編程邏輯(PL)，具備領先的自適應計算能力，可實現靈活的實時預處理。此外還集成了Arm Mali-G78AE GPU圖形核心、DDR5/LPDDR5X內存控制器、PCIe 5.0控制器、100G乙太網控制器、DPS圖像信號處理器、視頻編解碼器、功能與信息安全模塊、處理器接口、視頻處理單元等等眾多單元，單顆晶片搞定一切。正因為如此，AMD第二代Versal才是真正的自適應SoC，才能在單個器件中提供端到端的全程加速。單晶片設計的高級程度，還可以大大降低系統功耗、占用空間、復雜性。功能安全性增強之後，也不再需要外部安全微控制器，或者外部存儲，不需要在多個處理器之間共享。第二代Versal AI Edge系列器件通過採用最優處理器組合，能夠為AI驅動型嵌入式系統的全部三個階段進行加速，滿足現實系統的復雜處理需求。在預處理階段，AMD FPGA可編程邏輯架構用於實時處理，可以密集、靈活地連接各種傳感器，包括各種圖像傳感器、攝像頭、雷射雷達、超聲波、定位系統、IMU慣性測量單元、內窺鏡探頭等等，並進行高吞吐量、低時延的數據處理。可編程邏輯的引入，能夠擺脫對外部存儲、CPU/GPU處理器的依賴，並針對特定任務進行定製優化，從而直接連接到推理加速卡，大大節省執行時間。可編程I/O則支持廣泛的不同傳輸速率、電壓和工作模式，相比固定I/O更加靈活。推理階段，矢量處理器陣列構成了下一代 AI引擎「AIE-ML v2」。它內置硬化控制處理器，不再需要使用可編程邏輯進行控制，因此可以將可編程邏輯資源釋放用於傳感器、硬圖像和視頻等數據的處理。新的AI引擎還原生支持更多數據類型，包括全新的FP8、FP16、MX6、MX9，並繼續支持INT8、INT16、BF16。 Dense性能方面，INT16算力最高46TOPS，FP16、BF16算力最高92TOPS，INT8、FP8、FPMX9算力最高184TOPS，MX6算力最高369TOPS。最高稀疏度算力更高，比如INT8最高可以達到368TOPS。 MX6、MX9屬於共享指數數據類型，可以節省每個元素所占用的字節數，其中MX6對比INT8的能效可提升多達60％，而且精度類似甚至更高。為了充分釋放AI引擎的算力性能，AMD同時提供了Vitis AI開發環境，提供豐富的量化器、剪枝、模型編譯器與工具、運行時、驅動、固件等全套開發資源，以及培訓、文檔、參考設計等。它還支持開源生態系統，採用行業標准框架，包括PyTorch、TensorFlow、ONNX、Triton等等，也支持第三方量化器和稀疏工具。對於各種模型、運算符、數據類型，Vitis AI環境都支持開箱即用，包括卷積神經網絡(CNN)、視覺Transformer等等。後處理階段，Arm CPU內核可為安全關鍵型應用提供復雜決策與控制所需的能力。針對復雜決策與繁重工作負載的應用處理單元(APU)，基於Arm Cortex-A78AE核心，最高頻率2.2GHz，算力高達200.3K DMIPS，是上代的最多8倍。針對控制功能的實時處理單元(RPU)，則基於Arm...

AMD發布銳龍嵌入式8000處理器：第一次有了真正的AI

快科技4月3日消息，AMD今天正式發布了銳龍嵌入式8000系列處理器，第一次為嵌入式領域帶來了NPU單元和AIGC功能。銳龍嵌入式8000其實就是移動版銳龍8040系列的翻版，依然都是Zen4 CPU架構、RNDA3 GPU架構、XDNA NPU架構的組合，4nm製造工藝。型號編號都一模一樣，分別叫做8845HS、8840U、8645HS、8640U，只是前綴多了嵌入式倆字，而且不分9/7/5系列。具體參數不再贅述，核心規格大差不差，只是部分型號的頻率略有100MHz左右的微調，比如8645HS降到了5.9GHz，8640U則提高到了5.0GHz，另外都加入了ECC內存支持。銳龍嵌入式8000也可提供最高39TOPS的算力，其中NPU部分可提供最高16TOPS。至於說NPU AI能給嵌入式應用帶來什麼變化，其實還是相當廣泛的，諸如計算視覺、機器人、工業自動化等等。舉例來說，AI可以幫助機器人完成實時路徑規劃，適應動態變化環境。在工業自動化領域，AI可以讓智能邊緣設備執行復雜分析和決策，無需依賴雲端連接，就能實時監控、預知維護、自動控制，從而大大提升運營效率、減少宕機時間。來源：快科技

五代至強MLPerf AI跑分提升1.8倍 Intel仍是唯一

快科技4月2日消息，近日，MLCommons公布了針對AI推理的MLPerf v4.0基準測試結果，其中表現優異，相比Sapphire Rapids四代至強性能大幅提升。迄今為止，Intel仍然是是唯一一家提交MLPerf CPU測試結果的廠商，從2020年開始提交基於四代至強的測試結果，如今五代至強也加入了進來。具體來說，五代至強經過硬體、軟體優化，對比四代至強在MLPerf v3.1中的表現相比，平均提升了1.42倍。其中，針對具備連續批處理（continuous batching）等軟體優化的GPT-J模型，性能提升約1.8倍。得益於MergedEmbeddingBag、Intel AMX加速器等其他優化，DLRMv2的測試性能提升約1.8倍，准確率達99.9。 Intel正在與思科、戴爾、廣達、超微、緯穎科技等OEM廠商合作，提交基於各自產品的MLPerf測試結果。來源：快科技

AI時代CPU不老 Intel五代至強五大革新：340億參數小意思

AI漫長的歷史中，ChatGPT絕對是濃墨重彩的一筆。正是它引爆了AI大模型概念，也讓以往高高在上的AI飛入了尋常百姓家，開始融入每個人的日常工作、生活，AI PC、AI手機、AI邊緣也都在大踏步前進，變革千行百業。有調研數據顯示，預計到2026年，AIGC相關投入將超過3000億美元，到2028年，80％以上的PC都會轉換成AI PC，而在邊緣應用中AI的普及率也將超過50％。 AI大模型等應用最需要的當然是高算力，GPU加速器隨之變得炙手可熱，但是AI的發展與變革同樣是多元化的，CPU通用處理器、NPU神經網絡引擎也都在各司其職，貢獻自己的力量。尤其是傳統的CPU，也在緊跟時代的腳步，全方位擁抱AI，Inte第五代至強(Emerald Rapids)就是一個典型代表。 Intel 2023年初發布的第四代至強(Sapphire Rapids)，年底就升級為第五代，速度之快前所未有，主要就是為了跟上形勢，尤其是AI的需求，很多指標都是為此而優化的。這包括更多的核心數量、更高的頻率、更豐富的AI加速器，都帶來了性能和能效的提升，對於AIGC非常有利。還有多達3倍的三級緩存，可以減少對系統內存的依賴，內存帶寬也同時進一步提升。軟體生態方面，Intel提供了全方位的開發支持與優化，尤其加大了對主流大模型、AI框架的支持，特別是PyTorch、TensorFlow等等，在AI訓練、實時推理、批量推理等方面，基於不同算法，性能提升最多可達40％，甚至可以處理340億參數的大模型。根據Intel提供的數據，五代至強SPECInt整數計算性能提升21％，AI負載性能提升最多達42％，綜合能效也提升了多達36％。具體到細分領域，圖像分割、圖像分類AI推理性能提升最多分別42％、24％，建模和模擬HPC性能提升最多42％，網絡安全應用性能提升最多69％。網絡與雲原生負載能效提升最多33％，基礎設施與存儲負載能效提升最多24％。有趣的是，Intel指出五代至強也有很高的性價比，其中一個評估標准就是同時支持的用戶數，五代至強可以在BF16、INT8精度下同時滿足8個用戶的實時訪問需求，延遲不超過100ms。五代至強的優秀，也得到了合作夥伴的驗證，比如阿里雲、百度雲都驗證了五代至強運行Llama 2 700億參數大模型的推理，其中百度雲在四節點伺服器上的結果僅為87.5毫秒。再比如京東雲，Llama 2 130億參數模型在五代至強上的性能比上代提升了多達50％。接下來，Intel至強路線圖推進的速度同樣飛快，今年內會陸續交付Granite Rapids、Sierra Forest兩套平台，均升級為全新的Intel 3製程工藝。其中，Sierra Forest首次採用E核架構，單晶片最多144核心，雙芯整合封裝能做到288核心，今年上半年就能問世。 Sierra Forest主要面向新興的雲原生設計，可提供極致的每瓦性能，符合國家對設備淘汰換新的要求，而且因為內核比較精簡，可以大大提高同等空間內的核心數量。緊隨其後的Granite Rapids，則依然是傳統P核設計，具備更高頻率、更高性能。 Granite Rapids針對主流和復雜的數據中心應用進行優化，尤其是大型程序，可以減少對虛擬機的依賴。到了2025年，Intel還會帶來再下一代的至強產品，代號Clearwater Forest，無論製程工藝還是技術特性抑或性能能效，都會再次飛躍。那麼問題就來了，Intel至強的更新換代如此頻繁，尤其是五代至強似乎生命周期很短，它究竟值不值得採納部署呢？適合哪些應用市場和場景呢？五代至強發布之初，Intel從工作負載優化性能、高能效計算、CPU AI應用場景、運營效率、可擴展安全功能和質量解決方案五個方面進行了介紹。現在，我們再換一個維度，從另外五個方面了解一下五代至強的深層次價值。一是製程工藝改進。五代、四代至強都是Intel 7工藝，都採用了Dual-poly-pitch SuperFin電晶體，但也改進了關鍵的技術指標，特別是在系統漏電流控制、動態電容方面，它們都對電晶體性能有很大影響。通過這些調整，五代至強在同等功耗下的整體頻率提升了3％，其中2.5％來自漏電流的減少，0.5％來自動態電容的下降。二是晶片布局。受到晶片集成復雜度、製造技術的限制，現在主流晶片都不再是單一大晶片，而是改為多個小晶片整合封裝。四代至強分成了對稱的四個部分，做到最多60核心，五代至強則變成了鏡像對稱的兩部分，核心數反而提升到最多64個。之所以如此改變，是因為切割的小晶片越多，彼此互相通信所需要的控制器、接口和所占用的面積也更多，還會額外增加功耗，並降低良品率。通過晶片質量控制，五代至強可以更好地控制晶片面積，並且在相對較大的面積下獲得很好的良率，鏡像對稱的布線也更靈活。這是五代至強單個晶片的布局圖，可以看到中間是33個CPU核心和二三級緩存，其中一個核心作為冗餘保留。左右兩側是DDR5內存控制器，上方是PCIe、UIPI控制器，以及DLB、DSA、IAA、QAT等各種加速器，底部則是EMIB封裝和通信模塊，用於雙晶片內部高效互連。說到連接，五代至強使用了高速內部互連Fabric MDF，包括七個SCF(可擴展一致性帶寬互連)，每一個都有500Gbps的高帶寬，讓兩顆晶片在邏輯上實現無縫連接。三是性能與能效。看一下五代至強的關鍵性能指標：－ CPU架構升級到Raptor Cove，13/14代酷睿同款。－...

AMD MI300X即將大量出貨：有望搶下7％ AI市場

雖然NVIDIA目前仍是AI晶片市場的霸主，不過年中開始，挑戰者AMD的最強AI晶片MI300X也即將大批量出貨，可能將會搶下部分NVIDIA的市場，並再次影響從晶圓代工到伺服器的AI產品供應鏈。根據日本瑞穗證券報告，在目前的AI晶片市場，NVIDIA的市占率高達95%，“遠比AMD和英特爾的份額相加還要高”。 NVIDIA在2023年第四季僅數據中心業務的營收就高達184億美元，較前一年同期增加了409%。但隨著AMD的最強AI晶片MI300X的出貨，或將搶下NVIDIA的部分市場份額。據業內人士透露，AMD MI300X晶片目前已小量出貨，微軟等正在測試。這款晶片下半年預計會有大量出貨，主要買家是微軟等有大型數據中心的公司，“5或6月開始，就會有一批拉貨潮”。據悉，微軟、Meta、甲骨文、OpenAI等大廠都會采購這款晶片，美超威、華碩、技嘉、鴻佰科技、英業達、雲達等伺服器廠也在設計解決方案。在去年的第三財季會議上，AMD CEO蘇姿豐表示，數據中心收入2024年可達20億美元，這代表MI300會是AMD史上最快營收達10億美元的產品。 AMD反擊NVIDIA的武器，是利用更高容量的高帶寬內存（HBM）和先進封裝提高AI運算效率。 AI晶片挑戰在於，要在內存和處理器間搬動大量數據，因此AMD採用台積電的先進封裝技術，將原本放在晶片外的內存直接搬進晶片，讓大量數據直接在晶片內就能從內存搬到處理器計算。在此前的發布會上，AMD CEO蘇姿豐就表示，只用一顆晶片，就能執行數據量高達40GB的AI模型，而這顆晶片最高可執行80GB 的AI模型。根據官方公布的數據顯示，MI300X的HBM容量高達192GB，比NVIDIAH100 SXM晶片的80GB高了一倍多，多項算力測試性能也高於NVIDIAH100 SXM晶片。不過，隨後NVIDIA也拿出數據來表示，輝達H100晶片性能比MI300X明顯更快，並公布測試細節，讓使用者自行比較兩顆晶片性能。雙方之間競爭的火藥味明顯上升。對於AMD來說，除了MI300X的產品優勢之外，它還有著另一大優勢，那就是客戶不希望AI晶片市場被NVIDIA獨占。據業界人士觀察，“AI晶片問題不是產能不夠，是NVIDIA賣的很貴”。微軟等大客戶不希望市場只有一家供應商很正常，但自研晶片又無法像專業的半導體公司，在性能上保持領先，自然希望有新的供應商出現，不僅性能能和NVIDIA匹敵，價格還更具優勢。根據富國銀行此前的預測，AMD雖然在2023年的AI晶片的營收僅為4.61億美元，但是2024年將有望增長到21億美元，將有望拿到4.2%的市場份額。Intel也可能拿到將近2%的市場份額。這將導致NVIDIA的市場份額可能將小幅下滑到94%。不過，根據AMD CEO蘇姿豐在1月30日的電話會議上公布的數據顯示，AMD在2023年四季度的AI晶片營收已經超越此前預測的4億美元，同時2024年AMD的AI晶片營收預計也將達到35億美元，高於先前預測的20億美元。如果AMD的預測數據准確的話，那麼其2024年在AI晶片市場的份額有望進一步提高到7%左右。然而NVIDIA也不會坐等競爭對手壯大。 3月18日，NVIDIA即將召開GTC2024大會，屆時將會正式發布全新的AI晶片H200，將會把HMB內存從上一代的80GB提升至141GB，並且採用的是速率更快的HBM3E規格。此外，NVIDIA今年還將提出更強的B100晶片，其性能將會達到H200的兩倍。AMD明年也會推出新一代的採用HBM3E內存的AI晶片MI350進行應對。供應鏈方面，隨著NVIDIA和AMD對於HBM容量及規格的需求提升，HBM的供應也將持續供不應求。目前兩大HBM供應商——SK海力士和美光的今年的HBM產能都已經銷售一空。與此同時，台積電的先進封裝產能也仍面臨供應緊張的局面，因為不僅AI晶片需要先進封裝產能，HBM晶片的製造也需要先進封裝產能。對此，台積電在2023年啟動了其CoWoS先進封裝產能大擴產計劃。近日業內傳出，台積電本月對台系設備廠再度追單，交機時間預計將在今年第四季，因此，今年年底台積電CoWoS月產能將有機會比其原定的倍增目標的3.5萬片進一步提高到4萬片以上。台積電更是和SK海力士結盟，大力布局HBM。業界人士預測，接下來AI晶片會越來越多元，從高階一路到中低階，配合從模型訓練到AI邊緣計算需求。比如，上個月美國人工智慧初創公司Groq最新推出的面向雲端大模型的推理晶片引發了業內的廣泛關注，該晶片採用了全新的Tensor Streaming Architecture (TSA) 架構，以及擁有超高帶寬的SRAM，從而使得其對於大模型的推理速度提高了10倍以上，甚至超越了NVIDIA的GPU。這也使得一些客戶對於Groq的AI晶片產生的興趣。近日，新創AI晶片公司Cerebras Systems近日推出了其第三代的晶圓級AI晶片WSE-3，具有125 FP16 PetaFLOPS的峰值性能，相比上一代的WSE-2提升了1倍，將用於訓練業內一些最大的人工智慧模型。與此同時，Cerebras還推出了基於WSE-3的CS-3超級計算機，可用於訓練參數高達24萬億的人工智慧模型，這比相比基於WSE-2和其他現代人工智慧處理器的超級計算機有了重大飛躍。另外，如果只是用來推理，X86和Arm處理器也有機會拿到一定的市場。來源：快科技

揭秘AMD EPYC處理器的獨門絕技：AI推理就問還有誰

AI生命周期包括最重要的兩個部分，一個是AI訓練，一個是AI推理。其中，AI訓練就是讓模型識別數據模式，是數據和處理最密集的部分，需要大規模的算力。在這一階段，往往優先使用大規模並行的GPU加速器或專用的AI加速器，有時候根據情況也可以使用超高性能的CPU處理器。 AI推理則是基於訓練好的模型，實時處理輸入的數據，只需較小的算力，更接近數據的實際位置，更強調持續運算與低延遲。因此，這個階段使用常規的CPU最合適，其性能、能效、兼容性、性價比完美符合AI推理需求。當然，這對CPU的綜合素質也是有著很高的需求的，足夠強大且平衡的性能、能效、成本才能帶來足夠高的效率、效益。一般來說，GPU訓練，CPU推理，再加上開發框架和軟體支持，構成了最合適的完整AI生命周期。作為行業唯一同時擁有高性能GPU、CPU、FPGA平台性解決方案的AMD，再加上ROCm開發平台的不斷成熟，在AI訓練、推理的整個生命周期里都有著得天獨厚的優勢，尤其是EPYC CPU簡直做到了無敵寂寞。如今，AMD EPYC處理器已經成為最常被選擇用於AI推理的伺服器平台，尤其是第四代Genoa EPYC 9004系列，執行AI推理的能力又得到了巨大的飛躍。比如全新的Zen 4架構，相比上代在每時鍾周期執行指令數上提升了約14％，再加上更高的頻率，性能有了極大的提升。比如先進的5nm製造工藝，它大大提高了處理器的集成度，結合新架構使得高性能、高能效成為可能。比如更多的核心與線程數量，比上代增加了足足一半，最高來到96個，並支持同步多線程，無需多路並行就能執行更多推理操作，同時處理上萬個源的數據推理需求也不在話下，從而兼具高並發、低延遲。比如靈活高效的AVX-512擴展指令集，可高效執行大量的矩陣和向量計算，顯著提高卷積和矩陣乘法的速度，尤其是BF16數據類型可提高吞吐量，避免INT8數據的量化風險，而且還是雙周期的256位流水線設計，效率和能效都更高。比如更強大的內存與I/O，包括引入DDR5內存並支持多達12個通道，以及多達128條PCIe 5.0通道，成為大規模數據傳輸的高速公路。比如極高的能效，96核心的熱設計功耗也只需360W，84核心可以控制在290W，從而顯著降低散熱方面的壓力。還有一貫出色的性價比，可以大大降低TCO(總擁有成本)。以及不要忘了，AMD EPYC基於x86架構指令集，是大家最熟悉的、最熟練的，部署、開發和應用的難度與成本都遠低於各種特殊架構。對於AI，我們平常關注更多的是AI訓練，尤其是龐大的算力需求，AI推理則是訓練之後真正落地體驗的階段，重要性同樣不言而喻，同樣需要恰到好處的軟硬體平台需求。搭載AMD EPYC的伺服器，就恰好為基於CPU處理器的AI推理工作提供了一個優秀的平台。 96核心、DDR5內存和PCIe 5.0擴展、AVX-512指令等實現了性能和能效的雙重提升，而為處理器優化的庫、原語則提供強大的保駕護航。無論任何模型還是場景，AMD EPYC都能提供充足的高性能、高能效、高性價比。來源：快科技

NVIDIA GPU弱爆了世界第一AI晶片升級4萬億電晶體、90萬核心

快科技3月14日消息，Cerebras Systems發布了他們的第三代晶圓級AI加速晶片“WSE-3”(Wafer Scale Engine 3)，規格參數更加瘋狂，而且在功耗、價格不變的前提下性能翻了一番。基於台積電16nm工藝，面積46225平方毫米，電晶體1.2萬億個，擁有40萬個AI核心、18GB SRAM緩存，支持9PB/內存帶寬、100Pb/互連帶寬，功耗高達15千瓦。升級台積電7nm工藝，面積不變還是46225平方毫米，電晶體增至2.6萬億個，核心數增至85萬個，緩存擴至40GB，內存帶寬20PB/，互連帶寬220Pb/。如今的第三代WSE-3再次升級為台積電5nm工藝，面積沒說但應該差不多，畢竟需要一塊晶圓才能造出一顆晶片，不可能再大太多了。電晶體數量繼續增加達到驚人的4萬億個，AI核心數量進一步增加到90萬個，緩存容量達到44GB，外部搭配內存容量可選1.5TB、12TB、1200TB。乍一看，核心數量、緩存容量增加的不多，但性能實現了飛躍，峰值AI算力高達125PFlops，也就是每秒12.5億億次浮點計算，堪比頂級超算。它可以訓練相當於GPT-4、Gemini十幾倍的下一代AI大模型，能在單一邏輯內存空間內存儲24萬億參數，無需分區或者重構。用它來訓練1萬億參數大模型的速度，相當於用GPU訓練10億參數。四顆並聯，它能在一天之內完成700億參數的調教，而且支持最多2048路互連，一天就可以完成Llama 700億參數的訓練。 WSE-3的具體功耗、價格沒公布，根據上代的情況看應該在200多萬美元。來源：快科技

AI最大贏家沒有之一爆炒英偉達的人已財富自由：黃仁勛沒「坑」買他顯卡的用戶

快科技3月7日消息，隨著人工智慧全球爆火，英偉達成為了AI最大的贏家。自從2022年底，ChatGPT發布掀起AI產業熱潮之後，英偉達就成為了市場的香餑餑，而押注英偉達的投資者們，也迎來了“十年難遇”的造富機會。剛剛過去的2023年中，英偉達不僅淨利潤同比大漲581%，其股價還從年初的每股100餘美元暴漲至如今的超800美元（超過1000美元指日可待），市值增長超萬億美元。特斯拉創始人馬斯克曾這樣描述英偉達的火熱：“似乎所有的人和狗都在購買（英偉達）GPU。” 全球已經有不少投資英偉達的人賺的盆滿缽滿，而一些用戶甚至喊話，黃仁勛沒有“坑”買他顯卡的用戶，這才是他們堅信的未來。 GTC是英偉達一年一度的全球開發者大會，也被視為整個AI和深度學習領域的盛會，按照慣例公司將會在會上完成重要產品或技術發布，而按照黃仁勛的說法，未來兩年公司的訂單都滿負荷。來源：快科技

RTX AI大算力、低延遲：NVIDIA告訴你RTX GPU才是真AI PC

在這個AI無處不在的浪潮之下，為了幫助普通用戶和開發者更好地理解AI、利用AI，跟上時代步伐，NVIDIA特意通過官方博客開設了一門名為“解碼AI”(AI Decode)的新專欄，每周一篇博文。 NVIDIA AI Decode博客地址：中文版地址： NVIDIA無疑是最有資格談論AI的巨頭之一，十多年前就開始潛心研究，RTX系列GPU顯卡更是AI PC的核心基石，為數百萬用戶帶來了AI加速新體驗。 NVIDIA認為，眼下已經到了AI的“iPhone時刻”，正在飛入尋常百姓家，成為廣大用戶日常生活、工作的一部分。 NVIDIA開設的“解碼AI”專欄，將會每周介紹新的AI硬體、軟體和工具，當然重點肯定會是RTX GPU和相關遊戲、創作、開發、生產力方面的分享。同時，NVIDIA還會脫離復雜難懂的專業技術詞匯，用通俗易懂的說法，為普通用戶講解AI。第一波話題包括：－網絡流媒體的縮放與HDR增強－本地化和個性化的AI聊天機器人－改善視頻會議用戶的面貌與聲音其中，NVIDIA最近發布的RTX Video HDR，可利用AI對流媒體視頻進行超采樣，將低解析度、低清晰度的SDR視頻轉換為HDR視頻，解析度最高可達4K，而且只需一鍵點擊，就能支持幾乎所有的Chrome、Edge瀏覽器播放的視頻。 Chat With RTX則是一款能在本地運行的個性化AI聊天機器人，完全免費，簡單易用，而且因為不依賴雲端，所以性能更好，無需擔心隱私泄露。在第一篇文章中，NVIDIA首先解讀了到底什麼是AI，也就是用於自主執行任務、攝入和分析海量數據，然後在這些數據中識別模式的系統。生成式AI則是新的進化階段，可快速創建新內容，並根據文本、圖像、聲音、動畫、3D模型或其他類型數據等各種輸入進行疊代，然後以相同或新的形式生成新內容。 AI PC當然就是搭載AI加速硬體的計算機，可以是CPU處理器，可以是GPU顯卡，也可以是NPU神經網絡單元，可以擺脫對雲端聯網的依賴，本地執行響應更快、延遲更低，也可以更好地保護隱私安全。其中，GPU加速提升效果無疑是最為突出的，尤其是RTX GPU內置了專用的加速器Tensor Core，可以顯著加速AI性能。衡量AI性能的基本方法就是算力，常見單位是TOPS，也就是每秒鍾可執行多少萬億次運算。如今的GeForce RTX 40系列GPU可提供200-1300 TOPS的算力，橫跨筆記本、台式機，而沒有獨立GPU顯卡的AI PC一般只能做到10-45 TOPS，完全不是一個數量級。正是得益於強大的算力，以及完善的生態，NVIDIA RTX GPU正在各種應用場景中提供AI加速。比如面向遊戲玩家的DLSS可生成像素進而提升幀率和畫質，ACE微服務可生成栩栩如生的遊戲角色，RTX Remix可將經典老遊戲升級為基於物理特性渲染的4K高清遊戲，目前已有超過500款RTX加速的光線追蹤、DLSS遊戲。比如面向創作者的Adobe...

AMD顯卡繼續學習NVIDIA：終於補上AI縮放

快科技3月5日消息，眾所周知，AMD顯卡經常跟在NVIDIA後邊學習先進技術，現在看起來，FSR超解析度縮放技術經過三代的進化之後，終於要借鑒NVIDIA的方式，也引入AI。 DLSS、FSR、XeSS是當今三大顯卡廠商各自提出的超分方案，但實現方式各有不同。 DLSS從一開始就基於專有硬體和AI算法，XeSS則是軟硬兼施，既可以走DP4a指令集，也可以走XMX硬體單元。 FSR一直都不依賴於特定硬體，甚至可以跑在競品上，初代採用空間算法，第二代開始升級更復雜、更高質量的時間算法。 AMD CTO Mark Papermaster最新接受采訪時表示，2024年對於AMD來說至關重要，因為經過多年在軟硬體AI上的投入之後，已經全產品線普及AI，包括雲端、邊緣、PC、嵌入式、遊戲。最特別的是，他提到正在遊戲設備中引入AI縮放技術，2024年會有巨大的飛躍。雖然沒有明確提及，但不難猜測，AMD將在今年晚些時候發布的RDNA4 RX 8000系列顯卡，會支持基於AI的新一代FSR縮放技術，為此應該會有新的專用硬體單元，一如DLSS。如果AMD能繼續堅持開源，更是善莫大焉，或許能讓高手們更好地魔改DLSS。只是，FSR3這一代被拉開的差距比較大，幀生成技術效果也不夠好，就看下一代怎麼樣了。來源：快科技

Groq CEO控訴NVIDIA：阻礙公平競爭

上個月，美國人工智慧初創公司Groq最新推出的面向雲端大模型的推理晶片引發了業內的廣泛關注。該晶片採用了全新的Tensor Streaming Architecture (TSA) 架構，以及擁有超高帶寬的SRAM，從而使得其對於大模型的推理速度提高了10倍以上，這也使得一些客戶對於Groq的AI晶片產生的興趣。但是，根據最新的報導顯示，Groq CEO Jonathan Ross近日在接受采訪時控訴NVIDIA阻礙公平競爭。 “我們見過的很多人都說，倘若雙方見面的消息傳到NVIDIA耳里，他們會打死不認。” “問題在於，你必須提前一年付款給輝達，但產品交期或許是一年、或許要更久。他們會說：‘哎呀，你跟別人買了，那我猜交貨時間可能要晚點了。’” Jonathan Ross說道。這似乎暗示，即便是微軟、谷歌、亞馬遜這些也在開發AI加速器的科技巨頭，也會堅稱他們不打算成為NVIDIA的競爭對手。 NVIDIA僅是上一季從谷歌、微軟及亞馬遜身上賺取的營收就超過92億美元，對這三家雲服務廠商商同期間的資本支出（約350億美元），占比超過四分之一。微軟通過聲明稱，其定製化晶片與輝達相輔相成、彼此並非替代關系，目的在提供客戶最佳的價格與性能方案選項。熟知詳情的人士也透露，谷歌同時拿出自家晶片與NVIDIA晶片方案，讓客戶依據自身預算及技術需求進行選擇。亞馬遜雖也有自研AI晶片，但仍強調公司2023年跟NVIDIA擴大了長期合作，雲端服務能提供種類最多的晶片。來源：快科技

AI推理速度提升超10倍、性價比超100倍 Groq LPU能否取代NVIDIA GPU

美國人工智慧初創公司Groq最新推出的面向雲端大模型的推理晶片引發了業內的廣泛關注。其最具特色之處在於，採用了全新的Tensor Streaming Architecture (TSA) 架構，以及擁有超高帶寬的SRAM，從而使得其對於大模型的推理速度提高了10倍以上，甚至超越了NVIDIA的GPU。推理速度比GPU快10倍，功耗僅1/10 據介紹，Groq的大模型推理晶片是全球首個LPU（Language Processing Unit）方案，是一款基於全新的TSA 架構的Tensor Streaming Processor (TSP) 晶片，旨在提高機器學習和人工智慧等計算密集型工作負載的性能。雖然Groq的LPU並沒有採用更本高昂的尖端製程工藝，而是選擇了14nm製程，但是憑借自研的TSA 架構，Groq LPU 晶片具有高度的並行處理能力，可以同時處理數百萬個數據流，並該晶片還集成了230MB容量的SRAM來替代DRAM，以保證內存帶寬，其片上內存帶寬高達80TB/。根據官方的數據顯示，Groq的LPU晶片的性能表現相當出色，可以提供高達1000 TOPS (Tera Operations Per Second) 的計算能力，並且在某些機器學習模型上的性能表現可以比常規的 GPU 和 TPU...

NVIDIA AI GPU交貨時間11個月變3個月：好事也是壞事

快科技2月17日消息，瑞銀分析師分享給投資者的備忘錄顯示，NVIDIA AI GPU的交貨速度已經大大加快，去年年底還需要等待8-11個月，如今只需3-4個月。瑞銀指出，這種情況是一把雙刃劍。一方面，這表明NVIDIA與台積電大大提高了產能，尤其是解決了CoWoS封裝的瓶頸問題，可以在短期內快速帶來更多收入。另一方面，在清理積壓訂單的同時，NVIDIA需要尋找更多新的訂單，否則會導致收入受損。還有一點，由於美國政府的出口管制，NVIDIA AI GPU無法大規模供應中國市場，也給其他訂單釋放了產能空間。瑞銀還認為，交貨周期的縮短，也暗示NVIDIA AI GPU的短期增長已經接近峰值，後續增長可能會出現乏力。即便如此，瑞銀還是將NVIDIA股價預期上調到了850美元——目前為725美元左右。來源：快科技

比華為便宜 NVIDIA三款中國特供AI GPU來了：精準縮水美國放行

快科技2月2日消息，美國對中國半導體技術的封鎖越來越嚴格，但是在商言商，NVIDIA始終沒有放棄中國市場，一直想盡辦法打造符合美國出口管制的中國特供版本，尤其是AI GPU，第二波三款正在到來。最早針對美國禁售A100、H100，NVIDIA設計了特供版A800、H800，只是閹割傳輸帶寬，算力絲毫不減。但是很快，美國出台新規，算力也做了限制，A800、H800甚至是RTX 4090就都沒法賣了。為此，NVIDIA在遊戲卡市場設計了RTX 4090D，已經低調上市。而在AI加速領域，NVIDIA設計了H20、L20、L2，原計劃2023年就發布出貨，但為了完全符合出口管制，推遲了一段時間。 H20基於Hopper架構，是一款高性能的AI訓練卡，正是中國客戶亟需的，根據最新報導它已經開始小批量供貨給中國，第二季度上量。 H20的定價據稱僅為1.2-1.5萬美元，比華為昇騰910B 1.7萬美元要低不少，用心昭然若揭。 L20、L2均基於Ada Lovelace架構，均為AI推理卡，暫不清楚是否已經供貨，可能要稍等等，對於中國客戶而言也不是非常迫切的需要。目前，三款新卡的最終規格已經確定，和之前曝光的基本一致。 H20的規格還是比較強的，INT8/FP8 Tensor算力為296T，BF16/FP16 Tensor算力為148T，TF32 Tensor算力為74T，FP32算力為44T，FP64算力為1T，功耗400W。它具備60MB二級緩存、96GB HBM3內存，帶寬4TB/，支持7路NVDEC、7路NVJPEG視頻引擎，還有著PCIe 5.0 x16系統接口、900GB/ NVLink互聯帶寬，支持最多7個MIG。相比於H200，它少了45GB HBM3，算力更是閹割得七零八落，INT8/FP8、BF16/FP16、TF32都少了多達93％，FP64少了足足97％，只有FP32隻少了35％。但即便如此，H20 FP32性能依然不如華為昇騰910B，這也是後者最大的優勢。 H20還可以八卡並行，組成一套HGX伺服器，價格大約20萬美元，而之前八塊H800伺服器需要大約28萬美元。 L20是雙插槽全高全長PCIe擴展卡，搭載96MB二級緩存、48GB GDDR6 ECC內存，帶寬864GB/，INT8/FP8算力為239T，更高精度逐級減半，但不支持FP64，功耗275W。 L2則是單插槽半高卡，只有36MB二級緩存、24GB GDDR6 ECC，帶寬300GB/，算力進一步降低INT8/FP8 193T，FP32額外砍了一半隻有24.1T。來源：快科技

銳龍7 8700G記憶體超上DDR5-9000 AI性能飆升

快科技2月2日消息，AMD剛剛發布的銳龍8000G APU最高支持DDR5-5200內存頻率，但這只是官方規范，完全可以繼續超。而且我們知道，內存頻率、帶寬約高，APU GPU/AI性能就會受益越大。韓國超頻玩家safedisk使用一顆銳龍7 8700G，搭配芝奇DDR5-7800 CL36 16GB雙條套裝，一舉超到了DDR5-9000，時序為36-51-49-55，電壓1.65V。當然，這個頻率不是隨隨便便就能達成的，既要看處理器的體質，也要看內存和主板。可惜它沒有實際跑分，尤其是GPU性能到底可以提升多少，只是測試了AIDA64：讀取、寫入、拷貝帶寬分別達79GB/、126GB/、105GB/，而延遲僅為52.2ns。除了GPU性能，高頻內存也可以加速AI，而銳龍8000G首次在桌面處理器中集成了獨立AI引擎。硬體愛好者chi11eddog公布的數據顯示，銳龍8000G搭配高頻DDR5-7600 CL38，相比於DDR5-4800 CL40，Procyon AI推理性能可以提升多達15％。與此同時，GIMP with Stable Diffusion的出圖速度也可以加快4％。來源：快科技

NVIDIA找上Intel代工：每月可產30萬顆AI晶片

快科技2月1日消息，NVIDIA AI GPU晶片持續火爆，占領全球絕大部分市場，但是台積電的晶片和封裝產能卻遭遇瓶頸，NVIDIA於是又找上了Intel，後者的IFS代工業務也迎來了大客戶。據報導，NVIDIA、Intel之間的代工合作將從2月份開始，規模達每月5000塊晶圓。如果全部切割成H100晶片，在理想情況下最多能得到30萬顆，可以大大緩解NVIDIA供應緊張的局面。作為對比，台積電在2023年年中已經可以每月生產最多8000塊CoWoS晶圓，當時計劃在年底提高到每月1.1萬塊，2024年底繼續提高到每月2萬塊。 NVIDIA旗下的幾乎所有AI晶片，包括A100、A800、A30、H100、H800、GH200，全都依賴台積電CoWoS-S封裝技術，基於65nm的矽中介層。與之最接近的就是Intel Foveros 3D封裝，基於22FFL工藝的中介層。有趣的是，就在日前，Intel宣布已經在美國新墨西哥州Fab 9工廠實現了業界領先的半導體封裝解決方案的大規模生產，其中就包括Foveros封裝。 Intel沒有透露具體的產品，看起來很可能就是NVIDIA GPU。來源：快科技

對中國企業不放鬆美國對雲出口也管制：外國大模型用美國雲訓練須上報

快科技1月30日消息，據媒體報導稱，美國試圖在AI人工智慧上對中國企業更大的打擊，除了硬體外，軟體服務上也在收緊限制。繼晶片出口管制後，美國商務部著手管制雲的出口。美國商務部下屬的工業和安全局（BIS）要求，如果外國用戶使用美國IaaS（基礎設施即服務）來訓練AI大模型，且大模型的參數達到一定水平，那麼美國IaaS公司就需要向美國商務部上報外國用戶的信息，該規定對IaaS經銷商也使用。在這之前，美國就表示，“我們不能讓非國家行為者、中國或是我們不想讓他們訪問我們的雲服務的人，來訓練他們的模型。” 美國商務部工業與安全部副部長艾倫·埃斯特維茲之前就曾表示，美國正在評估實施限制，以阻止中國獲取美國雲計算服務。如果做出這一決定，它將成為監管技術資源的更廣泛舉措的一部分，從而抑制中國人工智慧應用的進步。根據市場研究機構Gartner最新公布的數據顯示，2022年全球計算基礎設施服務（IaaS，基礎設施即服務）市場達到了1，203億美元，相比2021年的 928 億美元增長了 29.7%。從相關廠商的市場份額來看，AWS和微軟Azure這兩家美國雲服務廠商的市場份額分別高達40% 和 21.5%，即AWS在2022年收入超過481億美元，微軟Azure收入達258.6億美元。中國阿里雲雖然排第三，但收入只有92.8億美元，大幅落後於微軟Azure。排名第四的是谷歌雲，2022年收入為90.7億美，市場份額為7.5%。華為雲排名第五，2022年收入為52.5億美元，市場份額為4.4%。來源：快科技

谷歌瀏覽器將基於AI功能進行升級，並於2月推出寫作助手

根據wccftech消息，近日谷歌副總裁帕里薩-塔布里茲（Parisa Tabriz）撰寫了一篇博文，披露了Chrome瀏覽器將基於人工智慧功能進行升級。根據Chrome瀏覽器負責人的說法，新版本還將加入管理瀏覽器標簽和瀏覽器主題、壁紙等新功能，但是這些新功能目前還處於 "實驗階段"，所以目前暫未開放給所有用戶使用。此外，谷歌還將為Chrome瀏覽器加入一個寫作助手。但與上述常規升級不一樣的是，其預計發布時間定在2月。根據谷歌的說法，用戶僅需在相關頁面利用滑鼠右鍵單擊即可使用寫作助手，並且用戶僅需要輸入幾個關鍵詞即可生成文案。至於為什麼要加入這項新功能，谷歌表示寫作是除了考試和做作業之外，最多用戶委託ChatGPT等人工智慧軟體完成的任務。而且目前人工智慧軟體的寫作功能已發展成熟，谷歌希望通過瀏覽器便捷地向用戶提供AI寫作功能。其實早前微軟的Edge瀏覽器也做過類似升級，微軟與OpenAI合作後Edge瀏覽器便增加了人工智慧功能。甚至在ChatGPT普及不久後，微軟也升級了必應搜尋引擎，使其成為"人工智慧驅動"的搜尋引擎。此外，谷歌和微軟等大型科技公司不僅可以利用雄厚的財力為其產品開發新功能，還可以利用其龐大的用戶群體來測試新功能。所以目前美國的Chrome瀏覽器用戶將可以通過瀏覽器的"設置"菜單選擇使用新功能，而其他地區暫未知Chrome瀏覽器新版本上線的具體時間。 ...

為解決年輕人少子化問題日本推出AI戀愛模擬軟體

每日簡訊： 1.電視劇版《仙劍奇俠傳4》將於今晚開播，演員名單排序引發合同撕扯。 2.《航海王》動畫1090話弗蘭奇配音出現異常，聲優矢尾一樹的健康令觀眾深感擔心。 3.SE「仿斯普拉遁」遊戲《FOAMSTARS》宣布將於2024年2月6日發售。 4.外網使用AI打造真實版《葬送的芙莉蓮》以及《千與千尋》。奇葩新聞：為解決年輕人少子化問題日本推出AI戀愛模擬軟體人口老齡化和少子化已成為許多國家的嚴重問題，那麼時下流行的AI技術能否協助解決這一問題呢？最近，日本提供戀愛配對應用的Tapple公司就推出了一款與AI角色戀愛的iOS應用——「戀愛AI（戀するAI）」。這款AI中的角色名字叫「愛」，設定為22歲的女性，聲優由逢田梨香子擔任。通過活用AI生成的服務，「愛」可以在與用戶對話交換信息進行學習。隨著親密度的提高，信息的內容也會發生變化。據說根據雙方對話的不同，「愛」會變成「純真」、「傲嬌」、「公主型」、「怕寂寞」等各種各樣的性格。雖說按照官方的思路，開發這款軟體是想讓年輕人通過虛擬體驗與女性建立親密的關系，從而對年輕人少子化的問題提供幫助。不過很多網民都對此提出質疑，認為與AI美少女談戀愛並不能協助現實中的男女交往。另外還有網民提出，如果AI足以讓人滿意，反而會導致生育率下降吧？考慮到日本過去曾出現和初音、虛擬女友等各種各樣的對象結婚的案例，未來出現和AI女友結婚的人也不無可能。不過僅從AI學習模擬人類復雜情感的方面來看，這款應用的出現或許也預示著人工智慧技術的巨大潛力。本日更新動畫：《弱角友崎同學》第二季、《歡迎來到實力至上主義教室》第三季、《憧憬成為魔法少女》《異修羅》《戰國妖狐》《外科醫生愛麗絲》歡迎關注DMZJ的QQ頻道獲取10月動畫及更多資源：點擊此處加入QQ頻道【DMZJ宅基地】（如果站內無法打開請切換外部瀏覽器打開連結）以上就是本期雜談的全部內容。歡迎在評論區進行留言，參與互動分享觀點~ 動漫之家社區有獎話題連結來源：動漫之家

NVIDIA AI技術集體秀：遊戲NPC真正活過來了

乍一看，NVIDIA在本屆CES 2024大展期間似乎只是紙面發布了RTX 40 SUPER系列桌面顯卡，並沒有太多動作，但其實不然。特別是在最擅長、最讓人信服的AI領域，NVIDIA拿出了多項技術創新，涉及到遊戲、圖像、視頻、直播等多個應用場景，再次彰顯了自己的領導地位。快科技有幸參觀了NVIDIA展示的一系列DEMO，接下來和大家分享。【ACE技術與遊戲AI NPC】 ACE也就是Avatar Cloud Engine(虛擬形象雲引擎)，可以利用最先進的生成式AI模型，在到遊戲、應用中生成可以自然交互的虛擬數字人物。同時有Audio2Face(A2F)等AI模型可以生成豐富、自然的面部表情，Riva自動語音識別(ASR)可以用於多語言語音翻譯。有了這一系列新技術，遊戲NPC不再是以往的固定套路，而是能夠和玩家自然交互，玩家可以問他任意問題，比如最近情況怎麼樣呀，給我下碗面呀，之類的。對於不同玩家的哪怕同一問題，AI NPC也會給出不同的反應，結果就是每一場對話、每一次互動，都是獨一無二的。 AI NPC還具備場景物體感知能力，你可以問他某個物品的作用，它們還可以撿起物品並送到指定區域。此外，AI NPC還能帶領玩家穿越遊戲世界，到達目標位置。現已採用ACE技術的開發商有Convai、Charisma.AI，、Inworld、米哈游、網易遊戲、掌趣科技、騰訊遊戲、育碧、UneeQ。【Chat With RT】這個DEMO可以將用戶的文檔、筆記、視頻或其他數據等資料與大語言模型連接，更加個性化。利用檢索增強生成(RAG)、TensorRT-LLM、RTX加速，用戶可以與自定義聊天機器人對話，更快、更精準地獲得所需答案。另外，它是在本地運行的，因為更加安全，不會泄露隱私。【AI生圖與編輯】 Stable Diffusion誕生以來，AI生圖大家都不陌生了，也開始出現各種各樣的商業服務，iStock就是一個典型。 iStock基於NVIDIA硬體加速，可以根據輸入關鍵字，在線快速生成你想要的圖片或插畫。更貼心的是，你可以選擇1:1、3:4、4:3、9:16、16:9等不同長寬比，免於二次裁切，還可以選擇不同的色調或模式，比如溫暖、冷庫、艷麗、自然、黑白等等。所有生成的圖片，都可以自由使用，不會存在侵權。當然，高級服務是需要付費的。生圖只是初級階段，畢竟AI製作的圖片不一定完全符合我們的需求，這就需要進一步的編輯功能。 AI Picasso就是一個兼具生圖、修圖的繪圖軟體，可以結合已有照片生成所需圖片，可以自由編輯更換圖片的局部(比如給人物換一件衣服)，可以進行AI擴圖等等。還可以和DaVinci Resolve Studio 這樣的高級專業軟體結合起來，進行更多維度的編輯與創作。【RTX Video HDR視頻增強】視頻增強技術大家也不陌生了，如今在AI的輔助下玩法更多，效果也更好。 NVIDIA之前就推出過RTX VSR視頻增強技術，而最新的RTX Video HDR可以將瀏覽器中播放的任何SDR視頻轉換為HDR視頻，也就是通過AI擴大動態范圍，使得動態光影效果更自然，更符合實際視覺效果。直白地說，就是可以讓該亮的地方足夠亮，該暗的地方則足夠暗，整體場景更有對比度。增強前增強後增強前增強後【RTX AI PC和工作站】 AI...

英偉達RTX 40 Super顯卡亮相CES 宣稱AI PC競賽中處於領先地位

財聯社1月9日訊（編輯牛占林）當地時間周一，英偉達在國際消費電子展(CES)的演講中宣布推出三款面向消費者的全新顯卡，這將讓遊戲玩家、設計師和其他電腦用戶在個人電腦(PC)上更好地利用人工智慧(AI)。美股盤中，英偉達股價大漲約4.5%，再度刷新歷史新高。另有報導稱，英偉達計劃二季度開始量產為中國設計的人工智慧晶片。英偉達聲稱，它的顯卡是驅動新型筆記本電腦和桌上型電腦的最佳引擎，RTX 40 Super系列顯卡是現有產品的更新版本，將以“很棒的新價格”面世。 NVIDIA GeForce高級副總裁Jeff Fisher表示，新的消費級顯卡將主要用於遊戲，但也可用於人工智慧應用程式。英偉達的競爭對手英特爾和AMD已就其口中的行業新時代產品AI PC展開宣傳。這兩家公司表示AI軟體在PC上運行比在網際網路上運行更加安全，且反應更為靈敏。三款新的顯卡包括GeForce RTX 4080 SUPER，將擁有更多的處理內核和更快的內存。這款產品計劃於1月31日上市，售價999美元。 RTX 4080 SUPER運行Stable Diffusion XL圖像生成軟體的速度比上一代英偉達技術同類機型快1.7倍。還將支持光線追蹤，通過計算單條光線的路徑來構建圖像，解析度為4K。該公司還發布了售價為799美元的RTX 4070 Ti SUPER和售價為599美元的4070 SUPER，這兩款晶片將於本月晚些時候上市。 AI PC 英偉達副總裁Justin Walker表示，若與該公司同時發布的新軟體和優化AI模型相結合，這些產品相較於使用英特爾晶片的機器將呈現“數量級”的改進。 Walker補充道，隨著RTX GPU的出貨量超過上億塊，它們為強大的人工智慧應用程式提供了龐大的安裝基礎。另外，他還提到，新的顯卡符合出口管制要求，可以提供給中國消費者，這也為無法獲得英偉達最強大的晶片的研究人員提供了另一種選擇。在經歷了疫情期間的銷售高峰後，個人電腦出貨量急劇下降，製造商和零部件供應商的庫存負擔沉重，增長乏力。但“AI PC時代”的到來，將會推動個人電腦用戶和企業買家升級他們的設備，料將會掀起換機潮。英偉達預計，明年將出現新的人工智慧應用程式，將會充分發揮其產品的性能。微軟預計將在今年晚些時候發布Windows 12，可以進一步利用人工智慧晶片。智能駕駛隨著人們對生成式人工智慧的興趣激增，汽車行業正競相在一系列關鍵活動中利用人工智慧的力量，從汽車設計、工程和製造，到營銷和銷售。當天，英偉達表示，理想汽車已選擇NVIDIA DRIVE...

AMD銳龍8040性能首秀：如此領先酷睿Ultra 難以置信

快科技拉斯維加斯1月8日現場報導：，就是現有銳龍7040系列的升級版，相關筆記本已經開始出貨。現在，AMD首次公開了銳龍8040系列的性能，雖然都是官方數據，但對比對象是最新的酷睿Ultra，包括AI性能、遊戲性能、辦公性能、能效幾個方面，值得一看。銳龍8040系列開發代號Hawk Point，仍然基於Zen4 CPU架構、RDNA3 GPU架構、XDNA NPU架構，通過進一步挖掘潛力，尤其是提升各部分的頻率和效率，帶來更上一層的AI性能。其中，NPU AI性能算力從10TOPS提升到16TOPS，幅度達到了驚人的60％，也使得整體算力從33TOPS增加到39TOPS。 AI性能方面，銳龍8040、酷睿Ultra都內建了獨立的NPU AI引擎，但是AMD號稱遙遙領先，銳龍7 8840U對比酷睿Ultra 7 155H的優勢相當明顯，部分項目甚至在80％左右。當然，AI性能表現除了看硬體規格，更嚴重依賴於優化適配，包括模型、開發框架等，而除了性能數字表現，對於用戶來說最關鍵的還是軟體功能、場景的適配支持。核顯遊戲性能方面，酷睿Ultra升級到了全新的Arc架構，性能最多可以翻倍，但仍然不如RDNA3架構的Radeon 780M，後者的功耗釋放也更從容。辦公與創作性能方面，銳龍7 8840U也號稱全面領先。最後是能效，AMD的優勢居然多達80％。總的來看，AMD給出的數據非常漂亮，讓雙方看起來根本不在一個級別，當然實際表現還要看不同廠家筆記本的設計，坐等評測吧。來源：快科技

希捷發布全球第二款24TB大硬碟：壽命領先10倍

快科技12月27日消息，，希捷近日發布了全球第二款24TB超大容量的機械硬碟，這次隸屬於SKyHawk AI酷鷹人工智慧系列，主要面向邊緣和安防領域的視頻圖像應用(VIA)。希捷酷鷹AI 24TB硬碟採用CMR傳統磁記錄技術，充氦設計，緩存512MB，最大數據傳輸率285MB/，平均讀寫功耗7.8W，空閒功耗6.3W，待機功耗1.1W。該硬碟可智能適應用戶的AI環境擴展，支持多達64路高清視頻流、32路AI流，每秒可捕獲最多120個AI實時事件、對比96個AI實時事件，支持10000小時的視頻和分析。同時採用ImagePerfect AI固件，支持AI全天候安防，而且零丟幀。作為企業級解決方案，該硬碟具有極高的可靠性，平均故障間隔時間250萬小時，最大寫入負載550TB每年，是普通VIA硬碟的3倍、台式機硬碟的10倍，並提供長達5年有限質保、3年數據恢復服務。希捷還提供兼容NVR網絡錄像機系統的酷鷹健康管理（SkyHawk Health Management）功能，主動監測環境和使用條件，並在必要時提供預防措施建議。希捷酷鷹AI硬碟還有20TB、16TB、12TB等不同容量版本。來源：快科技

美國：NVIDIA AI晶片可以賣給中國只有一條件

為了滿足美國政府的出口管制條件，盡可能向中國銷售高端AI晶片，NVIDIA可以說操碎了心，不斷研究各種特供版。但美國政府對此窮追不舍，美國商務部長雷蒙多就直接威脅NVIDIA，這種試圖繞過限制的做法是危險的，他們可以隨時調整管制條件。在最近的一次談話中，雷蒙多又指出，美國商務部正在與NVIDIA和其他美國晶片公司共同研究更精確的管制條件，允許他們繼續向中國客戶銷售產品，唯一的條件就是不能賣最先進的產品。雷蒙多稱：“NVIDIA可以，將會，也應該向中國銷售AI晶片，因為大多數AI晶片都是商業用途，但我們不允許銷售最先進、最高性能的AI晶片，不能讓中國用它們訓練前沿大模型。” 乍一看，雷蒙多的態度似乎軟化了，但其實本質上並沒有變，仍然不允許中國接觸最先進的AI晶片，只能用一些中低端產品而已。 NVIDIA CEO黃仁勛此前也曾向雷蒙多保證，會嚴格遵守出口管制。此外，雷蒙多在談話中對中國批准博通690億美元收購VMware的做法表示了贊賞。來源：快科技

NVIDIA被傳遭微軟兩次砍單 AMD最強AI加速卡虎口奪食

據業內傳聞，繼第三季度被微軟砍掉20％的訂單之後，NVIDIA GPU AI加速卡被曝再次遭到某大型雲服務商的砍單，據說還是微軟，NVIDIA也不得不下調了2024年下半年在台積電的訂單量。對於砍單原因，供應鏈的普遍看法是AMD新發布的Instinct MI300系列非常有競爭力，客戶也不希望將雞蛋都放在NVIDIA這一個籃子裡。包括GPU加速器MI300X、CPU+GPU融合加速器MI300A，後者是獨家技術，性能都非常突出，部分指標已經遠遠超過NVIDIA競品，而且按照慣例價格更低。 AMD的發布會上，除了Google、亞馬遜兩大巨頭之外，微軟、甲骨文、Meta(Facebook)、戴爾、惠普、聯想、超威等都紛紛站台支持，相關產品也第一時間出爐。 AMD MI300X已經出貨，MI300A也投入量產，預計能滿足行業對於AI大模型訓練推理的需求。 NVIDIA目前在AI加速市場上握有90％的份額，但產品價格與成本越來越高，讓很多大企業也吃不消，都在尋求替代解決方案，AMD MI300系列無疑是目前的最佳選擇，除了ROCm開發生態相比CUDA還差太多，遷移是個麻煩。 AMD現在預計，2023年數據中心AI加速器市場規模可達450億美元，年復合增長率超過70％，2027年可超4000億美元，比此前預計的300億美元、50％、1500億美元大大增加。在這個市場上，AMD即便只拿下10％的份額，也是每年幾百億美元的收入。不過也有觀點認為，微軟連續砍單是在等待NVIDIA明年將要推出的下一代晶片B100，會升級3nm工藝、Blackwell架構，性能可達目前H200的兩倍以上。來源：快科技

AI時代 CPU依然是中流砥柱 AMD EPYC樹立新標杆

生成式AI的新時代下，無論AI訓練還是AI推理，都對硬體算力提出了空前苛刻的極高需求，GPU加速器、FPGA/ASIC加速器等各種專用硬體變得異常火爆，在消費級端無論PC還是智慧型手機都紛紛加入了專用的NPU硬體引擎。這種情況下，CPU通用處理器似乎變得不重要了，在很多人看來只是個配合的角色，甚至又有人提出了GPU將會徹底取代CPU的觀點。真的如此嗎？顯然非也。廠商們對此有著清醒的認知。在近日的Advancing AI大會上，發布全新加速器Instinct MI300系列的同時，AMD CEO蘇姿豐博士就明確闡述了AMD的AI戰略。其中一條就是，AMD始終致力於提供通用的、高性能的、節能的GPU、CPU和用於AI訓練和推理的計算方案。這個CPU，就是強悍的EPYC，可見它的地位和GPU加速器、AI方案是同等的。誠然，在執行特定任務的時候，CPU是遠遠不如專用硬體的，無論圖形渲染還是高性能計算，甚至一些日常的音頻、影像處理負載。但是，CPU之所以叫做“中央處理器”，就在於其“中央”的地位，它始終是計算的中樞所在，更像是一個為所有事情都操碎了心的家長或者指揮官，而且不斷跟隨時代的變化而不斷演進，有著無可比擬的靈活性、適應性。事實上，即便是在當下的AI浪潮中，CPU依然有著不可取代的地位，大語言模型經過優化之後在CPU上也可以有著極高的執行效率，再配合特定加速器，協同加速，效率更上一層。就算AI性能強如NVIDIA，也從未放棄對CPU處理器的追求，最新的所謂Grace＋Hopper超級晶片，就是CPU＋GPU的綜合體。如果GPU真的可以完全取代CPU，為何還要如此折騰呢？在當今的x86通用處理器中，最強悍的莫過於AMD EPYC。 2017年誕生重返高性能計算市場以來，EPYC系列憑借優秀的Zen家族架構，性能、能效都越來越強，能力越來越豐富：高性能計算、邊緣計算、人工智慧、雲服務、5G與通信基礎設施、虛擬化……幾乎無所不能。最新的第四代EPYC，更是有著全新的5nm製造工藝、全新的Zen 4架構、Chiplet芯粒布局與最多96核心192線程、最多384MB海量三級緩存、最高4.4GHz加速頻率、最高12通道DDR5-4800內存(單路最大容量6TB)、最高128條PCIe 5.0總線、CXL 1.1+高速互連標准、全新升級的加密計算……幾乎在每個方面都沒有對手。在全球最強的500台超級計算機中，AMD EPYC處理器與Instinct加速器的搭檔也已經成為新的潮流，TOP25中已拿到5個席位。按照能效排名的Green500榜單中更是在TOP10里占據了8個位置，能效之高前所未有。 AMD最新發布的GPU加速器Instinct MI300X搭檔第四代EPYC 9004系列處理器，相信會成為超算領域的下一波焦點，得到了越來越多客戶的採納。融合了Zen4 CPU架構、CDNA3 GPU架構的Instinct MI300A，更是全球首款面向AI、HPC的加速器，最典型案例當屬美國正在打造的El Capitan，有望成為全球第一代達到200億億次計算的超算，傲立世界之巔。完全可以說，在這個AI前所未有繁榮的時代，CPU通用處理器的地位不但沒有下降，反而煥發了新的活力，展現了更多可能，AMD EPYC家族更是樹立了新的標杆。來源：快科技

AMD MI300加速器深度揭秘：八路並行破億億次全面超越NVIDIA

今年6月份，AMD在美國舊金山宣布了，包括全球首款APU加速器MI300A、新一代GPU加速器MI300X。當時，AMD只公布了一部分技術細節，對於CPU/GPU核心數量、性能/功耗/能效等指標均未提及，也缺乏足夠多的應用案例。現在，魔術師終於揭曉了他全部的秘密。快科技現場報導： 12月7日凌晨，美國加州聖何塞，AMD Advancing AI大會上，AMD正式公布了Instinct MI300系列加速器的詳細規格與性能，以及眾多的應用部署案例，將AI人工智慧、HPC高性能計算提升到了新的層次。 AI人工智慧概念的誕生已經有將近70年歷史了，歷經長期演化，已經深入人們工作生活的各個角落，只是很多時候感知性並沒有那麼強，更多時候人們是通過一些節點性時間感受AI的威力。早期像是IBM深藍超級計算機戰勝西洋棋大師卡斯帕羅夫，近期像是AlphaGo與李世石和柯潔的圍棋大戰，最近最火爆的當然是ChatGPT引發的大語言模型、生成式AI浪潮。坦白說，大語言模型眼下似乎有些過熱，但從技術和前景的角度而言，AI絕對是未來，不管它以什麼形勢體現，這都是大勢所趨，也是一個龐大的市場，尤其是對算力的需求空前高漲。一年前，AMD內部估計全球數據中心AI加速器市場在2023年的規模可達約300億美元，今後每年的復合增長率都能超過50％，到2027年將形成超過1500億美元的價值，不可限量。如今看來，這個數據太保守了，AMD已經將2023年、2027年的數據中心AI加速器市場規模預期分別調高到400億美元、4500億美元，年復合增長率超過70％。 AMD作為擁有最全解決方案的廠商，可以從各個角度滿足AI尤其是生成式AI對於超強算力、廣泛應用的需求： GPU方面有世界領先的EPYC處理器，GPU方面有不斷壯大的Instinct加速器，網絡方面則有Alveo、Pensando等技術，軟體方面還有ROCm開發平台，從而形成一個有機的、完整的解決方案。 AMD早期的計算加速器底層技術都來自和遊戲顯卡相同的RDNA架構，顯然缺乏針對性，於是誕生了專門針對計算的CDNA架構。第一代產品Instinct MI100系列是AMD首個可為FP32/FP64 HPC負載提供加速的專用GPU，第二代產品Instinct MI200系列則快速進化，在眾多超算系統中占據了一些之地。第三代的Instinct MI300系列基於CDNA3架構，分為數據中心APU、專用GPU兩條路線，重點提升了統一內存、AI性能、節點網絡等方面的表現，再加上先進封裝、更高能效，以滿足生成式AI的強勁需求。來源：快科技

馬斯克多次失手，OpenAI 異軍突起，矽谷 AI 之戰十年前已經打響

編者按：「那些聲稱最擔心人工智慧會帶來危機的人，卻是最堅決要創造它並享受它所帶來的財富的人。」這篇來自《紐約時報》的特寫報導，為我們回溯了從 2010 年就已經開始醞釀的矽谷 AI 之爭： 1. 馬斯克和 Google 聯合創始人拉里·佩奇在 2015 年的派對上「鬧翻」，兩人對 AI 發展持對立態度。 2. DeepMind 創始人丹米斯·哈撒比斯最開始是用西洋棋獲得了彼得·蒂爾的關注。在蒂爾的支持下，DeepMind 獲得馬斯克關注和投資，逐漸成長。 3.「AI 教父」傑弗里·辛頓舉行了一場「拍賣會」，「賣」的是自己和團隊。最後 Google 成功將辛頓博士團隊收入囊中。 4. 這場拍賣象徵著矽谷巨頭正式進入 AI 戰爭。DeepMind「知難而退」，決定出售。 5. 出售後的 DeepMind 原設有「道德委員會」來確保...

OpenAI大額晶片采購意向書曝光供貨公司股東竟是奧特曼

財聯社12月4日訊（編輯馬蘭）OpenAI正在尋找更穩定的人工智慧晶片供應，在其采購名單上，一家由OpenAI執行長奧特曼持股的初創企業有望成為英偉達之後的關鍵供應商。綜合多家科技媒體報導，OpenAI在2019年與晶片開發商Rain AI簽署了一份不具約束力的意向書，在後者晶片上市後，OpenAI將斥資5100萬美元購買其產品。而奧特曼在2018年向Rain提供了種子輪資金，Rain公司透露奧特曼對其投資已經超過了100萬美元。除奧特曼之外，Rain的投資者之中還包括沙特阿美的Prosperity 7。不過，最近因美國政府的強制規定，Prosperity 7出清了對Rain的持股。Rain曾在2022年初宣布，Prosperity 7領投了2500萬美元的融資。投資者文件稱，Rain最早可能於明年10月向客戶提供第一批晶片。今年早些時候，Rain還稱，預計最快將在12月進行晶片開發的關鍵流程——流片測試，簡單來說就是試生產。更符合喜好的AI晶片 Rain開發中的晶片是一種名為神經形態處理單元的晶片（NPU），靈感來自於人腦結構。據該公司稱，這種晶片將比目前業界常用的英偉達GPU晶片需要更少的功率，且允許公司根據周圍環境實時定製或微調人工智慧模型。知情人士稱，這些功能對OpenAI來說具有很強的吸引力。OpenAI希望降低數據中心的成本，並將其模型部署至手機、手錶等設備之中。目前，OpenAI利用其主要投資者微軟的雲服務來提供AI服務，但由於硬體限制，其不得不在流量過高時期關閉訪問入口。 OpenAI對Rain晶片的鎖定，某種程度上凸顯了AI行業面臨的晶片困境。奧特曼本人也曾抱怨過人工智慧晶片上面的供應緊縮問題和令人垂涎的利潤。此外，Rain交易中也同樣反映出OpenAI與奧特曼投資公司之間的綁定關系。此前OpenAI的宮斗大戲之中，奧特曼被驅逐下台的一個猜測就與他個人的投資有關。有人認為，奧特曼模糊了OpenAI的執行長職責與他個人投資業務之間的界限，從而被OpenAI董事會認為不夠誠信。還有知情人士也加碼這一分析，稱奧特曼的精力太過分散，從而引發了OpenAI董事會的不滿。來源：快科技

李彥宏：百度有大量AI晶片儲備不怕美國封鎖

在百度2023年第三季度業績說明會上，百度創始人、董事長兼首席執行長李彥宏表示，美國對中國的晶片出口限制，在短期內對百度的影響有限，百度擁有大量的人工智慧晶片儲備，可以在未來1至2年內不斷更新百度的AI大模型“文心一言”。李彥宏強調：“文心大模型不太需要強大的晶片，我們的晶片儲備以及其他替代品將足以支持終端用戶的大量AI本地應用程式。” “從長遠來看，難以獲得最先進的晶片不可避免地會影響中國AI發展的步伐。百度正在積極尋找替代品，雖然這些選擇不如美國的晶片先進。”李彥宏進一步說道。百度智能雲事業群總裁沈抖還提到，百度有部分客戶更願意訓練自己的模型，但晶片的出口限制將減少這方面的活動。根據百度公布的三季度財報顯示，該季度百度營收達344.47億元，同比增長6%；歸屬於百度的淨利潤（non-GAAP）達73億元，同比增長23%，營收、淨利潤均超市場預期。具體來說，三季度百度核心（Baidu Core，即搜索服務與交易服務的組合）收入266億元，歸屬於百度核心的淨利潤（non-GAAP）達70億元，同比增長21%；百度核心在線營銷收入同比增長5%至197億元，這一基本與摩根大通的預期相吻合，此前摩根大通將該業績的收入預期下調至197億元。非在線營銷業務收入為69億元，同比增長6%，這部分業務包括百度雲、小度和自動駕駛業務在內的創新業務的收入。其中，蘿卜快跑累計服務量增至410萬單。據悉，二季度小度出貨量蟬聯中國智能屏和智能音箱第一。百度的高管在電話會議上表示，傳統的雲業務正在放緩，生成AI和大型語言模型正在介入並重塑過去雲業務行業的競爭格局，有望在長期內獲得可觀的利潤率。客戶中的一些產品仍處於實驗階段，這方面在海外已經有成功經驗，因此可以看到新技術正在增加百度的競爭優勢。百度執行副總裁沈抖指出，百度雲在過去幾個季度實現了不按美國通用會計准則的運營利潤。由於市場對於智能交通服務的需求乏力，雲業務供應在三季度也出現下降，如果不計智能交通部分，雲業務的增長是不錯的。隨著集團不斷發掘生成式AI和大型語言模型技術所帶來的增長機會，將利用自身在相關領域的領先地位，持續吸引新客戶，推動現有用戶增加在百度AI雲服務方面的支出，相信雲業務也將在第四季恢復正成長。今年10月，百度推出了文心4.0，用戶可以通過文心一言體驗文心4.0版本，企業可以通過百度智能雲千帆大模型平台調用文心4.0的API。財報顯示，目前，文心一言用戶數達7000萬，覆蓋場景4300個。李彥宏在財報電話會議上指出，自11月1日起，百度正式上線文心一言專業版，開始收費，4.0版本擴大了百度同其他模型的差距，成為率先收費的模型。 “關於商業變現方面的機會，我們看到很多同人工智慧技術原生應用方面相關的機會，有些是百度自己開發的，還有一些是客戶利用百度技術的開發的。在我們自己的部分，新型搜索和調整過後的廣告業務方面有很多機會，隨著我們的搜索服務將能夠實現自然語言對話和多輪對話，商業變現的潛力也就會更大。長期來看，推理服務將成為公司營收的重要貢獻。” 此外，李彥宏還表示，考慮到高性能晶片短缺，以及市場對數據及AI人才的高需求等因素，相信行業將進入整合階段，預計市場只會留下少數幾個基礎大模型。據介紹，目前，百度正在用文心大模型重構廣告系統，包括生成式創意、生成式定向等服務，這些舉措有望在四季度帶來數億元的增量收入。 “採用AI新功能的廣告商在第三季度平均實現了高個位數的轉化率增長。以IT專業教育公司達內教育為例，在使用新功能後，轉化率提升23.3%，ROI（投資回報率）提升22.7%。” 百度財務長羅戎表示，今後，百度將繼續優先投資人工智慧，特別是生成式AI和基礎模型，堅定不移地關注效率和戰略資源分配。來源：快科技

首創x86處理器AI引擎 AMD已有100多個AI加速功能

AMD的銳龍7040系列在x86處理器中首創集成了Ryzen AI獨立引擎，開啟了全新的AI PC時代，而在有了硬體基礎之後，更關鍵的就是軟體生態的落地和普及。 AMD Ryzen AI引擎基於全新設計的AMD XDNA 架構，可以脫離網絡和雲端，在本地執行AI工作負載，進而降低延遲、保護隱私。當然，它也可以在端-雲混合場景中運行，在雲伺服器和本地筆記本之間分配任務、協同加速。據快科技了解，通過與眾多行業夥伴的通力合作，AMD Ryzen AI引擎已經為Adobe、Blackmagic Design、Topaz Labs等合作夥伴的創意軟體提供了100多個AI加速驅動的創新功能，大大提高了內容創作和生產力效率。比如說設計師必備的視頻編輯工具Adobe Premiere Pro，就有三項關鍵技術已支持AMD AI引擎加速：－自動重構圖：將拍攝對象置於垂直框架內，並根據拍攝情況進行快速調整。－場景編輯檢測：分析鏡頭並更快地檢測場景變化，在正確的位置添加剪切片段。－基於文本的編輯：使編輯視頻像復制和粘貼文本一樣簡單；在導入過程中啟用自動視頻轉錄。此外，AMD一直在與微軟密切合作，不但獨家支持Windows 11系統現有的Windows Studio Effects功能，還確保未來的Windows設備能充分利用AMD Ryzen AI技術，而這將是20多年來Windows平台體驗的最大飛躍。目前，Ryzen AI引擎已經用於50多款筆記本電腦設計，而隨著AI PC出貨量的增長，支持AI的應用也在穩步增長。來源：快科技

NVIDIA RTX顯卡AI推理提速5倍 RTX PC輕松在本地搞定大模型

快科技11月16日消息，正在舉行的微軟Iginte全球技術大會上，微軟發布一系列AI相關的全新優化模型、開發工具資源，幫助開發者更深入地釋放硬體性能，拓展AI場景。尤是對於當下在AI領域占據絕對主導地位的NVIDIA來說，微軟這次送上了一份大禮包，無論是面向OpenAI Chat API的TensorRT-LLM封裝接口，還是RTX驅動的性能改進DirectML for Llama 2，以及其他熱門大語言模型(LLM)，都可以在NVIDIA硬體上獲得更好的加速和應用。其中，TensorRT-LLM是一款用於加速LLM推理的庫，可大大提升AI推理性能，還在不斷更以支持越來越多的語言模型，而且它還是開源的。就在10月份，NVIDIA也發布了面向Windows平台的TensorRT-LLM，在配備RTX 30/40系列GPU顯卡的台式機、筆記本上，只要顯存不少於8GB，就可以更輕松地完成要求嚴苛的AI工作負載。現在，Tensor RT-LLM for Windows可以通過全新的封裝接口，與 OpenAI 廣受歡迎的聊天 API 兼容，因此可以在本地直接運行各種相關應用，而不需要連接雲端，有利於在 PC 上保留私人和專有數據，防範隱私泄露。只要是針對TensorRT-LLM優化過的大語言模型，都可以與這一封裝接口配合使用，包括Llama 2、Mistral、NV LLM，等等。對於開發者來說，無需繁瑣的代碼重寫和移植，只需修改一兩行代碼，就可以讓AI應用在本地快速執行。 ↑↑↑基於TensorRT-LLM的微軟Visual Studio代碼插件——Continue.dev編碼助手本月底還會有TensorRT-LLM v0.6.0版本更新，將會在RTX GPU上帶來最多達5倍的推理性能提升，並支持更多熱門的 LLM，包括全新的70億參數Mistral、80億參數Nemotron-3，讓台式機和筆記本也能隨時、快速、准確地本地運行LLM。根據實測數據，RTX 4060顯卡搭配TenroRT-LLM，推理性能可以跑到每秒319 tokens，相比其他後端的每秒61...

Intel宣布Vision 2024大會：未來由此開始

Intel官方宣布，將於當地時間2024年4月8-9日，在美國亞利桑那州鳳凰城舉辦新一屆Vision 2024大會。 Intel Vision大會已經舉辦多次，一般不會用來正式發布某款產品，而是更多地關注行業趨勢、公司項目進展等，但也會介紹一些新產品的進度或者成績。比如2022年宣布了Project Endgame計算服務(現已擱淺)、Project Apollo II人工智慧部署服務、Gaudi2 AI加速器、四代可擴展至強、Arctic Sound-M數據中心GPU加速卡等。 2023年則宣布了“芯經濟”(Sliconomy)的概念，展示了Intel晶片推動的數位化轉型與發展，尤其是在AI、邊緣計算方面的創新。至於今年的內容，Intel沒有明說，只是提到了AI、邊緣、雲、下一代系統、未來技術等關鍵詞，並打出了“Powering the Future. It Starts Here”(驅動未來由此開始)的口號。很顯然，AI仍將是關鍵中的關鍵，再結合各種硬體平台、開發平台的支持，打造完整生態。就在9月份，，主題正是“AI Everywhere”，從頭到尾都在講述AI。來源：快科技

豪威集團推出新款圖像傳感器OV05C10 : 適用於筆記本電腦及物聯網設備

根據豪威集團官網消息稱，豪威集團已於本月初發布了一款全新的圖像傳感器，命名為OV05C10。OV05C10是首款為筆記本電腦打造的寬高比為16：10，像素量為520萬的圖像傳感器，並且同樣適用於平板電腦以及其他物聯網設備。 OV05C10是一款尺寸為1/4.7英寸的低功耗背照式（BSI）圖像傳感器，採用豪威集團的PureCel®Plus技術，該技術通過引入埋藏式彩色濾光片陣列（BCFA）和深槽隔離（DTI）技術來增強傳感器性能，使其具有更強的暗光性能、更好的畫質表現以及更緊湊的體積。OV05C10支持在520萬像素下實現60幀/秒的雙曝光交錯式HDR功能，可以在明暗差異較大的環境中拍到動態范圍較高的圖像。 OV05C10得益於520萬像素，在功能方面可以實現視頻會議自動取景，該功能可以自動調節攝像頭視野，即對畫面中非主體部分進行裁切，以此實現讓會議講話者始終保持在畫面中心的效果。此外官方介紹說OV05C10為了提高人工智慧應用的效率，延長可攜式設備的電池續航時間，這款傳感器還可以在超低功耗模式下支持人體存在檢測（HPD）功能。豪威集團產品經理Danny Liu曾表示隨著越來越多筆記本電腦用於遠程辦公和教育場景，更高的解析度、更好的圖像質量和更豐富的人工智慧功能將愈發重要，因此也可以看出豪威集團對OV05C10的產品競爭力較為自信。目前OV05C10現已出樣，將於2024年2月投入量產。 ...

Intel讓AI真切來到你我身邊銳炫顯卡很有一套

日前在上海舉辦的進博會上，AI人工智慧再度掀起一波高潮，各種相關技術展示層出不窮。作為半導體行業No.1級別的元老，Intel也在AI新時代煥發了新的活力，為此次進博會帶來了豐富的AI解決方案。其中，基於Intel酷睿處理器、Arc銳炫顯卡組成的消費級平台，更是讓各種AI應用真正落地到普通用戶的實際體驗之中。尤其是Arc銳炫顯卡，除了玩遊戲、剪視頻、搞創作，在AI上也是頗有一套，讓AIGC(生成式AI)有了截然不同的豐富玩法，在本屆進博會上也有全面展示。重中之重當屬AI PC，無論是已有的12/13/14代酷睿搭檔銳炫顯卡，還是即將登場的全新酷睿Ultra，搭配在AI模型方面的優化、工具軟體方面的支持，Intel讓普通PC也實現了廣泛的AIGC應用。比如最新發布的14代酷睿處理器，強大的計算性能可以輕松滿足AIGC模型的算力需求，銳炫顯卡則可以通過視覺計算框架，提升圖像生成等功能。硬體之外，Intel還在軟體層面構建了AI模型優化的框架和工具，使得大語言模型、圖像生成等算法可以PC本地高效運行。由此，無論是台式機還是筆記本，無論是辦公一族還是設計師，都可以利用AI輔助來提高工作和生活效率，真真切切地享受AI帶來的技術福利。在展會的AI體驗區現場，有三個Intel的相關案例令人印象深刻：一是3D換裝。 Intel與凌迪科技合作，在時尚設計領域引入AIGC，打造了全新的應用“Style 3D”。它基於Intel酷睿移動處理器、銳炬Xe核芯顯卡，支持文生圖、圖生圖、3D試裝等豐富的功能。如此一來，設計師坐在電腦前就可以感受並獲得最佳的設計效果，消費者足不出戶就可以在家裡體驗不同的時尚風格是否合身。當然，Style 3D也支持在酷睿桌面處理器、銳炫A系列獨立顯卡上運行，現場也展示了通過銳炫A750快速實現3D變裝的豐富應用。二是智能座艙。新能源汽車時代，智能是首要的，這離不開一個優秀智能座艙解決方案的支持，Intel也亮出了自己的平台方案。 Intel的智能座艙方案提供了行業領先的CPU、GPU算力，以及豐富、開放的軟體堆棧，使得汽車生產廠商可以有更廣闊的創新空間，為最終用戶提供更具差異化和競爭力的服務。在這種座艙中，乘客通過全3D交互界面，享受身臨其境的體驗，尤其是銳炫獨立顯卡的加入，可讓玩家在車內可以享受3A級遊戲大作。同時，強大的AI算力和框架，使得大語言模型等應用可以完全雲端和網絡的限制，走入汽車座艙之內，比如更加智能的語音助手。除此以外，Intel的方案還有著更好的軟體兼容性，比如在車內使用傳統安卓車機應用時，也可隨時實現和PC同樣的豐富功能，包括辦公、視頻編輯、在線會議等。三是智慧醫療。 Intel與由復旦大學附屬中山醫院合作，聯合聯影醫療及其他技術合作夥伴，基於Intel酷睿處理器、銳炫顯卡硬體平台，於2023年共同啟動了“無界”虛擬元診室項目。一方面，該項目可以讓數字醫生可以遠程、實時執行真實醫生的指令，項目採用高度仿真的數字人物，結合Intel研究院先進的計算機視覺和AI技術，實現了表情、肢體動、眼神的追蹤，從而捕捉真實醫生的動作。再利用Intel銳炫獨立顯卡計算，高精度重建人體三維骨骼，同時實時跟蹤人體關節點，使數字醫生能夠實時執行真實醫生的指令。另一方面，該項目還能為醫患雙方提供直觀、流暢、實時交互的多視角視頻交流。在虛擬元診室內，醫生還可以遠程指導患者自我檢查，並同步三維重建病灶、手術部位等信息，幫助醫患雙方直觀、流暢地進行流暢自然的遠程溝通，有利於診療信息的透明化，消除患者的內心焦慮。對於醫生來說，可以遠程使用醫療檢測設備，獲取患者的各項生理指標。對於患者來說，可以通過3D顯示屏，從多個角度觀察醫生和醫學模型。進博會現場展示的13代酷睿CPU搭配銳炫A770 GPU在“無界”智能虛擬元診室的應用場景就吸引了不少媒體和展商過來親自打卡體驗。 AI PC的應用和市場可以說是前途無量，勢必成為行業的下一個爆點。為了推動AI PC的快速演進、應用擴展、落地普及，Intel近期還啟動了全球第一個AI PC加速計劃，希望在2025年前，為超過1億台PC實現AI特性。目前，Intel AI PC計劃的ISV合作夥伴已經超過100家，已開發的AI加速功能更是超過了300項，涉及在音頻效果、視頻協作、內容創建、遊戲、安全、直播等諸多方面。作為AI PC的硬體基礎，無論是酷睿處理器，還是銳炫顯卡，也都在快速演進，提供充足的算力基礎。尤其是銳炫顯卡，除了傳統的打打遊戲、剪剪視頻、搞搞創作以外，更是在AI時代展現出新的潛力，讓人們在日常生活的方方面面都能感受到AI帶來的積極變革，享受科技帶來的美好生活。來源：快科技

比爾蓋茨：現在的電腦仍相當愚蠢 5年內將徹底改變

快科技11月10日消息，比爾蓋茨今天發表了一篇筆記：《人工智慧將徹底改變你如何使用電腦》。在這篇筆記中，比爾蓋茨表示，盡管幾十年裡軟體已經有了很大的改進，但在許多方面，它們仍然相當愚蠢。無論在電腦上執行什麼任務，你必須告訴你的設備要啟用哪個應用程式。 Microsoft Word和Google Docs可以幫你起草商業計劃書，但它們不能幫你發送電子郵件、分享自拍、分析數據、安排聚會或購買電影票。即使是最好的網站也不能完全了解你的工作、個人生活、興趣和人際關系，而且使用這些信息為你做事的能力也很有限。比爾蓋茨稱，在接下來的五年裡，這種情況將完全改變。未來，你不必為不同的任務使用不同的應用程式，你只需用簡單通俗的語言告訴你的設備你想做什麼。根據你選擇與軟體分享多少信息，基於對你的生活有豐富的了解，軟體將能夠做出個性化的回應。在不久的將來，任何上網的人都可以擁有一個由人工智慧驅動的個人助理，這遠遠超出了當今的技術水平。比爾蓋茨強調，人工智慧不僅會改變每個人與電腦互動的方式，還將顛覆軟體行業，引領自我們從輸入命令到點擊圖標以來最大的計算機革命。來源：快科技

12 3 4 Page 1 of 4

Tag: 人工智慧