突破大算力瓶頸:華為支持超萬億參數大模型訓練 等效於18000張卡

快科技9月22日消息,在華為全聯接大會2023期間,華為正式發布全新架構的昇騰AI計算集群——Atlas 900 SuperCluster,可支持超萬億參數的大模型訓練。

華為常務董事、ICT基礎設施業務管理委員會主任、企業BG總裁汪濤介紹,新集群採用全新的華為星河AI智算交換機CloudEngine XH16800,藉助其高密的800GE埠能力,兩層交換網絡即可實現2250節點(等效於18000張卡)超大規模無收斂集群組網。

新集群同時使用了創新的超節點架構,大大提升了大模型訓練能力。

此外,發揮華為在計算、網絡、存儲、能源等領域的綜合優勢,從器件級、節點級、集群級和業務級全面提升系統可靠性,將大模型訓練穩定性從天級提升到月級。

為了加速大模型創新,華為發布了更開放、更易用的CANN7.0,不僅全面兼容業界的AI框架、加速庫和主流大模型,還深度開放底層能力,讓AI框架和加速庫可以更直接地調用和管理計算資源,使能開發者自定義高性能算子。

汪濤表示,隨著人工智慧進入大模型時代,大算力正在成為人工智慧發展的核心引擎。華為改變傳統的伺服器堆疊模式,以系統架構創新打造AI集群,實現算力、運力、存力的一體化設計,突破大算力瓶頸。

突破大算力瓶頸:華為支持超萬億參數大模型訓練 等效於18000張卡

突破大算力瓶頸:華為支持超萬億參數大模型訓練 等效於18000張卡

突破大算力瓶頸:華為支持超萬億參數大模型訓練 等效於18000張卡

突破大算力瓶頸:華為支持超萬億參數大模型訓練 等效於18000張卡

突破大算力瓶頸:華為支持超萬億參數大模型訓練 等效於18000張卡

突破大算力瓶頸:華為支持超萬億參數大模型訓練 等效於18000張卡

來源:快科技