寒武紀科技 | 搜資訊

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU：8卡並行

3月21日，中國本土AI創新企業寒武紀正式發布了新款訓練加速卡「MLU370-X8」，搭載雙晶片四芯粒封裝的思元370，集成寒武紀MLU-Link多芯互聯技術，主要面向AI訓練任務。寒武紀MLU370-X8智能加速卡首次整合了雙晶片四芯粒的思元370，也就是每張卡兩顆晶片，每顆晶片內封裝兩個Die，因此可提供兩倍於思元370加速卡的記憶體、編解碼資源。架構基於Cambricon MLUarch03，支持AI訓練加速中常見的FP32、FP16、BF16、INT16、INT8、INT4數據格式計算，峰值性能分別為32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。該卡採用7nm製造工藝，集成48GB LPDDR5記憶體，記憶體帶寬614.4GB/，PCIe 4.0 x16系統接口，整卡最大訓練功耗250W，全高全長雙插槽設計，系統被動散熱。單卡架構圖通過MLU-Link多芯互聯技術，提供卡內、卡間互聯功能，並專門設計了MLU-Link橋接卡，可實現4張加速卡為一組、8顆思元370晶片全互聯。每張加速卡通訊吞吐性能200GB/，帶寬為PCIe 4.0的大約3.1倍，可高效執行多芯多卡訓練、分布式推理任務。 4卡橋接單機8卡部署配置 4卡橋接拓撲根據官方數據，Cambricon NeuWare SDK實測，在常見的4個深度學習網絡模型上，MLU370-X8單卡性能與主流350W RTX GPU相當。多卡加速，藉助MLU-Link多芯互聯技術、Cambricon NeuWare CNCL通訊庫的優化，8卡環境下達到更優的並行加速比，YOLOv3、Transformer、BERT、ResNet101訓練任務中，8卡並行平均性能達350W RTX GPU的155％。寒武紀未透露對比的NVIDIA 350W RTX GPU是哪一款，從規格來看，350W功耗的目前只有RTX 3090、RTX 3080 Ti。當然，一個是專用AI加速卡，一個是GPU通用遊戲卡，其實沒有太大可比性。 MLU370-X8產品定位中高端，與高端訓練產品思元290、玄思1000相互結合，進一步豐富了寒武紀的訓練算力交付方式，同時與基於思元370芯粒(chiplet)技術構建的MLU370-X4、MLU370-S4智能加速卡協同，形成完整的雲端訓練、推理產品組合。單卡性能對比 8卡性能對比來源：快科技

Tag: 寒武紀科技

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU：8卡並行