性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡並行

3月21日,中國本土AI創新企業寒武紀正式發布了新款訓練加速卡「MLU370-X8」,搭載雙晶片四芯粒封裝的思元370,集成寒武紀MLU-Link多芯互聯技術,主要面向AI訓練任務。

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡並行

寒武紀MLU370-X8智能加速卡首次整合了雙晶片四芯粒的思元370,也就是每張卡兩顆晶片,每顆晶片內封裝兩個Die,因此可提供兩倍於思元370加速卡的記憶體、編解碼資源。

架構基於Cambricon MLUarch03,支持AI訓練加速中常見的FP32、FP16、BF16、INT16、INT8、INT4數據格式計算,峰值性能分別為32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。

該卡採用7nm製造工藝,集成48GB LPDDR5記憶體,記憶體帶寬614.4GB/,PCIe 4.0 x16系統接口,整卡最大訓練功耗250W,全高全長雙插槽設計,系統被動散熱。

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡並行 單卡架構圖

通過MLU-Link多芯互聯技術,提供卡內、卡間互聯功能,並專門設計了MLU-Link橋接卡,可實現4張加速卡為一組、8顆思元370晶片全互聯。

每張加速卡通訊吞吐性能200GB/,帶寬為PCIe 4.0的大約3.1倍,可高效執行多芯多卡訓練、分布式推理任務。

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡並行 4卡橋接

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡並行 單機8卡部署配置

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡並行 4卡橋接拓撲

根據官方數據,Cambricon NeuWare SDK實測,在常見的4個深度學習網絡模型上,MLU370-X8單卡性能與主流350W RTX GPU相當。

多卡加速,藉助MLU-Link多芯互聯技術、Cambricon NeuWare CNCL通訊庫的優化,8卡環境下達到更優的並行加速比,YOLOv3、Transformer、BERT、ResNet101訓練任務中,8卡並行平均性能達350W RTX GPU的155%。

寒武紀未透露對比的NVIDIA 350W RTX GPU是哪一款,從規格來看,350W功耗的目前只有RTX 3090、RTX 3080 Ti。

當然,一個是專用AI加速卡,一個是GPU通用遊戲卡,其實沒有太大可比性。

MLU370-X8產品定位中高端,與高端訓練產品思元290、玄思1000相互結合,進一步豐富了寒武紀的訓練算力交付方式,同時與基於思元370芯粒(chiplet)技術構建的MLU370-X4、MLU370-S4智能加速卡協同,形成完整的雲端訓練、推理產品組合。

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡並行 單卡性能對比

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡並行 8卡性能對比

性能1.55倍於NV 350W RTX 寒武紀發布全新AI訓練GPU:8卡並行

來源:快科技