menu-icon
anue logo
鉅亨傳承學院鉅亨號鉅亨買幣
search icon

科技

中國國產AI算力突圍!摩爾線程旗艦GPU實測核彈級「參數」曝光 對標輝達H100

鉅亨網編譯陳韋廷

 

cover image of news article
中國國產AI算力突圍!摩爾線程旗艦GPU實測核彈級「參數」曝光 對標輝達H100 (圖:shutterstock)

摩爾線程旗艦 GPU 實測性能對標英偉達 H100 國產 AI 算力突圍


摩爾線程周四 (12 日) 宣布旗艦 AI 訓推一體 GPU MTT S5000 成功完成智譜新一代大模型 GLM-5 全流程適配驗證,實測性能突破國產算力天花板。

這款基於第四代「平湖」架構打造的智算卡,單卡 FP8 算力高達 1 PFLOPS(1000 TFLOPS),顯示記憶體頻寬 1.6TB/s,硬體參數首次公開即引發產業震動,性能比肩國際巨頭。

根據業界實測,在多模態大模型微調任務中,MTT S5000 部分表現超越輝達 H100,MTT S5000 獨創的 ACE 技術實現計算與通訊零衝突並行,64 卡擴展至 1024 卡仍維持 90% 以上線性效率,訓練速度隨算力倍增。

智源研究院上月使用此卡千卡集群訓練具身大腦模型 RoboBrain 2.5,損失值與 H100 集群差異僅 0.62%,驗證 MTT S5000 的頂尖相容性。

此外,FP8 精度革命性突破。作為中國首批原生支援 FP8 精度的訓練 GPU,S5000 透過硬體級 Tensor Core 將顯存壓力降低 50%,理論吞吐量增加一倍,在 0DeepSeek 等先進模型訓練中效能提升超 30%,並完整重現頂尖大模型訓練流程,Flash Attention 算力利用率突破 95%。

全場景應用落地方面,MTT S5000 在推理場景同樣刷新紀錄,去年 12 月聯合矽基流動完成 DeepSeek-V3 671B 滿血版測試,單卡 Prefill 吞吐超 4000 tokens/s,Decode 吞吐超過 1000 tokens/s,創造國產 GPU 新標竿。

MTT S5000 的 80GB 顯示記憶體與 784GB/s 卡間互聯頻寬,支撐起 10Exa-Flops 浮點算力的誇娥萬卡集群,Dense 模型訓練 MFU 達 60%。

摩爾線程透過 MUSA 全端平台實現 PyTorch 等主流框架「零成本遷移」,相容於輝達 CUDA 生態。隨著智譜 GLM-5 等國產大模型完成適配,中國 AI 算力自主化進程邁出關鍵一步。

在 AI 晶片「卡脖子」困局下,MTT S5000 的性能突破標誌著中國國產替代進入新階段。


section icon

鉅亨講座

看更多
  • 講座
  • 公告

    Empty
    Empty