科技

中國國產AI算力突圍！摩爾線程旗艦GPU實測核彈級「參數」曝光對標輝達H100

鉅亨網編譯陳韋廷2026-02-12 17:00

cover image of news article — 中國國產AI算力突圍！摩爾線程旗艦GPU實測核彈級「參數」曝光對標輝達H100 (圖:shutterstock)

摩爾線程旗艦 GPU 實測性能對標輝達 H100 國產 AI 算力突圍

‌

摩爾線程周四 (12 日) 宣布旗艦 AI 訓推一體 GPU MTT S5000 成功完成智譜新一代大模型 GLM-5 全流程適配驗證，實測性能突破國產算力天花板。

這款基於第四代「平湖」架構打造的智算卡，單卡 FP8 算力高達 1 PFLOPS(1000 TFLOPS)，顯示記憶體頻寬 1.6TB/s，硬體參數首次公開即引發產業震動，性能比肩國際巨頭。

根據業界實測，在多模態大模型微調任務中，MTT S5000 部分表現超越輝達 H100，MTT S5000 獨創的 ACE 技術實現計算與通訊零衝突並行，64 卡擴展至 1024 卡仍維持 90% 以上線性效率，訓練速度隨算力倍增。

智源研究院上月使用此卡千卡集群訓練具身大腦模型 RoboBrain 2.5，損失值與 H100 集群差異僅 0.62%，驗證 MTT S5000 的頂尖相容性。

此外，FP8 精度革命性突破。作為中國首批原生支援 FP8 精度的訓練 GPU，S5000 透過硬體級 Tensor Core 將顯存壓力降低 50%，理論吞吐量增加一倍，在 0DeepSeek 等先進模型訓練中效能提升超 30%，並完整重現頂尖大模型訓練流程，Flash Attention 算力利用率突破 95%。

全場景應用落地方面，MTT S5000 在推理場景同樣刷新紀錄，去年 12 月聯合矽基流動完成 DeepSeek-V3 671B 滿血版測試，單卡 Prefill 吞吐超 4000 tokens/s，Decode 吞吐超過 1000 tokens/s，創造國產 GPU 新標竿。

MTT S5000 的 80GB 顯示記憶體與 784GB/s 卡間互聯頻寬，支撐起 10Exa-Flops 浮點算力的誇娥萬卡集群，Dense 模型訓練 MFU 達 60%。

摩爾線程透過 MUSA 全端平台實現 PyTorch 等主流框架「零成本遷移」，相容於輝達 CUDA 生態。隨著智譜 GLM-5 等國產大模型完成適配，中國 AI 算力自主化進程邁出關鍵一步。

在 AI 晶片「卡脖子」困局下，MTT S5000 的性能突破標誌著中國國產替代進入新階段。