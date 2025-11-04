鉅亨網編譯陳韋廷 2025-11-04 09:10

‌



在 AI 競爭從「算力堆砌」轉向「生態致勝」新周期時，寒武紀 (688256-CN) 正以全端技術實力證明自己是真正的行業主導者，不僅要造得出高性能晶片，更要構建能釋放算力價值的軟體生態與全鏈路解決方案。

從晶片到生態！寒武紀全面反擊 NeuWare對CUDA發起性能反超 輝達生態壟斷要結束了？（圖：Shutterstock）

《新智元》報導，寒武紀成立之初便鎖定「為 AI 大爆發提供底層支撐」的使命，不止於硬體算力，更要讓算力「好用、易用、耐用」。多年深耕後，這家以智慧晶片起家的科技公司，已悄悄建置起從自研晶片架構到高效能軟體平台的全端體系，將運算架構、編譯最佳化與演算法調度深度融合，讓每一份算力釋放最大效能。寒武紀的核心武器便是基礎軟體平台 Cambricon NeuWare。

‌



NeuWare 的誕生，直擊 AI 開發者的痛點。不同硬體、不同場景的開發門檻高、遷移難。透過統一的基礎軟體平台，寒武紀實現了跨晶片、跨應用場景的無縫銜接，NeuWare 已全面相容於社群最新 PyTorch 版本與 Triton 算子開發語言，支援使用者模型與自訂算子快速遷移，而針對大模型訓練推理的叢集運作難題，平台進一步豐富工具鏈，從部署、除錯到調優，為大模型業務提供全週期底座。

寒武紀技術人員解釋，「NeuWare 的價值，在於降低 AI 應用的開發門檻」，並指開發者無需深究底層硬體差異，即可快速調動晶片算力，「就像給不同型號的發動機配了通用油箱，油門一踩就能跑」。

訓練端，寒武紀支援 DeepSeek V3/V3.1、Qwen2.5/Qwen3、GLM4.5 等主流 MoE 模型訓練，新增 Qwen/DeepSeek 系列網路的 FP8 訓練支持，精度符合預期。針對大模型推理，團隊探索 W4A4、MX-FP8 等新型資料類型，支援 Sparse Attention 等高效機制，適配 Qwen-Omni 多模態、Hunyuan3D 生成模型等前緣架構。

值得一提的是，與 DeepSeek V3.2-Exp 模型的合作中，寒武紀實現「發布即適配」，同步開源程式碼，展現了對技術趨勢的敏銳響應。

在效能最佳化上，寒武紀透過深度生態合作，持續攻長序列解碼、超低延時等場景。vLLM 推理引擎支援混合精度量化、通算並行、PD 分離部署，結合 Torch.compile 優化主機瓶頸，實現全方位加速；專項優化的 Kernel 吞吐可達每秒數十萬任務，延遲水平對標國際。

寒武紀的競爭力，藏在「軟硬一體」的細節裡，基礎軟體平台的每一層組件，都在為算力釋放「保駕護航」，支持豐富的設備切分使用場景。

驅動與運行時庫：支撐業務數月不停機的穩定性，透過細粒度並行技術、多路 DSA 非同步調度，Kernel 吞吐達業界領先；支援 visible cluster、sMLU 等彈性切分，適配容器化部署需求。

編譯器與調試工具：BANG C 語言擴展適配 MLU 架構，結合 LTO、PGO 等優化技術，讓矩陣乘法等算子效率追平產業頂尖；Triton 編譯器優化軟體、指令調 Matmul、Flash Attention 類算子性能顯著提升；CNPerf-GUI 智能調度工具，可載空配空工具。

算子庫與通訊庫：針對「搜尋、廣告、推薦」三大場景、大模型場景優化大規模 Embedding 稀疏訪存、GEMM 矩陣乘，支援低精度量化；通訊庫新增 HDR/DBT 演算法，優化 Allreduce 與 Alltoall 操作，類 IBGDA 介面降低專家並行通訊延遲。

叢集工具：CntrainKit-Accu 實現萬卡訓練精度秒溯源，CntrainKit-Monitor 提供毫秒級任務健康視覺化，CNCE 平台支援十萬卡叢集智慧運維，CNAnalyzeInsight 秒級分析 GB 級日誌。

從訓練到推理，從單機到萬卡，寒武紀建構了涵蓋全場景的工具。

對開發者而言，寒武紀的吸引力不僅在於技術硬核，更在於「友善」。平台深度適配 PyTorch 生態，支援 2.1 至 2.8 全版本，相容於 DDP、FSDP 等關鍵功能；Torch compile 加速比追平 GPU，GPU Migration 工具實現零成本遷移；PyTorch Lightning 等社區生態同步跟進，社區版本發布後 2 週內即可完成 MLU 適配。

一位使用 NeuWare 的開發者說，「從模型遷移到調優，寒武紀的工具鏈幾乎覆蓋了所有環節」，並稱「以前適配新晶片要改代碼、調參數，現在像搭積木一樣簡單」。

十年磨依劍，寒武紀已形成「晶片 - 軟體 - 工具 - 生態」的循環。晶片提供算力基底，軟體釋放算力價值，工具降低使用門檻，生態擴大用戶基數。這種「應用促進優化、優化推動應用」的良性循環，讓寒武紀在 AI 大模型、「搜尋、廣告、推薦」三大場景、多模態生成等前沿場景中持續驗證、快速進化。

當業界仍在討論「算力過剩」，寒武紀已給出新答案，也就是算力的終極價值不在於峰值性能有多高，而在於能否被高效、便捷地轉化為實際生產力。