DeepSeek揭示中國下一代AI晶片!「這些」公司可能成為供應商
鉅亨網新聞中心
近日,中國人工智慧(AI)公司 DeepSeek 在微信上發布神秘訊息,暗示中國下一代 AI 晶片即將問世,此消息一出立即在半導體業界引發廣泛猜測與熱議。

DeepSeek 僅以一句話點燃網路討論,市場開始揣測究竟是哪家 AI 晶片供應商會率先推出突破性產品。與此同時,美國的科技限制仍在持續影響中國半導體產業。
其中,被點名的潛在廠商包括華為、寒武紀 (688256-CN) 、摩爾線程、海光信息 (688041-CN) 及沐曦集成電路。
DeepSeek 在週四(21 日)的貼文中指出,其 V3.1 AI 模型的 UE8M0 FP8 scale「專門為即將發布的國產晶片而設計」,但未透露具體供應商。
市場普遍猜測,新模型可能支持多款中國 AI 晶片,而不僅局限於單一品牌。
DeepSeek UE8M0 FP8 技術細節與優勢
FP8(8 位浮點格式)透過降低精度、減少記憶體與頻寬佔用,能加速 AI 訓練與推理;而 UE8M0 則是另一種 8 位格式,可將記憶體使用降低多達 75%,提高訓練效率並減少硬體需求。
該架構專為中國晶片硬體邏輯設計,使模型能順暢運行在國產硬體上,目前支持 FP8 的中國設計晶片包括華為海思半導體、寒武紀、沐曦與摩爾線程產品。
技術細節:
UE8M0 含義:
- U:無符號(Unsigned),適用於啟動值通常非負的場景。
- E8M0:8 位全部用於指數(Exponent),尾數(Mantissa)為 0,透過隱式歸一化或動態尾數調整實現靈活性。
- 動態尾數策略:在實際實作中,可能採用動態尾數分配(如根據指數範圍動態調整尾數有效位),或預設尾數為 1,值的範圍為 \(2^{-128}\) 至 \(2^{127}\)。
FP8 Scale
- 指在量化過程中用於縮放數值的因子(Scale),確保數值在 FP8 的表示範圍內。
- 塊級縮放:將張量分成固定大小的區塊(如 128×128 的 tile),每個區塊共用一個縮放因子。這種區塊級縮放(而非整個張量級)在保留 8 位元位寬的同時,將可用動態範圍擴展數十倍。
優勢與應用:
硬體效率提升
- 顯存節省:權重顯存佔用降低約 50%,例如 680B 模型權重檔案從 1.3-1.5TB 降至約 680GB。
- 計算加速:由於 UE8M0 不含尾數與符號位,處理器在根據縮放因子對資料復原時,僅需乘以對應的 2 的冪(即指數位移操作),無需浮點乘法、規格化或捨入邏輯,縮短了時脈關鍵路徑。
中國國產晶片適合的搭配:
- 寒武紀:思元 590 芯片支持 FP8 精度,算力密度較前代提升 40%。
- 摩爾線程:首個支持原生 FP8 的國產 GPU 廠商,基於 MUSA Compute Capability 3.1 架構。
- 海光信息:DCU(深算系列)透過 FP8 優化降低 30% 顯存占用,運算效率提升 20%。
行業影響:
- 技術突破:DeepSeek-V3.1 是中國國內首個成功使用 FP8 完成大型語言模型訓練的案例,證明了 FP8 在超大規模模型訓練中的可行性。
- 生態閉環:UE8M0 FP8 助力國產 AI 晶片 – 國產開源模型 – 下游應用形成完整生態,推動中國 AI 晶片加速追趕國際先進水準。
中國國產 AI 晶片產業持續突破
中國智庫至坦 AI 週五(22 日)指出,華為的 910D 與寒武紀的思元 690 晶片都有可能成為 DeepSeek 新模型的基礎。
DeepSeek 團隊過去主要使用輝達 (NVDA-US) 晶片開發模型,因此轉向中國 AI 晶片 可能在穩定性、連線速度及軟體生態上面臨挑戰。
與此同時,華為正積極打造完整 AI 硬體生態系統,以在國內挑戰輝達。今年初,華為發布 CloudMatrix 384 計算系統,整合 384 顆昇騰 910C 神經處理單元與 192 顆鯤鵬伺服器 CPU,透過統一總線互聯,提供超高頻寬與低延遲。
對中國下一代 AI 晶片的猜測,帶動相關上市公司股價上揚。週五,寒武紀與海光的上海股票雙雙上漲 20%,中國大陸最大晶圓代工廠、同時生產華為昇騰和麒麟晶片的中芯國際 (688981-CN) 在香港股價上漲 10.1%,收報 56.90 港元。
延伸閱讀
上一篇
下一篇