鉅亨網新聞中心
根據陸媒援引多位知情人士報導,DeepSeek 創辦人梁文鋒已明確指出,新一代旗艦大模型 DeepSeek V4 將於 2026 年 4 月下旬正式亮相。這款備受期待的模型不僅在技術參數上大幅躍進,更因其與國產晶片的深度適配,被視為中國人工智慧產業突破美系硬體依賴的關鍵里程碑。
DeepSeek V4 延續了該公司一貫的「精算師」風格,採用優化的 Mixture-of-Experts (MoE) 混合專家架構。洩露資訊顯示,V4 的總參數規模逼近 1 兆 (1 Trillion),但在實際推理過程中,每次僅會啟動約 320 億至 370 億個參數,確保了極高的算力效率與低廉的 API 定價。
在處理能力方面,V4 將支援高達 100 萬 tokens 的超長上下文視窗。為了實現這一點,DeepSeek 引入了全新的 Engram 條件記憶機制,將靜態知識儲存與動態推理計算分離,讓模型能以 O(1) 的複雜度快速檢索長文本資訊,有效減輕顯存負擔。
此外,新開發的 mHC(流形約束超連接) 技術解決了超大規模訓練中的梯度不穩問題,使訓練效率提升約 30%。
相較於技術參數,V4 最具震撼力的訊號在於其硬體策略的徹底轉向。官方透露,V4 將完全執行於華為昇騰 (Ascend)950 PR 晶片上,不再依賴輝達 (Nvidia) 的 GPU 或 CUDA 生態。
這一決策已引發連鎖反應。據報導,阿里巴巴、字節跳動、騰訊等科技巨頭已提前向華為採購數十萬片新一代昇騰晶片,計畫透過雲端服務整合 DeepSeek V4。這象徵著國產算力已能支撐頂級旗艦模型的訓練與推理需求,成為中國 AI 自主生態系成熟的催化劑。
目前,DeepSeek 網頁端已悄然上線「快速模式」與「專家模式」,被視為 V4 發布前的灰度測試。測試數據顯示,V4-Lite 變體在 API 節點的推理速度較前代提升 30%,而在 HumanEval 程式碼測試中,V4 的得分高達 90%,性能直逼當前全球頂尖模型。
上一篇
下一篇
