鉅亨網新聞中心
中國人工智慧新秀 DeepSeek 預計將於 2 月中旬 (農曆春節前後) 發表新一代旗艦大模型 V4。根據近期由創辦人梁文鋒署名的論文及業內爆料,V4 將引入 mHC 與 Engram 兩項核心架構創新,旨在顯著降低訓練與推理成本,並在編程能力上挑戰目前的行業領導者。
DeepSeek 團隊在最新發布的論文中提出,當前模型缺乏原生的知識查找機制,導致在處理靜態知識時仍需耗費昂貴的算力重複推導。為此,V4 預計將引入 Engram(條件記憶模塊),其設計理念是將「記憶」與「計算」解耦。
透過 Engram 技術,模型能將靜態知識 (如實體、固定表達) 存儲在廉價的 DRAM 中,而非昂貴的 GPU 高頻寬記憶體 (HBM)。當模型需要推理時再快速查找,這將釋放 GPU 算力專注於複雜的動態計算。此外,另一項關鍵技術 mHC(流形約束超連接) 則解決了超深層 Transformer 模型在訓練時,信息流動瓶頸與不穩定的問題,透過嚴苛的數學「護欄」,提升模型在數學推理等任務上的表現。
據 The Information 報導,DeepSeek V4 的內部初步測試顯示,其編程能力已超越市場上的頂級模型,包括 OpenAI 的 GPT 系列與 Anthropic 的 Claude。儘管 DeepSeek 先前推出的 V3.2 版本已在多項基準測試中超越部分競爭對手,但 V4 被視為核心架構的正式繼任者,旨在進一步鞏固其作為高性能、低成本 AI 方案的地位。
野村證券分析指出,V4 的意義在於其「高性價比」的特性,這對受限於算力晶片與記憶體瓶頸的發展環境至關重要。V4 有望幫助全球大模型開發商降低訓練成本,緩解日益沉重的資本開支壓力,並加速商業化進程。
此外,更強大且高效的 V4 將催生更先進的 AI 代理 (AI Agent)。這些智能體將從單純的「對話工具」轉型為能自動執行複雜、多步驟任務的「AI 助手」,這將為領先的軟體公司創造更多價值,推高其成長天花板。
上一篇
下一篇
