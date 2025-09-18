鉅亨網編譯陳韋廷 2025-09-18 10:50

今年 1 月，梁文鋒帶領團隊打造的 DeepSeek-R1 相關論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》發布，如今該成果成功登上全球頂刊期刊《Nature》封面，並介紹梁文鋒帶隊用高度強化學習 (RL) 為大模型推理能力開闢新路徑的高度成就。

再創歷史！DeepSeek梁文鋒登《Nature》封面 打破大模型評審空白 R1訓練成本僅29.4萬鎂（圖：Shutterstock）

開源之後，R1 在 Hugging Face 成為最受歡迎的模型，下載量突破 1090 萬次，而且它是全球首個經過同行評審的主流大模型。

從一篇 arXiv 論文到 Nature 封面，DeepSeek 團隊再次憑藉著實力為 AI 推理的未來鋪路。值得一提的是，補充資料首次公開 R1 訓練成本，僅 29.4 萬美元，即便加上約 600 萬美元的基礎模型成本，也遠低於 OpenAI、Google 訓練 AI 的成本。

發表在《自然》雜誌的新版 DeepSeek-R1 論文，與今年 1 月未經同行評審的初版有較大差異，披露了更多模型訓練的細節，並正面回應了模型發佈之初的蒸餾質疑。

研究團隊的出發點大膽且純粹，他們徹底拋開對人類推理軌蹟的依賴，選擇強大的基礎模型 DeepSeek - V3 Base，跳過傳統的 SFT 階段，採用極其簡潔的強化學習框架。在此框架中，只告知模型任務格式，即回答需包含被 標籤包裹的「思考過程」和被 answer > 標籤包裹的「最終答案」，以及獎勵信號，根據最終答案是否正確給予獎勵，不考慮思考方法。

在沒有解題步驟的對錯評判，沒有思維方式的引導下，DeepSeek-R1 Zero 開啟「野蠻生長」。以 AIME 2024 為例，其平均解題準確率 (pass@1) 從最初的 15.6% 飆升至 77.9%，配合「自洽解碼」技術更是高達 86.7%，遠超 AIME 競賽中所有人類選手的平均水準。

在能力提升過程中，R1 Zero 展現出自我進化行為，其「思考時間」自主增加，生成的文本長度穩定上升，學會用更長「思維鏈」探索解題策略，也湧現出高階推理策略，如自我反思、系統性探索替代解法等。

研究人員也觀察到模型出現「頓悟時刻」，反思過程中使用「wait」一詞頻率急劇增加，標誌著推理模式的明顯轉變，詮釋了強化學習的魅力。

為解決 R1 Zero 可讀性差、通用能力平平的問題，團隊設計多階段訓練流程。經過冷啟動、多輪強化學習和大規模監督微調等，DeepSeek - R1 在多個基準測試中表現提升 17% - 25%，在高難度推理任務上保持頂尖水準。

在訓練方法上，團隊採用 GRPO 演算法，相較於 PPO 顯著降低資源消耗且穩定高效。獎勵設計採雙軌制，推理任務用基於規則的獎勵，通用任務用基於模型的獎勵，避免「獎勵投機」。訓練過程精心設計，每個階段都有不同重點和參數調整。

不過，DeepSeek - R1 也存在能力限制，如在結構化輸出和工具使用方面有欠缺，對提示詞敏感，強化學習在軟體工程任務上效率不高等。同時，純強化學習面臨獎勵投機挑戰。

儘管年初 OpenAI 指責可能使用 ChatGPT 輸出訓練，但團隊否認稱 DeepSeek-V3-Base 的預訓練數據全部來源於網路，反映自然數據分佈，「可能包含由先進模型 (如 GPT-4) 生成的內容」，但 DeepSeek-V3-Base 並沒有引入在合成數據集上進行大規模監督蒸餾的「冷卻」階段。

DeepSeek-V3-Base 的數據截止時間為 2024 年 7 月，當時尚未發佈任何公開的先進推理模型，這進一步降低了從現有推理模型中無意蒸餾的可能性。

更重要的是，DeepSeek-R1 論文的核心貢獻也就是 R1-Zero，不涉及從先進模型進行蒸餾，其強化學習 (RL0 元件是獨立訓練的，不依賴於 GPT-4 或其他類似能力模型的輸出或指導。

《Nature》審查者和其他研究人員對 DeepSeek 的推理方法表示認可，認為其開啟了一場革命，為改進現有大語言模型 (LLM) 推理能力提供了新方向。

8 位審稿人共提出上百條具體意見，既包括對單詞單複數等細節的修改，也涵蓋對論文中將 AI「擬人化」的警示，以及對數據污染和模型安全性問題的關注，例如在修改意見中，審稿人敏銳地捕捉到了「將 DeepSeek-R1-Zero 開源」這一表述的模糊性，並提醒 DeepSeek，「開源」這一概念的界定仍存爭議，在使用相關表述時需要格外注意。

這位審稿人還要求 DeepSeek 在論文中附上 SFT 和 RL 數據的連結，而不僅僅是提供數據樣本。

作為國產開源 AI 模型走向世界的代表，DeepSeek-R1 在全球開源社群中擁有極高的口碑，而在本次登上《自然》雜誌封面後，DeepSeek 補充了這一模型的更多資訊，為開源社區提供了科研參考、模型復現思路以及應用支持。