科技

阿里推全新推理模型QwQ-32B 僅二十分之一參數媲美DeepSeek R1

鉅亨網編譯陳韋廷綜合報導2025-03-06 08:40

‌

阿里巴巴 (09988-HK)(BABA-US)Qwen 團隊周三 (5 日) 晚間發文宣佈最新研究成果 QwQ-32B 大語言模型，在僅有 DeepSeek-R1 約二十分之一參數量的情況下，用強化學習 (RL) 實現性能上的驚人跨越。

cover image of news article — 阿里推全新推理模型QwQ-32B 僅二十分之一參數媲美DeepSeek R1（圖：Shutterstock）

Qwen 團隊在部落格文章中提到，他們深入探索 RL 在提升大語言模型智慧方面的巨大潛力，QwQ-32B 的成功發佈，有力地證明 RL 是提升模型性能的強大引擎。

‌

Qwen 團隊採用了冷啟動 (cold-start checkpoint) 方式並實施結果導向 (outcome-based rewards) 強化學習策略，這種策略的核心在於不依賴傳統的獎勵模型，而是直接根據任務結果如答案是否正確、代碼是否運行成功來指導模型的學習，更加高效和直接。

根據數據顯示，在 AIME24 和 IFEval 等關鍵基準測試中，QwQ-32B 表現甚至略微超過參數量巨大的 DeepSeek-R1，且在其他基準測試中也基本與 DeepSeek-R1 持平，遠超其他對比模型。

Qwen 團隊指出，QwQ-32B 的發佈只是他們在 RL 方向上的初步嘗試，未來將繼續深入探索 RL 的潛力，並將 RL 與更強大的基礎模型相結合，利用更大的計算資源，致力於打造下一代 Qwen 模型，並最終邁向 AGI 目標。

此外，Qwen 團隊還將積極探索 Agent 與 RL 結合，實現更長程的推理能力，解鎖更高級別的智慧。

上周二 (2 月 25 日)，阿里也發佈了「Thinking（QwQ）」模型，是一款由 QwQ-Max-Preview 提供支援，基於 Qwen2.5-Max 的推理模型。目前，該模型仍處於預覽階段，具很強的數學理解、編碼、代理等能力。跟 Qwen2.5-Max 相比，它更加智慧，具有更多的創造性。