阿里推全新推理模型QwQ-32B 僅二十分之一參數 媲美DeepSeek R1
鉅亨網編譯陳韋廷 綜合報導 2025-03-06 08:40

阿里巴巴 (09988-HK)(BABA-US)Qwen 團隊周三 (5 日) 晚間發文宣佈最新研究成果 QwQ-32B 大語言模型,在僅有 DeepSeek-R1 約二十分之一參數量的情況下,用強化學習 (RL) 實現性能上的驚人跨越。
Qwen 團隊在部落格文章中提到,他們深入探索 RL 在提升大語言模型智慧方面的巨大潛力,QwQ-32B 的成功發佈,有力地證明 RL 是提升模型性能的強大引擎。
Qwen 團隊採用了冷啟動 (cold-start checkpoint) 方式並實施結果導向 (outcome-based rewards) 強化學習策略,這種策略的核心在於不依賴傳統的獎勵模型,而是直接根據任務結果如答案是否正確、代碼是否運行成功來指導模型的學習,更加高效和直接。
根據數據顯示,在 AIME24 和 IFEval 等關鍵基準測試中,QwQ-32B 表現甚至略微超過參數量巨大的 DeepSeek-R1,且在其他基準測試中也基本與 DeepSeek-R1 持平,遠超其他對比模型。
Qwen 團隊指出,QwQ-32B 的發佈只是他們在 RL 方向上的初步嘗試,未來將繼續深入探索 RL 的潛力,並將 RL 與更強大的基礎模型相結合,利用更大的計算資源,致力於打造下一代 Qwen 模型,並最終邁向 AGI 目標。
此外,Qwen 團隊還將積極探索 Agent 與 RL 結合,實現更長程的推理能力,解鎖更高級別的智慧。
上周二 (2 月 25 日),阿里也發佈了「Thinking(QwQ)」模型,是一款由 QwQ-Max-Preview 提供支援,基於 Qwen2.5-Max 的推理模型。目前,該模型仍處於預覽階段,具很強的數學理解、編碼、代理等能力。跟 Qwen2.5-Max 相比,它更加智慧,具有更多的創造性。
- 掌握全球財經資訊點我下載APP
延伸閱讀
上一篇
下一篇