強化學習
國際政經
今年 1 月,梁文鋒帶領團隊打造的 DeepSeek-R1 相關論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》發布,如今該成果成功登上全球頂刊期刊《Nature》封面,並介紹梁文鋒帶隊用高度強化學習 (RL) 為大模型推理能力開闢新路徑的高度成就。
阿里巴巴 (09988-HK)(BABA-US)Qwen 團隊周三 (5 日) 晚間發文宣佈最新研究成果 QwQ-32B 大語言模型,在僅有 DeepSeek-R1 約二十分之一參數量的情況下,用強化學習 (RL) 實現性能上的驚人跨越。Qwen 團隊在部落格文章中提到,他們深入探索 RL 在提升大語言模型智慧方面的巨大潛力,QwQ-32B 的成功發佈,有力地證明 RL 是提升模型性能的強大引擎。
科技
全球最大的教育和科學計算學會 ACM(國際電腦學會)5 日宣布,將 2024 年 ACM A.M. 圖靈獎授予巴托 (Andrew G. Barto) 和薩頓 (Richard S. Sutton),以表彰他們在強化學習 (reinforcement learning) 的概念和演算法基礎方面的開創性發展。
2025-09-18
2025-03-06
2025-03-05