menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

強化學習





    2025-03-06
  • 阿里巴巴 (09988-HK)(BABA-US)Qwen 團隊周三 (5 日) 晚間發文宣佈最新研究成果 QwQ-32B 大語言模型,在僅有 DeepSeek-R1 約二十分之一參數量的情況下,用強化學習 (RL) 實現性能上的驚人跨越。Qwen 團隊在部落格文章中提到,他們深入探索 RL 在提升大語言模型智慧方面的巨大潛力,QwQ-32B 的成功發佈,有力地證明 RL 是提升模型性能的強大引擎。






  • 2025-03-05
  • 科技

    全球最大的教育和科學計算學會 ACM(國際電腦學會)5 日宣布,將 2024 年 ACM A.M. 圖靈獎授予巴托 (Andrew G. Barto) 和薩頓 (Richard S. Sutton),以表彰他們在強化學習 (reinforcement learning) 的概念和演算法基礎方面的開創性發展。






  • 2025-01-27
  • 美股

    網路上出現了一波重現 DeepSeek 的狂潮。加州大學柏克萊分校、香港科大、HuggingFace 等紛紛成功重現,只用強化學習,沒有監督微調,30 美元就能見證「啊哈時刻」。全球 AI 大模型正在進入下一分水嶺。來自加州大學伯克萊分校的博士生潘家怡和另兩位研究人員,在 CountDown 遊戲中重現了 DeepSeek R1-Zero。