FormulaOne
科技
先進 AI 模型真能達到博士級推理水準嗎?谷歌、OpenAI 旗下模型先前雖在數學奧林匹克 (IMO) 測試中斬獲金牌,讓不少人認為大語言模型 (LLM) 或許已具備攻克博士級科研難題的推理能力,但現實或許並非如此樂觀。AI 媒體《機器之心》報導,專注於超智慧和高級 AI 系統研究的機構 AA-I Technologies,近期推出名為 FormulaOne 的新基準測試,讓一票大模型集體「翻車」。
2025-08-15
科技
先進 AI 模型真能達到博士級推理水準嗎?谷歌、OpenAI 旗下模型先前雖在數學奧林匹克 (IMO) 測試中斬獲金牌,讓不少人認為大語言模型 (LLM) 或許已具備攻克博士級科研難題的推理能力,但現實或許並非如此樂觀。AI 媒體《機器之心》報導,專注於超智慧和高級 AI 系統研究的機構 AA-I Technologies,近期推出名為 FormulaOne 的新基準測試,讓一票大模型集體「翻車」。