美股

向AI下戰帖！大學考試不夠難科學家廣邀全球出題獲採用可得最高5000美元

鉅亨網編譯許家華2024-09-17 12:09

一組科技專家周一 (16 日) 發出全球召集，尋求最具挑戰性的問題，以測試人工智慧 (AI) 系統，因為這些系統在處理流行基準測試時已顯得輕而易舉。

cover image of news article — (來源：Shutterstock)

這個名為「人類的最後考試」的項目旨在確定專家級 AI 的到來。根據組織者的說法，這個項目希望在未來幾年內，隨著能力的提升，仍然保持其相關性。該項目由非營利組織人工智慧安全中心（CAIS）和初創公司 Scale AI 共同發起。

‌

此前不久，聊天機器人 ChatGPT 製造商 OpenAI 甫推出強大的 AI 新模型 o1。CAIS 執行董事兼馬斯克 xAI 初創公司顧問 Dan Hendrycks 表示，該模型「摧毀了最受歡迎的推理基準」，例如，傳統的數學和邏輯推理測試，AI 系統在這些測試中通常能輕鬆獲得高分。

Hendrycks 在 2021 年與人合著了兩篇論文，提出了對目前廣泛使用的 AI 系統進行測試的方法，其中一篇測試了美國歷史等大學水準的知識，另一篇則探討了模型通過競賽級數學進行推理的能力。比如，AI 系統在美國歷史的問題上，能否正確回答「獨立宣言是什麼時候簽署的？」這類問題。根據在線 AI 平台 Hugging Face 的數據，這種大學式測試下載量超過了任何類似數據集。

在發表這些論文時，人工智慧幾乎對考試問題給出了隨機答案，但如今情況已大為改變，這些問題已不再困住 AI。例如，AI 實驗室 Anthropic 的 Claude 模型在 2023 年大學水準測試中的得分約為 77%，而一年後幾乎達到了 89%。這顯示出 AI 的進步速度之快。

然而，這些常見基準的意義減少了，因為 AI 的表現已經超過了這些測試的難度。根據斯坦福大學的 AI 指數報告，AI 在涉及計劃制定和視覺模式識別的較少使用測試中表現不佳。例如，OpenAI o1 在一個版本的模式識別 ARC-AGI 測試中得分約為 21%，這表明在這些更具挑戰性的任務中，AI 仍然面臨困難。

一些 AI 研究者認為，這些結果顯示計劃和抽象推理是更好的智力衡量標準。例如，能否從一組數據中推導出未來的趨勢，或是解決複雜的邏輯謎題，都是評估 AI 能力的關鍵。Hendrycks 指出，「人類的最後考試」將專注於這類抽象推理。

業內觀察人士指出，常見基準的答案可能已經出現在用於訓練 AI 系統的數據中。Hendrycks 表示，「人類的最後考試」中的某些問題將保持私密，以確保 AI 系統的回答不是來自記憶。

該考試將包括至少 1000 個來自群眾的問題，截止日期為 11 月 1 日，這些問題對於非專家來說相當困難。例如，可能會問「如何設計一個能有效解決氣候變化的政策？」這類問題將經過同行評審，獲勝的投稿將獲得共同作者資格和高達 5000 美元的獎金，該獎金由 Scale AI 贊助。

Scale 的首席執行官 Alexandr Wang 表示：「我們迫切需要更難的測試來衡量專家級模型的快速進展。」他強調，隨著 AI 技術的迅速發展，現有的測試已經無法充分評估其能力。

一項限制是：組織者希望不包括有關武器的問題，因為有人認為這對 AI 的研究來說過於危險。這項考試的設計意在推動 AI 的負責任發展，確保其在安全的範疇內進行挑戰。

‌

文章標籤

AI 測試推理模型

延伸閱讀

鉅亨講座

看更多

講座
公告

上一篇
聯準會利率會議起跑美債殖利率持穩
下一篇
罷工重創月燒10-15億美元波音暫停招聘高層薪資凍漲

向AI下戰帖！大學考試不夠難 科學家廣邀全球出題 獲採用可得最高5000美元

文章標籤

延伸閱讀

鉅亨講座

‌

‌

‌

‌

向AI下戰帖！大學考試不夠難科學家廣邀全球出題獲採用可得最高5000美元