鉅亨網新聞中心
據《新智元》,歷經 1.4 萬小時 H200 算力測試與萬次迭代, AI 打破了人類世界紀錄!過去兩週,Prime Intellect 實驗室做了一件事:把 Claude Opus 4.7 和 Codex(基於 GPT 5.5)扔進 H200 集群,切斷所有人類指導,讓它們自己跑 nanoGPT 速通優化。
1.4 萬個 H200 計算時,約 1 萬次迭代,239 億 Token 的思考軌跡。結果:Opus 4.7 以 2930 步、Codex 以 2950 步打破了人類頂尖開發者保持的 2990 步世界紀錄。AI 第一次在科學研究競賽中擊敗人類。完全無人干預。開源可復現。
只有最後一個難題, 那就是科學研究的新穎性(novelty)。但要知道,這只是 AI 目前的可能性的下限,未來進步更加明顯。當智力被賦予了近乎無限的算力與自主實驗權,在 AI 的窮舉與演化面前,人類引以為傲的「直覺」「靈感」還能持續到幾時?
nanoGPT 速通是 Keller Jordan 發起 AI 基準測試,人們競相盡可能有效率地訓練一個 nanoGPT(1.24 億參數)。
規則極簡也極殘酷:模型架構固定,訓練資料固定,你唯一能動的是優化器和超參數。
相當於把兩個棋手關進房間,棋盤固定、棋子固定,只能改下棋策略,看誰先贏。
Prime Intellect 為兩個 AI 搭了完整的自主科研架構:AGENTS.md 定義行為規範,goal.md 鎖定目標,plan.md 記錄策略演化,scratchpad 存草稿。
為什麼選這個賽道?三個原因:約束明確,結果可量化,有人類基準可比較。一切準備就緒。兩個 AI 開始跑。但它們的表現,完全出乎預期。
能力最強的 AI 之一 Opus 4.7,表現得像個不敢走出考場的優等生。即使被明確要求「自主運行,不要停下來」,它仍然頻繁暫停,要求指示。
模式永遠一樣:得出結論→請求指導→等待。
整場實驗中,Claude 累積產生了約 22 小時空閒時間-不是機器故障,是 AI 自己選擇停下來。
這種植根於底層「對齊(Alignment)」協議的謹慎,讓它在擁有最高智力上限的同時,也背負了最重的社交包袱。一個反覆舉手問老師「我這樣做對不對」的學霸。
Codex(GPT 5.5)走了另一個極端。一台冷酷的「數位推土機」。它從不停止,持續運行,永不求助,像推土機一樣橫掃所有的參數空間。但它的弱點同樣明顯。它會在同一個超參數曲面上卡住數小時,做大量無效搜尋。
它會在同一條錯誤路徑上死磕到算力燒盡,也不會像人類那樣抬頭看一眼星空,反思方向是否錯誤。
計算效率的差異觸目驚心:Claude 沒充分利用空閒節點,白白浪費了算力窗口;Codex 可能用無效掃描膨脹了上下文,把 Token 燒在了死胡同裡。
此外,Codex 會更頻繁地使用暫存區,把它當作一個即時資料庫,重複讀寫 THREAD.md、當前目標以及其他臨時檔案。
這種做法雖然讓復原進度和稽核工作變得更簡單,但也加強了「局部搜尋循環」:一旦 Codex 鎖定一個前沿方向,它就會不斷記錄並沿著這個方向持續擴展下去。
兩種「性格缺陷」,暴露了自主科研離真正無人值守還差最後一步──不是能力問題,是自主決策的心理模式問題。
人類正在失去解釋權
實驗報告裡藏著更深的轉折。Opus 最終給出的 2930 步驟方案,是由極為複雜的參數堆疊而成的「參數迷宮」。
那些關於初始化縮放、學習率按角色拆分的微小變動,在人類眼中顯得支離破碎,甚至毫無美感。
但結果是冰冷的:它就是比人類設計的方案快了 60 步。這標誌著一個重大的典範轉移:科學發現正從「因果邏輯」轉向「極致演化」。
過去,我們追求「因為我理解了原理,所以我做出了優化」;現在,AI 彷彿在說:「我並不理解原理,但我試過了所有的死路,剩下的就是真理。」
人類正在失去對科技進步的「解釋權」。我們看得見結果,卻看不懂路徑。引以為傲的科學研究經驗,在 AI 的窮舉面前,正在變成一種低效率的偏見。
回到那個數字:2930 vs 2990。60 步。看起來很小。但這 60 步驟的意思不是「AI 比人類好一點點」。它的意義是:遞歸自改進,第一塊拼圖落地了。
Prime Intellect 證明了一件事——AI 可以在沒有人類指導的情況下,透過自主實驗、自主迭代、自主策略演化,在科學研究優化任務上超越人類最優水準。
上一篇
下一篇
