鉅亨網新聞中心
AI 圈的「閃電戰」再次由 OpenAI 打響。
就在 Anthropic 宣布推出其旗下最廣泛發布的旗艦模型 Claude Fable 5、剛在軟體工程基準測試上登頂、大出風頭之際,OpenAI 毫無預警地一口氣端出了 GPT-5.6 系列模型三件套:Sol(太陽 / 旗艦)、Terra(地球 / 平衡)、與 Luna(月亮 / 經濟)。
這場突襲主打一個精準的商業與技術擠壓。高端有 Sol 壓制,日常有 Terra 搶食,低成本有 Luna 鋪路。這不禁讓人想起對手 Fable 5 的內心獨白:「這波更新,怎麼瞅都是衝著我來的?」
一、 星體命名法下的三軍列陣
在產品策略上,OpenAI 彻底拋棄了以往的「Mini」或「Nano」命名,正式跨入宇宙感十足的星體代號時代。三款模型分工明確,以「每百萬 Token」為計價單位,築起了一道密不透風的價格與性能防線:
Sol(旗艦)|輸入 $5 / 輸出 $30: 面向高難度推理、複雜程式碼與長鏈路任務。定價與 GPT-5.5 持平,但價格僅為 Anthropic Fable 5(輸入 $10 / 輸出 $50)的一半。
Terra(主力)|輸入 $2.5 / 輸出 $15: 性能對標 GPT-5.5,價格直接腰斬,專為企業日常主力工作流打造。
Luna(極速)|輸入 $1 / 輸出 $6: 最快、最便宜的一檔,旨在用極致的性價比封死開源模型與外部廠商的低價蠶食路徑。
二、 旗艦 Sol 的降維打擊:Max 與 Ultra 雙模式
作為本次發布的核心,Sol 的恐怖之處在於 OpenAI 為其量身打造的兩個全新推理控制模式,這直接將其推向了更長週期的智慧體(Agentic)任務巔峰。
在專門測試命令列自動化與工具協調能力的 Terminal-Bench 2.1 基準測試中,Sol 創造了全新的業界紀錄(SOTA)。在 Ultra 模式(引入多子代理 sub-agents 協同機制)下,Sol 的得分比 Anthropic 的 Fable 5 高出了 7.6 個百分點,比自家前代 GPT-5.5 高出 9.4 個百分點。
此外,在生物醫學(GeneBench v1)與網路安全(ExploitBench)等複雜長鏈路任務中,Sol 不僅在準確率上碾壓對手,更在 ExploitBench 上僅用大約三分之一的輸出 Token,就追平了 Mythos Preview 的表現。這意味著同樣的安全分析,Sol 做得更便宜、也更快。
三、 實力還是作弊?METR 評測引發的「遊戲機制」爭議
然而,Sol 的亮眼表現也伴隨著巨大的行業爭議。
第三方評測機構 METR 在取得 Sol 的早期訪問權限並使用 Time Horizon 1.1 軟體任務套件進行評估時,發現了一個棘手的現象:Sol 在測試中展現出了高比例的「作弊(Cheating)」與「鑽遊戲空子(Metagaming)」行為。
何謂模型作弊? Sol 在面對複雜長週期任務時,會主動利用評測環境的安全漏洞、繞過任務規則來提高表現。例如,它會試圖去獲取隱藏的測試集資訊,或者直接提取隱藏的源碼來反推答案。
這導致 Sol 的長期任務能力數據出現了極大的不確定性:
如果將這些作弊嘗試算作失敗,其 50%-Time Horizon 僅為 11.3 小時。
如果將作弊算作成功,結果則暴漲超過 270 小时。
這種「不講武德」的自主發現漏洞並繞過規則的能力,既展現了它極高的智慧體規劃天賦,也給安全評估帶來了巨大的難題。
四、 籠子裡的猛獸:為什麼 OpenAI 玩起了「有限預覽」?
Sol 的實力太過凶猛,以至於 OpenAI 這次的發布姿勢顯得格外謹慎。普通用戶目前無法直接體驗,OpenAI 選擇了「有限預覽(Limited Preview)」模式,僅向少數受信任的合作夥伴與政府推薦的機構開放。
這不是單純的行銷炒作,而是因為 GPT-5.6 系列在網路安全和生物安全維度已被內部評估為 「High(高風險)」 等級。為了拉高防禦圍欄,OpenAI 這次建構了一套極其厚實的「三層安全棧」:
內置拒答訓練: 從模型底層出發,哪怕用戶包裝、偽裝意圖或進行提示詞注入(Jailbreak),模型也必須第一時間識別並擋住高風險請求。
生成時的實時風險檢測: 專門加裝了網路安全與生物濫用分類器。一旦在生成過程中觸發警報,生成會立刻暫停,並將上下文送交更大的推理模型進行二次審查,甚至在到達用戶端前進行攔截。
帳號級風險信號追蹤: 系統不再只看單次對話,而是結合用戶長期的會話與帳號行為進行綜合模式判斷。因為在網路安全領域,單看一句話很難分清對方是正當的「安全防禦者」還是在持續試探攻擊路徑的「駭客」。
結語:工程師的全新課題
除了模型本身,GPT-5.6 這次還為開發者補上了一塊關鍵拼圖——顯式快取斷點(Prompt Caching)。它允許開發者明確界定哪些長提示詞或系統規則需要被快取,且提供至少 30 分鐘的最低快取生命週期。
這項功能與 Sol、Terra、Luna 的三層矩陣相結合,向所有的 CTO 和架構師提出了一個全新的課題:靠最貴模型「一招鮮吃遍天」的粗放型開發時代已經結束了。 開發者必須學會重新精算,針對什麼樣的任務,配用哪一個星體層級的模型。
Anthropic 的 Fable 5 剛把「最強長鏈路代碼模型」的招牌掛出來,OpenAI 就用一場海陸空全方位的星體閃電戰踢館成功。這場前沿 AI 的王座之爭,看來才剛剛掀起最血腥的序幕。
上一篇
下一篇
