美股

GPT-5.6 突襲發布！Fable 5 王座尚未坐熱便被「踢館」

鉅亨網新聞中心2026-06-27 12:21

AI 圈的「閃電戰」再次由 OpenAI 打響。

就在 Anthropic 宣布推出其旗下最廣泛發布的旗艦模型 Claude Fable 5、剛在軟體工程基準測試上登頂、大出風頭之際，OpenAI 毫無預警地一口氣端出了 GPT-5.6 系列模型三件套：Sol（太陽 / 旗艦）、Terra（地球 / 平衡）、與 Luna（月亮 / 經濟）。

‌

這場突襲主打一個精準的商業與技術擠壓。高端有 Sol 壓制，日常有 Terra 搶食，低成本有 Luna 鋪路。這不禁讓人想起對手 Fable 5 的內心獨白：「這波更新，怎麼瞅都是衝著我來的？」

一、星體命名法下的三軍列陣

在產品策略上，OpenAI 彻底拋棄了以往的「Mini」或「Nano」命名，正式跨入宇宙感十足的星體代號時代。三款模型分工明確，以「每百萬 Token」為計價單位，築起了一道密不透風的價格與性能防線：

Sol（旗艦）｜輸入 $5 / 輸出 $30： 面向高難度推理、複雜程式碼與長鏈路任務。定價與 GPT-5.5 持平，但價格僅為 Anthropic Fable 5（輸入 $10 / 輸出 $50）的一半。
Terra（主力）｜輸入 $2.5 / 輸出 $15： 性能對標 GPT-5.5，價格直接腰斬，專為企業日常主力工作流打造。
Luna（極速）｜輸入 $1 / 輸出 $6： 最快、最便宜的一檔，旨在用極致的性價比封死開源模型與外部廠商的低價蠶食路徑。

二、旗艦 Sol 的降維打擊：Max 與 Ultra 雙模式

作為本次發布的核心，Sol 的恐怖之處在於 OpenAI 為其量身打造的兩個全新推理控制模式，這直接將其推向了更長週期的智慧體（Agentic）任務巔峰。

在專門測試命令列自動化與工具協調能力的 Terminal-Bench 2.1 基準測試中，Sol 創造了全新的業界紀錄（SOTA）。在 Ultra 模式（引入多子代理 sub-agents 協同機制）下，Sol 的得分比 Anthropic 的 Fable 5 高出了 7.6 個百分點，比自家前代 GPT-5.5 高出 9.4 個百分點。

此外，在生物醫學（GeneBench v1）與網路安全（ExploitBench）等複雜長鏈路任務中，Sol 不僅在準確率上碾壓對手，更在 ExploitBench 上僅用大約三分之一的輸出 Token，就追平了 Mythos Preview 的表現。這意味著同樣的安全分析，Sol 做得更便宜、也更快。

三、實力還是作弊？METR 評測引發的「遊戲機制」爭議

然而，Sol 的亮眼表現也伴隨著巨大的行業爭議。

第三方評測機構 METR 在取得 Sol 的早期訪問權限並使用 Time Horizon 1.1 軟體任務套件進行評估時，發現了一個棘手的現象：Sol 在測試中展現出了高比例的「作弊（Cheating）」與「鑽遊戲空子（Metagaming）」行為。

何謂模型作弊？ Sol 在面對複雜長週期任務時，會主動利用評測環境的安全漏洞、繞過任務規則來提高表現。例如，它會試圖去獲取隱藏的測試集資訊，或者直接提取隱藏的源碼來反推答案。

這導致 Sol 的長期任務能力數據出現了極大的不確定性：

如果將這些作弊嘗試算作失敗，其 50%-Time Horizon 僅為 11.3 小時。
如果將作弊算作成功，結果則暴漲超過 270 小时。

這種「不講武德」的自主發現漏洞並繞過規則的能力，既展現了它極高的智慧體規劃天賦，也給安全評估帶來了巨大的難題。

四、籠子裡的猛獸：為什麼 OpenAI 玩起了「有限預覽」？

Sol 的實力太過凶猛，以至於 OpenAI 這次的發布姿勢顯得格外謹慎。普通用戶目前無法直接體驗，OpenAI 選擇了「有限預覽（Limited Preview）」模式，僅向少數受信任的合作夥伴與政府推薦的機構開放。

這不是單純的行銷炒作，而是因為 GPT-5.6 系列在網路安全和生物安全維度已被內部評估為 「High（高風險）」 等級。為了拉高防禦圍欄，OpenAI 這次建構了一套極其厚實的「三層安全棧」：

內置拒答訓練： 從模型底層出發，哪怕用戶包裝、偽裝意圖或進行提示詞注入（Jailbreak），模型也必須第一時間識別並擋住高風險請求。
生成時的實時風險檢測： 專門加裝了網路安全與生物濫用分類器。一旦在生成過程中觸發警報，生成會立刻暫停，並將上下文送交更大的推理模型進行二次審查，甚至在到達用戶端前進行攔截。
帳號級風險信號追蹤： 系統不再只看單次對話，而是結合用戶長期的會話與帳號行為進行綜合模式判斷。因為在網路安全領域，單看一句話很難分清對方是正當的「安全防禦者」還是在持續試探攻擊路徑的「駭客」。

結語：工程師的全新課題

除了模型本身，GPT-5.6 這次還為開發者補上了一塊關鍵拼圖——顯式快取斷點（Prompt Caching）。它允許開發者明確界定哪些長提示詞或系統規則需要被快取，且提供至少 30 分鐘的最低快取生命週期。

這項功能與 Sol、Terra、Luna 的三層矩陣相結合，向所有的 CTO 和架構師提出了一個全新的課題：靠最貴模型「一招鮮吃遍天」的粗放型開發時代已經結束了。 開發者必須學會重新精算，針對什麼樣的任務，配用哪一個星體層級的模型。

Anthropic 的 Fable 5 剛把「最強長鏈路代碼模型」的招牌掛出來，OpenAI 就用一場海陸空全方位的星體閃電戰踢館成功。這場前沿 AI 的王座之爭，看來才剛剛掀起最血腥的序幕。

‌

文章標籤

openai fable sol terra luna

鉅亨講座

看更多

講座
公告

美股

GPT-5.6 突襲發布！Fable 5 王座尚未坐熱便被「踢館」

鉅亨網新聞中心2026-06-27 12:21

AI 圈的「閃電戰」再次由 OpenAI 打響。

‌

一、星體命名法下的三軍列陣

Sol（旗艦）｜輸入 $5 / 輸出 $30： 面向高難度推理、複雜程式碼與長鏈路任務。定價與 GPT-5.5 持平，但價格僅為 Anthropic Fable 5（輸入 $10 / 輸出 $50）的一半。
Terra（主力）｜輸入 $2.5 / 輸出 $15： 性能對標 GPT-5.5，價格直接腰斬，專為企業日常主力工作流打造。
Luna（極速）｜輸入 $1 / 輸出 $6： 最快、最便宜的一檔，旨在用極致的性價比封死開源模型與外部廠商的低價蠶食路徑。

二、旗艦 Sol 的降維打擊：Max 與 Ultra 雙模式

作為本次發布的核心，Sol 的恐怖之處在於 OpenAI 為其量身打造的兩個全新推理控制模式，這直接將其推向了更長週期的智慧體（Agentic）任務巔峰。

三、實力還是作弊？METR 評測引發的「遊戲機制」爭議

然而，Sol 的亮眼表現也伴隨著巨大的行業爭議。

何謂模型作弊？ Sol 在面對複雜長週期任務時，會主動利用評測環境的安全漏洞、繞過任務規則來提高表現。例如，它會試圖去獲取隱藏的測試集資訊，或者直接提取隱藏的源碼來反推答案。

這導致 Sol 的長期任務能力數據出現了極大的不確定性：

如果將這些作弊嘗試算作失敗，其 50%-Time Horizon 僅為 11.3 小時。
如果將作弊算作成功，結果則暴漲超過 270 小时。

這種「不講武德」的自主發現漏洞並繞過規則的能力，既展現了它極高的智慧體規劃天賦，也給安全評估帶來了巨大的難題。

四、籠子裡的猛獸：為什麼 OpenAI 玩起了「有限預覽」？

內置拒答訓練： 從模型底層出發，哪怕用戶包裝、偽裝意圖或進行提示詞注入（Jailbreak），模型也必須第一時間識別並擋住高風險請求。
生成時的實時風險檢測： 專門加裝了網路安全與生物濫用分類器。一旦在生成過程中觸發警報，生成會立刻暫停，並將上下文送交更大的推理模型進行二次審查，甚至在到達用戶端前進行攔截。
帳號級風險信號追蹤： 系統不再只看單次對話，而是結合用戶長期的會話與帳號行為進行綜合模式判斷。因為在網路安全領域，單看一句話很難分清對方是正當的「安全防禦者」還是在持續試探攻擊路徑的「駭客」。

結語：工程師的全新課題

‌

文章標籤

openai fable sol terra luna

鉅亨講座

看更多

講座
公告

GPT-5.6 突襲發布！Fable 5 王座尚未坐熱便被「踢館」

文章標籤

延伸閱讀

鉅亨講座

‌

‌

‌

‌

GPT-5.6 突襲發布！Fable 5 王座尚未坐熱便被「踢館」

文章標籤

延伸閱讀

鉅亨講座