鉅亨網編譯陳韋廷 綜合報導 2025-11-20 17:00

OpenAI 周三 (19 日) 正式發布自家最新的智能編程模型 GPT-5.1-Codex-Max 以及升級版的 GPT-5.1 Pro，這兩項產品被視為該公司在 AI 競賽中的雙重利器，其中 GPT-5.1-Codex-Max 作為專為軟體工程、研究與數學等複雜任務設計的模型，首次引入「壓縮」技術，使其能連續工作超過 24 小時，處理高達數百萬個 token 的任務，標誌著編程模型正式邁向「智能體化」時代。

OpenAI雙箭齊發！GPT-5.1-Codex-Max與GPT-5.1 Pro同步升級 降維打擊谷歌Gemini 3（圖：Shutterstock）

GPT-5.1-Codex-Max 的顯著特點在於其持久的任務處理能力，該模型由 OpenAI 研究科學家 Noam Brown 主導開發，基於最新的推理模型打造，能夠在單一任務中跨越多個上下文窗口運行。

當接近上下文窗口限制時，模型會自動壓縮上下文，保留關鍵資訊，並開啟新的上下文窗口，從而實現長時間的連貫工作。

根據 OpenAI 的內部評估，該模型甚至能針對同一任務持續工作 24 小時，不斷迭代實現、修復測試失敗，並最終交付成功結果。這種能力被視為邁向更通用、更可靠 AI 系統的基礎。

在性能方面，GPT-5.1-Codex-Max 在多項編程基準測試中表現優於前代模型，例如在 SWE-bench Verified 上取得了 77.9% 的高分，在 Terminal-Bench 2.0 等測試中也顯示出顯著提升。

此外，該模型還是 OpenAI 首個專為 Windows 環境設計的編程模型，並在訓練中針對 Codex CLI 協作場景進行了優化，提升了實用性。

效率的提升是另一大亮點。在中等推理強度下，GPT-5.1-Codex-Max 完成任務所使用的思考 token 比前代模型減少約 30%，同時準確性更高。

對於不敏感於延遲但追求質量的任務，用戶還可以開啟超高強度推理模式，讓模型花費更多時間思考以輸出更優解。OpenAI 預計，這種 token 效率的提升將為開發者帶來實際的成本節省。

為了展示模型能力，OpenAI 分享了多個由 GPT-5.1-Codex-Max 開發的網頁應用，其中一個案例是完全運行在瀏覽器中的 CartPole 強化學習沙箱，用戶可以觀看倒立擺的動態，並通過內置的策略梯度控制器訓練模型。該應用還提供神經網絡可視化功能，讓用戶實時觀察模型的權重和激活狀態。

在實現相同功能的前提下，GPT-5.1-Codex-Max 僅使用了 27k token，而前代模型需要 37k token。另一個案例是太陽系重力模擬器，用戶可以通過拖拽和點擊觀察天體運動軌跡，並調節參數直觀理解物理規律。此外，該模型還開發了用於演示折射定律 (Snell"s Law) 的光線折射應用，進一步體現了其在可視化與交互設計上的能力。

用戶體驗方面，許多開發者對新模型表示讚賞，例如英國客製化賀卡公司 Moonpig 的 AI 部門負責人 Peter Gostev 分享稱，GPT-5.1-Codex-Max 在處理金門大橋模擬器任務時，表現出主動性和高效性，遠超以往效果。AI 工程師 Peter Dedene 則提到，模型在處理問題時會自主決定延後處理，顯示出一定的規劃能力。

然而，隨著模型能力提升，安全性也成為關注焦點。OpenAI 強調，GPT-5.1-Codex-Max 目前運行在高度隔離的安全沙盒中，文件寫入僅限自身工作空間，網絡訪問默認關閉，以減少提示詞注入等風險。

與此同時，OpenAI 還悄悄地推出 GPT-5.1 Pro，該模型面向所有 Pro 訂閱用戶開放，主打更清晰、更強大的回答能力，尤其在寫作輔助、數據科學和商業任務方面有顯著提升。

儘管官方未發布詳細內容，但早期測試者反應正面，例如傑克森實驗室教授 Derya Unutmaz 表示，GPT-5.1 Pro 在免疫學問題的回答中，表現出更高的清晰度和洞察力，能讓非專業人士輕鬆理解複雜概念。

第三方評估機構 Epoch AI 的數據也顯示，GPT-5.1 Pro 在高效推理模式下的能力指數與 GPT-5 持平，均為 151 分，表明其性能已接近前代旗艦模型。

HyperWrite AI 執行長 Matt Shumer 在體驗報告中指出，GPT-5.1 Pro 是目前最強大的模型，尤其擅長深度思考和規劃，但回應速度較慢，且僅限於 ChatGPT 界面使用，無法集成到 IDE 或其他工具鏈中。

相比之下，Gemini 3 在日常任務和創意設計上更具優勢，反映出當前 AI 模型在不同場景下的專長分化。

整體來看，OpenAI 的此次發布凸顯編程模型向長時間、自主任務處理的演進趨勢。GPT-5.1-Codex-Max 的壓縮機制和持久工作能力為複雜項目開發提供了新的可能性，而 GPT-5.1 Pro 則在通用智能問答上進一步提升。