menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon

美股

一文讀懂GPT-5.2 : 直指「經濟價值」沒有硬剛Gemini3劇碼

鉅亨網新聞中心

OpenAI 今 (12) 日正式發布其最新的 GPT-5.2 模型,被稱為「迄今為止功能最強大的專業知識工作模型系列」。根據官方文檔,GPT-5.2 的設計初衷是為了「創造更大的經濟價值」,在電子表格處理、演示文稿製作、代碼編寫、圖像感知、長文本理解及複雜多步項目執行等方面均實現了顯著的性能提升。

cover image of news article
(圖:Shutterstock)

為了驗證 GPT-5.2 在真實業務環境中的價值,OpenAI 引入了 GDPval 基準測試,該測試涵蓋了 9 大行業和 44 類職業的 1320 個真實業務場景。官方數據顯示,GPT-5.2 Pro 在 74.1% 的任務中表現超越或持平於人類專家,這一結果引發了業界的廣泛關注。


多家早期合作企業,如 Notion、Databricks 和 Cognition,觀察到 GPT-5.2 在長鏈條推理、數據分析和代碼審查等任務中的錯誤率顯著下降,且一致性與穩定性得到明顯改善,使其更適合作為「公司級智能體」的核心引擎。這些改進使得 GPT-5.2 的應用潛力大幅提升,尤其是在專業知識工作場景中。

在發布前不久,OpenAI 首席執行官 Sam Altman 曾向員工發出「紅色警報」,暗示公司將調集更多資源投入 ChatGPT 的開發。業界對 GPT-5.2 的期待主要集中在其能否與 Google 的 Gemini 3 展開激烈競爭,奪回 SOTA(目前最佳技術)地位。然而,GPT-5.2 的發布並未展現出明顯的「應戰」氣氛,反而顯示出 OpenAI 在商業策略上的沉穩與定力。

GPT-5.2 的官方說明文檔強調了其在「創造更大的經濟價值」方面的核心定位。此次發布包含三款模型:GPT-5.2 Instant(優化響應速度)、GPT-5.2 Thinking(深度推理)和 GPT-5.2 Pro(高端版本),以滿足從日常輕量對話到複雜科研的不同需求。根據新推出的分層 API 定價策略,GPT-5.2 Instant 和 Thinking 的計費標準為每百萬 tokens 1.75 美元的輸入和 14 美元的輸出,而高端版本 Pro 的定價則更高,輸入為每百萬 tokens 21 美元,輸出達 168 美元。

儘管 Pro 版本的單次 token 單價較高,但 OpenAI 強調,GPT-5.2 系列在真實智能體任務中具備更高的 token 使用效率,這意味著在某些企業場景中,完成同等質量的任務整體成本可能會降低。此外,Pro 版本在實際使用中能顯著減少「推理廢話」,使得輸出內容更緊湊精煉,進一步幫助用戶控制使用費用。

在性能評估方面,GPT-5.2 在多項關鍵基準測試中取得了當前公開模型中的最高成績。特別是在數學能力方面,GPT-5.2 Pro 在 AIME 2025 中獲得滿分(100%),並在 ARC-AGI-1 抽象推理測試中首次突破 90%,顯示出其卓越的通用智能水平。此外,GPT-5.2 Thinking 在 SWE-Bench Pro 評測中取得 55.6% 的準確率,顯示其在自動化調試和理解複雜需求方面的潛力。

在長上下文推理能力上,GPT-5.2 Thinking 支持最高 256k tokens 的輸入,並在「四針」檢索任務中實現接近 100% 的準確率,超過了現有商用模型的水平。這一特性使其在長文檔問答、合同審查和多文件工程跨引用等任務中表現出更高的穩定性。

此外,GPT-5.2 在智能體工具調用與視覺理解方面也有顯著增強。在 Tau2-bench Telecom 多輪客服任務的工具調用測試中,GPT-5.2 Thinking 取得 98.7% 的完成度,顯示出其在跨系統複雜操作中的潛力。OpenAI 還強調,該模型在「多工具編排任務」中的表現更穩定,能夠在單次會話中處理二十多個工具調用步驟,並在簡化的系統提示下維持高一致性。

總體而言,GPT-5.2 的發布標誌著 OpenAI 在專業知識工作和企業級應用領域的一次重大進步。隨著這一技術的成熟,OpenAI 將面臨更多的商業期待和挑戰,尤其是在解決現實中的複雜問題時。

GPT-5.2 細節概覽表格
項目 內容
發布日期 2025 年 12 月 12 日
模型名稱 GPT-5.2
核心定位 創造更大的經濟價值
主要功能 電子表格處理、演示文稿製作、代碼編寫、圖像感知、長文本理解、複雜多步項目執行
主要測試 GDPval 基準測試
表現數據 74.1% 任務超越或持平人類專家
模型版本 Instant、Thinking、Pro
定價策略 Instant 與 Thinking:每百萬 tokens 1.75 美元(輸入)、14 美元(輸出)
Pro 版本:每百萬 tokens 21 美元(輸入)、168 美元(輸出)
效率提升 整體成本可能降低
數學能力 AIME 2025 滿分(100%),ARC-AGI-1 突破 90%
長上下文推理能力 支持 256k tokens 輸入,四針檢索接近 100% 準確率
工具調用完成度 Tau2-bench Telecom 多輪客服任務 98.7%

section icon

鉅亨講座

看更多
  • 講座
  • 公告


    Empty
    Empty