鉅亨網編輯林羿君 綜合報導 2025-09-26 14:10

‌



OpenAI 發布了一項新的基準測試，用於比較其 AI 模型與各行業專業人士的工作表現，結果顯示，GPT-5 模型以及競爭對手 Anthropic 的 Claude Opus 4.1「已經接近行業專家的工作品質」。

GPT-5與Claude工作能力驚人！AI測試結果已逼近人類專家水準。(圖:shutterstock)

這項名為 GDPval 的全新基準測試，設計理念根植於美國 GDP 貢獻最大的九大產業，涵蓋了從醫療、金融、製造業到政府部門等廣泛領域。測試鎖定 44 種不同的職業，從軟體工程師、護士到媒體記者，力求模擬真實世界中的專業工作場景。

‌



測試結果顯示，其最新一代模型 GPT-5-high（高算力版本）在 40.6% 的情況下，被評為優於或與行業專家表現相當。這項測試不僅是 OpenAI 邁向通用人工智慧（AGI）的重要一步，更為外界提供了量化衡量 AI 能力的新視角。

測試結果令人振奮，但同時也凸顯了挑戰。其主要競爭對手 Anthropic 公司的 Claude Opus 4.1 模型則以 49% 的勝率，在首輪測試中略勝一籌。OpenAI 對此解釋稱，部分原因是 Claude 在生成圖表時的視覺美觀度更高，而非純粹的效能領先。

OpenAI 表示，在其首版 GDPval-v0 測試中，邀請了資深行業專家擔任評審，對比 AI 生成的工作成果與人類專業人士的產出，並評選出更優者。

舉例來說，一項任務要求投資銀行專業人士為「最後一公里配送業」撰寫競爭格局分析報告，並將其與 AI 產生的報告進行匿名對比。最終，AI 模型在所有 44 個職業中戰勝人類報告的「勝率」被平均計算，作為其綜合表現的依據。

儘管 GPT-5 的表現引人注目，OpenAI 也坦承，GDPval-v0 目前僅涵蓋了專業工作中極為有限的部分——即生成報告。大多數職業的工作內容遠不止於此，而是充滿了複雜的互動、溝通與決策。

對此，OpenAI 承諾未來將不斷迭代 GDPval，開發更全面的測試，以涵蓋更多樣化的產業和更具互動性的工作流程。

OpenAI 首席經濟學家 Aaron Chatterji 強調，GDPval 的意義並非預示著 AI 將立即取代人類，而是證明了 AI 能夠作為強大的輔助工具，為專業人士賦能。他指出：「隨著模型在某些任務上變得越來越熟練，人們可以將部分工作交給 AI，從而有更多時間專注於更有價值、更具創造性的工作。」