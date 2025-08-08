鉅亨網新聞中心 2025-08-08 13:00

GPT-5 的發布無疑是今年 AI 領域的重磅新聞，一經推出便在多項基準測試中稱霸，展現出其在文字、程式設計、數學等方面的頂尖實力。然而，發布會後，用戶社群的反應卻出乎意料地複雜，一場關於「博士級別」承諾與「平庸」現實的激辯悄然展開。

●技術亮點：AI「按需思考」的時代來臨



PT-5 的核心技術突破在於其「按需思考」的能力。它能根據任務難度，自行判斷是否需要進行深度思考，避免了不必要的「過度思考」，大大提升了效率。這一功能在現場演示中表現得淋漓盡致：當被要求解釋簡單的伯努利現象時，模型能快速給出答案；但當需要生成一個動態 SVG 圖來進一步解釋該現象時，它會自動進入深度思考模式，創造出一個可互動的演示，讓學習變得更加生動。

OpenAI 的 CEO Sam Altman 在發布會上豪言，GPT-5 的智能已達「博士級」，與其對話如同與一位在任何領域都擁有博士學位的專家溝通。這不僅體現在其強大的推理能力上，更體現在其「為你做事」的實用性。例如，它能根據你的提示，自動規劃日常行程、發送邀請函、採購生活物資等。

GPT-5 也整合了多種模態能力，特別是在程式設計方面表現突出。它能夠在短短兩分鐘內生成一個帶有標籤、抽認卡和遊戲的法語學習應用，並被明星 AI 編程企業 Cursor 的創辦人 Michael Truell 盛讚，稱其解決複雜編程問題的速度比人類快很多。此外，模型改進的語音功能，使其與人類對話時更顯自然，並能透過引導式教學模式，在教育領域發揮巨大潛力。

基準測試：事實性錯誤減少 80%，性能全面領先

OpenAI 提供的數據顯示，GPT-5 在多項關鍵基準測試中取得了業界領先的成績。

基準測試項目 GPT-5 成績 GPT-4o 成績 SWE-bench (程式設計) 74.9% 69.1% FActScore (事實準確性) 錯誤率極低，表現接近完美 錯誤率相對較高 OpenAI-MRCR (長背景資訊) 表現優異，能有效處理長篇內容 表現較弱 τ2-bench telecom (智能體任務) 96.7% 表現較弱

值得注意的是，GPT-5-pro 版本更是專為專業用戶打造，它透過名為「並行測試時計算」的技術，能夠同時進行多項推理，提供更為全面、高質量的答案。在一個包含 1000 個實際測試的評估中，67.8% 的外部專家更偏好 GPT-5-pro 的回答，且其重大錯誤率降低了 22%，這使得它在健康、科學、數學和程式設計等高要求領域表現尤為出色。

此外，GPT-5 也解決了 GPT 系列模型「阿諛奉承」的問題，透過「安全完成」訓練形式，減少了不必要的過度拒絕，並降低了無意義的表情符號和過度討好的回應。

用戶情緒：期望落差與「炒作過度」的反思

儘管技術數據亮眼，但用戶社群的反應卻呈現出另一番景象。一項對 1500 多條用戶評論的分析顯示，情緒詞彙佔據了 40% 的討論，遠超技術討論的 35%，其中「平庸無奇」、「期望落差」成為最高頻的負面詞彙。

這種期望與現實的鴻溝並非空穴來風。發布會上，OpenAI 的多處「圖表錯誤」成為了用戶質疑的導火索。在展示基準測試結果的柱狀圖中，數值與長條圖的高度明顯不符，這種低級的資料視覺化錯誤，讓用戶對一個以精準性著稱的 AI 公司產生了信任危機。

此外，儘管 OpenAI 承諾 GPT-5 已達「博士級」智能，但「幻覺問題」依然是高頻討論詞彙。有用戶指出，在現場演示中，GPT-5 對伯努利效應的解釋包含了一個經典的物理學謬誤，這與「博士級」所應具備的嚴謹邏輯和準確知識相悖。

這些反饋反映出 AI 產業一個更深層次的問題：科技發展的邊際遞減與行銷造勢的指數成長形成了巨大反差。AI 的發展似乎正在從「指數成長」的黃金時代，轉向「漸進優化」的精細化時代。

產業轉折點：從「講故事」到「解決問題」

GPT-5 的發布標誌著 AI 產業進入了一個新的轉折點。用戶越來越理性，不再輕易被宏大的 AGI 願景所吸引，而是更加關注技術能否真正解決實際問題。

OpenAI 首次向免費用戶開放 GPT-5，這既是面對日益激烈的市場競爭的策略，也是為了獲取更大的用戶基礎來持續優化模型。同時，GPT-5-pro 的出現，也顯示出 OpenAI 開始走向產品分級化，以滿足不同用戶群體的精準需求。