科技

更便宜、更聰明！Anthropic新模型Opus 4.5亮相三大技術突破一次看

鉅亨網新聞中心2025-11-25 16:02

Anthropic 周一 (24 日) 發布其頂級大型語言模型 Claude Opus 4.5。該模型在程式設計、系統級任務和複雜推理方面樹立了新的行業標竿，並同步帶來全面升級的工具鏈、應用整合，以及卓越的執行效率，旨在為全球開發者和企業用戶提供「更聰明、更省心」的 AI 解決方案。

Claude Opus 4.5 展現了驚人的技術飛躍：

‌

程式設計能力刷新紀錄： Opus 4.5 是首個在真實場景軟體工程測試 SWE-Bench Verified 中得分超過 80% 的模型，超越了所有已公開的模型。其程式碼品質全面升級，在 SWE-bench Multilingual 涵蓋的八種程式語言中，有七種表現拔得頭籌。

超越人類表現： 在 Anthropic 內部用於招募性能工程師的高難度測試題中，Opus 4.5 在規定的兩小時內得分超過了所有人類候選人。

深度理解與創意推理： 模型對「模糊需求」的理解力得到顯著提升，能夠更穩定地自行定位複雜錯誤。在智能體能力測驗中，Opus 4.5 甚至能想出跳脫預期答案框架的巧妙解決方案，展現出高度的創意解決問題能力。

除了軟體工程，Opus 4.5 在視覺、推理和數學等領域的整體能力均超越前代模型，多個重要領域達到業界領先水平。

Opus 4.5 在提升能力的同時，顯著降低了運行成本和所需 tokens 數量，能以更少的步驟實現相同或更優的結果。

為此，Anthropic 在 API 中新增了 effort 參數，讓開發者能根據任務需求靈活選擇：優先節省時間和成本，或最大化模型能力。在設定為中等 effort 等級時，Opus 4.5 在特定測試中，能在保持效能的同時，將輸出 tokens 數減少高達 76%。

針對複雜的 AI 智慧代理（Agent）任務，Anthropic 推出三項關鍵升級：

Tool Search Tool（工具搜尋）： 解決了傳統方式中將所有工具定義塞入上下文導致 tokens 過載的問題。該功能允許 Claude 按需動態發現工具，將 tokens 使用量減少約 85%，大幅提升了代理系統在複雜環境中的準確度。
Programmatic Tool Calling（程式化工具調用）： 讓 Claude 能在程式碼中直接呼叫工具，提高效率。
Tool Use Examples（工具使用範例）： 透過範例而非 JSON schemas 統一標準，簡化工具正確使用。