menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon

科技

更便宜、更聰明!Anthropic新模型Opus 4.5亮相 三大技術突破一次看

鉅亨網新聞中心

Anthropic 周一 (24 日) 發布其頂級大型語言模型 Claude Opus 4.5。該模型在程式設計、系統級任務和複雜推理方面樹立了新的行業標竿,並同步帶來全面升級的工具鏈、應用整合,以及卓越的執行效率,旨在為全球開發者和企業用戶提供「更聰明、更省心」的 AI 解決方案。

cover image of news article
更便宜、更聰明!Anthropic新模型Opus 4.5亮相 三大技術突破一次看。(圖:shutterstock)

Claude Opus 4.5 展現了驚人的技術飛躍:


程式設計能力刷新紀錄: Opus 4.5 是首個在真實場景軟體工程測試 SWE-Bench Verified 中得分超過 80% 的模型,超越了所有已公開的模型。其程式碼品質全面升級,在 SWE-bench Multilingual 涵蓋的八種程式語言中,有七種表現拔得頭籌。

超越人類表現: 在 Anthropic 內部用於招募性能工程師的高難度測試題中,Opus 4.5 在規定的兩小時內得分超過了所有人類候選人。

深度理解與創意推理: 模型對「模糊需求」的理解力得到顯著提升,能夠更穩定地自行定位複雜錯誤。在智能體能力測驗中,Opus 4.5 甚至能想出跳脫預期答案框架的巧妙解決方案,展現出高度的創意解決問題能力。

除了軟體工程,Opus 4.5 在視覺、推理和數學等領域的整體能力均超越前代模型,多個重要領域達到業界領先水平。

Opus 4.5 在提升能力的同時,顯著降低了運行成本和所需 tokens 數量,能以更少的步驟實現相同或更優的結果。

為此,Anthropic 在 API 中新增了 effort 參數,讓開發者能根據任務需求靈活選擇:優先節省時間和成本,或最大化模型能力。在設定為中等 effort 等級時,Opus 4.5 在特定測試中,能在保持效能的同時,將輸出 tokens 數減少高達 76%。

針對複雜的 AI 智慧代理(Agent)任務,Anthropic 推出三項關鍵升級:

  1. Tool Search Tool(工具搜尋): 解決了傳統方式中將所有工具定義塞入上下文導致 tokens 過載的問題。該功能允許 Claude 按需動態發現工具,將 tokens 使用量減少約 85%,大幅提升了代理系統在複雜環境中的準確度。
  2. Programmatic Tool Calling(程式化工具調用): 讓 Claude 能在程式碼中直接呼叫工具,提高效率。
  3. Tool Use Examples(工具使用範例): 透過範例而非 JSON schemas 統一標準,簡化工具正確使用。
桌面應用與「無盡對話」功能上線

隨著 Opus 4.5 的發布,Claude 的應用生態系統也實現了全線鋪開,大幅提升了用戶體驗:

無盡對話(Endless Conversation): 針對 Max 和 Team Premium 用戶,Claude 會在對話超過上下文視窗限制時自動總結早期上下文,讓對話持續進行,不再中斷。

Claude Code 桌面應用程式: 允許用戶同時運行多個本機或遠端會話,例如一個智能體修復程式碼,另一個檢索資料,第三個更新專案文件。

計劃模式(Plan Mode): Claude Code 現在能生成更精確的執行計劃,並在操作前主動提出澄清性問題,確保任務執行符合用戶預期。

生態系統擴展: Claude for Chrome 已向所有 Max 用戶開放,Claude for Excel 的 Beta 測試範圍也擴大到 Max、Team 和 Enterprise 使用者。

Anthropic 研究產品管理負責人 Dianne Na Penn 表示:「我們在 Opus 4.5 的訓練過程中提升了對長上下文的整體處理能力,但關鍵在於『知道哪些資訊值得記住』。這些改進結合起來,顯著提升了模型在深度研究和智能體任務中的表現。」

Claude Opus 4.5 現已全面開放,可透過應用程式、API,以及三大主流雲端平台使用。開發者可透過呼叫 claude-opus-4-5-20251101 啟用新模型。


文章標籤

section icon

鉅亨講座

看更多
  • 講座
  • 公告


    Empty
    Empty