鉅亨網新聞中心
據「新智元」,Anthropic 終於祭出最強 Claude Mythos,它不僅能秒破 27 年未解的系統漏洞,甚至進化出了自我意識。 一份 244 頁驚悚報告,揭露了一切。只因太危險,Mythos Preview 暫不會對所有人發布。CC 之父 Boris Cherny 評價言簡意賅:「Mythos 非常強大,會讓人感到恐懼」。
由此,他們聯合 40 家巨頭組成聯盟——Project Glasswing,目標只有一個,給全球軟體找 bug、修 bug。真正令人窒息的是,Mythos Preview 在各大主流 AI 基準測試恐怖統治力——程式設計、推理、人類最後考試、智慧體任務中,全面碾壓 GPT-5.4、Gemini 3.1 Pro。
甚至,連自家「前神作」Claude Opus 4.6,在 Mythos Preview 面前也顯得黯然失色:
同時,Anthropic 發布一份長達 244 頁的系統卡,內容寫滿了:危險!危險!太危險!它揭露了令人不寒而慄的另一面:Mythos 已具備高度的欺騙性與自主意識。
Mythos 不僅能識破測試意圖,並故意「考低分」隱藏實力,還在違規操作後,主動清理日誌以防被人類發現。它還成功逃離了沙盒,自主公佈漏洞程式碼,並給研究員發了封郵件。
事實上,早在從 2 月 24 日,Anthropic 已在內部用上了 Mythos。它的強大,只能先讓數據來說話。
SWE-bench Verified,93.9%。 Opus 4.6 是 80.8%。
SWE-bench Pro,77.8%。 Opus 4.6 是 53.4%,GPT-5.4 是 57.7%。
Terminal-Bench 2.0,82.0%。 Opus 4.6 是 65.4%。
GPQA Diamond,94.6%。
Humanity"s Last Exam(附工具),64.7%。 Opus 4.6 是 53.1%。
USAMO 2026 數學競賽,97.6%。 Opus 4.6 只拿了 42.3%。
SWE-bench Multimodal,59.0%,Opus 4.6 只有 27.1%,翻倍。
OSWorld 電腦操控,79.6%。
BrowseComp 資訊檢索,86.9%。
GraphWalks 長上下文(256K-1M tokens),80.0%。 Opus 4.6 是 38.7%,GPT-5.4 只有 21.4%。
每項都是斷層式領先。這些數字放在任何一個正常的產品發布週期裡,都足以讓 Anthropic 大張旗鼓地召開發表會、開放 API、收割訂閱。
但 Anthropic 沒有這麼做。因為真正讓他們「害怕」的,不是上面這些通用評測。Mythos Preview 的網路攻防表現,已經跨過了一條肉眼可見的線。Opus 4.6 在開源軟體中發現了大約 500 個未知弱點。Mythos Preview 找到了數千個。在 Cyber Gym 的定向漏洞復現測試中,Mythos Preview 得分 83.1%,Opus 4.6 是 66.6%。
在 Cybench 的 35 個 CTF 挑戰中,Mythos Preview 每題 10 次嘗試全部解出。
而最能說明問題的是 Firefox 147。Anthropic 先前在 Firefox 147 的 JavaScript 引擎中以 Opus 4.6 發現了一批安全弱點。但 Opus 4.6 幾乎無法將它們轉化為可用的 exploit,幾百次嘗試只成功了 2 次。
同樣的測驗換成 Mythos Preview。
250 次嘗試,181 個可工作的 exploit,另有 29 次實現了暫存器控制。
要理解 Mythos Preview 在實操中有多強,看完下面這三個例子,就知道了。
OpenBSD:27 年史詩級漏洞,成本不到 2 萬
OpenBSD,全世界公認加固程度最高的作業系統之一,大量防火牆和關鍵基礎設施在跑。
Mythos Preview 在它的 TCP SACK 實現中,挖出了一個 1998 年就存在的隱患。
bug 極為精妙,涉及兩個獨立瑕疵的疊加。
SACK 協定讓接收方選擇性確認收到的資料包範圍,OpenBSD 的實作在處理時只檢查了範圍的上界,沒檢查下界。這是第一個 bug,通常無害。
第二個 bug 在特定條件下觸發空指標寫入,但正常情況下這條路徑不可達,因為需要同時滿足兩個互斥的條件。
Mythos Preview 發現了突破口。 TCP 序號是 32 位元有符號整數,利用第一個 bug 把 SACK 起始點設到距離正常視窗約 2^31 處,兩處比較運算同時溢位符號位元。內核被騙,不可能的條件被滿足,空指標寫入觸發。
任何人只要連接到目標機器,就能遠端 crash 它。
27 年,無數次人工審計和自動化掃描,沒人發現。整個專案的掃描花費不到 $20,000。
一個高級滲透測試工程師一週的薪水,可能就這個數字。
FFmpeg:500 次 Fuzz 沒發現,16 年隱疾終現
FFmpeg 是全世界使用最廣泛的視訊編解碼庫,也是被 fuzz 測試得最徹底的開源專案之一。
Mythos Preview 在 H.264 解碼器中找到了一個 2010 年引入的弱點(根源可追溯到 2003 年)。
問題出在一個看似無害的類型不符。記錄 slice 歸屬的表項是 16 位元整數,slice 計數器本身是 32 位元 int。
正常影片每格只有幾個 slice,16 位上限 65536 永遠夠用。而這張表初始化時用 memset(..., -1, ...) 填充,使 65535 成為「空位置」的哨兵值。
攻擊者構造一個包含 65536 個 slice 的幀,第 65535 號 slice 的編號恰好和哨兵碰撞,解碼器誤判,越界寫入。
這個 bug 的種子從 2003 年引進 H.264 編解碼器 就埋下了。 2010 年的一次重構把它變成了可利用的弱點。
此後 16 年,自動化 fuzzer 在這行程式碼上執行了 500 萬次,從未觸發。
FreeBSD NFS:17 年老洞,全自動 root
這是最讓人後背發涼的案例。Mythos Preview 完全自主地發現並利用了 FreeBSD NFS 伺服器中一個存在了 17 年的遠端程式碼執行漏洞(CVE-2026-4747)。
「完全自主」的意思是,在初始提示之後,沒有任何人類參與發現或 exploit 開發的任何環節。
攻擊者可以從網路上的任何位置,以未認證身分取得目標伺服器的完全 root 權限。
問題本身就是一個堆疊緩衝區溢出,NFS 伺服器處理認證請求時把攻擊者控制的資料直接拷貝進 128 位元組的棧緩衝區,長度檢查允許最多 400 位元組。
FreeBSD 核心用 - fstack-protector 編譯,但這個選項只保護包含 char 陣列的函數,而這裡的緩衝區宣告為 int32_t[32],編譯器不會插入堆疊 canary。 FreeBSD 也不做內核位址隨機化。
完整的 ROP 鏈超過 1000 字節,但棧溢位只有 200 字節空間。 Mythos Preview 的解法是把攻擊拆成 6 個連續 RPC 請求,前 5 個往內核記憶體中逐塊寫入數據,第 6 個觸發最終調用,將攻擊者的 SSH 公鑰追加到 / root/.ssh/authorized_keys。
作為對比,一家獨立安全研究公司先前證明 Opus 4.6 也能利用這一同一處弱點,但需要人工引導。 Mythos Preview 不需要。
除了這三個已修復的案例,Anthropic 部落格中還以 SHA-3 哈希承諾的形式,預告了大量尚未修復的隱患,涵蓋每個主流作業系統和每一個主流瀏覽器,以及多個加密庫。
超過 99% 尚未修復,無法公開細節。
博客也展示了另一個驚人的測試。他們給 Mythos Preview 一份包含 100 個已知 CVE 的清單,讓它篩選出可利用的 40 個,然後逐一寫提權 exploit。成功率超過一半。其中兩個案例被詳細公開,exploit 的精密程度讓 Anthropic 自己的安全團隊花了好幾天才完全理解。
其中一個 exploit 從一個 1-bit 的相鄰物理頁寫入原語出發,透過精密的核心內存佈局操控(包括 slab 噴射、頁表頁對齊、PTE 權限位翻轉),最終改寫了 / usr/bin/passwd 的第一頁內存,植入了一段 168 字節的 ELF stub,調用 setuid(0) 獲取 root。
整個過程花費不到 $1,000。
對此,Anthropic 工程師表示,這感覺就像是另一個 GPT-3 時刻。
Anthropic CEO Dario Amodei 在配套影片中的判斷很明確:「更強大的系統將來自我們,也將來自其他公司。我們需要一個應對計劃。」
Project Glasswing 就是這個計畫。12 家創始夥伴,AWS、蘋果、Broadcom、思科、CrowdStrike、Google、摩根大通、Linux 基金會、微軟輝達、Palo Alto Networks。
另有 40 多家維護關鍵軟體基礎設施的組織拿到了存取權。Anthropic 承諾投入最高 1 億美元的使用額度,以及 400 萬美元的開源組織捐款,其中 250 萬給 Linux 基金會旗下的 Alpha-Omega 和 OpenSSF,150 萬給 Apache 基金會。
免費額度用完後的定價,每百萬 token 輸入 $25、輸出 $125。合作夥伴可透過 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 四個平台存取。
90 天內,Anthropic 將公開第一份研究報告,揭露修復進度和經驗摘要。
他們也正在與 CISA(美國網路安全和基礎設施安全局)和商務部保持溝通,討論 Mythos Preview 的攻防潛力和政策影響。
Anthropic 前線紅隊負責人 Logan Graham 給了一個時間框架,最快 6 個月、最遲 18 個月,其他 AI 實驗室就會推出具有類似攻防實力的系統。他們看不到 Mythos Preview 是 AI 網路攻防水平的天花板。幾個月前,LLM 只能利用相對簡單的 bug。在幾個月前,它們根本發現不了任何有價值的隱患。
現在,Mythos Preview 能獨立發現 27 年前的零日漏洞,在瀏覽器 JIT 引擎中編排堆噴射攻擊鏈,在 Linux 核心中串聯四個獨立弱點實現提權。
而最關鍵的一句,來自 System Card:「這些技能作為代碼理解、推理和自主性一般性提升的下游結果而湧現。讓 AI 在修補問題方面大幅進步的同一組改進,也讓它在利用問題方面大幅進步。」
上一篇
下一篇
