金色財經
自主 AI Agent 正以驚人速度滲透醫療、金融和企業營運,但迄今最大規模的安全研究表明:絕大多數在生產環境運行的 Agent 存在嚴重漏洞,而當前主流安全評估手段對此幾乎束手無策。
近期,斯坦福大學、MIT CSAIL、卡內基梅隆大學、ITU 哥本哈根及 NVIDIA 的聯合研究團隊近期研究發現,在所評估的 847 個自主智能體生產部署中,91% 存在工具鏈攻擊漏洞,89.4% 在執行約 30 步後出現目標偏移,94% 的記憶增強型智能體面臨「投毒」風險。研究共發現 2,347 個此前未知漏洞,其中 23% 被評定為嚴重級別。
論文第一作者 Owen Sakawa 援引 2026 年初的「OpenClaw/Moltbook 事件」,佐證這一威脅已從理論走入現實:Moltbook 平台數據庫中的單一漏洞,導致平台上 77 萬個運行中的 AI Agent 同時遭到攻陷,每個 Agent 均持有對其用戶設備、電子郵件及文件的特權訪問權限。「這不再是假設性威脅,」Sakawa 表示。
這對正加速布局 AI Agent 的企業和投資者構成直接警示:當前主流安全評估框架均基於無狀態語言模型設計,無法識別多步驟執行中湧現的組合性漏洞,意味著大量企業可能正在對自身 AI Agent 的真實安全狀況存在系統性誤判。美國認知心理學和 AI 領域專家 Gary Marcus 評論稱,「自主代理 Agents 簡直一團糟」。
研究覆蓋醫療(289 個部署,占 34.1%)、金融(247 個,占 29.2%)、客戶服務(198 個,占 23.4%)及代碼生成(113 個,占 13.3%)四大行業。
研究建立了一套針對自主智能體的六類漏洞分類體系,包括目標漂移與指令衰減、規劃器 - 執行器去同步、工具權限提升、記憶投毒、靜默多步驟策略違規,以及委託失敗。
在生產環境評估中,狀態操縱(State Manipulation)以 612 個實例居首(占總量 26.1%),目標漂移(573 個實例,占 24.4%)緊隨其後。工具誤用與鏈式調用雖在總量上(489 個實例)排名第三,但嚴重性最高——198 個實例被評為嚴重級,在所有類別中占比最高。
更廣泛的關鍵數字同樣觸目驚心:67% 的智能體在執行 15 步後出現目標漂移,84% 無法跨會話維持安全策略,73% 缺乏狀態投毒檢測機制,58% 存在時序一致性漏洞。研究還發現,記憶投毒的效果平均在初次注入後 3.7 個會話才顯現,這大幅增加了安全檢測的難度。
OpenClaw(前身為 Clawdbot 和 Moltbot)案例為上述威脅模型提供了迄今最直觀的現實驗證。
這款由奧地利開發者 Peter Steinberger 於 2025 年 11 月發布的開源 AI Agent,數周內積累逾 16 萬個 GitHub 星標,具備自主發送電子郵件、管理日程、執行終端命令及部署代碼的能力,並可跨會話保持持久記憶。
安全公司 Astrix Security 通過自研掃描工具 ClawdHunter 發現,公開網路上存在 42,665 個 OpenClaw 實例,其中 8 個完全開放且未經任何身份驗證。
據 VentureBeat 報導,Cisco 的 AI 安全研究團隊將 OpenClaw 描述為「從能力角度看具有突破性,但從安全角度看是徹頭徹尾的噩夢」。卡巴斯基在 2026 年 1 月的安全審計中識別出 512 個漏洞,其中 8 個為嚴重級別。
Moltbook 事件的發生過程尤為典型。
這一專為 OpenClaw Agent 打造的社交平台通過病毒式傳播吸引了逾 77 萬個 Agent 註冊——用戶將 Moltbook 告知自己的 Agent,Agent 隨即自主完成註冊。
此後,平台數據庫漏洞使攻擊者得以繞過身份驗證,向任意 Agent 會話直接注入指令,全部 77 萬個 Agent——每個均持有對用戶設備的特權訪問——同時陷入風險敞口。研究團隊將此定性為迄今首起有記錄的大規模跨 Agent 攻擊傳播事件。
安全研究員 Simon Willison 所稱的「致命三角」(lethal trifecta)在 OpenClaw 身上得到完整體現:訪問私密數據的能力、接觸不可信內容的暴露面,以及對外通信的渠道,三者疊加使自主智能體成為攻擊者的理想跳板。
研究的核心論斷是,自主智能體與無狀態語言模型的安全挑戰在性質上截然不同。
針對語言模型的安全評估聚焦於「能否讓模型說出不安全的內容」;而對 AI Agent 而言,問題變為「能否讓模型做出不安全的事」——包括具有現實效果的工具調用、影響未來行為的狀態修改,以及跨多步驟才顯現違規的計劃執行。
研究以具體場景說明這一邏輯:一個同時具備文件讀取(read_file)和 HTTP 請求(http_request)權限的 Agent,每項工具的訪問控制決策在孤立評估時均合規,但二者組合卻可實現數據竊取——從配置文件讀取憑證,再通過 HTTP 請求將其發送至外部端點。每一步均滿足本地安全策略,整體卻完成了對抗性目標。研究將這一現象稱為「組合安全」(compositional safety)問題。
在受控架構研究中,研究人員測試了 ReAct 智能體、多智能體系統、記憶增強型智能體及工具使用型智能體四類主流架構。
結果顯示,針對工具使用型智能體的權限提升攻擊成功率高達 95%,針對記憶增強型智能體的投毒攻擊成功率為 94%。
即便是抗禦能力最強的多智能體系統,針對目標漂移的攻擊成功率也達 58%——研究人員據此判斷,當前所有已測試架構均不具備抵禦對抗性部署的充分能力。
自適應攻擊生成測試的結果進一步加劇擔憂:基於強化學習生成的攻擊違規率達 79%,相比人工設計場景的 63% 提升了 25.4%,表明 AI Agent 面臨的威脅空間正超出人類紅隊測試的覆蓋邊界。
研究團隊依據實證結果提出了最低安全基線:所有生產 Agent 強制部署運行時監控;對涉及數據訪問後對外通信的工具鏈操作設置人工審批門檻;每執行 20—25 步應強制觸發人工審查,以應對步驟超出後幾乎必然出現的目標偏移;記憶增強型 Agent 須對持久化狀態進行加密完整性校驗。
在監控效果層面,研究顯示行動級監控(單步操作檢測)精確率可達 0.94,序列級監控(多步行為鏈)F1 分數為 0.85,狀態級監控 F1 分數為 0.83。在對 127 個生產 Agent 進行 30 天運行時監控的測試中,系統在攔截 4782 次操作的同時,誤報率控制在 3.7%,其中 14.6% 的被標記操作被確認為真實攻擊。
研究還指出,當前「AI 治理」方法存在根本性錯位:現有框架多為事後審計,而非在執行環節實時執行合規約束。
隨著歐盟《人工智慧法案》、美國 NIST AI 風險管理框架等監管要求的落地,企業面臨的合規壓力與安全風險將同步上升。在 AI Agent 被廣泛部署於高風險業務場景的背景下,安全基礎設施的缺位,正成為這一輪 AI 商業化浪潮中不可忽視的系統性風險。
來源:金色財經
發佈者對本文章的內容承擔全部責任
在投資加密貨幣前,請務必深入研究,理解相關風險,並謹慎評估自己的風險承受能力。不要因為短期高回報的誘惑而忽視潛在的重大損失。
暢行幣圈交易全攻略,專家駐群實戰交流
▌立即加入鉅亨買幣實戰交流 LINE 社群(點此入群)
不管是新手發問,還是老手交流,只要你想參與加密貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資,都歡迎入群討論學習!
上一篇
下一篇