區塊鏈

91% 有漏洞、94% 可投毒——AI Agent 的安全「一團糟」

金色財經2026-05-06 17:01

自主 AI Agent 正以驚人速度滲透醫療、金融和企業營運，但迄今最大規模的安全研究表明：絕大多數在生產環境運行的 Agent 存在嚴重漏洞，而當前主流安全評估手段對此幾乎束手無策。

近期，斯坦福大學、MIT CSAIL、卡內基梅隆大學、ITU 哥本哈根及 NVIDIA 的聯合研究團隊近期研究發現，在所評估的 847 個自主智能體生產部署中，91% 存在工具鏈攻擊漏洞，89.4% 在執行約 30 步後出現目標偏移，94% 的記憶增強型智能體面臨「投毒」風險。研究共發現 2,347 個此前未知漏洞，其中 23% 被評定為嚴重級別。

論文第一作者 Owen Sakawa 援引 2026 年初的「OpenClaw/Moltbook 事件」，佐證這一威脅已從理論走入現實：Moltbook 平台數據庫中的單一漏洞，導致平台上 77 萬個運行中的 AI Agent 同時遭到攻陷，每個 Agent 均持有對其用戶設備、電子郵件及文件的特權訪問權限。「這不再是假設性威脅，」Sakawa 表示。

這對正加速布局 AI Agent 的企業和投資者構成直接警示：當前主流安全評估框架均基於無狀態語言模型設計，無法識別多步驟執行中湧現的組合性漏洞，意味著大量企業可能正在對自身 AI Agent 的真實安全狀況存在系統性誤判。美國認知心理學和 AI 領域專家 Gary Marcus 評論稱，「自主代理 Agents 簡直一團糟」。

‌

漏洞圖譜：六類攻擊、2347 個已知弱點

研究覆蓋醫療（289 個部署，占 34.1%）、金融（247 個，占 29.2%）、客戶服務（198 個，占 23.4%）及代碼生成（113 個，占 13.3%）四大行業。

研究建立了一套針對自主智能體的六類漏洞分類體系，包括目標漂移與指令衰減、規劃器 - 執行器去同步、工具權限提升、記憶投毒、靜默多步驟策略違規，以及委託失敗。

在生產環境評估中，狀態操縱（State Manipulation）以 612 個實例居首（占總量 26.1%），目標漂移（573 個實例，占 24.4%）緊隨其後。工具誤用與鏈式調用雖在總量上（489 個實例）排名第三，但嚴重性最高——198 個實例被評為嚴重級，在所有類別中占比最高。

更廣泛的關鍵數字同樣觸目驚心：67% 的智能體在執行 15 步後出現目標漂移，84% 無法跨會話維持安全策略，73% 缺乏狀態投毒檢測機制，58% 存在時序一致性漏洞。研究還發現，記憶投毒的效果平均在初次注入後 3.7 個會話才顯現，這大幅增加了安全檢測的難度。

現實案例：77 萬 Agent 同時淪陷

OpenClaw（前身為 Clawdbot 和 Moltbot）案例為上述威脅模型提供了迄今最直觀的現實驗證。

這款由奧地利開發者 Peter Steinberger 於 2025 年 11 月發布的開源 AI Agent，數周內積累逾 16 萬個 GitHub 星標，具備自主發送電子郵件、管理日程、執行終端命令及部署代碼的能力，並可跨會話保持持久記憶。

安全公司 Astrix Security 通過自研掃描工具 ClawdHunter 發現，公開網路上存在 42,665 個 OpenClaw 實例，其中 8 個完全開放且未經任何身份驗證。

據 VentureBeat 報導，Cisco 的 AI 安全研究團隊將 OpenClaw 描述為「從能力角度看具有突破性，但從安全角度看是徹頭徹尾的噩夢」。卡巴斯基在 2026 年 1 月的安全審計中識別出 512 個漏洞，其中 8 個為嚴重級別。

Moltbook 事件的發生過程尤為典型。

這一專為 OpenClaw Agent 打造的社交平台通過病毒式傳播吸引了逾 77 萬個 Agent 註冊——用戶將 Moltbook 告知自己的 Agent，Agent 隨即自主完成註冊。

此後，平台數據庫漏洞使攻擊者得以繞過身份驗證，向任意 Agent 會話直接注入指令，全部 77 萬個 Agent——每個均持有對用戶設備的特權訪問——同時陷入風險敞口。研究團隊將此定性為迄今首起有記錄的大規模跨 Agent 攻擊傳播事件。

安全研究員 Simon Willison 所稱的「致命三角」（lethal trifecta）在 OpenClaw 身上得到完整體現：訪問私密數據的能力、接觸不可信內容的暴露面，以及對外通信的渠道，三者疊加使自主智能體成為攻擊者的理想跳板。

架構缺陷：AI Agent 為何比 LLM 更脆弱

研究的核心論斷是，自主智能體與無狀態語言模型的安全挑戰在性質上截然不同。

針對語言模型的安全評估聚焦於「能否讓模型說出不安全的內容」；而對 AI Agent 而言，問題變為「能否讓模型做出不安全的事」——包括具有現實效果的工具調用、影響未來行為的狀態修改，以及跨多步驟才顯現違規的計劃執行。

研究以具體場景說明這一邏輯：一個同時具備文件讀取（read_file）和 HTTP 請求（http_request）權限的 Agent，每項工具的訪問控制決策在孤立評估時均合規，但二者組合卻可實現數據竊取——從配置文件讀取憑證，再通過 HTTP 請求將其發送至外部端點。每一步均滿足本地安全策略，整體卻完成了對抗性目標。研究將這一現象稱為「組合安全」（compositional safety）問題。

在受控架構研究中，研究人員測試了 ReAct 智能體、多智能體系統、記憶增強型智能體及工具使用型智能體四類主流架構。

結果顯示，針對工具使用型智能體的權限提升攻擊成功率高達 95%，針對記憶增強型智能體的投毒攻擊成功率為 94%。

即便是抗禦能力最強的多智能體系統，針對目標漂移的攻擊成功率也達 58%——研究人員據此判斷，當前所有已測試架構均不具備抵禦對抗性部署的充分能力。

自適應攻擊生成測試的結果進一步加劇擔憂：基於強化學習生成的攻擊違規率達 79%，相比人工設計場景的 63% 提升了 25.4%，表明 AI Agent 面臨的威脅空間正超出人類紅隊測試的覆蓋邊界。

對企業部署的直接影響：防護框架尚不成熟

研究團隊依據實證結果提出了最低安全基線：所有生產 Agent 強制部署運行時監控；對涉及數據訪問後對外通信的工具鏈操作設置人工審批門檻；每執行 20—25 步應強制觸發人工審查，以應對步驟超出後幾乎必然出現的目標偏移；記憶增強型 Agent 須對持久化狀態進行加密完整性校驗。

在監控效果層面，研究顯示行動級監控（單步操作檢測）精確率可達 0.94，序列級監控（多步行為鏈）F1 分數為 0.85，狀態級監控 F1 分數為 0.83。在對 127 個生產 Agent 進行 30 天運行時監控的測試中，系統在攔截 4782 次操作的同時，誤報率控制在 3.7%，其中 14.6% 的被標記操作被確認為真實攻擊。

研究還指出，當前「AI 治理」方法存在根本性錯位：現有框架多為事後審計，而非在執行環節實時執行合規約束。

隨著歐盟《人工智慧法案》、美國 NIST AI 風險管理框架等監管要求的落地，企業面臨的合規壓力與安全風險將同步上升。在 AI Agent 被廣泛部署於高風險業務場景的背景下，安全基礎設施的缺位，正成為這一輪 AI 商業化浪潮中不可忽視的系統性風險。

來源：金色財經

發佈者對本文章的內容承擔全部責任
在投資加密貨幣前，請務必深入研究，理解相關風險，並謹慎評估自己的風險承受能力。不要因為短期高回報的誘惑而忽視潛在的重大損失。

暢行幣圈交易全攻略，專家駐群實戰交流

▌立即加入鉅亨買幣實戰交流 LINE 社群（點此入群）
不管是新手發問，還是老手交流，只要你想參與加密貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資，都歡迎入群討論學習！

▶ 前往鉅亨買幣找交易所優惠

‌