menu-icon
anue logo
鉅亨傳承學院鉅亨號鉅亨買幣
search icon

科技

終結「AI 點擊按鈕」時代 WebMCP預覽版引領新潮流 已登陸Chrome

鉅亨網新聞中心

Google Chrome 團隊周二 (10 日) 釋出重大更新,推出 WebMCP(Web Model Context Protocol,網頁模型上下文協定) 搶先體驗版,這項技術意味著 AI 代理 (AI Agents) 與網頁交互邏輯的根本性變革。

cover image of news article
終結「AI 點擊按鈕」時代 WebMCP預覽版引領新潮流 已登陸Chrome(圖:shutterstock)

在當前的 AI 浪潮中,讓 AI 代理 (Agent) 像人類一樣操作網頁一直是一項挑戰。傳統上,AI 代理必須透過螢幕刮取 (Screen-scraping) 或猜測 DOM 元素來判斷哪個按鈕是「結帳」、哪邊該輸入「乘客姓名」。這種方式極度依賴網頁像素而非結構,導致自動化流程既脆弱且容易出錯。


為了打破這一僵局,Google 在 Chrome 146 的 Canary 頻道中推出了 WebMCP 的早期預覽功能。這是一項擬議中的 Web 標準,旨在讓網站能直接向瀏覽器內的 AI 代理公開「結構化工具」,讓代理程式能呼叫具有明確定義 (Schema) 的真實函數,而非盲目地猜測網頁內容。

從「像素」轉向「工具契約」

根據官方網誌的說法,WebMCP 的核心概念是「發布工具,而非像素」。網站開發者不再只是呈現美觀的介面供人眼閱讀,而是顯式地發布一個「合約」,包含以下三大關鍵要素:

1. 探索 (Discovery): 代理程式可以主動發現頁面上存在哪些工具,例如「結帳 (checkout)」或「篩選結果 (filter_results)」。

2. JSON 結構定義 (JSON Schemas): 精確定義輸入與輸出的格式,大幅減少 AI 的幻覺現象。

3. 狀態 (State): 讓代理程式與網頁對當前頁面可用資源有共同的理解。

這意味著 AI 不再需要「點點看直到成功」,而是可以直接呼叫如 book_flight({origin, destination...}) 這樣的結構化指令。

雙重 API 策略:命令式與宣告式

WebMCP 提供了兩種靈活的實作方式。首先是命令式 API(JavaScript Tools),開發者可以使用 navigator.modelContext 來註冊工具,包括定義名稱、描述、輸入規格以及執行邏輯 (execute())。

更引人注目的是宣告式 API。開發者只需在標準的 HTML 表單 () 中加入 toolname 和 tooldescription 等標籤,瀏覽器便會自動將表單欄位轉化為 AI 代理可理解的結構化工具。當代理程式呼叫該工具時,瀏覽器會自動對焦表單並預填資料;除非啟用了 toolautosubmit,否則預設仍由用戶點擊提交,保留了人類的最終控制權。

此外,WebMCP 還引入了 AI 代理感知 (Agent-awareness) 功能。透過 SubmitEvent.agentInvoked 屬性,網頁應用程式可以辨識提交是否來自 AI,並利用 respondWith() 回傳結構化的錯誤或結果,協助代理程式進行自我修正。

體驗與未來限制

目前 WebMCP 仍處於早期階段,開發者可以透過 Chrome Canary 146 版本,並在 chrome://flags 中啟用 「WebMCP for testing」 標籤來試用。同時,Chrome 也提供了相關的檢測工具擴充功能,方便開發者手動執行或測試 AI 代理的整合狀況。

儘管潛力巨大,WebMCP 仍有其侷限性。例如目前不支援後台 (Headless) 模式,必須在可見的分頁中執行;且開發者必須確保網頁 UI 的狀態能與工具呼叫保持同步。

這項標準的確立預示著「分層網頁時代」的到來。未來的網站將同時具備兩張面孔:一張是給人類使用的美觀視覺介面,另一張則是給 AI 使用的清晰工具契約。


section icon

鉅亨講座

看更多
  • 講座
  • 公告

    Empty
    Empty