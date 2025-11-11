鉅亨網新聞中心 2025-11-11 13:40

史丹佛大學教授、AI 教母李飛飛近日發表長篇部落格文章《From Words to Worlds: Spatial Intelligence is AI"s Next Frontier》（從文字到世界：空間智慧是 AI 的下一個前沿），正式宣告「空間智慧」（Spatial Intelligence）將是定義 AI 下一個十年的核心驅動力。

AI教母李飛飛：空間智慧是AI下一個核心 顛覆機器人、元宇宙的三大能力曝光。(圖:shutterstock)

李飛飛指出，儘管當前以大語言模型（LLM）為代表的前沿 AI 技術在抽象知識和語言生成方面取得巨大進展，但它們仍是「黑暗中的文匠」，即能言善辯卻缺乏經驗，知識豐富卻脫離現實。

她強調，要讓 AI 真正理解並與物理及虛擬世界互動，必須突破語言的界限，將空間智慧納入 AI 的核心架構。

在文中，李飛飛詳細闡述了空間智慧在人類認知中的根本地位。我們每天都依賴它完成複雜的行為：從停車、接住鑰匙到消防員在濃煙中判斷結構穩定性。歷史上，從古希臘學者測量地球周長，到華生與克里克發現 DNA 雙螺旋結構，空間推理一直是推動人類文明躍進的關鍵。

然而，現有 AI 模型在空間能力上仍與人類相去甚遠：

估算不足： 最先進的多模態模型在估算距離、方向和大小等任務上的表現往往僅略高於隨機水平。

缺乏連貫性： AI 生成的影片在數秒後便容易失去物理連貫性。

脫離現實： AI 在閱讀、寫作方面表現出色，但在對物理世界的表徵與互動上存在根本限制。

李飛飛強調，對人工智慧而言，世界遠不止於語言本身。空間智能代表著超越語言的前沿—— 它連結了想像、感知與行動，開啟了機器真正賦能人類生活的可能。

AI 的下一個十年：建構「世界模型」的三大核心能力

為實現真正具備空間智慧的機器，李飛飛教授提出，我們需要的不是傳統 LLM，而是更具雄心的「世界模型」——一種新型生成式模型，能夠在語義、物理、幾何與動態等多重複雜世界中進行理解、推理、生成與互動。

李飛飛將「世界模型」定義為必須具備以下三種核心能力的系統：

生成性（Generativity）： 模型必須能生成並維持在感知、幾何與物理層面一致的世界。它需要創造出無限多樣的虛擬世界，並確保其對當前世界的理解與過去保持連貫性。

多模態性（Multimodality）： 模型在設計上即是多模態的，能處理圖像、影片、深度圖、文字指令、手勢或動作等多種形式的輸入，並能根據不完整的輸入預測或產生完整的世界狀態。

互動性（Interactivity）： 模型能夠根據輸入的動作產生下一個世界狀態，甚至能基於新的狀態進一步預測實現目標所需的下一步行動，是實現具身智能的關鍵。

李飛飛教授透露，她與合夥人共同創立的 World Labs 正致力於將這一願景徹底實現。這項挑戰的規模遠超語言模型，因為「世界」遵循著遠為複雜的物理與幾何規律。

World Labs 已向少量使用者展示了 Marble 的早期成果——這是首個能夠透過多模態輸入進行提示，從而產生並維持一致性三維環境的世界模型，讓使用者與創作者可以在其中探索與交互。

空間智慧的未來應用：三大變革領域

李飛飛教授強調，AI 的發展動力始終應是增強人類能力，而非取而代之。空間智慧的應用將深刻影響人類最珍視的生活要素，重點涵蓋以下三大領域：

1. 創造力：賦能故事敘事與沉浸式體驗

空間智慧將徹底改變故事創造與體驗方式，從娛樂、設計到建築。Marble 等平台能將前所未有的空間創造力與編輯控制力交給電影製作人、遊戲設計師、建築師與敘事創作者，讓他們快速創建並迭代可自由探索的三維世界，推進藝術、模擬與遊戲的融合。

2. 機器人：具身智慧的實踐

具備空間智慧的機器人將成為人類的夥伴與協作者。世界模型能夠在無數狀態、互動與環境的模擬中訓練機器人，彌補當前機器人研究數據的匱乏。這不僅包括人形機器人，還包括可輸送藥物的奈米機器人、軟體機器人等，解決勞動力與生產力短缺的挑戰。

3. 更長遠的視野：科學、醫療與教育

空間智慧系統能模擬實驗、平行檢驗假設，重塑氣候科學、材料研究等領域的運算建模方式。在醫療領域，AI 可透過多維建模加速藥物發現、輔助影像診斷，並透過環境感知式監護系統支持照護。在教育領域，空間智慧能讓抽像或複雜的概念變得可感知、可體驗，實現外科醫師、工程師等專業人士在逼真模擬環境中安全練習技能。