Google DeepMind執行長 Hassabis談Genie 3與Gemini機器人技術未來
鉅亨網新聞中心
Google(GOOGL-US) DeepMind 執行長 Demis Hassabis 在最新訪談中分享了公司在人工智慧(AI)與機器人技術上的尖端突破,包括革命性的 Genie 3 世界模型與 Gemini 機器人系統。

Genie 3 能夠僅透過文本指令生成動態、可交互的虛擬世界,展示 AI 對物理世界的深刻理解;而 Gemini 機器人則將語言指令轉化為精準物理動作,並探索跨平台機器人軟體生態及人形機器人在日常生活中的應用前景,標誌著通用 AI 與高級機器人技術的重大進展。
Google DeepMind 展示 Genie 3 世界模型的革命性技術
Genie 3 世界模型代表了 AI 在理解與生成物理世界上的重大突破。Genie 3 能夠僅透過單一文本提示,即生成一個可交互、動態的虛擬世界,這與傳統的遊戲或影片製作方式完全不同。
傳統的 3D 虛擬世界構建通常依賴 Unity 或 Unreal 等渲染引擎,開發者需要手動建立 3D 模型、編寫物理規則(如光線反射、物體碰撞)及設計互動邏輯,過程繁複耗時。
Genie 3 則以端到端方式生成世界。用戶看到的每個像素都是模型即時生成,並且世界會隨互動動態演變,例如玩家轉向新區域時,該區域才被創造;回到原本位置時,先前留下的痕跡仍保持一致,展示出內部世界的連貫性。
Hassabis 表示,Genie 3 並非依賴預設的物理程式,而是透過學習數百萬段影片與遊戲資料,自主逆向工程出光影、水面反射、材質流動與物體行為等物理規律,使生成的世界既真實又合理。
使用者可在這個動態環境中互動,例如控制角色行走、奔跑,或透過文本指令改變場景。
Hassabis 強調,Genie 3 的意義不僅限於遊戲或娛樂,它是通用人工智慧(AGI)發展的重要一步。
真正的 AGI 不僅要理解抽象語言或數學,更需要深刻理解我們所處的物理世界。這種理解能力將支撐未來高級機器人技術、智慧助理與多模態 AI 系統的發展。
Gemini 機器人技術:通用 AI 與物理世界的連結
訪談中,Hassabis 也談及 Google DeepMind 的 Gemini 機器人技術。這類視覺 - 語言 - 行動模型(vision-language-action models)旨在建立通用系統,透過鏡頭觀察物理世界,理解人類語言指令,並將其轉化為具體動作。
目前的 Gemini 模型已具備強大的環境理解能力。用戶可透過手機 Gemini Live 將鏡頭對準周遭環境,體驗模型的識別與分析能力。
基於此,DeepMind 開發了專門的 Gemini 機器人模型,將高層語言指令(如「把黃色物體放進紅色桶」)直接轉化為機器手臂的精確運動。這種多模態模型將現實世界常識融入人機互動,使溝通更自然直觀。
Hassabis 表示,Google 正探索類似 Android 在手機領域的策略,計畫建立跨平台的通用機器人軟體層。一旦成熟,該系統可適配多種硬體,催生龐大的機器人生態系統,並加速相關產品與公司發展。
同時,Google 也推動 AI 模型與硬體的深度整合,採用端到端學習方法,兩條路線並行推進。
人形機器人的價值與未來
談及機器人形態,Hassabis 的觀點有所演變。過去,他認為專用任務型機器人會主導市場,例如工廠或實驗室中的專用機器人效率更高。然而,他現在認為在人類日常生活場景中,人形機器人將扮演關鍵角色。
Hassabis 指出,建築、樓梯、門把手及各種工具都是為人類設計。相比大規模改造環境,不如設計能無縫融入現有環境的人形機器人,既經濟又實用。
他認為未來將呈現兩種形態並存:工業領域以專業化機器人為主,而日常生活中,人形機器人將發揮重要作用。
Hassabis 承認,目前機器人技術仍處早期階段。他預測,未來幾年將出現令人驚艷的「wow moment」,但在此之前,算法與硬體仍需改進。
他指出,過早大規模生產可能導致硬體更新速度超前,出現工廠剛建成、新一代更靈巧設計就問世的情況。
他將當前狀態比作個人電腦的七十年代,並補充,在這個時代,十年的技術進展可能在一年內完成。
延伸閱讀
- 講座
- 公告
上一篇
下一篇