menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon


美股

Google DeepMind推出世界模型Genie 3 重新定義生成式AI

鉅亨網新聞中心


Google(GOOGL-US)DeepMind 宣布推出第三代通用的世界模型 Genie 3 ,可生成前所未有的多樣化交互式環境,給出文本提示,亦可生成動態世界,以每秒 24 幀的速度實時導航,並以 720p 的分辨率保持幾分鐘的一致性。

cover image of news article
Google DeepMind推出世界模型Genie 3(圖:Google DeepMind)

Genie 3 將首先以有限研究預覽的形式,向一小部分學者和創作者開放 Genie 3,以收集關鍵反饋。


DeepMind 在模擬環境領域已有十餘年的深厚積累。從訓練能玩轉即時戰略遊戲的 AI,到為機器人開發開放式學習環境,這些研究都指向了一個共同的目標:構建強大的世界模型。

與前代模型(如 Genie 1/2)和影片生成模型(如 Veo 2,Veo 3 對直覺物理學的深刻理解)相比,Genie 3 是第一個允許實時交互的世界模型,同時與 Genie 2 相比,其一致性和真實感也得到了提升。

核心能力

模擬世界的物理特性: Genie 3 對物理規律有深刻理解,能逼真地模擬水流、光影變化以及複雜的環境互動,例如直升機在懸崖瀑布邊小心翼翼地機動

模擬自然世界: 從冰川湖畔充滿生機的生態系統,到幻想世界中可愛的毛茸茸生物在彩虹橋上跳躍,Genie 3 能將想象力轉化為可探索的現實

動畫和小說建模:可以發揮想象力,創造奇幻的場景和富有表現力的動畫角色

探索不同地域與歷史場景模型能超越地理和時間的限制,帶領用戶探索不同地點和歷史時代,無論是身穿翼裝飛越雪山,還是置身於歷史悠久的古城

突破實時性能的極限實現高度的可控性和實時交互性,在每一幀的自回歸生成過程中,模型必須考慮先前生成的隨時間增長的軌跡。例如,如果用戶在一分鐘後重新訪問某個位置,則模型必須引用一分鐘前的相關信息。為了實現實時交互性,這種計算必須每秒進行多次,以響應新用戶輸入的到來

長時程環境一致性: 為了讓人工智能生成的世界身臨其境,它們必須在很長一段時間內保持物理上的一致性。然而,自動回歸生成環境通常比生成整個視頻更難的技術問題,因為不準確之處往往會隨著時間的推移而累積,Genie 3 環境在幾分鐘內基本保持一致,視覺記憶可以追溯到一分鐘前,Genie 3 生成的世界更加動態和豐富,因為它們是根據用戶的世界描述和作逐幀創建的

可提示的世界事件 (Promptable World Events): 除了導航輸入之外,Genie 3 還支持一種更具表現力的基於文本的交互形式,稱之為可提示的世界事件 。可提示的世界事件可以改變生成的世界,例如改變天氣條件或引入新的物體和角色,從而增強導航控制的體驗,這種能力還增加了反事實或 “假設” 場景的廣度,代理可以使用這些場景從經驗中學習來處理意外情況

Genie 3 的終極目標之一是為具體化代理(Embodied Agent)提供一個無限豐富的訓練場。DeepMind 已將其與通用智能體 SIMA 進行結合測試。研究人員可以為 SIMA 設定一個目標(如在麵包房裡找到工業攪拌機),SIMA 則通過向 Genie 3 發送導航指令來嘗試完成任務。Genie 3 像一個真正的世界一樣,根據 SIMA 的行為實時反饋結果,從而讓具體化代理在海量的 what if 場景中學習和成長

當前局限性

行動空間有限: 具體化代理的直接行動範圍仍受限制

缺乏多智慧體模擬: 難以精確模擬多個獨立具體化代理之間的複雜互動

地理精度不足: 無法完美復現實世界的地理位置

文本渲染較差: 除非在初始提示中指定,否則生成的文本通常模糊不清

互動時長有限: 目前支持數分鐘的連續互動,而非數小時

文章標籤



Empty