世界模型
科技
過去一年,全球大語言模型 (LLM) 競賽從「能力發表」悄悄轉向「路線抉擇」,OpenAI、谷歌、Anthropic 與 Meta 等技術先鋒正沿著三條路徑向通用人工智慧 (AGI) 衝刺。這場路線分化不僅決定模型能力的邊界,更將重構算力基建、產業角色與全球競爭版圖。
美股雷達
「AI 教母」、ImageNet 奠基人李飛飛近日在個人 Substack 發表長文《From Words to Worlds》,引起全球 AI 圈廣泛關注。李飛飛認為,AI 的下一步不在語言,而在世界。她並將這項能力稱為「空間智慧」(Spatial Intelligence)。
美股雷達
知情人士指出,Meta(META-US) 首席 AI 科學家、圖靈獎得主楊立昆已告知同事,他將在數月內離開 Meta ,並創辦自己的 AI 新創企業。根據《金融時報》,楊立昆離開 Meta 後的創業計畫已進入初期談資階段。他的新公司將主攻他長期推動的「世界模型」概念,即透過影片與空間資料訓練系統,使 AI 具備對外界環境的內在理解能力,不再僅依賴文字資料運作。
美股雷達
人工通用智慧(AGI)的競逐,已正式聚焦於「世界模型」這塊新興戰場。AI 界三股重量級力量:「AI 教母」李飛飛、Meta(META-US) 首席 AI 科學家楊立昆,以及科技巨頭 Google(GOOGL-US) ,在近期各自祭出大動作,儘管都劍指世界模型,卻代表著三種截然不同的技術路線賭注。
史丹佛大學教授、AI 教母李飛飛近日發表長篇部落格文章《From Words to Worlds: Spatial Intelligence is AI's Next Frontier》(從文字到世界:空間智慧是 AI 的下一個前沿),正式宣告「空間智慧」(Spatial Intelligence)將是定義 AI 下一個十年的核心驅動力。
科技
史丹佛大學教授李飛飛領導的 World Labs 正式推出其全新即時生成式世界模型 RTFM(Real-Time Frame Model,即時幀模型),僅需單塊 H100 GPU,就能即時渲染出持久且 3D 一致的世界。RTFM 是一款效率極高的自回歸擴散 Transformer 模型,它透過對大規模視訊數據進行端到端學習,無需建立顯式的三維表徵,便能從輸入的 2D 影像中,即時生成同一場景下、不同視角的全新 2D 影像。
馬斯克創立的 xAI 正悄悄調整研發重心,從語言理解轉向更底層的「世界模型」(World Model)開發,此舉標誌著 xAI 在通用人工智慧 (AGI) 探索中邁出關鍵一步。英國《金融時報》報導,「世界模型」是 AI 領域已探討多年的概念,指能透過內部模擬重建並預測環境狀態變化的系統。
科技
全球大語言模型 (LLM) 技術迭代放緩之際,一場圍繞「世界模型」的 AI 新競賽正悄悄在科技巨頭間展開。這場競賽標誌著 AI 競爭焦點或從語言處理轉向對物理世界的深度理解與模擬,技術能讓 AI 更深入理解並模擬真實世界物理環境,被視為實現機器「超級智慧」(superintelligence)的關鍵途徑。
美股雷達
Google(GOOGL-US) DeepMind 執行長 Demis Hassabis 在最新訪談中分享了公司在人工智慧(AI)與機器人技術上的尖端突破,包括革命性的 Genie 3 世界模型與 Gemini 機器人系統。Genie 3 能夠僅透過文本指令生成動態、可交互的虛擬世界,展示 AI 對物理世界的深刻理解;而 Gemini 機器人則將語言指令轉化為精準物理動作,並探索跨平台機器人軟體生態及人形機器人在日常生活中的應用前景,標誌著通用 AI 與高級機器人技術的重大進展。
美股雷達
Meta(META-US) 近日發最新里程碑式的人工智慧模型 V-JEPA 2(Video Joint Embedding Predictive Architecture 2),以高達 10 億參數的版本,在某些基準測試上展現出比輝達 Cosmos 快 30 倍的驚人推理速度,讓過去對「AI 教父」Yann LeCun(楊立昆) 的質疑聲浪瞬間平息。
美股雷達
Meta Platforms(META-US) 周三 (11 日) 宣布,推出一款新型人工智慧 (AI)「世界模型」(World Model)V-JEPA 2,能更深入理解三維環境及物體動態,為機器人與自駕車等技術開啟新局。Meta 表示,這款名為 V-JEPA 2 的 AI 模型具備理解、預測及規劃現實世界的能力。