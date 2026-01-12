鉅亨網新聞中心 2026-01-12 14:20

在矽谷炙手可熱的 AI 創業浪潮中，一對重量級的華人科學家組合正悄然浮現，他們的目標不再是簡單地複製另一個 ChatGPT，而是直指通用人工智慧（AGI）的關鍵瓶頸：視覺推理（Visual Reasoning）。

不當ChatGPT追隨者！谷歌、蘋果王牌科學家聯手自立門戶 直攻AGI最難一關。(圖:shutterstock)

這位由前 Google Gemini 資料聯合負責人 Andrew Dai，以及前蘋果首席研究科學家 Yinfei Yang 共同創辦的 AI 新秀，名為 Elorian，正在籌集高達 5000 萬美元的種子輪融資，其高昂的「入場費」再次證明了頂級人才在資本市場的稀缺價值。

14 年磨一劍 從 BERT 到 Gemini 的幕後英雄

Andrew Dai 在 AI 研究圈享有「長期主義者」的盛譽。他在 GoogleDeepMind 效力長達十四年，經歷了深度學習從邊緣走向核心的完整週期。其履歷中最亮眼的成就，莫過於擔任 Google 旗艦大模型 Gemini 預訓練資料工作的共同負責人。

在當前的大模型競賽中，資料品質與預訓練策略是決定模型智商上限的命脈，Andrew Dai 在這一核心環節的經驗，賦予了 Elorian 無與倫比的起跑優勢。

他曾與 Google 首席科學家 Jeff Dean 等傳奇人物合作，早在 2015 年發表的半監督序列學習論文，就被認為對 OpenAI 後來的 GPT 系列模型產生了深遠啟發。一位熟悉他的人士評論道：「他是語言模型的先驅之一，最擅長從海量、嘈雜的數據源中提煉出高質量的『知識』。」

如果說 Andrew Dai 帶來了 Google 在大規模訓練上的暴力美學，那麼共同創辦人 Yinfei Yang 則注入了蘋果系對多模態的精緻洞察。

Yinfei Yang 曾任蘋果機器學習團隊的首席研究科學家，主要負責蘋果自研 AI 模型的開發。在此之前，她也曾在 Google Research 專注於多模態表示學習，尤其在圖像 - 文字共嵌入領域的專長，恰好彌補了當前主流語言模型在感知能力上的短板。

視覺推理 通往 AGI 的必經之路

Elorian 的創立並非為了解決文本生成的問題，而是旨在建構一個能夠「同時理解和處理文字、圖像、視訊和音訊」的原生多模態模型。

目前市場上的 AI 模型大多是基於文本訓練，隨後再透過「補丁」的方式連結視覺能力。Elorian 的願景是打造一個天生的「通感者」，讓模型不再只是將圖像轉化為文字標籤，而是能夠像人類一樣，透過視覺直接感知並理解物理世界的深層邏輯。

這種被稱為「視覺推理」的能力，被普遍視為通往通用人工智慧（AGI）的必經之路。

Elorian 的潛在應用市場極為廣闊，不僅限於機器人領域，更瞄準了下一代 AI 智能體（Agent）的廣大市場。這些智能體將能夠像人類一樣「看」著電腦螢幕、理解圖形使用者介面（GUI）、處理複雜的退貨流程、審核法律文件，甚至操作其他軟體。

它將能直接「看」著 Excel 表格、「聽」著電話錄音，同時「讀」懂螢幕上的郵件，並即時做出決策，完全模仿人類的操作行為，實現真正的全域數位協助。

資本為「稀缺基因」買單

Elorian 的高額種子輪融資目標，凸顯了資本市場對「GoogleDeepMind + 蘋果」這種稀缺基因組合的追捧。領投方極有可能是由前 CRV 普通合夥人 Max Gazor 創立的 Striker Venture Partners。對投資人而言，他們賭上的不僅是技術路徑，更是這個團隊在大規模訓練和產品落地兩方面的複合經驗。

Elorian 的出現，代表著大模型戰爭正從第一階段的「文本生成」轉向第二階段的「多模態理解與物理世界互動」。在巨頭們瘋狂補課視覺能力的同時，Elorian 作為新創公司，正試圖以技術代差和高度聚焦的資源，在 AI 智能體這個新興戰場上實現彎道超車。

兩位頂級科學家離開了效力多年的科技巨頭，選擇了這條艱難而充滿野心的道路——試圖教導機器不僅是「看見」世界，還要「看懂」世界。正如電腦視覺領域的一句老話：「攝影機只是眼睛，演算法才是靈魂。」