Google首席AI架構師談Gemini逆風翻盤的18個關鍵
鉅亨網新聞中心
在近期一次罕見訪談中,Google(GOOGL-US) 首席 AI 架構師、DeepMind 首席技術長 Koray Kavukcuoglu 表示,Gemini 專案的真正起點並非技術突破,而是承認自身落後。

他指出,Google 在大型語言模型(LLM)競賽中曾處於「遠遠落後」的狀態,這促使公司從頭重構訓練、產品、工程、組織及安全體系。
Gemini 3 的成功,源自於指令遵從、國際化能力與工具執行的整合,實現了真正「能做事的模型」。
多模態與統一模型則象徵理解世界的新途徑,而 DeepMind 的企業文化、全球規模化基礎設施以及跨部門協作模式,構成 Google 在 2024–2025 年實現技術反超的核心基礎。
從「會回答」到「會行動」,Gemini 展示了科技巨頭如何以結構化工程、產品化思維和真實用戶需求,打造可落地、可持續的 AI 系統。
一、真正的起點不是技術突破,而是承認落後
在訪談中,Kavukcuoglu 直言不諱地說:「當 Gemini 項目開始時,我們離最先進水準還很遠,那是一場追趕。」
分析指出,這不僅是坦承,更是一個認知上的巨大轉折,Google 在大型語言模型的起跑線上,確實是落後的,且是「遠遠落後」。
這迫使 DeepMind 拋棄過去十年的自信,從最基礎的用戶使用場景重新學習。
然而,正是這種自我承認,成為一切變革的源頭。Koray 強調,真正的轉捩點不是單一技術的突破,而是 Google 接受必須從零重建訓練方式、產品設計、工程流程和組織體系。
二、為何中國用戶最先感受到 Gemini 的進步?
訪談一開始,主持人提到一個來自中國用戶的特別回饋:Gemini 3 被形容為「像 Windows XP 一樣穩定好用」。
Kavukcuoglu 興致勃勃地解釋,這並非模型突然「智商暴漲」,而是 Google 終於將「模型 × 使用者介面 × 任務流程」統一整合。
過去的大模型或許「聰明」,卻不「好用」。Gemini 3 的轉折,來自多個方面的改進:
- 使用者介面更加直覺
- 任務拆解更穩定
- 模型更能理解人類意圖
- 產品團隊從訓練階段就介入設計
- 真實用戶數據能直接回饋訓練
換言之,Google 終於開始像一家真正做產品的公司去打造大模型。這也是 Gemini 3 變化最直觀的原因,也解釋了為何中國用戶最先感受到它的進步。
三、Benchmark 正在失效,但真實世界永遠存在需求
外界常批評 Google 的 benchmark 成績起伏不定,但 Kavukcuoglu 的解釋罕見地觸及核心本質:主流 benchmark 正逐漸接近自然上限。
像 GPQA、ARC-AGI 這類「智力測驗題」模型已經能應付,而曾經難度極高的 HLE 測評,也能持續取得提升。
然而,benchmark 可能枯竭,真實世界的需求卻永遠不會消失。學生寫作、科學研究、專業翻譯、跨語境複雜對話、跨語言表達等等,這些場景永遠無法被固定測試集完全覆蓋。
Google 將模型的最終價值從「得分」轉向「能否完成任務」,這正是 Gemini 採取的第一性原理轉變。
四、Gemini 3 核心:讓模型「能幹活」,而非只追求智力提升
從 Gemini 3 開始,Google 明確確立了三個優先能力方向:
首先是指令遵從,模型必須能夠「無二義性地理解並執行用戶的真實意圖」,這對用戶體驗的影響遠超單純提升推理指標。
其次是國際化能力,由於 Google 的用戶遍及 200 多個國家,模型必須理解全球不同文化語境,這已成為能力的核心指標,而非僅是翻譯能力的延伸。
最後是工具調用與程式執行,這是未來代理的基礎能力,模型不僅要理解問題,還需能執行任務、操作工具鏈,並處理工程環境中的真實任務。
這三者結合,形成了 Google 的 Gemini 設計哲學:真正的智慧,不在於「對話更聰明」,而在於「執行更可靠」。
五、為何多模態技術強大的 Google,代理起初卻不好用?
這是主持人問得最尖銳、外界也最想了解的矛盾。Kavukcuoglu 的回答出乎意料地樸實:研究人員可以在實驗室中推進視覺理解,但代理的真正任務並非由研究者想出,而是由用戶的需求「逼出來」的。
真正的代理使用場景來源於各類實際需求,例如創作者的任務流程、學生的寫作過程、工程師的工具操作模式,以及商業用戶的複雜工作需求。
換言之,Google 採取的路線不同於 OpenAI:不是以「炫酷 Demo 為先」,而是以「真實用戶需求為先」。
代理的能力並非靠華麗演示推動,而是靠「每天被百萬用戶實際使用」來驅動成長。
六、Google 真正的反超武器:模型、產品與工程首次統一協作
Kavukcuoglu 多次強調一個過去被低估的事實:Gemini 3 並非「模型團隊」的單打獨鬥勝利,而是「工程、產品、模型、安全」首次從第一天就被統一協作推進的成果。
以往,流程通常是模型訓練完成後,產品團隊才接手,安全團隊在最後進行審核,工程團隊負責部署。
而如今,產品團隊從訓練伊始就參與其中,安全成為訓練目標的一部分,而非後置規則;真實用戶數據(如 AI Studio、AI Overviews、Anti-Gravity)能直接回饋給模型,使用成本、延遲與推理路徑也在訓練階段就被優化。
這一改變,使 Google 首次建立起「模型 × 產品 × 工程」的統一體系,成為其在 2024–2025 年實現真正反超的結構性基礎。
七、Nano Banana Pro 的突破:不只是「畫得更好」,而是「理解世界結構」
外界在評估圖像模型時,往往只關注「清晰度」或「風格」,但 Kavukcuoglu 在訪談中反覆強調,真正的突破在於模型能理解複雜結構:
- 能理解 PDF、表格、圖表等複雜文檔結構
- 具備結構化的視覺推理能力
- 首次能生成「概念一致的資訊圖」
Kavukcuoglu 指出:「當一個模型能把複雜概念準確地用一張資訊圖呈現出來,你就能感受到真正的理解。」
這正是多模態模型的真正價值,也直接指向未來代理的能力發展方向。
八、多模態不是功能疊加,而是真正的「世界模型」入口
Kavukcuoglu 提出了一個簡潔但極具說服力的框架:文本是線性的,視覺是空間的,音頻是時序的。
而真實世界並非僅靠線性序列就能描述,因此,一個真正智慧的模型必須同時具備這三種感知維度。
這也是為什麼 Google 在推進統一多模態模型上,比任何公司都更加堅持,並非因為多模態「更炫酷」,而是因為它構建了理解世界的基礎。
九、統一模型不是「把視覺塞進語言模型」,而是一場架構革命
外界常將「統一模型」視為一種正確趨勢,但 Kavukcuoglu 的解釋更具技術深度。
他指出,文本與圖像的輸出結構本質不同。文本是平面的,而圖像是 2D 的。這意味著訓練方式、損失函數、優化器,以及 token 化方式,都需要重新設計。
統一模型並非僅僅是「時代潮流」,而是一項必須突破的工程極限。Google 的敘事中沒有浪漫,也沒有玄學,只有一道道實實在在的工程難題。
十、DeepMind 的文化基因:謙遜、科學與大規模協作
這部分是整場訪談中最具「人味」的內容。Kavukcuoglu 指出,DeepMind 的文化主要由三個核心元素構成:
- 科學心態:所有問題都回到實驗與學習,而非沿襲既有路徑。
- 謙遜 :「我們不知道終極配方」並非客套話,而是一種策略。
- 協作能力 :從 25 人撰寫論文,到 2500 人共同推進單一模型,協作是核心。
當一家公司試圖從科研轉向工程、再從工程轉向產品時,這種文化結構變得至關重要,是推動 Gemini 項目成功的底層基因。
十一、規模:Google 的最大挑戰,也是最強武器
Kavukcuoglu 承認,規模越大,一致性管理越困難,但規模本身同時也是推進力。
Google 能夠同時推動統一模型、多產品落地、跨部門協作、全球化數據管線,以及超大規模的訓練與部署,正是因為擁有世界上最成熟的基礎設施鏈路。
過去兩年,這條基礎設施從「沉睡」狀態恢復為「主力」,重啟了 Google 的攻勢。
十二、安全:不是限制,而是訓練能力
Google 與 OpenAI 在安全策略上的最大差異,不在於嚴格程度,而在於方式。
Google 將安全設計融入訓練過程,而非事後加上過濾器。這是確保模型可靠性的關鍵,同時天然適配 Google 的大規模基礎設施。
十三、統一模型與專用模型:不是路線之爭,而是成本與效率的抉擇
Kavukcuoglu 表示,這不是意識形態問題,而是效率問題。
未來統一模型與專用模型將並存,Google 的策略是「用最合適的工具做最合適的任務」,而非堅持單一範式。
這種務實態度,正是 Google 過去缺失、如今重新找到的重要品質。
十四、Google 的真正底氣:基礎設施的重新激活
Kavukcuoglu 表示:「我們能成功,不是因為更聰明,而是因為基礎設施足夠強。」這句話揭示了大模型時代的一個底層事實,智慧的規模化並非依靠天才,而是依靠完善的管線。
能夠訓練、部署、更新、處理全球數據,並保持安全一致性的,核心在於基礎設施,而非算法本身。
十五、沒有單一路徑,也不依賴「持續擴參」
Kavukcuoglu 說:「我們不知道最終配方。」其潛台詞是:擴參並非終局,統一模型不是最終答案,多模態也不是最終形態。
未來模型的發展路線仍遠未定型。這種「帶著不確定性前行」的態度,反而比某些公司聲稱的「xxx 是通往 AGI 的唯一路徑」更具長久生命力。
十六、下一階段的重點:推理、執行與真正自主性
Gemini 3 的故事才剛開始。Google 下一步的目標包括深層推理、多步任務執行,以及在複雜場景下的穩健性。
從「會回答」到「會行動」是整個行業的共同方向,而 Google 已為內部設計了相對清晰的發展路徑。
十七、Google 內部時間分配:研究 × 工程 × 產品等權推進
Kavukcuoglu 透露,團隊的時間分配不是以研究優先,而是研究、工程與產品三者等權。
這意味著模型從訓練到使用的全過程統一推進,而非線性流程。這正是 Gemini 模型「真正可用」的關鍵原因。
十八、Gemini:全公司規模的「科學工程項目」
在訪談的最後,Kavukcuoglu 用「全公司的科學工程任務」來形容 Gemini 的誕生。
這更像是一個內部視角的注腳:模型的進步源自結構性的調整,而這種調整本身比模型本身更具挑戰性。
訓練、數據、工程、產品、安全與協作等各環節重新對齊,才成就了今天的 Gemini。
過去兩年,Google 並非在尋找捷徑,而是在恢復整個體系應有的速度與一致性。當這些基礎再次穩固,一種屬於 Google 的節奏,也隨之重新出現。
延伸閱讀
- Gemini 3進展改變AI競爭格局 OpenAI 面臨「艱難時刻」
- Gemini 3亮點一次看!巴菲特試用後增持Google?Altman與馬斯克皆發聲
- 《貪婪與恐懼》作者警告AI泡沫:押注中國、清倉輝達
- Google TPU的前世今生:Meta投送抱、輝達暴跌 都跟這顆「自救晶片」有關
- 講座
- 公告
下一篇