鉅亨網編輯林羿君 綜合報導 2025-11-21 11:40

谷歌 (GOOG-US) 的 AI 攻勢持續推進，繼前段時間在「前端」領域展現顛覆性能力後，最新發布的 Nano Banana Pro（Gemini 3 Pro Image）再次將革新之鐮伸向專業設計行業。這款產品的核心進化，是將 Gemini 3 的深度思考能力完整接入圖像生成流程，使其不再滿足於單純的視覺創作。

谷歌AI再封神！Nano Banana Pro四大亮點一次看 只當生圖神器就錯了。(圖:shutterstock)

正如 Google 對於其新一代多模態模型的定義：「當 AI 開始理解迷宮的路徑、物件的結構、文字的意義甚至 UI 的互動邏輯時，它就不再只是一個畫圖工具，而是一個具備視覺思考能力的智能體。」 Nano Banana Pro 的推出，正是這一願景的關鍵實踐。

告別「瞎猜」 生成前先進行邏輯推演

Nano Banana Pro 的核心能力在於它學會了「先思考，再畫畫」。在產生一張圖像之前，它會先進行一輪物理模擬和邏輯推演，而非僅憑視覺模式進行模式匹配。

這項進化使得 AI 能更好地處理複雜的構圖需求，並將專業級創意控制能力開放給使用者，包括選擇、微調鏡頭角度、改變場景光照，甚至創造精細的散景效果，這些過去需要在專業軟體中進行的精細操作，現在只需一句話即可實現。

此外，針對專業需求，Nano Banana Pro 將畫質一步拉高至 4K，支援自由設定任何長寬比，並允許將最多 14 張輸入影像組合為 1 張輸出影像，同時保持最多 5 個角色的外觀一致性，大幅提升了概念到成品的效率。

多語言推理能力 對圖像內容徹底理解

Nano Banana Pro 憑藉 Gemini 3 增強的多語言推理能力，展現出對圖像內容的徹底理解。這項能力最具說服力的表現，是其對圖像中文字和結構的處理。

例如，使用者可以要求模型為一頁漫畫上色，並將氣泡內的英文翻譯成中文。 Nano Banana Pro 不僅能精準識別、翻譯，還能將中文排版與氣泡形狀嚴絲合縫地重排，整個過程一氣呵成。

這種從辨識、翻譯到設計的連貫處理方式，證明了 AI 已能理解「文字的意義」和圖像的「物件結構」，不再是簡單的像素混合。無論是國際化海報的在地化需求，或是複雜的多語言排版，AI 都能清晰可讀地精確處理文字。

搜尋增強 創造具備事實基礎的視覺內容

Nano Banana Pro 架構中另一項顛覆性能力是整合了 Google 搜尋增強功能（Grounding with Search）。傳統圖像生成仰賴既有知識，但 Nano Banana Pro 能夠在創造過程中獲取最新、最精確的知識。

例如，當使用者要求生成「廣州旅遊的 2 天行程」視覺化圖片時，AI 能夠從搜尋中獲取詳細的行程地圖、中英文註釋及最新的景點圖片。

又或者，它可以根據提示詞要求，獲取最新天氣狀況，將溫度、風力等關鍵數據轉化為富有設計感的視覺內容。這項能力賦予了 AI 創造過程「事實基礎、即時性與可驗證性」。

通往 AGI 的多模態原生路徑

Nano Banana Pro 的發布，代表著影像生成正式進入了「先理解再表達」的階段。 Google 正試圖向世界證明，通往 AGI（通用人工智慧）的道路，必須是多模態原生的——只有一個能看、能聽、能理解結構、能處理邏輯的模型，才可能對世界進行完整地「思考」。