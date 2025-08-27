鉅亨網新聞中心 2025-08-27 13:31

Google發佈新圖像生成AI模型Gemini 2.5 Flash Image。(圖：Shutterstock)

Gemini 2.5 Flash Image 建立在多模態與高階推理能力的 Gemini 2.5 基礎上，能原生理解圖像與文字，讓生成與編輯流程無縫連結。使用者可以：

透過單一指令將多張圖像融合成一張；

在多次編輯中保持主體與角色一致；

進行自然語言驅動的目標化改動（如「更換襯衫顏色」、「移除照片中的人物」）；

無論編輯複雜度多高，都能透過修正保持內容與視覺完整性。

相較於舊款圖像模型，Gemini 2.5 Flash Image 大幅提升了編輯過程中身份與視覺一致性的維持能力。

其關鍵技術特點包括：

精準視覺編輯：支持根據自然語言提示進行高度精準的局部編輯，包括背景模糊、姿勢調整或物體移除。

多模態融合：可接受多張參考圖像並融合，適合製作複雜產品模擬圖或多角色廣告場景。

模板與品牌一致性：在生成資產或產品目錄時，保持風格、品牌與角色一致。

先進推理能力：結合 Gemini 語意知識，可應用於圖表理解、教育註解等任務，而不僅限於擬真圖像生成。

可擴展 API：開發者與企業可透過 Gemini API、Google AI Studio 及 Vertex AI 使用模型，所有生成圖像均內嵌 SynthID 浮水印，以符合 AI 來源追蹤與監管規範。

Gemini 2.5 Flash Image 技術表現

Gemini 2.5 Flash Image 上週其實已經以「nano-banana」的代號出現在大型語言模型競技場 LMArena 中，並獲得了用戶 200 多萬票的認可。

如今正式揭曉後，Gemini 2.5 Flash Image 在文字生成圖片與圖像編輯兩個場景均拿下了全球第一，在圖像編輯榜單上更是獲得 1362 的高分，較第二名的領先幅度接近 15%。

在 Google 公佈的基準測試中，Gemini 2.5 Flash Image 更是在用戶綜合喜好度、人物、創造力、資訊圖表、物件和環境的生成上均領先 GPT-4o 圖像生成、Flux.1 Kontext（max）、Qwen Image Edit 等模型，但在風格化能力上與 GPT-4o 圖像生成仍有差距。

專家與圖像愛好者均讚譽 Gemini 2.5 Flash Image 擬真效果與語意控制能力，即使多次編輯，也能保持自然且貼近原素材。

Gemini 2.5 Flash Image 價格、使用與未來規劃

目前，Gemini 2.5 Flash Image 以預覽模式提供，價格為 30 美元 / 100 萬個輸出 token，每張圖片為 1290 個輸出 token，每張圖像價格約為 0.039 美元。所有其他輸入和輸出模態均遵循 Gemini 2.5 Flash 定價。

隨著與 OpenRouter 及 fal.ai 等平台合作，企業與開發者整合快速成長。所有生成圖像皆內嵌不可見 SynthID 浮水印，保障可追蹤性與 AI 倫理合規性。Google 也持續優化長文本渲染與更精細的一致性控制。