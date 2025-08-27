超越GPT-4o！Google發佈新圖像生成AI模型Gemini 2.5 Flash Image
Google(GOOGL-US) 近日正式推出新一代圖像生成與編輯模型 Gemini 2.5 Flash Image。這款模型允許使用者只需描述文字，就能生成或編輯圖像。其創新之處在於能以極高速度與規模，提供精準、一致且高保真度的圖像編輯效果。
Gemini 2.5 Flash Image 建立在多模態與高階推理能力的 Gemini 2.5 基礎上，能原生理解圖像與文字，讓生成與編輯流程無縫連結。使用者可以：
- 透過單一指令將多張圖像融合成一張；
- 在多次編輯中保持主體與角色一致；
- 進行自然語言驅動的目標化改動（如「更換襯衫顏色」、「移除照片中的人物」）；
- 無論編輯複雜度多高，都能透過修正保持內容與視覺完整性。
相較於舊款圖像模型，Gemini 2.5 Flash Image 大幅提升了編輯過程中身份與視覺一致性的維持能力。
其關鍵技術特點包括：
- 精準視覺編輯：支持根據自然語言提示進行高度精準的局部編輯，包括背景模糊、姿勢調整或物體移除。
- 多模態融合：可接受多張參考圖像並融合，適合製作複雜產品模擬圖或多角色廣告場景。
- 模板與品牌一致性：在生成資產或產品目錄時，保持風格、品牌與角色一致。
- 先進推理能力：結合 Gemini 語意知識，可應用於圖表理解、教育註解等任務，而不僅限於擬真圖像生成。
- 可擴展 API：開發者與企業可透過 Gemini API、Google AI Studio 及 Vertex AI 使用模型，所有生成圖像均內嵌 SynthID 浮水印，以符合 AI 來源追蹤與監管規範。
Gemini 2.5 Flash Image 技術表現
Gemini 2.5 Flash Image 上週其實已經以「nano-banana」的代號出現在大型語言模型競技場 LMArena 中，並獲得了用戶 200 多萬票的認可。
如今正式揭曉後，Gemini 2.5 Flash Image 在文字生成圖片與圖像編輯兩個場景均拿下了全球第一，在圖像編輯榜單上更是獲得 1362 的高分，較第二名的領先幅度接近 15%。
在 Google 公佈的基準測試中，Gemini 2.5 Flash Image 更是在用戶綜合喜好度、人物、創造力、資訊圖表、物件和環境的生成上均領先 GPT-4o 圖像生成、Flux.1 Kontext（max）、Qwen Image Edit 等模型，但在風格化能力上與 GPT-4o 圖像生成仍有差距。
專家與圖像愛好者均讚譽 Gemini 2.5 Flash Image 擬真效果與語意控制能力，即使多次編輯，也能保持自然且貼近原素材。
Gemini 2.5 Flash Image 價格、使用與未來規劃
目前，Gemini 2.5 Flash Image 以預覽模式提供，價格為 30 美元 / 100 萬個輸出 token，每張圖片為 1290 個輸出 token，每張圖像價格約為 0.039 美元。所有其他輸入和輸出模態均遵循 Gemini 2.5 Flash 定價。
隨著與 OpenRouter 及 fal.ai 等平台合作，企業與開發者整合快速成長。所有生成圖像皆內嵌不可見 SynthID 浮水印，保障可追蹤性與 AI 倫理合規性。Google 也持續優化長文本渲染與更精細的一致性控制。
Gemini 2.5 Flash Image 不僅速度更快、創造力更高，其技術突破在於終於解決了生成式 AI 長期面臨的「一致性與情境感知圖像編輯」難題，為創作者、開發者與企業開啟了全新的工作流程與創作可能性。
