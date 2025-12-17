鉅亨網新聞中心 2025-12-17 16:40

開源 AI 模型領域再次迎來重磅選手。小米 (01810-HK) 近日正式發布並開源全新大型語言模型 MiMo-V2-Flash。這款模型總參數達 3,090 億，活躍參數為 150 億，採用專家混合架構 (MoE)。

小米突然發表新AI模型！媲美DeepSeek-V3.2、把手機的性價比捲到AI。(圖：Shutterstock)

MiMo-V2-Flash 性能不僅能與 DeepSeek-V3.2、Kimi-K2 等頂尖開源模型抗衡，更在架構設計上激進創新，將推理速度拉升至每秒 150 tokens，且成本極低，每百萬 token 輸入僅需 0.1 美元。

‌



目前，MiMo-V2-Flash 已採用 MIT 開源協議，基礎權重也已在 Hugging Face 上架。

在各項基準測試中，MiMo-V2-Flash 展現了超高實力。在 AIME 2025 數學競賽和 GPQA-Diamond 科學測試中，該模型位居開源界前兩名。

最令人驚艷的則是其程式編寫能力。在模擬修復現實軟體錯誤的 SWE-bench Verified 測試中，MiMo-V2-Flash 以 73.4% 的得分超越所有開源模型，表現直逼尚未發布的 GPT-5-High。

在多語言程式設計基準測試 SWE-Bench Multilingual 裡，MiMo-V2-Flash 的解決率為 71.7%。

而在代理任務上，MiMo-V2-Flash 在τ²-Bench 分類得分中，通訊類 95.3 分，零售類 79.5 分，航空類 66.0 分，BrowseComp 搜尋代理得分 45.4，啟用上下文管理後直接飆升到 58.3。

相關數據顯示，MiMo-V2-Flash 的能力不僅止於程式碼生成，更能掌握複雜任務背後的邏輯結構，並支援多輪智慧代理之間的協同運作。

同樣值得注意的是，其文字表現水準已逼近主流頂級閉源模型，代表 MiMo-V2-Flash 不再只是功能型工具，而具備勝任日常使用的可靠輔助角色。

兩大黑科技：混合滑動窗口與多 Token 預測

在兼顧長文本處理能力的同時，MiMo-V2-Flash 也成功壓低運算與使用成本，而這一成果，正是建立在兩項關鍵技術突破之上：

第一，是激進的混合滑動窗口注意力機制。小米採用了 5:1 的比例，即 5 層滑動窗口搭配 1 層全局注意力。這種設計讓 KV 緩存存儲量減少了近 6 倍。

小米研究員羅福莉指出，實驗發現 128 個 token 是窗口大小的「最佳甜點值」，盲目擴大反而會損害性能。

其次則是，輕量級多 Token 預測 (MTP)。傳統模型一次只能生成一個 token，MiMo-V2-Flash 則能並行預測多個。

實測顯示，這讓推理速度提升了 2 到 2.6 倍，並有效解決了強化學習訓練中 GPU 空轉的浪費問題。

算力僅需 1/50，實現模型「自我進化」

在後訓練階段，小米引入了多教師在線策略蒸餾 (MOPD) 技術。

傳統的「監督微調＋強化學習」訓練流程，長期存在兩大問題：一是訓練過程容易震盪不穩，二是對算力的需求極為驚人。

而 MOPD 採取了截然不同的做法，讓學生模型直接在自身策略分布下進行取樣，並由多個專家教師在每一個 token 層級即時給出細緻的回饋訊號。

換句話說，就是學生模型不再等整篇內容寫完才被評分，而是在「寫的每一個字」都能即時得到老師指導。這種即時校正機制，使學生模型能更快掌握教師模型的核心能力，同時大幅提升訓練穩定性。

在效率層面，MOPD 的表現更是顯眼。相較於傳統方法，它僅需約五十分之一的算力，就能讓學生模型逼近教師模型的性能上限。

這代表小米能以更低的資源成本，加快模型更新與更新速度。

此外，MOPD 架構具備高度彈性，可隨時引入新的教師模型；隨著學生模型能力成長，甚至能反過來擔任教師角色，形成「學中教、教中學」的自我進化循環。模型之間彼此傳承、持續強化，使整體能力層層堆疊。

依照羅福莉的說法，團隊借鑑了 Thinking Machine 提出的 On-Policy Distillation 思路，將多個強化學習模型進行整合，意外帶來極為顯著的效率突破，也為打造具備自我強化能力的閉環系統奠定基礎，讓模型得以不斷進化，最終成為更強大的教師。

在代理強化學習擴展方面，小米 MiMo-V2-Flash 團隊以真實 GitHub issue 建立逾 10 萬個可驗證任務，並透過 Kubernetes 叢集自動化執行，可同時啟動超過 1 萬個 Pod，環境部署成功率達 70%。

針對網頁開發場景，團隊導入多模態驗證機制，改以影片錄製方式檢查程式執行結果，有效降低視覺幻覺並確保功能正確性。

MiMo-V2-Flash 可無縫整合 Claude Code、Cursor、Cline 等主流開發工具，並支援 256K 超長上下文，足以應付數百輪代理互動與工具呼叫，方便直接融入既有工作流程。

小米同時將推理程式碼回饋至 SGLang，並公開完整技術報告，模型權重以 MIT 授權於 Hugging Face 開源，目前亦在 API 平台限時開放免費體驗。

小米的 AI 野心：打造全生態基石

MiMo-V2-Flash 的推出，象徵小米正式加速布局人工智慧核心技術。

羅福莉日前在社群平台表示，MiMo-V2-Flash 已完成上線，並被定位為公司 AGI 發展藍圖中的第二個關鍵節點，顯示後續仍有更大規模的技術規劃正在推進。

小米也在技術報告中坦言，MiMo-V2-Flash 與頂級閉源模型之間仍存在性能差距。

不過，公司已明確規劃，將透過擴充模型規模與訓練算力，逐步拉近差距，同時持續優化更穩定且高效率的智能體架構。

在 MOPD 框架下，教師模型與學生模型的持續更新與協同演進，為後續能力提升提供了彈性與成長空間。從更宏觀的角度來看，這反映出小米對 AI 生態的長期戰略布局。

隨著手機、IoT 與汽車等硬體版圖持續擴張，小米極需一個高效能的 AI 核心作為底層支撐，而 MiMo-V2-Flash 正是其關鍵基石。