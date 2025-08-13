search icon



中國科技巨擘華為今 (12) 日在 2025 金融 AI 推理應用落地與發展論壇上正式發表 AI 推理創新技術 UCM(推理記憶資料管理器)，並計劃下月正式開源 UCM。

cover image of news article
華為發表UCM技術，解決AI「推不動、推得慢、推得貴」三大痛點。

什麼是 UCM？解決 AI 回應慢又貴的問題

想像一下，當你問 AI 問題時，它需要「思考」很久才回答，而且運算成本很高。UCM 就像給 AI 裝了一個「超強記憶系統」，讓它能更快回應、處理更長的對話，同時大幅降低成本。

華為副總裁周躍峰指出，目前 AI 推理面臨三大問題：「推不動」(輸入內容太長超出處理範圍)、「推得慢」(回應速度太慢)、「推得貴」(運算成本太高)。

UCM 透過「分層記憶」概念解決這些痛點，就像人腦會把常用資訊放在容易取得的地方，不常用的資訊存在深層記憶中。

KV Cache 技術突破 記憶容量從 GB 躍升至 PB 級

UCM 的核心是以 KV 快取 (KV Cache) 和記憶管理為中心的推理加速技術。KV 快取是 AI 模型在對話過程中儲存上下文資訊的關鍵技術，過去受限於高頻寬記憶體 (HBM) 容量，現在 UCM 能將 AI 的記憶容量提升百萬倍，從原本只能記住少量對話內容，擴展到可以記住海量的歷史資訊。

UCM 將 AI 推理系統的記憶分為三層：即時記憶資料放在 HBM 中、短期記憶資料放在 DRAM、長期記憶放在共享專業儲存中，透過智慧分級實現最佳效能。

三大技術突破 效能大幅提升

UCM 的核心技術包括三個部分：

  1. 推理引擎外掛程式：像萬用轉接頭，可以連接各種不同的 AI 系統
  2. 智慧快取管理：支援多級 KV 快取管理及創新加速演算法，自動決定哪些資料要放在哪個層級的記憶體中
  3. 高速存取適配器：提供高效能 KV 快取存取，加速資料讀取，減少等待時間

經測試驗證，華為宣稱 UCM 能帶來顯著改善包含：一，首次回應時間最高縮短 90%；二，系統處理量最大提升 22 倍；三，可處理內容長度增加 10 倍；四，Token（AI 理解和處理文字的最小單位）經濟性提升 2 倍以上

創新聯想演算法 讓 AI 越用越聰明

UCM 還導入受打字輸入法聯想啟發的新聯想演算法，就像手機的智慧輸入功能，會根據你平常的使用習慣預測你想說什麼，讓 AI 能一次輸出多個詞彙，而不用一個字一個字慢慢生成。這項技術讓 AI「存得越多推得越快」，比傳統預測加速效果更適合企業應用場景。

華為數據儲存產品線 AI 儲存首席架構師李國杰表示，相較於業界現有方案只有傳統 Prefix Cache 技術，UCM 提供更豐富、可靠且加速效果更好的演算法庫，能在各種場景下自動切換和適應。

瞄準 Agentic AI 時代 持續技術演進

UCM 著眼於未來 Agentic AI 時代的需求設計。除了今年發布的推理加速套件，華為還將持續建構面向 Agent 知識感知的多模態檢索加速能力，以及未來 Agent 原生記憶的管理和加速能力。

李國杰透露，UCM 從去年 6-7 月開始孵化，至今約一年時間，僅演算法方面就有百人級團隊投入，未來將面向 Agentic AI 做更深入演進。

開源計畫 推動產業發展

華為計劃 9 月在魔擎社區率先開源 UCM，隨後逐步貢獻給主流 AI 開發社區。華為強調，透過開放這項技術，希望與產業界共同建立更成熟的 AI 推理生態系統。

中國信通院專家指出，目前 AI 發展重心正從「訓練模型」轉向「實際應用推理」，而 KV 快取為核心的記憶體管理將是未來 AI 系統優化的關鍵技術。

UCM 的推出標誌著 AI 推理技術邁向新階段，不僅能讓 AI 回應更快、處理能力更強，也為 AI 技術在各行業的大規模應用奠定基礎。

