鉅亨網編譯陳韋廷 2025-09-16 13:40

阿里巴巴 (09988-HK)(BABA-US)通義實驗室在 AI 語音技術領域取得重大突破，周一 (15 日) 正式發表 FunAudio-ASR 端對端語音辨識大模型，該模型的問世為語音辨識技術的發展帶來了新的曙光，並有望在多個領域引發深刻變革。

幻覺率狂降70%！阿里巴巴發布新AI語音辨識模型FunAudio-ASR 解決行業兩大難題（圖：Shutterstock）

FunAudio-ASR 模型透過創新的 Context 模組，成功解決了語音辨識中的兩大關鍵難題—「幻覺」和「串語種」。在高噪音場景下，幻覺率從 78.5% 大降至 10.7%，降幅接近 70%。這一卓越表現得益於該模型使用了數千萬小時的音訊資料進行訓練，並融合了大語言模型 (LLM) 的語義理解能力，進而顯著提升了語音識別的上下文一致性與跨語言切換能力。

阿里巴巴通義實驗室精心打造了 5 大類測試，重點聚焦語音辨識在遠場、吵雜背景等極具挑戰性場景下的表現，同時結合開源測試集對模型效能進行全面評估。結果顯示，FunAudio-ASR 超越了 Seed-ASR、KimiAudio-8B 等業界知名模型。

在實際應用方面，FunAudio-ASR 進行了全方位優化。它支援低延遲串流識別、跨中英文自然切換以及用戶可自訂的熱詞識別，能廣泛涵蓋視訊會議、即時字幕、智慧終端等多樣化的應用場景。

FunAudio-ASR 模型提供滿血版和輕量的 nano 版本，滿血版由 0.7B 參數量的編碼器和 7B 參數量的 LLM 組成，追求最高精度，而輕量的 nano 版本由 0.2B 參數量的編碼器和 0.6B 參數量的 LLM 組成，平衡了效率與精度。

目前，FunAudio-ASR 已在釘釘的「AI 聽記」、視訊會議、DingTalk A1 硬體等多個場景中得到應用。

值得一提的是，FunAudio-ASR 已上線阿里雲百煉平台，API 定價為每秒 0.00022 元 (人民幣，下同)，轉錄一段一小時的音訊大約只需 8 毛錢，其技術報告已發布，開發者可在魔搭社群體驗其效果。

在解決「幻覺」問題方面，通義實驗室設計了 Context 增強模組，透過 CTC 解碼器快速生成第一遍解碼文本，並將其作為上下文資訊輸入 LLM，輔助理解音訊內容。為因應高雜訊場景，還在訓練資料中加入大量模擬數據，有效降低了幻覺率。

對於「串語種」問題，透過 CTC 解碼器的最佳化和將解碼結果作為提示詞輸入 LLM，緩解了模型「自動啟動」翻譯功能的現象。

此外，FunAudio-ASR 在支援術語客製化識別方面也有顯著提升，透過引入 RAG 機制，在不增加推理複雜度的前提下，擴充了客製化上文數量，並保持了較高的客製化識別效果。

在技​​術實現上，FunAudio-ASR 模型包含四個核心組件，預訓練使用了數千萬小時的音頻數據，經過多個階段的優化和強化學習，最終在各項性能上達到優異水平。