科技

最懂中國風！阿里全面開源視頻生成大模型「萬相2.1」 VBench榜單榮登第一

鉅亨網編譯陳韋廷綜合報導2025-02-26 09:30

阿里巴巴 (09988-HK)(BABA-US) 也加入視頻大模型開源之爭，周二 (25 日) 晚間宣佈全面開源旗下視頻生成模型通義萬相 2.1，此次開源採用 Apache2.0 協定，14B 和 1.3B 兩個參數規格的全部推理代碼和權重全部開源，同時支援文生視頻和圖生視頻任務，全球開發者可在 Github、HuggingFace、魔搭社區下載體驗。

cover image of news article — 最懂中國風！阿里全面開源視頻生成大模型「萬相2.1」 VBench榜單榮登第一（圖：Shutterstock）

據介紹，14B 萬相模型在指令遵循、複雜運動生成、物理建模、文字視頻生成等方面表現突出。在評測集 VBench 中，萬相 2.1 以總分 86.22% 的成績大幅超越 Sora、Luma、Pika 等國內外模型，穩居榜首位置。

‌

1.3B 版本測試結果不僅超過更大尺寸的開源模型，甚至還接近部分閉源模型，同時能在消費級顯卡運行，僅需 8.2GB 顯存就可以生成高品質影片，適用於二次模型開發和學術研究。

值得注意的是，萬相 2.1 還是首個具備支援中文文字生成能力，且同時支援中英文文字特效生成的視頻生成模型。

通義萬相是阿里雲通義系列 AI 繪畫創作大模型，可輔助人類進行圖片創作，在 2023 年 7 月 7 日正式上線。在 2024 年 9 月 19 日的阿里雲棲大會上，阿里巴巴發佈通義萬相視頻生成大模型，該模型可生成影視級高清視頻，而且更能聽懂中國話，被外界稱為「最懂中國風」的視頻大模型。

今年 1 月初，通義萬相視頻生成模型宣佈重磅升級至 2.1 版，模型整體性能大幅提升，尤其是在處理複雜運動、還原真實物理規律、提升電影質感及優化指令遵循方面取得了顯著進展。

通義萬相 2.1 版推出後，憑藉著優秀的表現，在權威評測榜單 VBench 中登上榜首。據悉，VBench 是視頻生成領域的權威評測集，一共有 16 個評級，從整體一致性、動作流暢度、畫面穩定性等方面對模型進行全方位評估。

VBench 榜單顯示，通義萬相在運動幅度、多物件生成、空間關係等關鍵能力上拿下最高分，並以總分 84.7% 的成績斬獲第一，這代表通義萬相是美國乃至全球視頻生成模型的領跑者。

根據阿里通義團隊介紹，通義萬相 2.1 在圖像生成和視頻生成兩大能力上均有顯著提升。在影片生成方面，通過自研的高效 VAE 和 DiT 架構，增強了時空上下文建模能力，可支援無限長 1080P 視頻的高效編解碼，並在文字視頻生成上實現了突破，成為首個支援中文文字生成能力且同時支援中英文文字特效生成的視頻生成模型，可滿足廣告設計、短視頻等領域的創作需求。

專家分析指出，OpenAI 去年春節前後憑藉 Sora 在視頻生成領域引發熱潮，讓視頻生成成為各大 AI 廠商競相追逐的焦點，而在今年春節，阿里通義萬相則展現視頻生成技術令人矚目的顯著進步，引領著視頻大模型領域繼續飛速向前發展。

當前，DeepSeek 正以開放的姿態參與重構全球 AI 生態格局，並給大模型開源社區注入極強的信心與動力。在 DeepSeek 帶動下，越來越多 AI 廠商開始擁抱開源。阿里巴巴此次開源旗下視頻生成模型萬相 2.1 模型，代表開源的範圍正從大語言模型領域擴展至圖像、視頻等多模態大模型領域，有助於打破技術壁壘，讓更多的開發者和研究人員能夠共同參與到 AI 創新的進程中來。