menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

A股港股

8G顯卡就能跑!阿里巴巴開源最強視頻生成模型萬相2.1 專家揭露五大優勢

鉅亨網編譯陳韋廷 2025-02-26 13:20

cover image of news article
8G顯卡就能跑!阿里巴巴開源最強視頻生成模型萬相2.1 專家揭露五大優勢

阿里巴巴周二 (25 日) 全面開源視頻生成模型萬相 2.1,共兩個參數規模,140 億參數模型適用於對生成效果要求更高的專業人士,13 億參數模型生成速度較快且能相容所有消費級 GPU,專家則指出萬相 2.1 共有五大優勢。

首先,在 SOTA 性能方面,萬相 2.1 在多個基準測試中優於現有的開源模型和商業解決方案,140 億參數專業版萬相模型在權威評測集 VBench 中以總分 86.22% 大幅超越 Sora、Luma、Pika 等國內外模型,居於榜首。


為評估萬相 2.1 性能,研發人員基於 1035 個內部提示集,在 14 個主要維度和 26 個子維度上進行了測試,然後通過對每個維度的得分進行加權計算來計算總分,其中利用了匹配過程中人類偏好得出的權重。研發人員還對文生視頻、圖生視頻以及模型在不同 GPU 上的計算效率進行了評估。

其次,萬相 2.1 支持消費級 GPU,而可執行多項任務則是第三大優勢,支援文生視頻、圖生視頻、視頻編輯、文生圖和視頻生音訊。此外,在視覺文本生成方面,萬相 2.1 是首個能生成中英文文本的視頻模型,無需外部外掛程式就能生成文字。

強大的視頻 VAE 則是第五大優勢,Wan-VAE 提供卓越的效率和性能,可對任意長度的 1080P 視頻進行編碼和解碼,同時保留時間資訊。

此外,阿里巴巴通義官方文章還提到,萬相 2.1 的開源標誌著阿里雲實現全模態、全尺寸的開源。目前,萬相 2.1 支援訪問通義官網在線體驗或者在 Github、HuggingFace、魔搭社區下載進行本地部署體驗。VAE 是視頻生成領域廣泛使用的模組,可以使得視頻模型在接近無損情況下有效降低資源佔用。

萬相 2.1 模型架構基於主流的視頻 DiT 結構,通過 Full Attention 機制確保長時程時空依賴的有效建模,實現時空一致的視頻生成。

數據方面,研究人員整理並去重了一個包含大量圖像和視頻數據的候選數據集。 在數據整理過程中,其設計了四步數據清理流程,重點關注基本維度、視覺質量和運動品質。 通過強大的數據處理流程快速獲得高質量、多樣化、大規模的圖像和視頻訓練集。

在訓練階段上,對於文本、視頻編碼模組,研究人員使用 DP 和 FSDP 組合的分散式策略,對於 DiT 模組採用 DP、FSDP、RingAttention、Ulysses 混合的並行策略。至於訓練穩定性,萬相 2.1 藉助於阿里雲訓練集群的智能化調度、慢機檢測以及自愈能力,在訓練過程中可以自動識別故障節點並快速重啟任務,平均重啟時間為 39 秒,重啟成功率超過 98.23%。

基於萬相 2.1 模型參數量較小和長序列帶來的計算量較大的特徵,結合集群計算性能和通信頻寬採用 FSDP 切分模型,並在 FSDP 外嵌套 DP 提升多機拓展性,FSDP 和 DP 的通信均能夠完全被計算掩蓋。

此外,為提升端到端整體效率,在文本、視頻編碼和 DiT 模組間進行高效策略切換避免計算冗餘。具體來說,文本、視頻編碼模組每個設備讀不同數據,在進入 DiT 之前,通過迴圈廣播方式將不同設備上的數據同步,保證 CP 組裡中數據一樣。

顯存優化方面,研究人員採用分層的顯存優化策略,選擇一些層進行 Offload,其他層根據不同算子計算量和顯存佔用的分析使用細粒度 Gradient Checkpointing(GC)進一步優化 Activation 顯存。 最後利用 PyTorch 顯存管理機制,解決顯存碎片問題。


Empty