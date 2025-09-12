鉅亨網新聞中心 2025-09-12 16:00

阿里巴巴通義實驗室發表新一代基礎模型架構 Qwen3-Next，並基於此架構訓練出 Qwen3-Next-80B-A3B-Base 模型。這款新模型擁有高達 800 億個參數，但僅需啟動其中 30 億個參數，實現了效能與成本的最佳平衡，為大模型發展樹立新標竿。

成本暴降90%！阿里巴巴新模型超狂 用30億參數跑出800億頂級效能。（圖shuuterstock)

Qwen3-Next-80B-A3B 模型不僅訓練成本極低，僅需 Qwen3-32B 模型約 9.3% 的 GPU 計算資源，針對超過 32k 的上下文，推理吞吐量可達到 Qwen3-32B 的 10 倍以上。

此外，新模型原生支援 262,144 個 token 上下文長度，並可擴展至驚人的 1,010,000 個 token，遠超業界平均水平。

指令與思維模型效能卓越

基於 Qwen3-Next-80B-A3B-Base 模型，阿里通義同時開源了指令模型（Instruct）與思維模型（Thinking）。其中，指令模型效能已能與參數規模更大的 Qwen3-235B-A22B-Instruct-2507 旗艦模型相媲美。而思維模型在多項基準測試中，表現更是優於 Google 的閉源模型 Gemini-2.5-Flash-Thinking，展現出強勁的推理與邏輯能力。

Qwen3-Next 的核心突破源於多項關鍵技術的融合與創新：

混合注意力機制： 採用 Gated DeltaNet 和 Gated Attention 的組合，有效處理超長上下文，並在性能和效率上超越單一架構。

高稀疏度 MoE 結構： 透過極低的啟動專家比率（1 比 50），大幅降低運算成本，同時保持模型強大的容量。

多 Token 預測（MTP）： 透過訓練推理一致的多步驟訓練，顯著提升了投機採樣的接受率，進而加速推理過程。

開放生態 賦能開發者

Qwen3-Next 模型現已在魔搭社群和 Hugging Face 開源，供全球開發者免費使用。開發者不僅可以透過 Qwen Chat 直接體驗，亦可藉由阿里雲百煉、NVIDIA API Catalog 等平台進行應用開發。此次開源不僅展現了阿里在模型架構上的深厚技術實力，也再次印證其在推動開源社群發展上的承諾。