阿里巴巴通義千問 Qwen3-Next 來了:更快、更強、更高效
金色財經
近日,阿里巴巴通義千問團隊正式推出了全新的 Qwen3-Next 模型架構,並同步開源了基於這一架構的 Qwen3-Next-80B-A3B 系列模型。
相比上一代產品,新版本在訓練成本、推理效率以及超長上下文處理能力上都有大幅提升,引發了業界廣泛關注。
更高效的模型設計
Qwen3-Next 的總參數量達到 800 億,但在實際推理過程中只需激活 約 30 億 參數。這得益於其架構上的多項創新:
混合注意力機制:讓模型在不同場景下更高效地處理資訊。
高稀疏度專家混合結構(MoE):在保證性能的同時顯著降低計算開銷。
多 token 預測機制:提升長文本推理的吞吐效率。
訓練穩定性優化:在大規模訓練過程中更穩定、更高效。
這些改進不僅提升了模型在複雜任務中的表現,也讓其在資源消耗上更具優勢。
性能提升一覽
根據公開報導,Qwen3-Next 相比上一代 dense 模型 Qwen3-32B,在多個方面有明顯提升:
訓練成本:降低約 90%。
推理效率:在一般場景中速度提升數倍,在 超長文本(32K token 以上) 場景下,吞吐率提升 超過 10 倍。
性能表現:在多數下游任務中,Qwen3-Next 的基礎版(Base)已經超越 Qwen3-32B-Base。
特別是在 超長上下文處理 方面,Qwen3-Next 擁有明顯優勢,這對於法律文書、科研論文、大規模代碼庫等場景都有重要意義。
多版本滿足不同需求
此次開源的 Qwen3-Next-80B-A3B 系列包含多個版本,適配不同任務:
Base:通用版本,用於研究與基線對比。
Instruct:指令調優版本,更適合對話、問答、命令執行等場景。
Thinking:強化推理能力的版本,專注複雜推理任務,在部分測試中表現超過前代模型,甚至超過部分閉源大模型。
開源與應用
阿里巴巴已將 Qwen3-Next 系列全面開源,開發者和研究者可在 Hugging Face、魔搭社區 下載模型,也可通過 阿里雲百鍊平台 API 或 通義千問 直接體驗。
這一開放舉措,不僅推動學術研究,也加速產業落地,尤其適合法律、科研、教育等需要處理超長文本的場景。
寫在最後:Qwen3‑Next 的價值與前景
Qwen3‑Next 的發布,體現了阿里巴巴通義千問在國產大模型研發上的新突破:
技術升級:在效率、成本、長文本處理能力上實現明顯提升。
產業應用價值:低成本、高效率的特性,使模型更適合企業部署和行業落地。
開源生態:開放下載和 API 接入,助力研究者和開發者進行二次開發和創新。
可持續發展:高效架構降低資源消耗,符合行業對綠色 AI 的期待,也便於持續迭代和優化。
可以說,Qwen3‑Next 不僅是一款性能強大的大模型,更是阿里巴巴在 AI 產業布局中,為企業和開發者提供的一張「新名片」,標誌着國產大模型在效率、應用落地和開放生態上的新高度。
來源:金色財經
發佈者對本文章的內容承擔全部責任
在投資加密貨幣前,請務必深入研究,理解相關風險,並謹慎評估自己的風險承受能力。不要因為短期高回報的誘惑而忽視潛在的重大損失。
暢行幣圈交易全攻略,專家駐群實戰交流
▌立即加入鉅亨買幣實戰交流 LINE 社群(點此入群)
不管是新手發問,還是老手交流,只要你想參與加密貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資,都歡迎入群討論學習!
- 新手學買幣,完課再抽比特幣!
- 掌握全球財經資訊點我下載APP
延伸閱讀
- 講座
- 公告
上一篇
下一篇