menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

A股港股

阿里巴巴通義千問Qwen3開源登頂GitHub!挑戰OpenAI與Google霸主地位

鉅亨網編譯莊閔棻 綜合報導 2025-04-29 11:20

cover image of news article
阿里巴巴正式開源旗下通義千問系列最新力作「Qwen3 系列模型」。

台北 4 月 29 日凌晨,中國科技巨頭阿里巴巴 (09988-HK) 正式開源旗下通義千問系列最新力作「Qwen3 系列模型」,上線短短 2 小時就在 GitHub 上累積超過 1 萬 7 千顆星,迅速登上全球開源模型排行榜冠軍,引發全球關注。

此次開源版本涵蓋 8 種不同規格,包含 2 款混合專家(MoE)模型(30B、235B)以及 6 款稠密模型(0.6B、1.7B、4B、8B、14B、32B),全面採用 Apache 2.0 開源授權,允許免費商用。


開發者現可於 Hugging Face 與 GitHub 平台下載,或透過 Fireworks AI、Hyperbolic 等雲端平台使用。

阿里巴巴指出,Qwen3 不僅在多項基準測試中超越 OpenAI 與 Google 的模型,部分表現甚至領先,顯示中國 AI 技術的快速進步。特別是旗艦模型 Qwen-3-235B-A22B,在 Codeforces 程式競賽平台上擊敗了 OpenAI o3-mini 與 Google Gemini 2.5 Pro,在數學推理與邏輯測試領域也表現出色,但目前尚未公開下載。

公開版本中,最大規格則為 Qwen3-32B,表現依然亮眼,甚至在多項測試中超越 OpenAI 的 o1 模型,亦成為中國 DeepSeek 的 R1 系列的強勁對手。

Qwen3 系列五大技術亮點包括:

1. 參數與效能的突破平衡

Qwen3 旗艦模型 Qwen3-235B-A22B(總參數 2350 億,啟用參數 220 億)以僅十分之一的啟用參數量,在數學推理(AIME25 達 81.5 分)、程式碼生成(LiveCodeBench 超過 70 分)等基準測試中刷新世界紀錄,超越如 DeepSeek-R1、Grok-3 等國際對手。

小型模型同樣表現亮眼,4B 參數模型效能媲美 Qwen2.5-72B,30B-A3B MoE 模型亦僅需 10% 的啟用參數,就追平了 Qwen3-32B 的表現。

2. 首創混合推理模式

Qwen3 可根據任務難度在「思考模式」與「非思考模式」間動態切換,兼顧高速回應與深度推理需求。

在「思考模式」下,模型可針對數學證明、程式除錯等高難度任務進行逐步推理,強化邏輯性與可解釋性;而在「非思考模式」下,則可用於天氣查詢、日常對話等簡單場景,以毫秒級速度快速回應,推理成本降低約 80%。

開發者可根據實際需求設定「思考預算」,在推理效能與結果精度之間自由取捨,實現更加靈活高效的應用體驗。

3. 支援 119 種語言,全球化布局

Qwen3 支援多達 119 種語言與方言,在 STEM(科學、技術、工程及數學)領域與邏輯推理能力顯著提升。在 ArenaHard 人類偏好評測中拿下 95.6 分,超越 OpenAI-o1,在創意寫作、多輪對話等場景中表現,接近人類水準。

4. 強化代理生態,支援 MCP 協議

Qwen3 內建模型上下文協議(MCP),進一步強化了代理(Agent)開發能力。

透過 MCP 協議,模型能在「思考模式」與「非思考模式」下靈活切換,並與外部數據源及各類工具實現深度整合,不僅能調用資料,還能協作完成複雜任務,顯著拓展了大語言模型的應用邊界。

Qwen3 在 BFCL Agent 能力測試中以 70.8 分名列榜首,能高效完成跨平台任務調度,為通用人工智慧(AGI)的落地奠定基礎。

5. 極致資料與訓練策略優化

與 Qwen2.5 相比,Qwen3 預訓練資料集規模幾乎是上一代兩倍,從 18 兆個字元(token)擴展到了 36 兆個字元,涵蓋網頁文本、PDF 文獻與大量合成資料(數學題庫、程式碼片段等)。

此外,Qwen3 也採用分階段訓練策略,包含三大主要階段:

  • 步驟一(基礎語言能力建構):透過超過 30 兆字元進行 4K 上下文長度的預訓練,奠定扎實的基礎語言能力與通用知識;
  • 步驟二(知識稠密型優化):在額外 5 兆字元的資料上強化 STEM、編碼與推理等專業領域表現;
  • 步驟三(情境能力擴展):透過高品質長文本資料,將上下文處理能力擴展至 32K,以應對超長且複雜的輸入。

同時,Qwen3 亦結合思維鏈冷啟動、強化學習、模式融合與通用優化等多階段後訓練,大幅提升推理能力與回應速度。

隨著美國對中國晶片出口限制收緊,阿里巴巴 Qwen3 的問世不僅突顯中國 AI 企業的自立自強,也象徵全球 AI 生態正快速分化。

軟體公司 Baseten 執行長 Srivastava 就指出,Qwen3 展現了開源模型在全球 AI 生態中的快速崛起,尤其是在美國對中國晶片限制下,顯示中國技術自給自足的趨勢日益明顯。


Empty