美股

谷歌6月更新最強開源模型Gemma 2！270億參數表現超越規模大兩倍模型

鉅亨網新聞中心2024-06-28 13:22

今年 Google I/O 大會上，科技巨頭 Google 正式發布最新一代開放語言模型——Gemma 2，預計 6 月推出，其品質表現超越兩倍大模型，引起業界關注。

cover image of news article — （圖：REUTERS/TPG）

Gemma 是 Google (GOOGL-US) 開發的一系列開放 (但非開源) 模型, 類似 Meta 的 Llama 和新創公司 Mistral AI 的開放模型。此前, 標準的 Gemma 模型只有 20 億和 70 億參數版本。而這次亮相的 Gemma 2 則一舉突破了 270 億參數，無疑是一大進步。

‌

Gemma 2 提供了 90 億 (9B) 和 270 億 (27B) 兩種規模的模型版本。27B 模型訓練了 13 萬億 tokens,9B 版本用了 8 萬億 tokens, 兩者都有 8192 的上下文窗口, 可在 Google AI Studio 中使用。此外，Google 還將於近期推出 26 億參數 (2.6B) 的小型版本, 甚至可以在手機本地運行。

這款新模型在各項性能指標上都表現出色。在語言模型競技場 LMSYS Chatbot Arena 的測試中，270 億參數的 Gemma 2 指令微調模型擊敗了擁有 700 億參數的 Llama 3，並超越了許多其他大型開源模型。僅 9B 版本就已成為 15B 以下參數模型中的佼佼者。

Google 表示，Gemma 2 在架構設計上做了多項重要改進, 包括局部 - 全局注意力機制、分組查詢注意力等, 並採用了知識蒸餾而非下一個 token 預測的方式來幫助小模型的訓練。

值得一提的是，Gemma 2 27B 模型可在單個英偉達 A100 或 H100 GPU 上高效運行全精度推理, 大幅降低了部署成本。同時, 該模型也支持主流 AI 框架如 Hugging Face Transformers, 並將在 Google 雲平台 Vertex AI 上提供部署支持, 方便開發者使用。

Google Labs 副總裁 Josh Woodward 透露, 之前標準的 Gemma 模型在各種可用服務上已經下載超過數百萬次。而新一代的 Gemma 2 不僅在參數規模上大幅提升, 在模型性能方面也突破了天際, 甚至可與兩倍以上參數的大型模型相提並論。

未來，Google 表示將繼續優化 Gemma 2 在事實性、對抗性魯棒性和推理一致性等方面的性能。開發者和研究人員可通過 Kaggle、Colab 和 Vertex AI 獲取 Gemma 2, 學術研究人員也可申請相關計劃獲取支持。

‌