美股

全球首個開源GPT-4來了！Meta正式推出Llama 3 即將追上OpenAI

鉅亨網新聞中心2024-04-19 14:33

臉書母公司 Meta(META-US) 周四 (19 日) 宣布推出新一代大語言模型(LLM) Llama 3，共有 80 億和 700 億參數兩種版本，用了 24000 塊 GPU、15 萬億個 token 訓練訓練的 Llama 3 一亮相便登上開源大模型鐵王座，而隨著推理編碼大幅提升，代碼和權重全開源，加上 4000 億參數的版本也正在開發，專家認為 4000 億參數的版本推出後將是全球首個開源 GPT-4 級別的模型。

cover image of news article — Meta周四推出最新版的Llama 3。（圖：Shutterstock）

Meta 這次推出的 80 億和 700 億參數模型分別有預訓練和指令微調兩種版本，Meta 也聲稱 Llama 3 效能優於 Claude Sonnet、Mistral Medium 和 GPT-3.5。

‌

80 億參數版本讓所有人都能接觸最前端的 AI 技術，全球各地的開發人員、研究人員都可以藉此進行遊戲、建造和實驗，不過上下文長度相較之前雖增加一倍，但依然只能一次生成 8 千字。

Meta 也預告，接下來幾個月將發佈多個新功能的模型，包括多語言對話、更長上下文，以及整體能力提升。

在性能上，8B 和 70B 顯著優於 Llama 2，取代了 SOTA，預訓練模型和指令微調模型在 8B 和 70B 的參數規模上取得了如此先進的性能，都是得益於預訓練和訓練後的改進。

此外，Llama 3 已能在網頁版 Meta AI 使用且免登錄，AI 模型資源平臺 Hugging Face 共同創辦人兼執行長表示：「Llama 1 和 2 現已衍生出 3 萬個新模型，Llama 3 將給 AI 生態帶來更大衝擊。」

不過，80 億跟 700 億參數版本的 Llama 3 還只是開胃菜，Llama 3 的 4000 億參數版本不久便要解禁，目前還在訓練中，其中預訓練版本在推理挑戰測試集 ARC-Challenge 上拿下 96 的高分，Llama 3 的 4000 億參數指令微調版更在數學（GSM-8K）、代碼（Human-Eval）、大規模多任務語言理解基準（MMLU）上表現非常亮眼。

輝達高級科學家范麟熙 (Jim Fan) 將 Llama 3 的 4000 億參數版本與 Claude 3 Opus、GPT-4-2024-04-09 版和 Gemini 在同基準數據中進行對比，結果顯示 Llama 3 的 4000 億參數版本在多語言推理任務跟代碼能力，已經能跟 GPT-4、Claude 3 相匹敵，甚至完全勝過 Gemini Ultra 1.0。

OpenAI 共同創辦人兼 AI 研究員 Andrej Karpathy 認為，Llama 3 的 4000 億參數版本將會是首個開源 GPT-4 級別的模型，范麟熙也說 Llama 3 的 4000 億參數版本將成為一個分水嶺，將改變許多研究工作和草根創業公司的計算方式。

OpenAI 研究科學家 Will Depue 也表達同樣看法，認為 Llama 3 的 4000 億參數版本將讓未來的可能性無窮無盡，非常期待這樣一款開源 GPT-4 級別的模型。

‌