menu-icon
anue logo
澳洲房產鉅亨號鉅亨買幣
search icon

美股

AI能力新層次!OpenAI發布兩款全新01模型 mini版便宜80% preview版推理得分輾壓GPT-4o

鉅亨網編譯許家華 綜合外電 2024-09-13 08:15

cover image of news article
(圖:REUTERS/TPG)

美國 OpenAI 公司 9 月 13 日凌晨正式推出兩款全新的 AI 模型:OpenAI o1-preview 和 o1-mini。這些模型旨在解決各種複雜任務,並在數學推理、編程和科學問題的能力上有顯著提升,能夠應對比以往更具挑戰性的問題。

OpenAI 表示,從即日起,ChatGPT Plus 和 Team 用戶將可以在 ChatGPT 中訪問 o1 模型,但使用上會有一定限制:o1-preview 每週可發送 30 條消息,而 o1-mini 則為 50 條。


OpenA 執行長 Sam Altman 指出,這是目前為止功能最強大且最一致的模型系列,代表著向無限推理模型邁出的一小步。他強調,雖然 o1 模型仍存在缺陷,但在解決複雜推理任務方面已經取得了重大進展。

OpenAI 表示,作為早期模型,它還不具備 ChatGPT 的許多實用功能,例如瀏覽網頁以獲取資訊以及上傳文件和圖片。對於許多常見情況,GPT-4o 將在短期內變得更強大。但對於複雜的推理任務來說,這是一個重大進步,代表了人工智慧能力的新層次。有鑑於此,我們將計數器重設為 1,並將該系列命名為 OpenAI o1。

在工作原理方面,OpenAI 表示這些模型經過長時間的訓練,能夠更有效地思考問題並做出反應,類似於人類的思維過程。在測試中,o1 模型在物理、化學和生物學等挑戰性基準任務上的表現接近博士生水準。在國際數學奧林匹克 (IMO) 資格考試中,GPT-4o 僅正確解決了 13% 的問題,而推理模型得分為 83%。他們的編碼能力在比賽中得到了評估,並在 Codeforces 比賽中達到了第 89 個百分位。

安全性方面,OpenAI 開發了一種新的安全訓練方法,以確保模型遵循安全和協調準則。測試結果顯示,o1-preview 模型在安全測試中得分 84,顯著高於以往版本。

「我們衡量安全性的一種方法是測試當使用者試圖繞過安全規則(稱為『越獄』)時,我們的模型如何繼續遵循安全規則。在我們最嚴格的越獄測試之一中,GPT-4o 得分為 22(0-100 分制),而我們的 o1 預覽模型得分為 84。」OpenAI 說。

適合對象方面,若使用者欲解決科學、編碼、數學和類似領域的複雜問題,這些增強的推理能力可能特別有用。例如,醫療研究人員可以使用 o1 來註釋細胞定序數據,物理學家可以使用 o1 來產生量子光學所需的複雜數學公式,各領域的開發人員可以使用 o1 來建立和執行多步驟工作流程。

o1-mini 作為一款速度更快、價格更低的推理模型,相較於 o1-preview 便宜 80%,特別適合需要推理但不需廣泛世界知識的應用場景。OpenAI 表示,o1-mini 在準確生成和調試複雜代碼方面表現出色,可與。o1-preview 相媲美。

未來,OpenAI 計畫進一步擴大這些模型的使用範圍,並期望在 ChatGPT 和 API 中引入更多功能,包括瀏覽網頁、文件和圖片上傳等,持續推動人工智慧技術的發展。


Empty