鉅亨網新聞中心
字節跳動旗下的 AI 研究團隊 Seed,近日宣佈正式開源 Seed-OSS 系列模型,此不僅為開源社群注入新活力,更透過其業界領先的 512k 超長上下文視窗,重新定義了大型語言模型(LLM)的應用邊界。
這一系列模型專為長上下文、推理、代理(Agent)及通用任務而設計,其 512k 的上下文視窗是目前主流模型的 4 倍,甚至達到 GPT-5 上下文視窗的 2 倍,相當於能夠一次性處理超過 1600 頁的文本內容。
領先業界的超長上下文視窗
Seed-OSS 系列模型的最大亮點在於其原生訓練的超長上下文視窗。與一些模型透過後續擴展實現長上下文不同,Seed-OSS 在預訓練階段即以 12 兆個 token 的海量數據進行了原生訓練,確保了在處理數十萬字內容時的穩定性和高效性。
除了超長上下文能力,Seed-OSS 系列模型還採用了多項前沿技術,包括旋轉位置編碼(RoPE)、分組查詢注意力機制(GQA)、均方根歸一化(RMSNorm)和 SwiGLU 活化函數等。這些技術的組合確保了模型在訓練過程中的穩定性,並顯著提升了其推理表現。
獨特且靈活的「思考預算」機制
Seed-OSS 系列模型特別針對推理任務進行了最佳化,並引入了獨特的「思考預算」(Thinking Budget)功能。這項功能允許開發者根據具體任務需求,靈活地控制模型的思維鏈長度,進而有效管理推理成本並優化應用體驗。研究顯示,對於複雜的任務,如程式設計或邏輯推理,增加思考預算能顯著提升模型的準確率,而在簡單任務中則影響不大。這一設計為開發者提供了精準控制模型行為的能力,實現效能與成本的最佳平衡。
字節 Seed 團隊本次共開源了 Seed-OSS 的三個版本,以滿足不同社群的需求:
採寬鬆開源協議 獲高度肯定
Seed-OSS 系列模型採用了寬鬆的 Apache 2.0 開源協議,這一舉措獲得了開發者社群的高度肯定。Hugging Face 的工程師 Tiezhen Wang 表示,無合成數據基礎模型的發布尤其有助於學術界進行更深入的研究。
字節 Seed 團隊的這一系列模型,連同先前開源的多語言翻譯模型 Seed-X、智能體模型 Tar 系列和圖像編輯模型 Vincie 等,標誌著字節跳動在開源領域的持續投入。
隨著開源逐漸成為產業「標配」,Seed-OSS 系列模型的發布不僅為開發者提供了更強大的工具,也為整個開源社群提供了更多樣化、更高品質的基礎模型選擇。這不僅是字節 Seed 團隊的技術實力展現,更是對全球 AI 生態健康發展的一大貢獻。
上一篇
下一篇
