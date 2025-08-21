鉅亨網新聞中心 2025-08-21 16:40

‌



字節跳動旗下的 AI 研究團隊 Seed，近日宣佈正式開源 Seed-OSS 系列模型，此不僅為開源社群注入新活力，更透過其業界領先的 512k 超長上下文視窗，重新定義了大型語言模型（LLM）的應用邊界。

字節跳動Seed模型開源！512k超長上下文視窗 重新定義AI應用極限。(圖:shutterstock)

這一系列模型專為長上下文、推理、代理（Agent）及通用任務而設計，其 512k 的上下文視窗是目前主流模型的 4 倍，甚至達到 GPT-5 上下文視窗的 2 倍，相當於能夠一次性處理超過 1600 頁的文本內容。

‌



領先業界的超長上下文視窗



Seed-OSS 系列模型的最大亮點在於其原生訓練的超長上下文視窗。與一些模型透過後續擴展實現長上下文不同，Seed-OSS 在預訓練階段即以 12 兆個 token 的海量數據進行了原生訓練，確保了在處理數十萬字內容時的穩定性和高效性。

除了超長上下文能力，Seed-OSS 系列模型還採用了多項前沿技術，包括旋轉位置編碼（RoPE）、分組查詢注意力機制（GQA）、均方根歸一化（RMSNorm）和 SwiGLU 活化函數等。這些技術的組合確保了模型在訓練過程中的穩定性，並顯著提升了其推理表現。

獨特且靈活的「思考預算」機制



Seed-OSS 系列模型特別針對推理任務進行了最佳化，並引入了獨特的「思考預算」（Thinking Budget）功能。這項功能允許開發者根據具體任務需求，靈活地控制模型的思維鏈長度，進而有效管理推理成本並優化應用體驗。研究顯示，對於複雜的任務，如程式設計或邏輯推理，增加思考預算能顯著提升模型的準確率，而在簡單任務中則影響不大。這一設計為開發者提供了精準控制模型行為的能力，實現效能與成本的最佳平衡。

字節 Seed 團隊本次共開源了 Seed-OSS 的三個版本，以滿足不同社群的需求：

基礎模型 Seed-OSS-36B-Base： 適用於通用場景的基礎模型。

無合成數據基礎模型 Seed-OSS-36B-Base-woSyn： 專為學術研究社群設計，由於不包含合成指令數據，研究人員可以更專注於模型本身的架構與能力，進行消融研究。

指令微調模型 Seed-OSS-36B-Instruct： 經過指令微調後，該模型在通用知識、代理、程式設計及長上下文等領域的基準測試中，取得了同級開源模型中的 7 項「性能最佳」（SOTA）表現，其整體能力超越了包括 Qwen3-32B、Gemma3-27B 和 gpt-oss-20B 等在內的多個知名模型。

採寬鬆開源協議 獲高度肯定



Seed-OSS 系列模型採用了寬鬆的 Apache 2.0 開源協議，這一舉措獲得了開發者社群的高度肯定。Hugging Face 的工程師 Tiezhen Wang 表示，無合成數據基礎模型的發布尤其有助於學術界進行更深入的研究。

字節 Seed 團隊的這一系列模型，連同先前開源的多語言翻譯模型 Seed-X、智能體模型 Tar 系列和圖像編輯模型 Vincie 等，標誌著字節跳動在開源領域的持續投入。