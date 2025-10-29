鉅亨網編譯王貞懿 2025-10-29 21:23

OpenAI 周三 (29 日) 推出兩款專為內容審查設計的推理模型，協助開發者辨識平台上的不當內容。這兩款開放權重模型可依各組織需求客製化，展現推理過程，提升透明度。

OpenAI推出兩款專為內容安全設計的推理模型。(圖:Shutterstock)

這兩款 AI 模型名為 gpt-oss-safeguard-120b 與 gpt-oss-safeguard-20b。它們是 OpenAI 今年 8 月發布的 gpt-oss 模型的微調版本。

所謂的「開放權重」模型，意味著模型參數，即訓練過程中改善輸出與預測的元素將對外公開，這能夠提供透明度與控制權，但仍然不像會完整公開原始碼供使用者自行自行修改、訂製的開源模型。

OpenAI 表示，各組織可根據特定政策需求配置這些新模型。由於它們屬於會展示推理過程的推理模型，讓開發者更直接了解模型如何得出特定結果。

舉例來說，產品評論網站可制定政策，利用 gpt-oss-safeguard 模型篩選可能造假的評論。同樣地，電玩遊戲討論區也能藉此分類討論作弊的貼文。

聯手多方開發 回應商業化批評

OpenAI 與 Discord、SafetyKit 及致力於建立 AI 安全基礎設施的組織 ROOST 合作開發這些模型。模型目前以研究預覽版形式提供，OpenAI 表示將徵詢研究人員與安全社群成員的意見回饋。

此項發布可望平息部分批評者的質疑，這些人士指控這家新創公司過度追求商業化與規模擴張，而犧牲了 AI 倫理與安全。OpenAI 估值達 5,000 億美元，ChatGPT 目前的每周活躍用戶已突破 8 億人。

ROOST 主席 Camille François 在聲明中表示:「隨著 AI 變得更強大，安全工具與基礎安全研究必須以同等速度演進，而且必須人人都能取得。」

