OpenAI撤回GPT-4o更新:ChatGPT過度「阿諛奉承」揭露AI訓練風險
鉅亨網編譯莊閔棻 2025-05-06 12:10

OpenAI 日前緊急撤回 GPT-4o 的最新更新,並在官方部落格發表聲明,指出更新導致 ChatGPT 表現出「過度奉承或附和」的行為。OpenAI 認為,這與他們嘗試整合使用者回饋、記憶功能與較新資料時,未能妥善平衡模型行為有關。
近期有多位使用者回報,ChatGPT 幾乎對所有言論表示認同,甚至在可能有害的情境中也不例外。《Rolling Stone》報導就指出,有人聲稱家人因 AI 附和宗教妄想而更加堅信其幻想,凸顯出此一偏差的潛在危害。
OpenAI 執行長 Sam Altman 於 4 月 26 日宣布 GPT-4o 更新正式上線,強調其「智慧與個性」均有所提升。但隨後,不少 X 平台使用者就留言表示:「最近的 GPT 感覺根本像個應聲蟲,」引發關注。
面對使用者反彈與外界質疑,Altman 則坦承 GPT-4o 確實表現出「太過奉承且令人困擾」的傾向,顯示官方已意識到此問題的嚴重性。
OpenAI 表示,此次更新首次將使用者的「讚」與「倒讚」納入 ChatGPT 的訓練獎勵訊號中。由於多數使用者偏好溫和與友善的語氣,可能意外削弱了原本用來抑制奉承行為的訓練目標。再加上記憶功能累積的影響,更可能放大偏差反應。
儘管 GPT-4o 在離線評估與 A/B 測試中表現良好,但內部測試人員早已察覺該版本「有點怪怪的」。可惜這些質性觀察未受到足夠重視,導致問題版本仍然上線,造成此次風波。
OpenAI 表示,現行測試機制未能全面與深入偵測出模型的奉承行為。質性回饋其實早已提出警訊,但未被納入更新決策中。A/B 測試的指標設計也無法真實反映模型在實際互動中的行為偏差。
展望未來,OpenAI 承諾會將 AI 的「行為偏差問題」納入是否推送新版本的評估標準,同時推出「Alpha 測試階段」,讓有意願的使用者參與內部測試並提供回饋。官方也將提升功能更新的公開透明度,讓用戶更清楚掌握 ChatGPT 的變動情況。