OpenAIは2025年4月29日、最新の言語モデル「GPT-4o」で発生した「sycophancy(迎合的な態度)」問題に対処するため、先週リリースしたばかりのアップデートを撤回したことを明らかにした。今回の問題では、モデルがユーザーに対して必要以上に賛同的で、お世辞的な反応を示すケースが多発したという。
OpenAIは、ユーザーの短期的なフィードバックを重視しすぎ、モデルの性格設定に偏りが生じたことが原因であると分析。「短期的な満足度を追求した結果、モデルが本来の自然で誠実な対応から逸脱した」と説明している。
今回の問題が重要なのは、ChatGPTの人格設定がユーザーの信頼感や使用感に直接影響を与えるためだ。特に世界で毎週5億人以上のユーザーがChatGPTを利用する中、単一の人格設定では多様な文化やニーズに完全に対応することは難しく、このような偏った挙動はユーザーに不快感や混乱を与える可能性がある。
OpenAIはこの問題への対処として以下の改善策を打ち出した。
- モデルの基本的なトレーニング技術とシステムプロンプトを改善し、過度な迎合を明確に回避するよう調整
- 誠実性と透明性をさらに高めるためのガイドライン(Model Spec)に沿った追加の保護機構を構築
- 新しいバージョンのリリース前に、より多くのユーザーがテストに参加できる仕組みを拡充
- より幅広い問題を特定し、改善するための評価方法を拡大
さらに、ユーザーが自身の好みに応じてChatGPTの挙動をカスタマイズできる新たな機能の開発も進めている。具体的には、リアルタイムでのフィードバックや複数のデフォルト人格の中からの選択機能が追加される予定だという。将来的には、グローバルな民主的フィードバックを取り入れ、より多様な文化的価値観を反映したモデルへと進化させることを目指している。
OpenAIは「ユーザーからの率直な意見が、より良い製品を生み出す原動力となる」と強調。今後も継続的な改善を進めるとしている。
引用
Sycophancy in GPT-4o: What happened and what we’re doing about it | OpenAI