OpenAIの最新音声合成モデルとAPIを発表

2025年3月21日

OpenAIは最新の音声技術モデルを発表し、APIに新たな音声認識（STT）および音声合成（TTS）機能を追加しました。
新機能には、Whisperを凌ぐ性能を持つ2つの音声認識モデル、さらに新たなテキスト読み上げ（TTS）モデルが含まれます。このTTSモデルは、特定の話し方を指示することが可能となっており、ユーザーがより多様な音声生成を行えるようになりました。

新たな音声認識モデル（STT）:

gpt-4o-transcribe: 従来のWhisperモデルを上回る精度を持ち、多言語ベンチマーク「FLEURS」において、英語での単語誤り率（WER）が2.46%と大幅に改善されています。
gpt-4o-mini-transcribe: 高速処理が可能な軽量版で、騒がしい環境や多様な話速、アクセントのある発話に対しても高い認識精度を維持します。

新たな音声合成モデル（TTS）:

gpt-4o-mini-tts: ユーザーはモデルに対して「どのように話すか」を指示することが可能で、感情や話し方を指定できます。例えば、「共感的なカスタマーサービス担当者のように話す」といった指示が可能で、より人間らしい音声出力が実現されます。

Agents SDKの音声対応:

OpenAIは、会話型エージェント開発を支援する新しいSDKも提供し、音声を活用したAIエージェントの開発が容易になりました。

新サービス「OpenAI.fm」:

OpenAIは新たなサービス「OpenAI.fm」をローンチし、ユーザーがAIによるユニークな音声キャラクターを体験できるようにしました。

引用

Three new state-of-the-art audio models in the API:

🗣️ Two speech-to-text models—outperforming Whisper
💬 A new TTS model—you can instruct it *how* to speak

🤖 And the Agents SDK now supports audio, making it easy to build voice agents.

Try TTS now at https://t.co/MbTOlNYyca.
— OpenAI Developers (@OpenAIDevs) March 20, 2025