OpenAIは最新の音声技術モデルを発表し、APIに新たな音声認識(STT)および音声合成(TTS)機能を追加しました。
新機能には、Whisperを凌ぐ性能を持つ2つの音声認識モデル、さらに新たなテキスト読み上げ(TTS)モデルが含まれます。このTTSモデルは、特定の話し方を指示することが可能となっており、ユーザーがより多様な音声生成を行えるようになりました。
新たな音声認識モデル(STT):
- gpt-4o-transcribe: 従来のWhisperモデルを上回る精度を持ち、多言語ベンチマーク「FLEURS」において、英語での単語誤り率(WER)が2.46%と大幅に改善されています。
- gpt-4o-mini-transcribe: 高速処理が可能な軽量版で、騒がしい環境や多様な話速、アクセントのある発話に対しても高い認識精度を維持します。
新たな音声合成モデル(TTS):
- gpt-4o-mini-tts: ユーザーはモデルに対して「どのように話すか」を指示することが可能で、感情や話し方を指定できます。例えば、「共感的なカスタマーサービス担当者のように話す」といった指示が可能で、より人間らしい音声出力が実現されます。
Agents SDKの音声対応:
OpenAIは、会話型エージェント開発を支援する新しいSDKも提供し、音声を活用したAIエージェントの開発が容易になりました。
新サービス「OpenAI.fm」:
OpenAIは新たなサービス「OpenAI.fm」をローンチし、ユーザーがAIによるユニークな音声キャラクターを体験できるようにしました。
引用