OpenAIの最新音声合成モデルとAPIを発表

​OpenAIは最新の音声技術モデルを発表し、APIに新たな音声認識(STT)および音声合成(TTS)機能を追加しました。
新機能には、Whisperを凌ぐ性能を持つ2つの音声認識モデル、さらに新たなテキスト読み上げ(TTS)モデルが含まれます。このTTSモデルは、特定の話し方を指示することが可能となっており、ユーザーがより多様な音声生成を行えるようになりました。 ​

新たな音声認識モデル(STT):

  • gpt-4o-transcribe: 従来のWhisperモデルを上回る精度を持ち、多言語ベンチマーク「FLEURS」において、英語での単語誤り率(WER)が2.46%と大幅に改善されています。 ​
  • gpt-4o-mini-transcribe: 高速処理が可能な軽量版で、騒がしい環境や多様な話速、アクセントのある発話に対しても高い認識精度を維持します。 ​

新たな音声合成モデル(TTS):

  • gpt-4o-mini-tts: ユーザーはモデルに対して「どのように話すか」を指示することが可能で、感情や話し方を指定できます。例えば、「共感的なカスタマーサービス担当者のように話す」といった指示が可能で、より人間らしい音声出力が実現されます。 ​

Agents SDKの音声対応:

OpenAIは、会話型エージェント開発を支援する新しいSDKも提供し、音声を活用したAIエージェントの開発が容易になりました。 ​

新サービス「OpenAI.fm」:

OpenAIは新たなサービス「OpenAI.fm」をローンチし、ユーザーがAIによるユニークな音声キャラクターを体験できるようにしました。 ​

引用

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AI・DX・LowCodeなど企業に役立つ情報を発信しています。

目次