OpenAIが自然な音声を生成できる「Voice Engine」を発表

2024年3月31日

2024年3月29日にOpenAIはAIを利用した音声生成技術の「Voice Engine」を発表しました。
「Voice Engine」の特徴として15秒のオーディオサンプルとテキスト入力を用いて、元の話者に近い自然な音声を生成できます。

このモデル自体は2022年末に開発されており、既にテキストから音声へのAPI、ChatGPT Voice、Read Aloudに搭載されています。
ただしOpenAIは、合成音声の潜在的な悪用を踏まえ、この技術のより広範なリリースにあたり、慎重かつ情報に基づいたアプローチを採用しているとのことです。

またOpenAIは既に「Voice Engine」を提供しているパートナーの事例として以下を紹介しています。

教育支援
- Age of Learningは、非読者や子供たちに、プリセット音声では不可能な広い範囲の話者を代表する自然で感情的な声で読書支援を提供しています。
- プリスクリプトされたボイスオーバーコンテンツの生成と、生徒とのリアルタイムでのパーソナライズされた対話のためにVoice EngineとGPT-4を使用。
コンテンツ翻訳
- HeyGenは、ビデオやポッドキャストの翻訳にVoice Engineを使用しており、クリエイターやビジネスが自分の声で、流暢に世界中の人々にアプローチできるようにしています。
- 翻訳された音声は、元の話者のネイティブアクセントを保持する機能を持つ。
基本サービスの提供改善
- Dimagiは、遠隔地での基本サービス提供、例えば授乳中の母親へのカウンセリングなどを改善するためにVoice EngineとGPT-4を活用。
- これにより、スワヒリ語やShengなどの非公式な言語を含む主要な言語で対話的なフィードバックが可能に。
非言語の人々への支援
- Livoxは、障害を持つ人々のコミュニケーションを支援するAI代替通信アプリで、Voice Engineを使用して多言語でユニークでロボットではない声を提供。
- ユーザーは自分を最もよく表している話し言葉を選び、多言語ユーザーの場合は話される各言語で一貫した声を維持できる。
発声障害のある人々の声の回復
- Norman Prince Neurosciences Institute at Lifespanは、発声障害を持つ人々の声の回復を支援するためにVoice Engineを試験的に使用。
- 流暢な話し言葉を失った若い患者の声を復元するために、学校のプロジェクト用に録音されたビデオからのオーディオを使用。