rinna、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を公開

2023年12月11日

大規模言語モデルの能力を活かすことで高精度な音声認識を実現

rinna株式会社（本社：東京都渋谷区/代表取締役：ジャン”クリフ”チェン、以下rinna）は、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を開発し、商用利用可能なライセンスで公開したことを発表します。

■ rinnaのモデル公開活動

AI技術の進歩により、従来では困難であった処理もAIで実現可能となりつつあります。このような飛躍的な進展は、大量のデータから事前学習された基盤モデルを上手く活用することで達成されています。特にテキストを処理するための基盤モデルである大規模言語モデルGPTは、自然言語による人間とコンピュータのインターフェースを実現し多くのサービスで利用されるようになりました。テキストだけでなく画像や音声の処理においても、タスクに適した基盤モデルを活用することで、高い性能が達成できることが報告されています。

rinnaは、日本語の処理に適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなどのテキスト・音声・画像に関する事前学習済み基盤モデルを公開しており、日本語のAI開発を支えています。2021年4月から公開してきたrinnaモデルのダウンロード数は累計440万を超え、多くの研究・開発者にご利用いただいています。

最近では、事前学習された基盤モデルを組み合わせ、様々なタスクをこなすAIが開発されています。この度rinnaでは、これまでに開発・公開してきた日本語に特化したテキスト基盤モデルGPTと音声基盤モデルHuBERTを統合した音声認識モデルを開発し、商用利用可能なライセンスで公開しました。このモデル公開が、今後より活発になると考えられる基盤モデルを活用したAI開発の参考になれば幸いです。

・音声認識モデル「Nue ASR (rinna/nue-asr)」

https://huggingface.co/rinna/nue-asr

・ベンチマークスコア

https://rinnakk.github.io/research/benchmarks/asr/

・論文
https://arxiv.org/abs/2312.03668

■ 「Nue ASR」の特徴

Nue ASRは、事前学習済みの音声基盤モデルHuBERT ( https://huggingface.co/rinna/japanese-hubert-base ) とテキスト基盤モデルGPT ( https://huggingface.co/rinna/japanese-gpt-neox-3.6b ) の間に畳み込み層を挟んで統合したモデルです。事前学習済みの基盤モデルを活用することで、音声認識モデルの学習コストを軽減することができます。音声認識モデルの学習データには、約19,000時間からなる日本語音声コーパスReazonSpeechコーパス ( https://huggingface.co/datasets/reazon-research/reazonspeech ) を用いています。学習した音声認識モデルは、Hugging Faceに商用利用可能なApache-2.0 Licenseで公開 ( https://huggingface.co/rinna/nue-asr ) しています。またモデル名の由来は、妖怪の「鵺（ぬえ）」からきています。

Nue ASRは、テキスト生成の分野でデファクトスタンダードとなっているGPT構造を用いており、活発に開発されている最先端の手法を容易に導入することができます。例えば、GPTの高速推論手法であるDeepSpeedを導入することで、リアルタイムファクタ ( 認識時間 / 音声の長さ ) は0.22から0.15に短縮できます (図1)。また、CSJの学習セットを用いたドメイン適応のためのファインチューニングにより、CSJ Eval1テストセットの文字誤り率は30.93%から5.43%に劇的に改善します (図1)。

Nue ASRの認識率や処理速度は、利用条件によってはOpenAI WhisperシリーズやReazonSpeechモデルに匹敵する性能を達成しています (図1)。デファクトスタンダードであるGPTを利用したNue ASRは、より高性能な事前学習済みGPTへの置き換えや、日々開発されるGPTのための手法を導入するなど、改良のための選択肢が多くあり今後も性能が改善することが期待されます。

■ 今後の展開

rinnaは、人間とAIのコミュニケーションのために大規模言語モデルを用いたテキスト生成や音声合成の研究・開発・提供を行ってきました。そして今回の音声認識モデルの開発により、音声対話に必要となる音声認識・テキスト生成・音声合成の実験を一通り遂行できたと考えています。これまでの実験で得られた多くの知見を活かして、大規模言語モデルの次の活用方法である音声対話の研究・開発・提供を進め、AIの社会実装を行っていきます。

【rinna株式会社について】

「人とAIの共創世界」(Co-creation world between humans and AI) をビジョンに掲げたAI企業です。テキスト・音声・画像・動画などの生成系AIモデルの研究開発や人工知能によるデータ分析が強みです。研究成果である各種AI技術を活用し、パートナー企業とともにさまざまなビジネス課題を解決するソリューションの開発と提供に取り組んでいます。また、フラグシップAI「りんな」の技術をもとに生み出した、親しみの持てる多様性あふれる「AIキャラクター」を通して人とAIが共に生きる豊かな世界を目指しています。

※文中の社名、商品名などは各社の商標または登録商標である場合があります。

引用