rinna、日英バイリンガル大規模言語モデルをオープンソースで公開

2023年8月1日

対話言語モデルとマルチモーダルモデルなど4種類のモデル公開で活用の幅を拡大

rinna株式会社（本社：東京都渋谷区/代表取締役：ジャン”クリフ”チェン、以下rinna）は、日本語と英語のバイリンガル大規模言語モデルを開発し、商用利用可能なライセンスでオープンソースとして公開したことを発表します。さらに、対話形式のテキストを生成する対話言語モデル、テキストと画像のマルチモーダル入力を実現する画像対話モデル、長いテキストの入力を可能とする長期コンテキスト言語モデルも開発し、公開しました。

■ rinnaのオープンソース活動

OpenAI社から提案された大規模言語モデル (Large Language Model; LLM) であるGPT (Generative Pre-trained Transformer) シリーズは、大量のデータから高速かつ高精度に大規模モデルが学習できるTransformerとテキストデータから自己教師あり学習を可能とする枠組みを採用したモデル構造により、テキスト生成において幾つものブレイクスルーをもたらしてきました。2023年に提案されたGPT-4は、テキストのみでなく画像も入力できる大規模マルチモーダルモデル (Large Multimodal Model; LMM) であり、入力テキストと画像の情報をもとにしたテキスト生成を実現しました。

LLMやLMMなどの大規模基盤モデル (Large Foundation Model; LFM) の学習には大量の計算資源が必要となり、誰もが気軽に学習を実行できるわけではありませんが、多くの研究機関や企業が事前学習したLFMをオープンソースで公開することでAIの民主化に貢献しています。しかし、オープンソースLFMの学習データの大部分は英語データであり、日本語データの割合は少数で日本語の性能や選択肢は英語と比べると十分ではありません。

rinnaは2021年4月から、誰もが気軽にAIを使える世界を目指す「AIの民主化」という考え方に共感し、研究成果を積極的に発表・公開してきました。これまでに日本語に特化したGPT・BERT・HuBERT・CLIP・Stable Diffusionなどテキスト・音声・画像に関する事前学習済み基盤モデルを公開することで日本語LFMの選択肢を提供してきました。2023年5月には、ChatGPTの学習にも用いられている人間の評価を利用した強化学習 (Reinforcement Learning from Human Feedback; RLHF) に成功し、日本語に特化した36億パラメータを持つRLHF GPTも公開しました。これまでにHugging Faceで公開してきたrinnaのモデルダウンロード数は累計360万を超え、多くの研究・開発者にご利用いただいています。

そしてこの度、約40億パラメータを持つ日本語と英語のバイリンガルGPTを開発しました。さらに、汎用言語モデルをベースとして、入力テキストの上限を拡大するように追加学習した長期コンテキスト言語モデル、対話形式でユーザーの指示を遂行するように追加学習 (Supervised Fine-Tuning; SFT) した対話言語モデル、テキストと画像のマルチモーダル入力を可能とするように追加学習した画像対話モデルの開発にも成功しました。これら4種類の事前学習モデルを、商用利用可能なライセンスでオープンソースとして公開します。このモデル公開により、日本のAI研究・開発の更なる発展につながることを願っています。

・汎用言語モデル (rinna/bilingual-gpt-neox-4b)：
https://huggingface.co/rinna/bilingual-gpt-neox-4b

・長期コンテキストモデル (rinna/bilingual-gpt-neox-4b-8k)：
https://huggingface.co/rinna/bilingual-gpt-neox-4b-8k

・対話言語モデル (rinna/bilingual-gpt-neox-4b-instruction-sft)：https://huggingface.co/rinna/bilingual-gpt-neox-4b-instruction-sft

・画像対話モデル (rinna/bilingual-gpt-neox-4b-minigpt4)：
https://huggingface.co/rinna/bilingual-gpt-neox-4b-minigpt4

■ rinnaの日英バイリンガル大規模言語モデルの特徴

・汎用言語モデル (rinna/bilingual-gpt-neox-4b) は、約40億パラメータを持つ日本語と英語のバイリンガルGPTであり、日本語と英語のテキスト生成ができます。学習データには、オープンデータセットを用いており、透明性が高いモデルです。学習データの割合は英語56%、日本語33%、ソースコード11%となっています。

・長期コンテキストモデル (rinna/bilingual-gpt-neox-4b-8k) は、汎用言語モデルに対して長いテキストの入力を可能とするための追加学習を行っており、入力トークンの上限を2048から8192トークンまで拡大しています。

・対話言語モデル (rinna/bilingual-gpt-neox-4b-instruction-sft) は、汎用言語モデルに対して対話形式でユーザの指示に応えているデータを用いてSFT追加学習をしており、対話形式のテキスト生成を行うことができます。

・画像対話モデル (rinna/bilingual-gpt-neox-4b-minigpt4) は、汎用言語モデルとBLIP-2 ( https://github.com/salesforce/LAVIS/tree/main/projects/blip2 ) を組み合わせた追加学習により、テキストと画像のマルチモーダル入力からのテキスト生成を実現しています。

・事前学習済みのモデルは、Hugging Faceに商用利用可能なMITライセンスで公開されています。オープンソースモデルであるため、ダウンロードすればローカル環境で実行することができます。

・利用目的に合わせて追加学習することにより、モデルをカスタマイズすることが可能です。日英バイリンガルモデルであるため、追加学習にはデータが充実している英語のデータセットを利用することもできます。

・40億パラメータは、LLMとしては少量のパラメータ数であるため、推論や追加学習（QLoRA等）を一般コンシューマー向けGPUでも実行することができます。

・日本語と英語のLLMベンチマークテストにより、これまでにrinnaが公開した日本語特化モデルの能力を維持しながら英語の能力を獲得できたことが示されました。

・対話言語モデルの出力例（緑がユーザー入力、白がモデル出力）

・画像対話モデルの出力例（画像とオレンジがユーザー入力、グレーがモデル出力）

■ 今後の展開

ChatGPTの登場によりテキスト生成の技術は気軽に利用できるようになりましたが、目的のタスクを実現するテキスト生成・低コスト化・セキュリティ強化等のためには、利用目的に則したモデルの開発が重要となります。これまでにrinnaでは、基盤モデルを用いた様々な研究・実験により、いくつもの独自モデルを開発してきました。これらの知見を活かして、今回開発したモデルの大規模化や、画像入力のマルチモーダルモデルだけでなく音声を入力とするマルチモーダルモデルについての研究・開発を行っていきます。さらに、AIの社会実装を進めるためにパートナーを広く募り、rinnaの技術を活用していきます。

【rinna株式会社について】

「人とAIの共創世界」(Co-creation world between humans and AI) をビジョンに掲げた AI企業です。テキスト・音声・画像・動画などの生成系AIモデルの研究開発や人工知能によるデータ分析が強みです。研究成果である各種AI技術を活用し、パートナー企業とともにさまざまなビジネス課題を解決するソリューションの開発と提供に取り組んでいます。また、フラグシップAI「りんな」の技術をもとに生み出した、親しみの持てる多様性あふれる「AIキャラクター」を通して人とAIが共に生きる豊かな世界を目指しています。

※文中の社名、商品名などは各社の商標または登録商標である場合があります。

引用