rinna、Qwenの日本語継続事前学習モデル「Nekomata」シリーズを公開

2023年12月23日

高い日本語性能と推論効率を兼ね備えたモデルにより運用が現実的に

rinna株式会社（本社：東京都渋谷区/代表取締役：ジャン”クリフ”チェン、以下rinna）は、Qwen 7Bと14Bの日本語継続事前学習モデル「Nekomata」シリーズを開発し、Tongyi Qianwen LICENSE AGREEMENTで公開したことを発表します。

■ rinnaのモデル公開活動

AI技術の進歩により、従来では困難であった処理もAIで実現可能となりつつあります。特にテキスト処理のための基盤モデルである大規模言語モデル (Large Language Model; LLM) は、自然言語による人間とコンピュータの新たなインターフェースを生み出しました。高性能なLLMを開発するために、世界中の研究・開発者が切磋琢磨し成果を共有・公開することで、サービスとして運用可能なレベルのモデルも公開されています。

rinnaでは、日本語の処理に適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなどのテキスト・音声・画像に関する事前学習済み基盤モデルを公開することで、日本語のAI開発をサポートしてきました。2021年4月からrinnaが公開してきたモデルのダウンロード数は累計450万を超え、多くの研究・開発者にご利用いただいています。2023年10月には、英語を主なターゲットとし優れたパフォーマンスを誇るMeta社のLlama2に、日本語継続事前学習をすることで日本語においても高いパフォーマンスを実現した「Youri」シリーズを開発・公開しています。しかしYouriシリーズは、Llama2の英語を主なターゲットとする語彙サイズ3.2万のトークナイザーを利用しており、日本語を書き表すための語彙が不足しており推論効率が悪いという欠点がありました。Llama2以降には、英語だけでなく多言語をターゲットとした語彙サイズが大きいLLMが次々と公開されました。アリババ社が公開したQwenシリーズは語彙サイズが15.2万であり、日本語の推論においても高い効率を実現しています。

そこでrinnaは、Qwen-7Bと14Bに日本語の学習データを用いて継続事前学習を行い、高い日本語テキストの生成性能と推論速度を兼ね備えた「Nekomata」シリーズを開発し公開しました。さらに、汎用言語モデルに対話形式でユーザーの指示に応答するように追加学習した指示応答言語モデルも開発し、合計4モデルを公開しました。これらのモデル公開により、日本のAI研究・開発の更なる発展につながることを願っています。

・「Nekomata」シリーズのモデル一覧
https://huggingface.co/collections/rinna/nekomata-6582b5134ee85531becbb9a9

・「Nekomata」シリーズのベンチマークスコアhttps://rinnakk.github.io/research/benchmarks/lm/

■ 「Nekomata」シリーズの特徴

Nekomata 7Bと14Bは、70億パラメータのQwen-7B ( https://huggingface.co/Qwen/Qwen-7B ) と140億パラメータのQwen-14B ( https://huggingface.co/Qwen/Qwen-14B ) に対して、日本語と英語の学習データを用いてそれぞれ300億と660億トークンで継続事前学習したモデルです。Qwenの優れたパフォーマンスを日本語に引き継いでおり、日本語のタスクにおいて高い性能を示します。日本語言語モデルの性能を評価するためのベンチマークの一つである Stability-AI/lm-evaluation-harnessの9タスク平均スコアはNekomata 7Bが58.69、Nekomata 14Bが67.38なっています（図1）。また、日本語テキスト1byteに対するトークン数はLlama2/Youriが0.40、Qwen/Nekomataが0.24であり、推論効率が高くなっています。モデル名の由来は、妖怪の「猫又（ねこまた）」からきています。

図1：日本語言語モデルベンチマークStability-AIのlm-evaluation-harnessのスコア

対話応答言語モデルであるNekomata Instructionは、汎用言語モデルに対して対話形式でユーザーの指示に応答する学習データを用いて追加学習されています。Nekomata 14B Instructionのベンチマークスコアは69.86であり、14Bパラメータで一部の70Bパラメータモデルと同レベルのベンチマークスコアを達成しています。

NekomataシリーズのライセンスはQwenのTongyi Qianwen LICENSE AGREEMENTを継承しており、利用条件によっては商用利用することが可能です。詳細はライセンスの公式情報 ( https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT ) をご確認ください。

Nekomata 14Bの日本語継続事前学習は、AWS LLM開発支援プログラム ( https://aws.amazon.com/jp/local/llm-development-support-program/ ) のサポートを受けています。ML専用のアクセラレーターチップであるAWS Trainiumを搭載した16ノードのAmazon EC2 trn1.32xlargeインスタンスを用いて、660億トークンの継続事前学習は約7日で完了しました。

■ 今後の展開

ChatGPTの登場によりテキスト生成の技術は気軽に利用できるようになりました。しかし、目的としたタスクを実現・運用するためには、タスク特化・低コスト化・セキュリティ強化など、利用目的に則したモデルの開発が重要となります。rinnaはこれまでにLLMを活用した研究・開発・運用の経験があり、十分に知見を蓄えています。これらの高い技術力と専門性を活かし、LLMの導入を検討する法人のお客様に対して、ビジネスや事業目的に適したLLMのカスタマイズソリューション「Tamashiru Custom」を提供しています。Nekomataシリーズの開発により、これまで以上にお客様のご希望に即したカスタムLLMを提供することが可能となりました。今後も、AIの社会実装を進めるために研究開発を続け、研究成果の公開や製品への導入を行っていきます。

【rinna株式会社について】

「人とAIの共創世界」(Co-creation world between humans and AI) をビジョンに掲げたAI企業です。テキスト・音声・画像・動画などの生成系AIモデルの研究開発や人工知能によるデータ分析が強みです。研究成果である各種AI技術を活用し、パートナー企業とともにさまざまなビジネス課題を解決するソリューションの開発と提供に取り組んでいます。また、フラグシップAI「りんな」の技術をもとに生み出した、親しみの持てる多様性あふれる「AIキャラクター」を通して人とAIが共に生きる豊かな世界を目指しています。

※文中の社名、商品名などは各社の商標または登録商標である場合があります。

引用