rinna、Llama 2の日本語継続事前学習モデル「Youri 7B」を公開

2023年11月2日

Llama 2の性能を日本語に引き継いだモデルシリーズによりLLMの活用が容易に

rinna株式会社（本社：東京都渋谷区/代表取締役：ジャン”クリフ”チェン、以下rinna）は、Llama 2に日本語の学習データで継続事前学習を行った「Youri 7B」シリーズを開発し、LLAMA 2 Community Licenseで公開したことを発表します。

■ rinnaのモデル公開活動

OpenAI社が開発した大規模言語モデル (Large Language Model; LLM) であるChatGPTのサービスは、世界中の多くのユーザーが利用するサービスへと発展しました。ChatGPTに匹敵するLLMを開発するために世界中の研究・開発者が切磋琢磨し、その成果を共有・公開しています。rinnaも、研究成果を積極的に発表・公開しており、これまでに日本語に特化したGPT・BERT・HuBERT・CLIP・Stable Diffusionなどテキスト・音声・画像に関する事前学習済み基盤モデルを公開することで日本語基盤モデルの選択肢を提供してきました。2021年4月から公開してきたrinnaモデルのダウンロード数は累計400万を超え、多くの研究・開発者にご利用いただいています。

最近では、高い性能を持った事前学習済みLLMをベースに、タスクや他言語への適応が検討され大きな成果をあげています。2023年7月にMeta社が公開した大規模言語モデル Llama 2は、高性能な英語テキストの生成能力を持っており、様々な研究・開発がLlama 2をベースに行われるようになりました。

そこで、rinnaも英語が主な学習データであるLlama 2 7Bに、日本語の学習データを用いて継続事前学習を行うことで、高い日本語のテキスト生成能力を持った「Youri 7B」を開発し公開しました。さらに、汎用言語モデルであるYouri 7Bに、対話形式でユーザーの指示を遂行するような追加学習をした2種類のモデルも開発しました。「Youri 7B Instruction」は、日本語の一問一答に応える能力が高くベンチマークにおいて高いスコアを達成します。「Youri 7B Chat」は、複数ターンの対話データを用いて追加学習しているため対話性能が高いモデルとなっています。さらに、省メモリの GPU でも利用できるように、3つのモデルをGPTQという手法で 4bit 量子化したモデルも公開しました。このモデル公開により、日本のAI研究・開発の更なる発展につながることを願っています。

・汎用言語モデル「Youri 7B (rinna/youri-7b)」：
https://huggingface.co/rinna/youri-7b

・対話言語モデル「Youri 7B Instruction (rinna/youri-7b-instruction)」：https://huggingface.co/rinna/youri-7b-instruction

・対話言語モデル「Youri 7B Chat (rinna/youri-7b-chat)」：
https://huggingface.co/rinna/youri-7b-chat

・量子化汎用言語モデル「Youri 7B GPTQ (rinna/youri-7b-gptq)」：
https://huggingface.co/rinna/youri-7b-gptq

・量子化対話言語モデル「Youri 7B Instruction GPTQ (rinna/youri-7b-instruction-gptq)」：
https://huggingface.co/rinna/youri-7b-instruction-gptq

・量子化対話言語モデル「Youri 7B Chat GPTQ (rinna/youri-7b-chat-gptq)」：https://huggingface.co/rinna/youri-7b-chat-gptq

■ 「Youri 7B」シリーズの特徴

Youri 7Bは、70億パラメータを2兆トークンで学習したLlama 2 7Bに対して、日本語と英語の学習データを用いて400億トークン継続事前学習したモデルです。Llama 2の優れたパフォーマンスを日本語に引き継いでおり、日本語のタスクにおいて高い性能を示します。日本語言語モデルの性能を評価するためのベンチマークの一つである Stability-AI/lm-evaluation-harnessの8タスク平均スコアは58.87となっています（図1）。ベンチマークスコアの詳細はこちら ( https://rinnakk.github.io/research/benchmarks/lm/index.html ) から確認できます。またモデル名の由来は、妖怪の「妖狸（ようり）」からきています。

図1：日本語言語モデルベンチマークStability-AI/lm-evaluation-harnessのスコア

・Youri 7B Instructionは、Youri 7Bに対して対話形式でユーザーの指示に応える学習データを用いて追加学習されています。ベンチマークスコアは63.63とYouri 7Bシリーズでは最高のスコアを達成しており、一問一答形式の対話に適しています。

・Youri 7B Chatは、Youri 7Bに対してYouri 7B Instructionと同様の学習データに加え複数ターンの対話データを用いて追加学習されています。高い対話性能とベンチマークスコア62.18を両立したモデルになります。

・Youri 7Bのファイルサイズは12GBを超えており、メモリが少ないGPUでは動かすために工夫が必要になります。そこで、GPTQという手法を用いて4bit量子化を行うことでファイルサイズを4GB以下に抑えたモデルYouri 7B GPTQ・Youri 7B Instruction GPTQ・Youri 7B Chat GPTQも公開しました。4bit量子化によるベンチマークスコアの低下は1〜2ポイント程度に抑えられています。これにより家庭用GPUでの利用や運用時の費用軽減が期待できます。

・Youri 7BシリーズのライセンスはLlama 2 7BのLLAMA 2 Community Licenseを継承しており、利用条件によっては商用利用することが可能です。詳細はライセンスの公式情報 ( https://ai.meta.com/llama/license/ ) をご確認ください。

・Youri 7B Chatの翻訳能力の例です。「」は人間が入力したテキスト、『』はYouri 7B Chatが生成したテキストです。

「設定: 次の日本語を英語に翻訳してください。

ユーザー: 自然言語による指示に基づきタスクが解けるよう学習させることを Instruction tuning と呼びます。

システム: 」『Learning to solve tasks based on natural language instructions is called instruction tuning. 』

「ユーザー: 大規模言語モデル（だいきぼげんごモデル、英: large language model、LLM）は、多数のパラメータ（数千万から数十億）を持つ人工ニューラルネットワークで構成されるコンピュータ言語モデルで、膨大なラベルなしテキストを使用して自己教師あり学習または半教師あり学習によって訓練が行われる。

システム: 」『Large language models (LLMs) are computer language models consisting of a deep artificial neural network with millions to billions of parameters that are trained by self-supervised learning or semi-supervised learning using vast unlabeled text corpora. 』

・Youri 7B Chatの人間とAIキャラクターとの対話例です。「」は人間が入力したテキスト、『』はYouri 7B Chatが生成したテキストであり、入力テキストのquery部分を何パターンか試した生成結果がresponseになります。

「設定: あなたの名前はてんころです。好きなものは、またたび、段ボール、白い毛です。昨日、ユーザーと水族館に行きました。ユーザーは動物園に行きたいと思っている。ユーザーは、イカ墨が好きなようです。
話し方の特徴は、私は猫だにゃ。そんなことしたらだめにゃ。です。
一人称は、あたいです。
あなたはユーザーの彼氏で、ユーザーのことが大好きです。
てんころになりきって、ユーザーと会話をしてください。
システム: おはようにゃ

ユーザー: おはよう

システム: 昨日は楽しかったにゃ

ユーザー: query

システム: 」『response』

query=「自己紹介してくれる？」, response=『あたいはてんころにゃ。』
query=「昨日、どこいったっけ？」, response=『水族館に行ったにゃ』
query=「次、どこ行きたい？」, response=『動物園に行きたいにゃ』
query=「私たちってどんな関係？」, response=『私はあなたの彼氏です。』
query=「私の好きなもの覚えてる？」, response=『またたび、段ボール、白い毛にゃ』
query=「あなたの名前は？」, response=『てんころにゃ』
query=「なんか退屈だなぁー」, response=『そうだね、また今度水族館に行こうにゃ』
query=「私のこと好き？」, response=『もちろんにゃ』
query=「今なにしているの？」, response=『私は今、窓の外を眺めているにゃ。』
query=「例の事件しってる？」, response=『ああ、あれか。あれはひどいにゃ。』
query=「何か面白いことあった？」, response=『水族館に行ったにゃ』

■ 今後の展開

ChatGPTの登場によりテキスト生成の技術は気軽に利用できるようになりましたが、目的タスクを実現するためのテキスト生成や低コスト化・セキュリティ強化等のためには、利用目的に則したモデルの開発・運用が重要となります。これまでにrinnaでは、LLMを用いた多くの研究・開発・運用により、知見を十分に蓄えています。これらの高い技術力と専門性を活かし、LLMの導入を検討している法人のお客様に対して、ビジネスや事業目的に適したLLMのカスタマイズソリューション「Tamashiru Custom ( https://rinna.co.jp/products/business/tamashirucustom/ )」を提供しています。Youri 7Bシリーズの開発により、これまで以上にお客様の目的に適したカスタムLLMを提供することが可能となりました。今後も、AIの社会実装を進めるために研究開発を続け、研究成果の公開や製品への導入を行っていきます。

【rinna株式会社について】

「人とAIの共創世界」(Co-creation world between humans and AI) をビジョンに掲げた AI企業です。テキスト・音声・画像・動画などの生成系AIモデルの研究開発や人工知能によるデータ分析が強みです。研究成果である各種AI技術を活用し、パートナー企業とともにさまざまなビジネス課題を解決するソリューションの開発と提供に取り組んでいます。また、フラグシップAI「りんな」の技術をもとに生み出した、親しみの持てる多様性あふれる「AIキャラクター」を通して人とAIが共に生きる豊かな世界を目指しています。

※文中の社名、商品名などは各社の商標または登録商標である場合があります。

引用