日本初の1,720億パラメータ大規模言語モデル「llm-jp-3-172b-instruct3」一般公開～GPT-3.5を上回る性能と完全オープンデータの提供～

2024年12月26日

2024年12月24日、大学共同利用機関法人情報・システム研究機構国立情報学研究所（NII）が主導する大規模言語モデル研究開発センター（LLMC）は、世界最大規模のオープンデータを使用して開発した日本語対応大規模言語モデル「llm-jp-3-172b-instruct3」を一般公開しました。本モデルは、約1,720億パラメータを有し、GPT-3.5を超える性能を達成しています。

開発の背景と特徴

「llm-jp-3-172b-instruct3」は、2.1兆トークンのデータセットを活用して開発されたもので、言語モデルの透明性と信頼性を重視しています。学習に用いたデータセットには、日本語Wikipedia、科学研究費助成事業データベース（KAKEN）、さらにWebアーカイブや国立国会図書館の収集データが含まれており、日本語理解に特化した設計がされています。また、英語や他言語のテキスト、プログラムコードも含む多様なコーパスを統合して学習が行われました。

さらに、このモデルは、日本語インストラクションデータを含む13種類のデータでチューニングが施され、言語処理性能が強化されています。性能評価では、「llm-jp-eval」および「llm-leaderboard」などのフレームワークを用いてGPT-3.5を超えるスコアを記録。特に日本語での自然言語処理タスクにおいて優れた成果を示しました。

技術の透明性と今後の展望

「llm-jp-3-172b-instruct3」は、モデル構築に用いたすべてのデータやアルゴリズムがオープンに提供される点が特筆されます。この取り組みは、日本国内外の研究者や企業による自由な利活用を促進し、生成AIの透明性や信頼性を向上させることを目指しています。

LLMCは今後、モデルをさらに高度化し、生成AI技術の安全性や信頼性を向上させる研究を推進する予定です。また、今回公開されたモデルに加え、学習途中のデータセットやチェックポイントも順次公開される計画です。これにより、研究者がモデルの挙動を深く理解し、生成AI技術のさらなる発展に寄与することが期待されています。