ChatGPT登場以降、劇的に注目を集めている生成AIですが、日本でも独自の言語モデルをベンチャー企業から大企業、アカデミーなど様々な企業や研究機関の取り組みが進んでいます。
今回はそんな日本初の大規模言語モデル(LLM)を10個紹介します。
日本語対応LLM10選
野村総合研究所 「プライベートLLM」
株式会社野村総合研究所(NRI)とNRIデジタルは、2024年春より機密・機微情報の安全性を高めた生成AIソリューション「プライベートLLM」の提供を予定しています。
このソリューションは特に情報セキュリティが重要とされる金融機関などの企業向けで、データ漏洩リスクを最小限に抑えます。
株式会社Lightblue「Karasu」「Qarasu」
株式会社Lightblue(本社:東京都千代田区、代表取締役:園田亜斗夢)は、自社運営の生成AI研究開発チーム「LLab」を通じて、日本語に特化した大規模言語モデル(LLM)「Karasu」と「Qarasu」を公開しました。
これらは商用利用が可能で、オンプレミス環境での利用も実現可能です。
- Karasu: 70億パラメータを持ち、Shisaに基づいて開発されたモデルで、日本語と英語の学習データを使用しています。
- Qarasu: 140億パラメータを持ち、Qwen-14Bに基づいており、既存の日本語公開モデルの中で最高性能を達成しています。
株式会社ELYZA「ELYZA-japanese-Llama-2-13b」
東京大学松尾研究室発のAIカンパニー、株式会社ELYZAは、130億パラメータの日本語LLM「ELYZA-japanese-Llama-2-13b」を開発し、公開しました。
このモデルは、Metaが開発した「Llama 2」に基づき、追加の日本語事前学習とELYZA独自の事後学習を施しています。
このモデルは、175BパラメータのGPT-3.5 (text-davinci-003)を上回る性能を持っています。
Money Forward Lab、理化学研究所 「houou」
株式会社マネーフォワードの研究開発組織であるMoney Forward Labと理化学研究所の言語情報アクセス技術チームは、共同で大規模言語モデル(LLM)の研究を進め、新たなインストラクションデータを使用したLLM「houou-7b」を公開しました。
このモデルは、高い精度の日本語テキスト生成を可能にするために、rinna株式会社の「Youri7B」に基づきインストラクションチューニングを行いました。
さらにMoney Forward Labは、2024年3月までにモデルの継続的なリリースと、経理財務や人事労務領域に特化したインストラクションデータの開発を予定しています。
株式会社サイバーエージェント 「CyberAgentLM」
株式会社サイバーエージェントは、70億パラメータで32,000トークンに対応する日本語の大規模言語モデル(LLM)を公開しました。
これは、日本語および英語データで事前学習されたベースモデル「CyberAgentLM2-7B」と、チャット形式でチューニングされた「CyberAgentLM2-7B-Chat」の2つのモデルで構成されています。
特に「CyberAgentLM2-7B-Chat」は、約50,000文字相当の長い日本語テキストを一度に処理できる能力を持っています。
サイバーエージェントは、自然言語処理技術の発展に貢献する目的でこれらのモデルを開発し、独自の「極予測AI」サービスを含む様々なアプリケーションに活用しています。
NEC 「NEC LLM」
NECは、高い性能を持ちながらも、130億パラメータというコンパクトなサイズの日本語LLMを開発しました。
このモデルは、通常のサーバでのGPU1枚搭載環境で動作可能であり、電力消費やサーバコストを抑えることができます。
また、オンプレミス環境での動作も可能で、秘匿性が高い業務に適しています。
NTT 「tsuzumi」
NTTは、「tsuzumi」と名付けられた新しい大規模言語モデル(LLM)を開発しました。
このモデルは、70億(7B)と6億(0.6B)のパラメタサイズの2種類を持ち、GPT-3の1750億(175B)と比較して約300分の1および25分の1のサイズです。
この軽量化により、追加学習や推論のコストを大幅に削減します。
LINE 「japanese-large-lm」
LINEのNLP Foundation Devチームが新たな日本語言語モデル「japanese-large-lm」を公開しました。
モデルは、36億(3.6 Billion)および17億(1.7 Billion)のパラメータを持ち、HuggingFace Hubで利用可能です。
このモデルはLINE独自の大規模日本語Webコーパスを使用して訓練され、高品質なデータの活用が強調されています。
rinna 「Nekomata」
rinna株式会社は、Qwenシリーズに基づいて開発された日本語の継続事前学習モデル「Nekomata」シリーズを公開しました。
このシリーズは、Qwen 7Bと14Bモデルにそれぞれ300億と660億トークンで日本語と英語の学習を行い、高い日本語テキスト生成性能と推論速度を持つモデルです。
また、対話応答言語モデルも開発され、合計4モデルが公開されました。
ストックマーク 「Stockmark-13b」
ストックマーク株式会社は、日本語単独で最大規模となる130億パラメータのLLM「Stockmark-13b」を公開しました。
このモデルは、ビジネス用途における信頼性と速度に特化しており、従来の生成AIの問題である「ハルシネーション」を抑制し、高精度で回答が可能です。
また、ChatGPTと比較してテキスト生成速度が約4倍という高速回答が可能で、商用利用が可能なモデルです。
あとがき
今回は日本発LLM10選をご紹介しました。
どれも独自の特徴を持っている大規模言語モデル(LLM)です。
今後もこういった言語モデルの開発を通じて今後も日本のAI技術発展に期待したいですね。