SB Intuitions、日本語に特化した4,000億クラスのパラメータを持つモデルを公開

アカデミアや産業界の研究開発に資するために、4,000億クラスのパラメータを持つ日本語LLMを公開

SB Intuitions株式会社(本社:東京都港区、代表取締役社長 兼 CEO 丹波 廣寅、以下「SB Intuitions」)は、この度4,000億クラスのパラメータを持つ日本語大規模言語モデル(Large Language Model:LLM)を公開しましたのでお知らせします。

目次

公開モデル

  • Sarashina2-8x70B

Sarashina2-8x70Bは、 Sarashina2-70Bの開発で得られた知見を元にMixture of Experts (MoE) (注1)により大規模化したモデルで、SB Intuitionsでベンチマークしている複数の日本語の性能テストにおいて最高性能を実現したモデルとなっています。比較的小さなサイズのMoEモデルが公開されている中で、この規模でのMoEモデルの学習成功例は珍しいものとなっています。アカデミアや産業界でのさまざまな分析を通じ、LLMの研究開発が促進されるように公開しました。(注2)なお詳細については、後日公開予定です。

注1:Mixture of Expertsとは、複数のエキスパートモデルの組み合わせにより、より高い推論精度を実現する枠組みです。今回はSarashina2-70Bのモデルを元に、Upcyclingと言われる手法を用い、トランスフォーマにおけるフィードフォワードネットワーク部において8個のエキスパートモデルを用い訓練しました。これらを組み合わせて高精度な推論を実現しています。

注2:今回公開したモデルは、指示チューニングを施していない事前学習モデルです。
人間の意図に沿った出力を行うようにチューニングを行ったものではないため、そのまま実用的なサービスに供することはできません。
今回公開のモデルは商用利用ができないライセンスとなっております。

モデル公開先のURL

あわせて読みたい
sbintuitions/sarashina2-8x70b · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science.

SB Intuitionsでは、今後もLLMのさらなる大規模化を進め、LLMの社会実装に向けた研究開発を推進していきます。

引用

SB Intuitions株式会社
SB Intuitions、日本語に特化した4,000億クラスのパラメータを持つモデルを公開 アカデミアや産業界の研究... SB Intuitions、日本語に特化した4,000億クラスのパラメータを持つモデルを公開 アカデミアや産業界の研究開発に資するために、4,000億クラスのパラメータを持つ日本語LLM...
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AI・DX・LowCodeなど企業に役立つ情報を発信しています。

目次