LLM開発用の高品質、権利クリアな日本語データセットをFastLabelが販売開始

ChatGPT

AI開発に必要なデータ収集・生成からアノテーション、モデル開発、MLOps構築までの全工程をサポートしているFastLabel株式会社(本社:東京都品川区、代表取締役CEO:上田英介、以下「FastLabel」)は、大規模言語モデル(以下、LLM)開発用の高品質で権利クリアな日本語データセット販売サービスを2024年3月12日より開始したことをお知らせいたします。

■LLM開発用日本語データセット提供の背景

米OpenAI社の「GPT-4」、米Meta社の「Llama2」を始めとするLLMが公開されたことを受け、コンテンツを生成することが可能な生成AI(Generative AI)技術が急速に発展しており、直近でも、米Google社の「Gemini1.5」、米Anthropic社の「Claude3」など新たなLLMが次々と発表されております。

日本国内でも、NTT社、サイバーエージェント社、rinna社など様々な企業が日本語のLLM開発、提供を開始しておりますが、日本国内における日本語のLLM開発においては、AIに学習させるために日本語で作成されたデータセットが少ない状況です。

LLMのデータセットの作成プロセスには潜在的な著作権侵害や利用規約違反のリスクがあることから、自社でLLM開発用の日本語データセットを作成する動きも見られますが、数千件から十数万件におよぶデータセットを作成し、なおかつ必要な品質を担保することは容易ではありません。

当社では従前よりLLM開発用の日本語データセット作成代行サービスを提供しておりましたが、作成代行という形態によりお客様の細かなニーズに沿ったデータセットを提供できる一方で、データセット提供までに一定のリードタイムを要すること、既存のデータセットを購入する場合よりもデータ一件当たりの価格が上がりやすいことがネックになる場合がありました。そこで、当社は一般的なLLM開発で利用しやすい高品質なデータセットを独自に構築し、同データセットを販売するサービスを開始することにしました。

■当社が提供する日本語データセットの特徴

当社が販売を開始する日本語データセットは、以下の特徴を持ったデータが含まれています。

  • タスクの多様性
    一般知識の回答、ユーザーに与えられた情報からの推論、文章の創作、メモ書きからのビジネス文書の清書など、多様なシーンを想定したタスクを設定しております。
  • ジャンルの多様性
    各タスクについて、幅広いジャンルの知識に基づいたデータセットとなっております。また、一般に正確性の要求が高い、健康等のジャンルについては特に高い品質基準を設け、誤った情報が混入しないよう細心の注意を払っています。
  • 権利クリア
    提供するデータセットは全て当社でゼロから作成しており、権利リスクがなく、安心してご利用頂けます。
  • 高品質
    当社ではデータの正確性や多様性に関する細かな品質管理基準を設定しており、データ作成工程、データ作成後の品質検査工程で基準への適合を担保しております。また、今後データセットの品質に関する指標を数値でご提供することも計画しており、お客様による品質確認が困難な大量データであっても安心してご利用頂ける仕組みを整えていきます。
  • 低価格
    創業以来培ってきた教師データ作成のノウハウ、当社で開発したLLM等を活用した原価低減活動を継続的に実施しており、低価格でデータセットをご提供することが可能です。

■今後の展望

当社は今後も、お客様が構築したいLLMの適用領域ごとにデータセットを整理・拡充していきます。これにより、特定のタスクや特定のビジネスドメイン等、必要なデータのみを無駄なくご購入頂けるようになるとともに、全体として更に多様性を増したデータセットのご提供が可能になります。

また、当社は提携する各社のアライアンスネットワークより提供された高品質かつ権利クリアなニュース記事、創作文章等のテキストデータをもとにLLM開発用データセットを作成する取り組みを開始しています。これにより、長文の要約、長文の創作、文学性の高いテキストの創作といった、ゼロから高品質かつ多様なデータを作成する難易度が高い領域についても、十分量のデータを提供できるようにしていきます。

当社は引き続き、データセットおよびAIプラットフォームのご提供、データ作成代行やコンサルティング等のサービスを通じてAI開発プロセスを効率化し、AI開発に取り組む企業、研究機関のインフラとなることで、日本社会におけるAI革命を下支えしていきたいと考えております。

FastLabel株式会社について

当社は、“AIインフラを創造し、日本を再び「世界レベル」へ”をパーパスに掲げ、2020年1月の創業以来、教師データ作成代行やアノテーションツールの提供を主力事業として展開してきました。

現在では、AI開発に必要な学習データ素材の収集、アノテーション、モデル開発、MLOps構築までの全工程をサポートする事業を展開しております。

AI開発においてお困りごとがあれば、以下のメールアドレス宛、もしくはURL先からお気軽にお問い合わせください。

お問い合わせ:info@fastlabel.ai
URL:https://fastlabel.ai/#contact
社名:FastLabel株式会社
代表者:代表取締役CEO 上田 英介
事業内容:AI開発を包括的に支援する「AIPaaS」の提供(AIデータプラットフォーム、アノテーションサービス)
設立:2020年1月23日
本社所在地:東京都品川区北品川5-5-27 201号
URL:https://fastlabel.ai/

本プレスリリースに関するお問い合わせ

FastLabel株式会社 広報担当
メール:info@fastlabel.ai

引用

LLM開発用の高品質、権利クリアな日本語データセットをFastLabelが販売開始
FastLabel株式会社のプレスリリース(2024年3月12日 14時00分)LLM開発用の高品質、権利クリアな日本語データセットをFastLabelが販売開始

AI・DX・LowCodeなど企業に役立つ情報を発信しています。

タイトルとURLをコピーしました