ABEJAが構築した大規模&高品質な日本語データセット「ABEJA CC-JA」 がAWS クラウド上で一般公開

~ LLMの構築に必要不可欠なデータセットを、無償かつ利便性高く利活用することが可能 ~

 人とAIの協調により「ゆたかな世界を、実装する」株式会社ABEJA(本社:東京都港区、代表取締役CEO:岡田 陽介、以下「ABEJA」)は、ABEJAが構築した大規模な日本語データセット「ABEJA CC-JA 」が「AWS オープンデータスポンサーシッププログラム」に採用され、アマゾン ウェブ サービス (以下「AWS」)上で一般公開しましたことをお知らせいたします。

 ABEJAは、「ゆたかな世界を、実装する」を経営理念とし、「ABEJA Platform」を基盤に顧客企業の基幹業務のプロセスを変革し、ビジネスの継続的な収益成長の実現に伴走する「デジタルプラットフォーム事業」を展開しています。ABEJAは、2012年の創業時よりABEJA Platformの研究開発を進めており、これまで多種多様な業界・業態のデジタル変革をABEJA Platform上で実現してきました。ABEJAの事業モデルは、 ABEJA Platformを基盤とし、DXに必要な工程をフルマネジメントサービスで請け負うデジタル版のEMS(Electronics Manufacturing Service)です。顧客は、デジタル版EMSを採用することで、DXに必要な全工程に対応できる最先端の「製造機械」と「製造ノウハウ」を活用することが可能となります。これにより、自社で開発・維持するよりも迅速な実装が叶い、最新の技術を継続的に利用できるとともに、コストダウンとリスク回避、ケイパビリティの強化を実現できます。

 ABEJAは、2018年より生成AIの一つであるLLMにおける研究開発を進め、2023年3月以降は、「ABEJA LLM Series」をABEJA Platformに搭載し、顧客企業に提供してまいりました。顧客企業のLLMの実装を実現すべく、サポート領域をより広範囲に拡大し、戦略策定やビジネスプロセスの構築、ビジネスプロセス上での運用まで、一気通貫で顧客支援を担うとともに、更なるサービスの拡充を図り、LLMの研究開発を継続して進めております。

 ABEJAは、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」への採択※1を受け、日本語LLMおよび周辺技術の研究開発を行いました。

 その中でABEJAは、大規模日本語コーパス※2として、Common Crawl※3をベースに前処理を行った大規模な日本語データセット「ABEJA CC-JA」を構築しました。「ABEJA CC-JA」は、2019年から2023年までを対象に、計41のCommon Crawlを活用して構築した、日本語のみで430Bトークン(407B文字、10TB以上)となる最大規模の日本語のオープンデータセットです。

ABEJAが長年培ってきた高度なデータ処理技術を駆使し、クリーニングやフィルタリングなど様々な前処理を複数回にわたって実行するなど、通常ABEJAが顧客企業に提供するサービスと同等のプロセスを適用し、高い品質を保持した日本語データセットの構築を実現しております。

 このたびABEJAが構築した「ABEJA CC-JA」は、「AWS オープンデータスポンサーシッププログラム」に採用され、AWS上にて一般公開をするはこびとなりました。

 LLMの構築には巨大なデータセットが不可欠ですが、そのためには相応のコストや人的リソースが必要です。「ABEJA CC-JA」の一般公開によって、一より多くのユーザーが、データセットの構築に必要となるコストやプロセスを負担することなく、高品質なデータセットを自在に利活用することが可能となり、結果としてユーザー企業における迅速かつ費用対効果の高いLLMの開発支援につながります。

 「ABEJA CC-JA」の構築プロセスは下記ブログをご確認ください。

ABEJA Tech Blog
Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2) - A... ABEJAでデータサイエンティストをしている服部です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム...

 AWSは「AWS オープンデータスポンサーシッププログラム」を通じて、世界中のユーザーがクラウド上でデータにアクセスし活用できるよう、高付加価値なデータセットの保存と送信コストを負担しています。

 AWSはデータプロバイダと協力し、 データへのアクセスをオープンにするとともに、データ処理コストを削減するクラウドネイティブな手法、フォーマット、ツールの開発を推進し、オープン化したデータセットを利活用できるコミュニティの発展を支援しています。 AWSは、「AWS オープンデータスポンサーシッププログラム」によって、衛星画像、気候・気象データ、ゲノムデータ、自然言語 処理用データなど、ペタバイト規模のデータへのアクセスを実現してきました。

 公開されているデータセットの一覧は AWS の Open Dataレジストリで確認できます。

 「ABEJA CC-JA」の詳細とアクセス方法は以下リンクにてご確認ください。
 https://registry.opendata.aws/abeja-cc-ja/

 ABEJAは、引き続き、最新技術を積極的に取り込み、経営理念に掲げた「ゆたかな世界を、実装する」の実現に取り組んでまいります。

 このデータセットは、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の「ポスト5G情報通信システム基盤強化研究開発事業」(JPNP20017)の助成事業の結果得られたものです。

※1 本事業の実施期間は、2024年2月~2024年8月です。詳細はこちらよりご確認ください。https://www.abejainc.com/news/20240202/1
※2 コーパス:自然言語の文章を構造化しデータベース化した言語資料
※3 CommonCrawl:https://commoncrawl.org/

■ 株式会社ABEJAについて

ABEJAは、「ゆたかな世界を、実装する」を経営理念とし、「ABEJA Platform」を基盤に顧客企業の基幹業務のプロセスを変革し、ビジネスの継続的な収益成長の実現に伴走する「デジタルプラットフォーム事業」を展開しています。2012年の創業時よりABEJA Platformの研究開発を進めており、これまで多種多様な業界・業態の300社以上のデジタル変革をABEJA Platform上で実現してきました。また、「Human In the Loop」をはじめとする高度なノウハウやアプローチを用いて、デジタル変革に必要不可欠な「人とAIの協調」を実現し、戦略的かつ効率的に顧客の基幹業務を変革し、さらにはビジネスモデルの革新に取り組んでいます。

本 社:東京都港区三田一丁目1番14号 Bizflex麻布十番2階
設 立:2012年9月10日
代 表:代表取締役CEO 岡田 陽介
事 業:デジタルプラットフォーム事業
URL :https://abejainc.com

引用

プレスリリース・ニュースリリース...
ABEJAが構築した大規模&高品質な日本語データセット「ABEJA CC-JA」 がAWS クラウド上で一般公開 株式会社ABEJAのプレスリリース(2024年9月20日 15時20分)ABEJAが構築した大規模&高品質な日本語データセット「ABEJA CC-JA」 がAWS クラウド上で一般公開
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AI・DX・LowCodeなど企業に役立つ情報を発信しています。

目次