NEC、世界トップレベル性能の高速な大規模言語モデル (LLM) cotomi Pro / cotomi Light を開発

2024年4月25日

～グローバルモデルと同等の品質を十数倍の速度で実現～

NECは、LLM(Large Language Model：大規模言語モデル)「cotomi(注1)」のラインアップ拡充のため、学習データやアーキテクチャを刷新した「cotomi Pro」「cotomi Light」を開発しました。

昨今の生成AIの急速な発展に伴い、様々な企業や公共機関が、LLMを活用した業務変革の検討・検証を進めています。具体的な活用シーンが見えてくる中で、導入・運用に際してレスポンスタイム、業務データ連携や情報漏洩・脆弱性等のセキュリティ面など、お客様ニーズにあったモデル・形態での提供が求められています。

NECは、高速性と高性能の両立がお客様の課題解決に必須と考え、LLMのラインアップを拡充しました。今回開発した「cotomi Pro」「cotomi Light」は、グローバルのLLMと同等の高い性能を、十数倍の速度で実現する高速・高性能なモデルです。一般的に、LLMの性能を高めるためにはモデルを大規模にする必要があるため動作速度が遅くなりますが、NECは学習方式やアーキテクチャの工夫をすることで、速度と性能の両立に成功しました。また、NECグループは約4万人の社員が生成AIの社内サービスを約1年社内業務に活用しています。これら社内サービスから得られた膨大な対話履歴の解析・活用によって、現実的なユースケースでの性能も大幅に向上しています。

「cotomi Pro」は、GPT-4やClaude 2などグローバルトップレベルのモデルに比肩する性能を、GPU2枚の現実的なインフラでGPT-4のおよそ1/8のレスポンスタイムで実現します。また、さらに高速な「cotomi Light」は、GPT-3.5-Turboなどグローバルモデルと同等水準の性能を持ちながら、GPU1〜2枚程度の現実的なインフラで大量のリクエストを高速に処理することができ、多くの業務で充分な性能を発揮します。具体的には、RAGと呼ばれる仕組みによる社内文書検索システムにおいて、ファインチューニングをしていない状態でGPT-3.5以上の正答率、ファイチューニング後はGPT-4を超える正答率を、およそ1/15のレスポンスタイムで実現します。

【cotomi Pro / cotomi Lightの特長】

1. 総合的なタスクに対する高い処理能力

「cotomi Pro」「cotomi Light」は、文書要約、論理推論、質問応答など様々なタスクを処理する能力、知識量において、グローバルトップレベルの高い処理能力を有しています。

「ELYZA Tasks 100」(上)、「Japanese MT-Bench」(下)
べンチマークでの比較(注2)

具体的には、LLMの総合的な性能の測定によく用いられる「ELYZA Tasks 100」「Japanese MT-Bench」の2つのベンチマークによる評価において、日本のみならずグローバルでもトップレベルとなる性能を確認しました。「cotomi Pro」はGPU2枚の標準的なサーバでGPT-4比5倍以上の速度(注3)と高速ながらGemini 1.0 Proなどのモデルを上回りClaude 2からGPT-4に比肩する性能を示しています。「cotomi Light」はGPT-4比で15倍以上の速度とさらに高速ながらLLaMA2-70Bなどの巨大なモデルの性能を上回り、GPT-3.5-Turboなどに比肩する性能を示しています。

2. 高速性

LLMを実用する上では高い推論性能だけでなく、リクエストを送信してから処理が完了し応答が返るまでの時間(速度)も重要となります。「cotomi Pro」「cotomi Light」は、推論性能と速度を両立するためのアーキテクチャ上の工夫やモデル内に大規模な日本語の辞書(トークナイザ)を保有するなどの工夫により、標準的なGPU2枚で、クラウド環境でのGPT-4使用時と比較し1/8〜1/15の時間での処理を実現する高速性を実現しました。また、これらの工夫は推論時の速度だけでなく、同時アクセス数の拡大や、ファインチューニングに必要な学習時間の短縮にもつながっています。GPUを4枚、8枚と増強することによってさらなる速度向上も可能であり、用途に応じた柔軟な構築が可能です。

お客様は、このように高い処理能力を高速・大量アクセス可能に実現するモデルを活用することにより、生成AIを活用した業務アプリケーションのレスポンス時間を大幅に縮め、ユーザ体験を向上させることができます。また、高い処理能力は企業ごとの個別データでのファインチューニング後の性能を大幅に高めることにも繋がります。

NECは今後、パートナーとの協業を強化しながら、ラインアップ拡充した「cotomi」をベースに、セキュアで安全・安心な生成AIサービスの提供とともに、ビジネス現場への実装を通じて、お客様の課題解決の実現を目指していきます。

以上

(注1)
「cotomi(コトミ)」はNECが開発した生成AIの名称です。ことばにより未来を示し、
「こと」が「みのる」ようにという想いを込めており、生成AIを軸にお客様と伴走する
パートナーでありたいとNECは考えています。
https://jpn.nec.com/LLM/index.html
(注2)Japanese MT-Bench の他モデルの結果は Nejumi リーダーボードから引用。cotomi Pro、cotomi LightのスコアはNECがNejumiリーダーボードと同一の設定を再現し評価・算出。再現した評価環境で他モデルの評価結果がリーダーボードの結果と一致することを確認。GPT-4による評価プロンプトはNejumiリーダーボードに合わせ、英語でのレスポンスを減点。 https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo–Vmlldzo2MTkyMTU0
ELYZA Tasks 100の他モデルの結果は ELYZA 社のブログ記事から引用。NECの社員が各問題ごとに2名でELYZA社の定める基準にもとづき採点をし、評価値を平均することによって、最終的な総合スコアを算出。 https://note.com/elyza/n/n0ea755ca3e7b
(注3)A100を2枚搭載したGPU環境において16bitの演算精度で実験。

(ベンチマーク結果に関する補足)
LLM としての能力を総合的に計測するELYZA Tasks 100ベンチマークにおいて、「cotomi Pro」は日本企業が開発した生成AIモデルとしては2024年4月時点でトップ(NEC調べ)であり、「Claude 2.1」、「GPT-3.5」、「Gemini 1.0 Pro」などのグローバルモデルを超えるスコア3.87を達成しました。また、速度に重点を置いた、より軽量な「cotomi Light」は、「GPT-3.5」と同程度のスコア 3.53を実現しました。日本語での複数ターンの対話性能を測るためのベンチマーク Japanese MT-Bench においては、7.71 (cotomi Pro) 、 6.61 (cotomi Light) というスコアを達成し、Nejumiリーダーボード上、日本のモデルでトップの性能となっています(2024年4月現在)。