Axcxept社、画像認識AIを高速開発で進化させた「EZO-VLM」を発表

2024年8月9日

SakanaAI社のオープンソースモデルを基に日本語処理と画像認識・説明能力を大幅向上、既存サービスへの統合も計画 –

– セキュアAIソリューション「SecureChat+」とドメイン特化型AI「DomainLLM」にVision機能を統合予定 –

Axcxept株式会社（本社：北海道、代表取締役：Kazuya Houdatsu）は、SakanaAI社が提供するオープンソースモデルをベースに、独自のチューニング技術を用いて画像認識と日本語処理能力を大幅に向上させた新しいVision-Language Model（VLM）「EZO-VLM」シリーズを本日発表しました。この新モデルは、テキスト生成だけでなく画像理解能力も備えており、Axcxept社の主力サービスである「SecureChat+」と「DomainLLM」に統合されることで、より幅広い業界でのAI活用を促進します。

Axcxept社は、直近数ヶ月間で連続的な技術革新を達成しています：

7月：「EZOシリーズ」の「gemma-2-9B」ベースモデルで、軽量ながら上位モデルに匹敵する日本語性能を実現。
プレス：https://prtimes.jp/main/html/rd/p/000000003.000129878.html
8月初旬：「Llama-3.1-70B」ベースモデルで、OpenAI社のGPT-4o-miniと同等以上の日本語性能を達成。
プレス：https://prtimes.jp/main/html/rd/p/000000004.000129878.html
8月中旬：超軽量モデル「gemma-2-2B」の性能を、発表翌日に大幅向上させたモデルをリリース。
プレス：https://prtimes.jp/main/html/rd/p/000000005.000129878.html

今回の「EZO-VLM」シリーズの開発成功により、Axcxept社独自のEZOトレーニング手法が画像認識を含むVisionモデルにも有効であることが証明されました。この一連の成果は、当社の高速かつ効率的なモデル最適化技術の優位性を示しています。

「EZO-VLM」シリーズの特徴と成果

「EZO-VLM」シリーズは、SakanaAI社が開発した高性能な画像解析オープンソースＡＩモデル「Llama-3-EvoVLM-JP-v2」をベースに、Axcxept社独自のチューニング技術「EZO」を適用することで開発されました。主な特徴と成果は以下の通りです：

画像認識能力の向上：ベースモデルの優れた視覚認識能力をさらに改善し、より正確で詳細な画像理解を実現しました。（日本語／英語にかかわらず向上）
日本語処理能力の強化：日本語でのテキスト生成と理解能力を大幅に向上させ、より自然で文脈に適した応答が可能になりました。
圧倒的に短縮したトレーニング時間：汎用的な言語力・認識力を向上させるために行った、本取り組みにおいてかかったトレーニング作業時間は以下の通り
- 時間：8 時間（当社保有の事前作成済みデータセットを用いたトレーニング結果による）

【ElyzaTasks100による、日本語テキスト生成能力の比較】

日本語性能を評価する「ElyzaTasks100」にて、画像認識を除くテキスト生成能力自体が元となるモデルから0.71ポイント向上。ElyzaTasks100とは、100問の様々な日本語によるタスク（指示）に対し、AIが出力した結果を人間またはＡＩによる自動評価を行いスコアリングする手法。

【GPT-4oを用いた、画像を理解／説明する能力の比較】

日本語の性能向上を図り、日本語での回答性能が向上。

４種類のサンプル画像に関し、いずれの画像に対しても、ベースモデルよりも認識力・説明力に関し、正確さ・流暢さにおいて向上。GPT-4oは、OpenAI社が開発した、2024/8/5時点で最高峰のテキスト生成・画像認識能力を持つとされるAIモデル。

実際の出力と評価

例①：火山を説明したHuggingFace上に存在しているイラストに対する日本語での説明

以下のように、GPT-4, SakanaAI社ベースモデル、弊社 EZOモデルそれぞれで同じ写真・同じ指示をし、AIによる画像解析結果の文章を出力。出力結果を、現在画像解析・推論能力最高峰といわれている、GPT-4oにて分析を実施。

GPT-4oにより、各AIの画像解析に対する解説テキストを評価した結果。ベースとなるSakanaAI社のモデルよりも日本語性能において高い評価を出すことに成功。

例②：東京タワーの写真に対する英語での説明

以下のように、英語の性能も失われていない。

EZO-VLM1が良い結果を得られている状況。日本語性能と英語のバランスが良い。

技術的成果と実績

Axcxept社の「EZO」チューニング技術は、これまでにも様々なLLMモデルで高い成果を上げてきました。直近では、Google社の「Gemma-2 2B」モデルに対して驚異的な速さで日本語処理能力を向上させ、パラメータ数が遥かに多い大規模モデルを上回る性能を実現しています。

参考プレスリリース：

モデルページ

このモデルおよび、デモ環境は、以下のページにて公開しています。

モデル：
https://huggingface.co/HODACHI/Llama-3-EZO-VLM-1

デモ：
https://huggingface.co/spaces/HODACHI/Llama-3-EZO-VLM-1

既存サービスとの連携

Axcxept社は、この新しい「EZO-VLM」技術を既存の主力サービスに統合することで、より包括的なAIソリューションを提供します：

SecureChat+：企業向けセキュアAIソリューションに視覚認識機能を追加し、画像を含むより幅広い情報処理を可能にします。これにより、製造業での品質管理や医療分野での画像診断支援など、新たな用途が開拓されます。
DomainLLM：各業界に特化したAIモデルに視覚機能を組み込むことで、例えば不動産業での物件画像評価や、小売業での商品画像認識、医療業界における画像診断の支援など、より高度な業務支援が可能になります。