Metaはモバイルデバイスや画像認識に対応したLlama 3.2をリリース

Metaは2024年9月25日にエッジデバイスとモバイルデバイス向けの小型・中型ビジョンLLM(11B、90B)と、軽量テキストモデル(1B、3B)を含むLlama 3.2を発表しました。

Llama 3.2の主な特長

Llama 3.2の特徴として、1Bおよび3Bの軽量テキストモデルが、エッジデバイスやモバイルデバイス上で稼働するように最適化されている点です。
これらのモデルは128Kトークンという長い文脈長をサポートし、要約、指示に従ったタスク処理、リライトなど、さまざまなタスクにおいて強力なパフォーマンスを発揮します。軽量かつ効率的なモデルであるため、スマートフォンやタブレットなど、限られたハードウェアリソースでも使用可能です。
また、QualcommやMediaTekのハードウェアに対応し、Armプロセッサにも最適化されています。

さらに、Llama 3.2では、11Bと90Bのビジョンモデルが追加され、これまでのテキストベースのLLMに比べ、画像理解タスクにおいて大幅な性能向上を実現しています。
これにより、ビジョンタスクにおける推論能力が高まり、視覚的な情報を自然言語で解釈し、分析することが可能になります。
例えば、グラフやチャートを基にしたビジネスレポートの作成や、地図を使ったナビゲーション支援が、Llama 3.2のビジョンモデルを通じて容易に行えます。

エッジデバイスにおけるAIの進化

Llama 3.2のリリースにより、エッジデバイスでのAIアプリケーション開発が大きく前進しました。
特に、1Bと3Bのモデルはローカルデバイス上で動作するため、データのプライバシーが強化され、インターネットを介したクラウドへのデータ送信が不要になります。
これにより、例えば、個人のメッセージやカレンダーのデータをローカルで処理し、プライベートな環境でのAIアシスタントや自動化されたツールの構築が可能になります。
また、データの送受信が不要なため、応答時間も大幅に短縮され、リアルタイムでの処理がよりスムーズになります。

軽量なモデルである1Bおよび3Bは、多言語対応のテキスト生成やツール呼び出し能力も備えており、開発者は個別にカスタマイズされたエージェントアプリケーションを構築できるようになっています。
例えば、受信した10件のメッセージを要約し、アクション項目を抽出して会議の招待を自動的に送るといったタスクを、エッジデバイス上で簡単に実行できます。

ビジョンモデルの強力な推論能力

11Bおよび90Bのビジョンモデルは、Llama 3.1モデルのテキスト推論機能をさらに拡張し、画像からの推論や視覚情報の理解を深める新しいアーキテクチャを採用しています。
これにより、画像やテキストのペアを解析し、複雑な視覚データを言語モデルと連携して処理することが可能です。

具体的なユースケースとしては、ビジネスの年間売上を示すグラフを分析し、最高売上を記録した月を迅速に特定するなどがあります。
また、地図を基にしてハイキングルートの難易度や距離を計算し、自然言語で説明することも可能です。
このように、Llama 3.2はビジュアルデータとテキストを組み合わせた高度な推論を実現し、多様な場面での活用が期待されています。

モデルの評価と競争力

Llama 3.2のビジョンモデルは、他の主要なLLMと比較しても競争力があり、Claude 3 HaikuやGPT4o-miniといったクローズドなモデルに対しても優位性を示しています。
このモデルは150以上のベンチマークデータセットに対して評価され、多言語対応のテキスト生成や画像理解タスクにおいて高いパフォーマンスを記録しました。


また、3Bモデルは、Gemma 2 2.6BやPhi 3.5-miniといったモデルに比べ、指示に従ったタスクや要約、ツールの利用といった分野で優れた性能を発揮しています。

Llama Stack: 簡便なデプロイメント

今回のリリースでは、開発者がLlamaモデルをさまざまな環境で簡単に展開できるようにする「Llama Stack」も発表されました。
これにより、シングルノードやクラウド、オンプレミス、エッジデバイスといった多様な環境で、Llamaモデルをスムーズに利用できる統合的なツールチェーンが提供されます。
Metaは、AWSやDatabricks、Dell、Together AIなどのパートナー企業と協力し、Llama Stackを支えるエコシステムを構築しています。
開発者は、PyTorch ExecuTorchやOllamaなどを利用してLlamaモデルをオンデバイスまたはクラウド環境で展開することができます。
Llama Stackは、リトリーバル強化型生成(RAG)やツール利用型アプリケーションのデプロイをサポートし、安全対策が統合された状態で、迅速かつ効率的にAIを活用する手段を提供します。

システムレベルの安全性とオープンなアプローチ

Metaは、AI技術のオープンで責任ある活用を推進し続けています。Llama 3.2では、新たなセーフティガード「Llama Guard 3」が導入され、ビジョンモデルを含むテキストと画像の組み合わせタスクに対しても安全性を確保しています。
特に、1Bと3Bの軽量モデルは、プライバシーを重視したエッジデバイス向けのアプリケーションにおいても効率的にデプロイできるよう最適化されています。

引用

あわせて読みたい
Llama 3.2: Revolutionizing edge AI and vision with open, customizable models Today, we’re releasing Llama 3.2, which includes small and medium-sized vision LLMs, and lightweight, text-only models that fit onto edge and mobile devices.
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AI・DX・LowCodeなど企業に役立つ情報を発信しています。

目次