Gemini が新たな領域へ : より高速なモデル、ロングコンテキスト、AI エージェント

2024年5月19日2024年5月29日

Google は、スピードと効率性を追求した軽量モデルである新しい 1.5 Flash や、AI アシスタントのビジョンとなる Project Astra など、Gemini ファミリーモデル全体に一連のアップデートを導入します。

Google 初のネイティブマルチモーダルモデルである Gemini 1.0 を、 Ultra、Pro、Nano の 3 種類のサイズで昨年の 12 月に公開しました。その数か月後には、パフォーマンスを強化し、 100 万トークンという画期的なロングコンテキストウィンドウを備えた 1.5 Pro を公開しました。

開発者や企業ユーザーは、1.5 Pro を驚くべき方法で活用しており、ロングコンテキストウィンドウ、マルチモーダル推論機能、優れた総合性能の有用性は高く評価されています。

ユーザーのフィードバックから、一部のアプリケーションでは、より低いレイテンシとサービス提供コストの低減が必要であることがわかっています。こうした需要は、Google に革新を続ける動機を与えています。そして本日、1.5 Pro よりも軽量かつ、大規模なサービスに高速かつ効率的に対応できるように設計されたモデル、Gemini 1.5 Flash を発表します。

1.5 Pro と 1.5 Flash はどちらも、Google AI Studio と Vertex AI で 100 万トークンのコンテキストウィンドウを備えたパブリックプレビューとしてご利用いただけます。そして今、1.5 Pro は、200 万トークンのコンテキストウィンドウでも、API を使用する開発者および Google Cloud ユーザー（ウェイティングリスト順）に提供されます。

また、Gemini ファミリーのモデルのアップデートとして、次世代のオープンモデルである Gemma 2 を発表し、Project Astra による AI アシスタントの将来に関する進捗状況をお知らせします。

Gemini ファミリーモデル全体のアップデート

スピードと効率を最適化した新しい 1.5 Flash

1.5 Flash が、Gemini モデルファミリーに新たに加わりました。これは、API で提供される中で最も高速な Gemini モデルです。1.5 Flash は、大規模かつ高頻度のタスク向けに最適化されており、コスト効率が高く、画期的なロングコンテキストウィンドウを備えています。

1.5 Flash は、1.5 Pro よりも軽量なモデルですが、膨大な量の情報にわたるマルチモーダル推論の能力が高く、サイズ以上の優れた品質を実現します。1.5 Flash は、要約、チャットアプリケーション、画像や動画のキャプション、長い文書や表からのデータ抽出などに優れています。これは、1.5 Pro が蒸留（Distillation）呼ばれるプロセスを通じてトレーニングされているためです。このプロセスでは、より大きなモデルの最も重要な知識とスキルが、より小さく効率が高いモデルに転送されます。

1.5 Flash については、Gemini の技術サイトで、1.5 Flash の提供状況と価格については、こちらからご覧いただけます。そしてより詳細については、もうすぐ公開する最新の Gemini 1.5 テクニカルレポートでご確認ください。

The new Gemini 1.5 Flash model is optimized for speed and efficiency, is highly capable of multimodal reasoning and features our breakthrough long context window.

大幅に改良された 1.5 Pro

過去数か月にわたって、Google は幅広いタスクにわたる一般的なパフォーマンスを実現する最良のモデルである 1.5 Pro を大幅に改善しました。コンテキストウィンドウを 200 万トークンに拡張するだけでなく、データとアルゴリズムの進歩を通じて、コード生成、論理的推論とプランニング、マルチターン会話、音声と画像の理解を強化しました。これらの各タスクの公開ベンチマークと内部ベンチマークでの結果が大幅に改善されています。

1.5 Pro は、役割、形式、スタイルなどといった製品レベルの動作を指定するものなど、より複雑で微妙な指示に従うことができるようになりました。Google は、チャットエージェントのペルソナや応答スタイルの作成、複数の関数呼び出しによるワークフローの自動化など、特定のユースケースに対するモデルの応答の制御を改善しました。また、ユーザーがシステムインストラクションを設定することでモデルの動作を制御できるようにしています。

また、Gemini API と Google AI Studio に音声理解を追加したことにより、1.5 Pro は Google AI Studio にアップロードされた動画の画像と音声を理解できるようになりました。

1.5 Pro の詳細については、Gemini の技術サイトをご覧いただけます。より詳細については、もうすぐ公開する最新の Gemini 1.5 テクニカルレポートでご確認ください。

マルチモダリティの Gemini Nano

Gemini Nano が、テキスト入力だけでなく、画像も含めるように拡張されました。マルチモダリティを備えた Gemini Nano を使用するアプリケーションは、テキスト入力だけでなく、視覚、聴覚、話し言葉を通じて、人間と同じように世界を理解できるようになります。この機能は、まず Google Pixel に向けて提供されます。

Android の Gemini 1.0 Nano についての詳細は、こちらをご覧ください。

次世代のオープンモデル

本日、Gemma の一連のアップデートも公開します。Gemma は、Gemini モデルの開発に用いられたリサーチとテクノロジーによって構築されたオープンモデルファミリーです。

Google は、責任ある AI を開発するための次世代オープンモデルである Gemma 2 を発表します。Gemma 2 は、画期的なパフォーマンスと効率を実現するために設計された新たなアーキテクチャを備えており、新しいサイズで提供されます。

Gemma ファミリーは、PaLI-3 からインスピレーションを得た最初のビジョン言語モデルである PaliGemma によっても拡張されています。また、モデル応答の品質を評価するために、責任ある生成 AI ツールキットをアップグレードし LLM Comparator を追加しました。

詳細については、開発者ブログをご覧ください。

AI エージェントの進捗状況

人類に利益をもたらすために責任を持って AI を構築するという Google DeepMind のミッションの一環として、Google は日常生活に役立つ汎用 AI エージェントを開発したいと常に考えてきました。本日、Project Astra という AI アシスタントの未来に対する開発における進捗状況をお知らせするのは、これが理由です( 高度な視覚と会話するエージェント）。

本当に役立つエージェントは、複雑でダイナミックな世界を人間と同じように理解し、対応する必要があります。また、コンテキストを理解して行動を起こすために、見聞きしたものを取り入れて記憶する必要があります。ユーザーが遅延なく自然に会話できるよう、AI アシスタントは、能動的で、教えやすいもので、かつパーソナルである必要があります。

Google は、マルチモーダルな情報を理解できる AI システムの開発で驚くべき進歩を遂げてきましたが、応答時間を会話的なものにまで短縮することは、エンジニアリング上の困難な課題です。ここ数年、Google はモデルが認識、推論、会話する方法を改善して、インタラクションのペースと質をより自然に感じられるよう、取り組みを継続してきました。

探求の継続

Google はこれまで、Gemini モデルファミリーで驚くべき進歩を遂げてきましたが、常に最先端の技術を進化させるために取り組みを継続しています。絶え間ないイノベーションの生産ラインに投資することで、Google は最前線で新しいアイデアを探求すると同時に、新しくエキサイティングな Gemini 活用の可能性を解き放つことができます。

Gemini とその能力の詳細については、こちらをご覧ください。

引用