次世代モデル、 Gemini 1.5 を発表

2024年2月16日

先週、私たちは高性能 AI モデルである Gemini 1.0 Ultra を公開し、Google 製品をより便利にする取り組みの大きな一歩として、Gemini Advanced （英語版のみ）を公開しました。そして本日より、デベロッパーやクラウド顧客のみなさまは、AI Studio と Vertex AI の Gemini API より、1.0 Ultra で構築をいただくことができます。

Google は、安全性を重視しながら最新の AI モデルの進化を続け、急速な進歩を実現しています。本日公開する次世代モデルの Gemini 1.5 も、さまざまな面で大幅な改善が行われており、1.5 Pro は、より少ないコンピューティングでも 1.0 Ultra と同等のクオリティを担保します。

この新世代モデルは、長文の文脈理解においても画期的な進歩を遂げています。最大 100 万のトークンを継続的に処理することが可能で、扱える情報量が大幅に増加しました。これまでの大規模基盤モデルの中で最長のコンテキストウィンドウを実現しています

より長いコンテキストウィンドウを扱えるようになったことで、様々な新しい可能性が生まれてきます。より有用なモデルやアプリケーションを構築できるよう開発が可能になります。この試験運用機能の限定プレビューをデベロッパーと企業のみなさまに提供できることを嬉しく思います。

Sundar Pichai, Google / Alphabet CEO

Gemini 1.5 を公開

AI が大きな革新を遂げる現在において、この分野の新たな進歩は、今後数年間で AI が数十億の人々にとってさらに役立つようになる可能性があります。Gemini 1.0 の導入以来、私たちは機能のテストや改良、強化を重ねてきました。

本日、次世代モデル Gemini 1.5 を発表します。

Gemini 1.5 は、大幅に強化されたパフォーマンスを提供します。Gemini 1.5の開発は、Google の AI への取り組みにおける飛躍的な変化を表し、基盤モデルの開発とインフラストラクチャのほぼすべての部分における研究とエンジニアリングの革新に基づいています。これには、新しいMixture–of-Experts (MoE) アーキテクチャによる Gemini 1.5 のトレーニングとサービスの効率化も含まれます。

初期テスト用に公開する最初の Gemini 1.5 モデルは、 Gemini 1.5 Pro です。これは中規模のマルチモーダルモデルで、幅広いタスクにわたるスケーリングに最適化されており、これまでで最大のモデルである 1.0 Ultra と同様のレベルでパフォーマンスを発揮します。また、長文の文脈理解に関する試験運用機能も導入しています。

Gemini 1.5 Pro には 128,000 トークンのコンテキストウィンドウが標準で付属していますが、本日より、一部のデベロッパーと顧客企業は、AI Studio と Vertex AI より、限定プレビュー版で最大 100 万トークンのコンテキストウィンドウをお試しいただけます。

100 万トークンのコンテキストウィンドウ全体は計算量が多く、レイテンシーを改善するためにさらなる最適化が必要ですが、規模拡大に向けて積極的に取り組んでいます。

これらの次世代モデルの継続的な進歩が、人々やデベロッパー、企業による AI を活用した新たな可能性を開きます。

高効率なアーキテクチャ

Gemini 1.5 は、Transformer および MoE アーキテクチャに関する Google の最先端の研究に基づいて構築されています。従来の Transformer は 1 つの大きなニューラルネットワークとして機能しますが、MoE モデルはより小さな「エキスパート」ニューラルネットワークに分割されます。

与えられた入力の種類に応じて、MoE モデルはニューラルネットワーク内の最も関連性の高いエキスパートパスウェイのみを選択的に有効化することを学習します。そして、これによりモデルの効率が大幅に向上します。Google は、Sparsely-Gated MoEやGShard-Transformer、Switch-Transformer、M4 などの研究を通じて、ディープラーニングの MoE 技術を早期に採用し、先駆的な取り組みを行ってきました。

モデルアーキテクチャにおける最新のイノベーションにより、Gemini 1.5 は複雑なタスクをより迅速に学習し、品質を維持できると同時に、トレーニングとサービスの効率が大幅に向上しています。これらの効率化により、チームはこれまでよりも迅速に Gemini のより高度なバージョンのトレーニングや提供ができるようになりました。また、私たちは、さらなる最適化にも取り組んでいます。

より拡張されたコンテキスト、より役立つ機能

AI モデルの「コンテキストウィンドウ」は、情報処理に使用される構成要素であるトークンで構成されます。トークンは、単語、画像、動画、音声、またはコードの全体または一部にすることができます。モデルのコンテキストウィンドウが大きくなるほど、特定のプロンプトでより多くの情報を取り込んで処理できるようになり、出力の一貫性や関連性、有用性が高まります。

一連の機械学習の革新を通じて、1.5 Pro のコンテキストウィンドウの容量は、Gemini 1.0 の 32,000 トークンより大幅に増加しました。現在、最大 100 万個のトークンを実行できます。

これは、1.5 Pro が 1 時間の動画、11 時間の音声、30,000 行以上のコードまたは 700,000 字以上のコードベースなど、膨大な量の情報を一度に処理できることを意味します。研究では、最大 1,000 万個のトークンのテストにも成功しています。

膨大な量の情報に関する複雑な推論

1.5 Pro は、特定のプロンプト内の大量のコンテンツをシームレスに分析、分類、要約することができます。たとえば、アポロ 11 号の月面着陸に関する 402 ページの記録では、文書内にある会話、出来事、画像、詳細について推論することができます。

複数のモダリティの相互理解と推論の向上

1.5 Pro は、動画などのさまざまなモダリティに対する高度な理解と推論のタスクを実行できます。たとえば、44 分間のバスター・キートンの無声映画では、モデルはさまざまなプロットや出来事を正確に分析し、映画内の見逃しがちな小さな詳細についても推論することができます。

パフォーマンスの向上

テキスト、コード、画像、音声、動画評価の包括的なパネルのテストでは、1.5 Pro は大規模言語モデル (LLM) の開発に使用されるベンチマークの 87% で 1.0 Pro を上回りました。また、同じベンチマークで 1.0 Ultra と比較した場合、ほぼ同様のレベルのパフォーマンスを発揮します。

Gemini 1.5 Pro は、コンテキストウィンドウが増加しても高いレベルでパフォーマンスを発揮します。特定の事実や発言を含む小さなテキストが長いテキストブロック内に意図的に配置される Needle In A Haystack (NIAH) 評価では、1.5 Pro は 99% の確率で、最大 100 万トークンの長さのデータブロック内の埋め込みテキストを検出しました。

Gemini 1.5 Pro は、優れた「インコンテキスト学習」の能力も有しています。これは、追加のファインチューンを必要とせずに、長いプロンプトで提供される情報から新しいスキルを学習できることを意味します。私たちはこのスキルを、MTOB (Machine Translation from One Book) ベンチマークでテストしました。このテストは、モデルがこれまで見たことのない情報からどれだけうまく学習するかを評価します。世界中で話者が 200 人未満であるカラマン言語の文法マニュアルを与えると、モデルは同じ内容を学習している人と同様のレベルで英語をカラマン語に翻訳することを学習できます。

1.5 Pro の長いコンテキストウィンドウは大規模モデルとしては初のものであるため、私たちは新しい機能をテストするための評価とベンチマークを継続的に開発しています。

詳細については、Gemini 1.5 Pro テクニカルレポートを参照してください。

広範な倫理および安全性テスト

Google は、AI 原則と堅牢な安全ポリシーに基づき、モデルに広範な倫理テストと安全性テストを実施しています。加えて、これらの研究結果をガバナンスプロセスやモデルの開発と評価に統合し、AI システムの継続的な改善を行っています。

12 月に 1.0 Ultra を導入して以来、Google はモデルの改良を続け、より広範なリリースに向けて安全性を向上してきました。また、安全性リスクに関する新しい研究を実施し、さまざまな潜在的な危害をテストするためのレッドチームを開発しました。

1.5 Pro のリリースに先立って、 Gemini 1.0 モデルと同様に、責任をもった取り組みを採用し、コンテンツの安全性や表現上の危害を含む分野にわたる広範な評価を実施しており、今後もこのテストを拡大していきます。これに加えて、私たちは 1.5 Pro の新しいロングコンテキスト機能を考慮に入れたさらなるテストを開発しています。

Gemini モデルを構築して実験する

私たちは、世界中の数十億の人々やデベロッパー、企業に新世代の Gemini モデルを提供する取り組みを責任を持って行っています。

本日より、AI Studio と Vertex AI より、一部のデベロッパーと企業にこの試験運用機能の早期プレビュー版を提供します。

また、モデルのより広範なリリースの準備が整い次第、標準で 128,000 トークンのコンテキストウィンドウを備えた 1.5 Pro も導入する予定です。また、モデルの向上に併せて、標準 128,000 のコンテキストウィンドウから 100 万トークンまでのスケールアップに対応した価格帯を導入する予定です。

初期テスターは、テスト期間中に 100 万トークンのコンテキストウィンドウを無料で試すことができますが、試験運用機能ではレイテンシーが大きくなることが予想されます。レイテンシーの改善に向け、今後も取り組んでまいります。

1.5 Pro のテストに興味のあるデベロッパーは、Google AI Studio よりサインアップしてください。Google Cloud の顧客企業は、Vertex AI アカウントチームまでお問い合わせください。

引用