Google、革新的な画像生成・編集AI「Gemini 2.5 Flash Image」を発表 – 開発者向けAPIも同時公開

Googleは2025年8月26日、最新の画像生成・編集モデル「Gemini 2.5 Flash Image」(コードネーム:nano-banana)を発表した。このモデルは、複数画像の融合、キャラクターの一貫性維持、自然言語による精密な編集、そしてGeminiの世界知識を活用した画像生成を可能にする画期的な技術として注目を集めている。

開発者とエンタープライズ向けに即日提供開始

新モデルは発表と同時に、Gemini API、Google AI Studio(開発者向け)、およびVertex AI(エンタープライズ向け)を通じて利用可能となった。価格は100万出力トークンあたり30ドルで、1画像あたり1,290トークン(約0.039ドル)という競争力のある価格設定となっている。

LMArenaのリーダーボードによると、Gemini 2.5 Flash Imageは画像編集モデルとして世界最高評価を獲得。早期プレビューの段階から「ユーザーが熱狂している」という反響が寄せられていた。

4つの革新的機能

1. キャラクターの一貫性維持

同一キャラクターを異なる環境に配置したり、単一製品を複数の角度から新しい設定で表示したり、一貫したブランドアセットを生成することが可能。不動産リスト、従業員バッジ、製品カタログ全体のモックアップなど、ビジネス用途での活用が期待される。

2. プロンプトベースの精密編集

自然言語による指示で、背景のぼかし、シミの除去、人物の削除、ポーズの変更、モノクロ写真への着色など、精密な局所編集が可能。Google AI Studioには、UIとプロンプトベースの両方のコントロールを備えた写真編集テンプレートアプリが用意されている。

3. ネイティブな世界知識の活用

従来の画像生成モデルが美的な画像生成に優れていた一方で、現実世界の深い意味理解に欠けていた課題を解決。手描きの図表を読み取り理解し、現実世界の質問に答え、複雑な編集指示を一度に実行できる。

4. マルチイメージ融合

最大3つの画像を一度に融合可能。例えば、製品写真と部屋の写真を組み合わせてリアルなインテリアシーンを作成できる。

開発者コミュニティとの連携

Googleは開発者エコシステムの拡大にも注力している。OpenRouter.aiとのパートナーシップにより、同プラットフォームの300万人以上の開発者が即日利用可能に。OpenRouterで提供される480以上のモデルの中で、画像生成が可能な初のモデル となる。

また、生成メディアの主要開発プラットフォームであるfal.aiとも提携し、より広範な開発者コミュニティへの提供を実現した。

一般消費者向けGeminiアプリにも統合

同日、一般消費者向けのGeminiアプリにもこの技術が統合されることが発表された。無料ユーザーは1日100回、有料ユーザーは1,000回の画像編集が可能 となる。

特筆すべきは、60年代風のヘアスタイルを試したり、ペットに衣装を着せたりしても、被写体の特徴を正確に維持できる点。家族や友人の写真を編集する際の「似ているけれど微妙に違う」という違和感を解消することに成功した。

AI透明性への取り組み

Googleは、AI生成コンテンツの透明性確保にも力を入れている。Gemini 2.5 Flash Imageで作成・編集されたすべての画像には、視覚的な透かしに加え、同社独自の「SynthID」デジタル透かしが埋め込まれ、AI生成または編集されたものであることが識別可能となっている。

今後の展望

Googleは、長文テキストレンダリングの改善、さらに信頼性の高いキャラクター一貫性、画像内の細部の事実表現など、継続的な改善に取り組んでいると発表。開発者フォーラムX(旧Twitter)を通じたフィードバックも積極的に受け付けている。

引用

あわせて読みたい
Introducing Gemini 2.5 Flash Image, our state-of-the-art image model Explore Gemini 2.5 Flash Image, a powerful new image generation and editing model with advanced features and creative control.
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AI・DX・LowCodeなど企業に役立つ情報を発信しています。