Gemini 2.5 Flash Image(nano-banana)を実際に使ってみた

目次

概要

Gemini 2.5 Flash Imageは、Google DeepMindが2025年8月27日に開発者向け“プレビュー提供を開始した、最先端のAI画像生成・編集モデルです。
内部コードネーム「Nano Banana」として知られるこのモデルは、Googleの大規模言語モデル(LLM)技術とマルチモーダル処理能力を融合させた革新的なサービスです。
リリース直後からLMArenaの画像編集部門で1,362 ELOスコアを獲得し、世界第1位の評価を得ています。

主な特徴と機能

Gemini 2.5 Flash Imageの最大の特徴は、自然言語による対話的な画像編集です。従来のツールのような複雑な操作を必要とせず、「背景をぼかして」「服の色を青に変えて」といった直感的な指示で高度な編集が可能です。
キャラクター一貫性機能により、同一人物やキャラクターを異なるシーンで描写しても外観が維持されるため、ブランディングやストーリーテリングに最適です。

技術的にはSparse Mixture-of-Experts (MoE) Transformerアーキテクチャを採用し、100万トークンのコンテキスト長を実現。これにより複雑な画像生成タスクにも対応できます。
さらに、Geminiファミリーの強みである世界知識の統合により、地理的・文化的に正確な画像生成が可能です。

提供形態・料金

Gemini 2.5 Flash Image、以下のような料金体系・プランで提供されています。

提供形態利用環境(チャネル)料金詳細(1画像あたり)
試用・一般ユーザー向けGeminiアプリ / Google AI Studio無料(プレビュー提供)
開発者向け(API / Vertex AI 経由)Gemini API / Vertex AI約 $0.039/画像(1画像 = 1290出力トークン、1Mトークン $30 → $0.039 =約 5.7円)

内容は随時更新されるため、最新情報は公式サイトをご確認ください。

Gemini 2.5 Flash Imageの利用方法

今回はGoogle AI Studioでの利用します。

利用開始手順

Google AI Studio(aistudio.google.com)にGoogleアカウントでログインし、「Nano Banana」を選択します。

画像生成

今回は以下のプロンプトから「Gemini 2.5 Flash Image」の性能を検証します。

キャラクター一貫性テスト

最初にキャラクターの一貫性のテストをします。

プロンプト:

同じ女性ビジネスパーソンを4つの異なるシーンで描いてください:
1.モダンなオフィスでプレゼンテーションをしている
2.カフェでノートパソコンで作業している
3.ジムでワークアウトウェアを着て運動している
4.夜のパーティーでエレガントなドレスを着ている
すべてのシーンで顔の特徴、年齢、特徴的な部分を完全に一致させてください。

出力結果:

一つのプロンプトで複数の画像を生成してみたところ、期待通り一貫性を保った画像が生成されることを確認できました。

テキストレンダリング+複雑な指示

次にテキストの再現性のテストをしてみます。

プロンプト(English):

Create a vintage 1950s diner menu board with the following text clearly readable:
- "Today's Special: $4.99"
- "Nano Banana Split"
- "Fresh Coffee 25¢"
Include realistic wear, chalk texture, and period-appropriate typography. Place it in a photorealistic retro diner setting with red leather booths visible in the background.

出力結果:

プロンプト(日本語):

1950年代のビンテージなダイナーのメニューボードを作成してください。以下のテキストがはっきり読めるように:
- 「本日のスペシャル: ¥750」
- 「ナノバナナスプリット」
- 「挽きたてコーヒー ¥100」
リアルな使用感、チョークの質感、時代に合ったタイポグラフィを含めてください。背景には赤い革張りのブースが見えるレトロなダイナーの店内を配置してください。

出力結果:

英語でのテキストの再現性はほぼ完璧ですね、反面に日本語は結構惜しいです。

画像の編集

次に以下の画像を編集してみます。

プロンプト:

この画像からすべての人物を削除して、代わりに前景にゴールデンレトリバーを座らせてカメラを見ているようにしてください。天候を霧がかった朝に変更し、柔らかな朝日が差し込むようにしてください。建築物の詳細はすべてそのまま維持してください。

出力結果:

元の画像を維持しながら、プロンプトに対してかなり忠実に反映してくれています。

おわりに

今回、Gemini 2.5 Flash Image(Nano Banana)を実際に使用してみて、このモデルが実用的な画像生成ツールとして機能することを実感しました。
特に印象的だったのは、キャラクター一貫性の高さです。同一人物を異なるシーンで描写しても、顔の特徴や年齢が見事に保持されており、ブランディングやストーリーテリングへの実用性の高さを確認できました。
また、自然言語による対話的な編集機能により、「背景を変更して」「天候を変えて」といった直感的な指示だけで、プロ級の画像編集が可能になったことは革命的です。
一方で、日本語テキストのレンダリングにはまだ改善の余地があることも分かりました。英語テキストがほぼ完璧に再現される一方、日本語では文字の形状に課題が残っています。
これは今後のアップデートに期待したい部分です。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AI・DX・LowCodeなど企業に役立つ情報を発信しています。

目次