Google Labsが開発したWhiskは、テキストプロンプトではなく画像を用いて新たな画像を生成する革新的なAIツールです。本記事では、Whiskの概要、主な特徴、そして利用方法について詳しく解説します。
Whiskとは?
Whiskは、ユーザーが提供した画像を基に、新たな画像を生成するGoogle Labsの実験的なジェネレーティブAIツールです。従来のテキストプロンプトによる画像生成とは異なり、Whiskではユーザーがアップロードした画像をプロンプトとして使用し、独自のビジュアルコンテンツを作成できます。このプロセスでは、Googleの最新AIモデルであるGeminiが画像の詳細なキャプションを自動生成し、そのキャプションをImagen 3に入力して最終的な画像を生成します。
Whiskの主な特徴
1. 画像を用いたプロンプト機能
ユーザーは、生成したい画像の「主題(Subject)」「シーン(Scene)」「スタイル(Style)」に対応する画像をアップロードできます。これにより、テキスト入力なしで直感的に希望するビジュアルを指定できます。
2. AIによるキャプション生成と画像生成
アップロードされた画像は、Geminiモデルによって詳細なキャプションが作成され、そのキャプションを基にImagen 3が新たな画像を生成します。このプロセスにより、元の画像の本質を捉えつつ、新しいクリエイティブなビジュアルを作成できます。
3. 迅速なビジュアルアイデアの試行
Whiskは、詳細なプロンプトの知識がなくても、迅速にビジュアルアイデアを試行できるよう設計されています。画像を組み合わせて新しいコンセプトを視覚的に探求することが可能です。
4. リミックスとリファイン機能
生成された画像に対して、さらに詳細な指示を加えてリファイン(改良)することができます。例えば、「キャラクターにアイスクリームを持たせる」や「背景に夕日を追加する」といった具体的な要望を反映させることが可能です。
5. コミュニティとの共有
作成した画像は、ダウンロードして個人で楽しむだけでなく、コミュニティと共有することもできます。Google LabsのDiscordチャンネルなどを通じて、他のユーザーと作品を共有し、フィードバックを得ることができます。
Whiskの利用方法
1. アクセスとアカウント作成
Whiskは、Google Labsの公式サイトからアクセスできます。
ログインにはGoogleアカウントが必要です。

2. 画像のアップロード
- モデル(Model): 生成したい主要な対象の画像をアップロードします。
- シーン(Scene): 背景や環境となる画像を選択します。
- スタイル(Style): 希望するアートスタイルや雰囲気を持つ画像を追加します。
各カテゴリーに複数の画像をアップロードすることで、より多様な組み合わせを試すことができます。
以下は例として、クジラの画像をぬいぐるみ風にしました。

生成された画像:

3. 画像の生成とリファイン
- 生成: アップロードした画像を基に、Whiskが新たな画像を生成します。
- リファイン: 生成された画像に対して、テキストで追加の指示を入力し、さらに詳細な調整を行います。
さらに生成した画像は調整することも可能です。
以下は、クジラのぬいぐるみ風画像の背景にリビングの画像を追加した例です。

生成された画像:

またプロンプトで生成された画像の調整も可能です。
今回は以下のプロンプトを入力しました。
ソファの中央にクジラのぬいぐるみが置いてください。

生成された画像:

まとめ
Whiskは、画像をプロンプトとして活用し、ユーザーが直感的かつ迅速に新しいビジュアルコンテンツを作成できるツールです。
直感的で分かりやすく、細かい調整がしやすいため、誰でも簡単に利用できるのが大きな特徴です。
Googleアカウントがあれば誰でも利用できるため、気になったら使ってみてください。