概要
Google Veo 2は、Google DeepMindが開発した最先端のAIモデルで、テキストや画像、あるいはその両方を入力として、動画コンテンツを生成することができます。プロンプトで表現されたアイデアをそのまま映像に変換できるこのモデルは、生成動画の新たなフロンティアを切り拓く存在として注目されています。
Veo 2の主な特徴と機能
- Text-to-Video(テキストから動画生成)
詳細なテキストプロンプトから、動きのある動画シーンを生成します。 - Image-to-Video(画像から動画生成)
既存の画像や、Imagenなどで生成された画像をもとにアニメーションを作成します。スタイルや動きはテキストプロンプトで細かく指定可能で、Imagenとの連携も公式にサポートされています。 - リアリズムと物理シミュレーション
現実世界の物理法則を高い精度で再現できる点が特徴で、他のモデルと比べて不自然な生成物(アーティファクト)が少ないと評価されています。 - モーションの正確さ
物理的な理解と精密な指示への追従性に優れ、滑らかな動作表現が可能です。流体的なキャラクターの動きなど、より自然なアニメーションを目指しています。 - スタイルとシネマティック制御
多様な視覚スタイルや映画的演出に対応し、プロンプトを通じてカメラのショットスタイル、アングル、動き、さらには「18mmレンズ」といったレンズ指定まで詳細にコントロールできます。 - 解像度とフレームレート
最大4Kでの出力に対応可能とされていますが、現時点の実装では多くの場合、720pまたは1080pでの生成となっています。たとえば、Vertex AIやGemini APIのドキュメントでは、720p・24fpsが標準とされています。 - 高度なカメラ&スタイル制御
ズーム、被写界深度、カメラトラッキングなどシネマティックコントロールをAPI/UIで指定可能。
クレヨン画から実写級フォトリアルまで幅広い質感を選択でき、VideoFX上ではプリセットも提供される。 - セーフティ&透かし
生成動画にはDeepMindの透かし技術SynthIDがフレーム単位で埋め込まれ、AI生成物であることを識別可能。
公開前に大規模red teamテストを実施し、暴力・性的表現・著作権侵害の抑制フィルタが搭載されている。
Veo2の提供形態
Veo2はGoogleの以下のサービスから利用可能です。
提供チャネル | 内容 | 料金・利用条件 |
---|---|---|
VideoFX(Google Labs) | ブラウザUIから最大20秒の試用生成 | ウェイトリスト制で順次拡大中 |
YouTube Shorts | Shorts内で6〜15秒の背景/フッテージを直接生成 | クリエイター向け早期アクセス |
Gemini Advanced | Geminiチャットからプロンプト生成 | Google One AI Premium加入者向け |
Vertex AI API | REST/SDK経由で商用利用可能 | 1秒当たり0.35〜0.50 USD(リージョン・負荷で変動) |
Whisk Animate | Veo 2を使用して画像からビデオへのアニメーションを作成 。 | Google One AI Premium加入者向け |
またGoogle公式以外にもサードパーティプラットフォームからも提供されています。
Veo2の利用方法
今回はGemini AdvancedからVeo2を利用します。

利用方法
1.Geminiにアクセスし、「Veo2」のタブを選択します。

2.チャット欄に生成したい動画のプロンプトを入力します。
生成できる動画の設定は次になります。
Veo 2:テキストから8秒の動画を生成します。動画は横向きで、解像度は720pです。
今回はOpenAIの動画生成AI「Sora」の記事と同じプロンプトを利用します。
プロンプト:
午後の柔らかな日差しが差し込むリビングルームで、ふわふわの長毛猫がソファの上で丸くなって寝ているシーンをリアリスティックな映像で再現してください。時間経過とともにネコはゆっくりと伸びをし、カーテン越しの風に揺れる室内植物や薄く響く遠くの街の音が、穏やかな日常を感じさせます。自然なカメラワークと音響で、日常生活の一コマを丁寧に切り取ったような臨場感ある映像にしてください。
生成された動画は以下になります。
猫が動画上ではかなり動いていますが、ほどんど破綻していないのは凄いですね。
次に動画の内容を変更してみます。
プロンプト:
黒猫に変更してください。
黒猫に変更されました。
ただGemini上では、動画の背景や構図などの一貫性は保たれず、編集機能はVideoFXのローンチが待たれます。
おわりに
Google Veo 2はテキストや画像から自然で高品質な動画を生成できる、非常に強力なAIモデルです。
現状。利用できるプラットフォームが限られたり、API利用時のコストなど気になる点もありますが、今後さらに料金体系が最適化され、VideoFX のフル機能やサードパーティー制アプリでの搭載が広がれば、一気に動画生成AIの覇権を握れるポテンシャルがありそうです。

