Stable Video 3Dのご紹介：単一画像からの高品質な新しいビュー合成と3D生成

2024年3月21日

ポイント

Stable Video Diffusion に基づいた生成モデルである Stable Video 3D (SV3D) のリリースにより、3D技術の分野を発展させ、品質とビューの一貫性を大幅に改善します。
このリリースには SV3D_u と SV3D_p の2つのバリアントがあります。SV3D_uはカメラ調整なしで単一画像入力に基づいて軌道動画を生成します。SV3D_p は、単一画像と軌道ビューの両方に対応することで機能を拡張し指定されたカメラパスに沿った3Dビデオの作成を可能にします。
Stable Video 3D は、Stability AI メンバーシップに加入することで、商用利用が可能になります。非商用利用の場合は、Hugging Face のモデルウェイトをダウンロードし、こちらの研究論文をご覧ください。

Stable Video Diffusion をリリース時、私たちは様々なアプリケーションにおけるビデオモデルの汎用性を強調しました。この基盤の上に、Stable Video 3D　をリリースできることを嬉しく思います。この新しいモデルは、3D技術の分野を発展させ、以前にリリースされた Stable Zero123 と比較して、品質とマルチビューが大幅に改善され、Zero123-XL　などの他のオープンソースの代替製品よりも優れています。

このリリースには2つのバリアントがあります。

SV3D_u：このバリアントはカメラのコンディショニングなしで単一の画像入力に基づいて軌道ビデオを生成します。
SV3D_p：SVD3_u の機能を拡張したもので、単一画像と軌道ビューの両方に対応し指定されたカメラパスに沿って3Dビデオを作成することができます。

Stable Video 3D は、Stability AI メンバーシップに加入することで、商用利用が可能になります。非商用利用の場合は、Hugging Face のモデルウェイトをダウンロードし、こちらの研究論文をご覧ください。

Video Diffusion のメリット

Stable Video 3Dは、Stable Video Diffusionの画像から動画への Diffusionモデルにカメラパスのコンディショニングを追加することで、オブジェクトのマルチビュービデオを生成することができます。Stable Zero123 で使用されている画像拡散モデルとは対照的に、Video Diffusion モデルを使用することで、生成された出力の汎化とビューの一貫性に大きな利点があります。さらに、Stable Video 3D のこの強力な機能を活用して、オブジェクトの周りの任意の軌道を生成する、改良された3D最適化を提案します。さらに、これらのテクニックを、新しいマスクドスコア蒸留サンプリング損失関数と同様に、分離された照明最適化とともに実装することで、Stable Video 3D は、単一の画像入力から高品質の3Dメッシュを確実に出力することができます。

Stable Video 3D モデルの詳細と実験的比較については、こちらのテクニカルレポートをご覧ください。

Novel-View ジェネレーション

Stable Video 3D は、3D生成、特に新規ビュー合成（NVS）に大きな進歩をもたらします。限定されたパースペクティブや出力の不一致に悩まされることの多い従来のアプローチとは異なり、Stable Video 3D は、どのようなアングルからでも首尾一貫したビューを、巧みな汎化によって提供することができます。この機能は、ポーズ制御性を高めるだけでなく、複数のビューにわたって一貫したオブジェクトの外観を保証し、リアルで正確な3D生成の重要な側面をさらに改善します。

Stable Video 3Dは、既存の作品と比較して、より詳細で、入力画像に忠実で、マルチビューに一貫性のある新しいマルチビューを生成することができます。

3D ジェネレーション

Stable Video 3D は、3D Neural Radiance Fields (NeRF)とメッシュ表現を最適化するために、マルチビューの一貫性を活用し、新しいビューから直接生成された 3D メッシュの品質を向上させます。このために、予測されたビューでは見えない領域の3D品質をさらに向上させるためにマスクされたスコア蒸留サンプリング損失を設計しました。さらに、ベイクトインライティングの問題を軽減するために、Stable Video 3D は3D形状およびテクスチャとともに共同最適化される分離照明モデルを採用しています。