TripoSRのご紹介：単一画像からの高速3Dオブジェクト生成 — Stability AI Japan

2024年3月8日

ポイント

TripoSR は Tripo AI と提携し、1秒以内に1枚の画像から高品質な3Dモデルを生成します。
TripoSRは低い推論バジェットで動作するため（GPUなしでも）、幅広いユーザーとアプリケーションにとって利用しやすく実用的です。
モデルウェイトとソースコードは、MITライセンスの下でこちらからダウンロード可能です。

Tripo AI と提携し、LRM: Large Reconstruction Model For Single Image to 3D にインスパイアされた高速3Dオブジェクト再構築モデル TripoSR を開発しました。この新しい画像から3Dへのモデルは、詳細な3Dオブジェクトを視覚化するための応答性の高い出力で、エンターテインメント、ゲーム、工業デザイン、建築の専門家の高まる需要に応えるように設計されています。

性能

TripoSR は、その他のモデルの数分の一の時間で詳細な 3D モデルを作成することができます。Nvidia A100 でテストしたところ、ドラフト品質の 3D 出力（テクスチャーメッシュ）を約0.5秒で生成し、OpenLRM のような他のオープンなimage-to-3D モデルを凌駕しました。スピードだけでなく、このモデルは、GPU の有無にかかわらず、ユーザがアクセス可能です。

技術詳細

トレーニングデータ準備には、現実世界で見られる画像の分布をより忠実に再現する多様なデータレンダリング技術を取り入れ、モデルの汎化能力を大幅に向上させました。トレーニングデータには、Objaverse データセットの高品質なサブセットである CC-BY を慎重にキュレーションしました。モデル側では、チャンネル数の最適化、マスク制約の追加、より効率的なクロップレンダリング戦略など、基本的な LRM モデルに対するいくつかの技術的改良も導入しました。詳細はテクニカル・レポートをご覧ください。

開発者、デザイナー、クリエイターの皆様には、TripoSRの機能を探求し、仕事や業界を変革する可能性を発見していただきたいと思います。

TripoSR モデルのコードは Tripo AI の GitHub で、モデルのウエイトは Hugging Face で公開されています。TripoSR モデルの詳細については、テクニカルレポートをご参照ください。

引用