NVIDIA、フィジカル AI 開発を加速する Cosmos 世界基盤モデルプラットフォームを発表

2025年1月7日

・ロボットや自動運転車の開発専用に構築され、NVIDIA データセンター GPU 向けに最適化された、新たな最先端のモデル、ビデオトークナイザー、高速データ処理パイプライン

・オープンモデルの第 1 波を開発者コミュニティに提供開始

・フィジカル AIのグローバルリーダーである 1X、Agile Robots、Agility、Figure AI、Foretellix、Uber、Waabi、XPENG が最初に採用

ラスベガス – CES – 2025 年 1 月 6 日 – NVIDIA は本日、自動運転車 (AV) やロボットなどのフィジカル AI システムの開発を促進するために構築された最先端の生成世界基盤モデル、高度なトークナイザー、ガードレール、および高速ビデオ処理パイプラインで構成されるプラットフォーム、NVIDIA Cosmos™ を発表しました。

フィジカル AI モデルの開発にはコストがかかり、膨大な量の実世界のデータとテストが必要です。Cosmos 世界基盤モデル (WFM) は、開発者が既存のモデルをトレーニングおよび評価するための、大量のフォトリアルな物理ベースの合成データを簡単に生成する方法を提供します。開発者は、Cosmos WFM をファインチューニングしてカスタムモデルを構築することもできます。

Cosmos モデルは、ロボティクスおよび AV コミュニティの作業を加速するために、オープンモデルライセンスの下で提供されます。開発者は、NVIDIA API カタログで最初のモデルをプレビューするか、NVIDIA NGC™ カタログまたは Hugging Face から一連のモデルとファインチューニングフレームワークをダウンロードできます。

1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi、XPENG などの大手ロボティクスおよび自動車会社、およびライドシェアリング大手の Uber が、Cosmos を最初に採用する企業に含まれます。

NVIDIA の創業者/CEO であるジェンスンフアン (Jensen Huang) は次のように述べています。「ロボティクスに ChatGPT の時代が到来しつつあります。大規模言語モデルと同様に、世界基盤モデルはロボットおよび AV 開発の進歩に不可欠ですが、すべての開発者が独自のモデルをトレーニングするための専門知識とリソースを持っているわけではありません。NVIDIAは、フィジカル AI を民主化し、一般的なロボティクスをすべての開発者が利用できるようにするために Cosmos を作成しました」

オープンな世界基盤モデルで AI の次の波を加速

NVIDIA Cosmos のオープンモデルスイートでは、開発者が対象アプリケーションのニーズに応じて、走行するAV や倉庫内を移動するロボットの録画映像などのデータセットを使用し、WFM をカスタマイズすることができます。

Cosmos WFM は、フィジカル AI の研究開発専用に構築されており、テキスト、画像、ビデオなどの入力とロボットセンサーまたはモーションデータの組み合わせから物理ベースのビデオを生成できます。モデルは、物理ベースのインタラクション、オブジェクトの永続性、倉庫や工場などのシミュレートされた産業環境やさまざまな道路状況を含む運転環境の高品質な生成を目的として構築されています。

CES の基調講演で、NVIDIA の創業者/CEO であるジェンスンフアンは、フィジカル AI 開発者による Cosmos モデルの使用例を紹介しました。これには以下のものが含まれます。

・ビデオ検索と理解：開発者は、雪道の状況や倉庫の混雑など、ビデオデータから特定のトレーニングシナリオを簡単に見つけることが可能になります。

・ 物理ベースのフォトリアルな合成データ生成：Cosmos モデルを使用し、NVIDIA Omniverse™ プラットフォームで開発された制御された 3D シナリオからフォトリアルなビデオを生成することができます。

・ フィジカル AI モデルの開発と評価：基盤モデル上にカスタムモデルを構築したり、強化学習のために Cosmos を使用してモデルを改善したり、または特定のシミュレーションシナリオでのパフォーマンスをテストする場合などに活用できます。

・ 先見性と「マルチバース」シミュレーション：Cosmos と Omniverse を使用して、AI モデルが取る可能性のあるすべての将来の結果を生成し、最善かつ最も正確なパスを選択可能にします。

高度な世界モデル開発ツール

フィジカル AI モデルを構築するには、ペタバイト単位のビデオデータと、そのデータの処理、キュレーション、ラベル付けに数万時間の計算時間が必要です。データのキュレーション、トレーニング、モデルのカスタマイズにかかる膨大なコストを節約するために、Cosmos には次の機能が含まれます：

・NVIDIA NeMo™ Curator を搭載した NVIDIA AI および CUDA® アクセラレーテッドデータ処理パイプライン。これにより、開発者は CPU のみのパイプラインを使用した場合に 3年以上かかる 2,000 万時間分のビデオの処理、キュレーション、ラベル付けを、NVIDIA Blackwell プラットフォームを使用して 14 日間で行えるようになります。

・ NVIDIA Cosmos Tokenizer：画像やビデオをトークンに変換する最先端のビジュアルトークナイザーです。今日の主要なトークナイザーよりも 8 倍の総圧縮率と 12 倍の処理速度を実現します。

・ NVIDIA NeMo：非常に効率的なモデルのトレーニング、カスタマイズ、最適化のためのフレームワークです。

世界最大のフィジカル AI 業界が Cosmos を採用

フィジカル AI 業界のパイオニアたちはすでに Cosmos テクノロジを採用しています。

AI およびヒューマノイドロボット企業である 1X は、Cosmos Tokenizer を使用して 1X World Model Challenge データセットを立ち上げました。XPENG は Cosmos を使用してヒューマノイドロボットの開発を加速します。また、Hillbot と SkildAI は Cosmos を使用して汎用ロボットの開発を加速しています。

Agility の最高技術責任者である Pras Velagapudi 氏は次のように述べています。「データの不足と変動性は、ロボット環境での学習を成功させる上で重要な課題です。Cosmos のテキスト、画像、ビデオを世界に変換する機能により、さまざまなタスクでフォトリアルなシナリオを生成および拡張でき、高価な現実世界のデータキャプチャをそれほど必要とせずにモデルのトレーニングに使用可能になります」

交通業界のリーダーたちも、AV 向けのフィジカル AI の構築に Cosmos を使用しています。

・物理世界向けの生成 AI のパイオニアである Waabi は、AV ソフトウェアの開発とシミュレーション用のビデオデータの検索とキュレーションに Cosmos を使用しています。

・自動運転用の AI 基盤モデルを開発している Wayve は、安全性と検証に使用されるエッジケースとコーナーケースの運転シナリオを検索するツールとして Cosmos を評価しています。

・ AV ツールチェーンプロバイダーの Foretellix は、忠実度の高いテストシナリオとトレーニングデータを大規模に評価および生成するため、NVIDIA Omniverse Sensor RTX API とともに Cosmos を使用しています。

・世界的なライドシェアリング大手の Uber は、自律移動を加速するために NVIDIA と提携しています。Uber の豊富な運転データセットと、Cosmos プラットフォームおよび NVIDIA DGX Cloud™ の機能を組み合わせることで、AV パートナーはより強力な AI モデルをさらに効率的な状態で構築可能になります。

Uber の CEO である Dara Khosrowshahi 氏は次のように述べています。「生成 AI は、豊富なデータと非常に強力なコンピューティングの両方を必要とするモビリティの未来を推進します。NVIDIA と協力することで、業界向けの安全でスケーラブルな自動運転ソリューションのタイムラインを大幅に加速できると確信しています」

オープンで安全、かつ責任ある AI の開発

NVIDIA Cosmos は、プライバシー、安全性、セキュリティ、透明性、不要な偏見の削減を優先する NVIDIA の信頼できる AI の原則に沿って開発されました。

信頼できる AI は、開発者コミュニティ内でイノベーションを促進し、ユーザーの信頼を維持するために不可欠です。NVIDIA は、米国政府の自主的な AI コミットメントやその他のグローバル AI 安全イニシアチブに沿って、安全で信頼できる AI に取り組んでいます。

オープンな Cosmos プラットフォームには、有害なテキストや画像を軽減するように設計されたガードレールが含まれており、テキストプロンプトの精度を高めるツールを備えています。NVIDIA API カタログの Cosmos 自己回帰モデルと拡散モデルで生成されたビデオには、AI によって生成されたコンテンツを識別するための目に見えない透かしが含まれており、誤報や誤帰属の可能性を減らすのに役立ちます。

NVIDIA は、開発者が信頼できる AI プラクティスを採用し、アプリケーションのガードレールと透かしソリューションをさらに強化することを推奨しています。

提供予定

Cosmos WFM は、Hugging Face および NVIDIA NGC カタログで NVIDIA のオープンモデルライセンスに基づいて現在提供されています。Cosmos モデルは、完全に最適化された NVIDIA NIM マイクロサービスとしてまもなく提供される予定です。

開発者は、NVIDIA NeMo Curator にアクセスしてビデオ処理を高速化し、NVIDIA NeMo を使用して独自の世界モデルをカスタマイズできます。NVIDIA DGX™ Cloud は、これらのモデルを迅速かつ簡単に展開する方法を提供し、NVIDIA AI Enterprise ソフトウェアプラットフォームを通じてエンタープライズサポートを利用できます。

NVIDIA はさらに、開発者がヘルスケア、金融サービス、製造などのエンタープライズ AI ユースケースに使用できる新しい NVIDIA Llama Nemotron 大規模言語モデルとNVIDIA Cosmos Nemotron 視覚言語モデルを発表しました。

※本発表資料は米国時間 2025 年 1 月 6 日に発表されたプレスリリースの抄訳です。

NVIDIA について

NVIDIA (NASDAQ: NVDA) はアクセラレーテッドコンピューティングの世界的なリーダーです。

引用