Nvidia Cosmosが世界モデル2.5を公開——合成データでロボティクスAIを加速

ロボティクスAIの開発で最大のボトルネックは「データ」だ。現実世界でロボットを動かしてデータを集めるには莫大な時間とコストがかかり、危険な状況のデータは物理的に取得できないケースも多い。Nvidiaはこの課題に対し、**世界モデル（World Model）**という根本的なアプローチで回答を示した。

2026年3月、Nvidiaは世界モデルプラットフォーム「Cosmos」の最新版として、Cosmos Transfer 2.5、Cosmos Predict 2.5、そして視覚言語モデルCosmos Reason 2を公開した。さらに、ロボットポリシーの標準ベンチマーク「Isaac Lab-Arena」とクラウドネイティブなワークフロー管理ツール「OSMO」も同時にリリース。全モデルはHugging Faceでオープン公開されており、誰でも無料で利用できる。

世界モデルとは何か——ロボットに「物理世界の直感」を与える技術

世界モデルとは、現実世界の物理法則や因果関係を学習し、「次に何が起こるか」を予測できるAIモデルのことだ。人間が「ボールを投げたら放物線を描いて落ちる」と直感的に理解しているように、世界モデルはロボットに物理世界の理解を与える。

従来のロボットAIは、特定のタスク（例: 物体をつかむ）に対して大量の実機データを集め、個別にモデルを訓練する必要があった。世界モデルは、物理法則そのものを学習するため、一度訓練すれば多様なタスクに汎用的に適用できる。

項目	従来手法	世界モデル（Cosmos）
データ収集	実機で数千〜数万回の試行	シミュレーション + 合成データ
環境の多様性	実験室内に限定されがち	無限の環境をプログラム生成
危険シナリオ	再現困難	シミュレーションで安全に生成
学習コスト	数週間〜数ヶ月	数日〜数週間
汎用性	タスク固有	複数タスクに転用可能
Sim-to-Realギャップ	大きい	フォトリアル変換で縮小

Cosmos Transfer 2.5——シミュレーションをフォトリアルに変換

Cosmos Transfer 2.5は、シミュレーション環境で生成された構造化データ（深度マップ、セグメンテーション、エッジ情報など）を、フォトリアリスティックな映像に変換する世界モデルだ。

これにより、Nvidia Isaac Simなどの物理シミュレータで安価に大量生成できるデータを、現実世界と見分けがつかないほどリアルな映像に変換できる。ロボットの視覚AIは、この合成映像で訓練することで、実機データなしでも現実世界で動作するモデルを構築できる。

主要な技術仕様

入力: 深度マップ、セマンティックセグメンテーション、法線マップ、エッジマップ
出力: フォトリアリスティック映像（最大1080p、30fps）
アーキテクチャ: 拡散トランスフォーマーベース
条件制御: テキストプロンプトによるシーン記述に対応
ドメイン: 屋内・屋外・工場・倉庫・道路など多様な環境

従来のSim-to-Real転移では「見た目のギャップ」が最大の課題だった。シミュレーション上では完璧に動作するロボットが、現実のライティングやテクスチャの微妙な違いに対応できず失敗するケースが多発していた。Cosmos Transfer 2.5は、このビジュアルギャップを世界モデルの生成能力で埋める。

Cosmos Predict 2.5——物理法則に基づく未来予測

Cosmos Predict 2.5は、現在の映像フレームから物理法則に基づいて未来のフレームを予測する世界モデルだ。ロボットが「この行動をとったら次に何が起こるか」を事前にシミュレーションし、最適な行動を選択するために使われる。

以下の図は、Cosmosプラットフォームの全体像を示しています。

Nvidia Cosmosプラットフォーム全体像。Cosmos Transfer 2.5、Cosmos Predict 2.5、Cosmos Reason 2の3モデルと、Isaac Lab-Arena・OSMOの関係を示すアーキテクチャ図

この図のとおり、Cosmosは3つのモデルが連携して動作するプラットフォームだ。Transfer 2.5がリアルなデータを生成し、Predict 2.5が未来を予測し、Reason 2が物理的な推論を担う。これらの基盤の上で、Isaac Lab-Arenaがベンチマークを提供し、OSMOがワークフロー全体を管理する。

Predict 2.5の活用シナリオ

ポリシー評価: ロボットの行動方策（ポリシー）が正しく機能するか、実機を動かす前に世界モデル上でテスト
プランニング: 複数の行動候補を世界モデルで「脳内シミュレーション」し、最も成功確率の高い行動を選択
データ拡張: 既存のデータセットから、異なる条件（照明、視点、障害物）での未来予測を生成し、学習データを拡張

Cosmos Reason 2——物理世界を理解する視覚言語モデル

Cosmos Reason 2は、物理世界の理解に特化した**視覚言語モデル（VLM）**だ。映像を入力として受け取り、物理的な因果関係を自然言語で推論できる。

たとえば、ロボットアームが棚から物体を取り出す映像を見せると、Cosmos Reason 2は「物体Aを引き出すと、隣の物体Bが倒れるリスクがある」「物体の重心が右側にあるため、左側からグリップすると落下する可能性がある」といった物理的な推論を出力する。

Cosmos Reason 2の主要機能

機能	説明
空間理解	3D空間内のオブジェクトの位置・サイズ・距離を推定
物理予測	力・重力・摩擦・衝突の結果を推論
因果推論	「AをするとBが起こる」という因果関係を特定
安全判断	ロボットの行動が安全かどうかを事前に評価
自然言語出力	推論結果を開発者が理解しやすい自然言語で説明

このモデルは、ロボットの行動計画における「安全チェック」として特に有効だ。ポリシーモデルが「棚から物を取る」という行動を決定した後、Cosmos Reason 2がその行動の物理的な結果を検証し、危険があれば代替行動を提案する。

Isaac Lab-ArenaとOSMO——オープンソースの基盤ツール

Isaac Lab-Arena

Isaac Lab-Arenaは、ロボットポリシーの標準ベンチマークを提供するオープンソースプラットフォームだ。異なる研究チームが開発したロボットポリシーを、同一の基準で公平に比較できる。

タスク: マニピュレーション（物体操作）、ロコモーション（移動）、ナビゲーション
ロボット: 産業用アーム、ヒューマノイド、四脚ロボット
メトリクス: 成功率、完了時間、安全性スコア、エネルギー効率
リーダーボード: 公開ベンチマークで研究コミュニティ全体の進捗を可視化

機械学習にImageNetやGLUEがあるように、ロボティクスにも標準ベンチマークが必要だった。Isaac Lab-Arenaはその空白を埋めるものだ。

OSMO

OSMOは、ロボティクスAIの開発ワークフロー全体を管理するクラウドネイティブなオーケストレーションツールだ。

データ生成（Cosmos Transfer 2.5でのフォトリアル変換）→ ポリシー学習 → ベンチマーク評価（Isaac Lab-Arena）→ 実機テストという一連の流れを、OSMOが自動化する。GPUクラスタの割り当て、ジョブスケジューリング、実験結果の追跡・比較など、MLOpsの機能を備えている。

以下の図は、合成データ生成からロボット実機へのデプロイまでの学習パイプラインを示しています。

合成データによるロボットAI学習パイプライン。Isaac Simでのシミュレーションから、Cosmos Transfer 2.5によるフォトリアル変換、Predict 2.5による未来予測、ポリシー学習、Isaac Lab-Arenaでの評価、Cosmos Reason 2での検証、実機デプロイまでの一連の流れ

この図が示すとおり、Cosmosのパイプラインは一方通行ではなく、フィードバックループを内蔵している。実機デプロイ後のパフォーマンスデータがシミュレーション環境にフィードバックされ、Sim-to-Realギャップを継続的に縮小していく仕組みだ。

競合との比較——世界モデル市場の勢力図

世界モデルはNvidiaだけの技術ではない。複数の企業・研究機関が独自のアプローチを進めている。

項目	Nvidia Cosmos	Google DeepMind Genie 2	Meta World Model	Tesla FSD World Model
公開形態	オープン（Hugging Face）	非公開	研究論文のみ	非公開・社内利用
主な用途	ロボティクス + 自動運転	ゲーム・シミュレーション	汎用AI研究	自動運転特化
合成データ生成	あり（Transfer 2.5）	限定的	研究段階	あり（社内）
物理推論	あり（Reason 2）	なし	研究段階	限定的
ベンチマーク	Isaac Lab-Arena	なし	なし	なし
エコシステム	Isaac Sim連携	Google Cloud連携	PyTorch連携	Tesla独自

Nvidiaの最大の強みは、ハードウェア（GPU）からシミュレータ（Isaac Sim）、世界モデル（Cosmos）、ベンチマーク（Isaac Lab-Arena）、オーケストレーション（OSMO）まで垂直統合されたスタックを提供している点だ。しかも、すべてをオープンソースで公開するという大胆な戦略をとっている。

なぜNvidiaはオープン公開を選んだのか

NvidiaがCosmosを含む全モデルをHugging Faceで無償公開する戦略には、明確なビジネスロジックがある。

1. GPUの需要を拡大する 世界モデルの学習・推論には膨大なGPU計算が必要だ。Cosmosをオープンにすれば、世界中の企業・研究機関がロボティクスAI開発に参入し、結果としてNvidia GPUの需要が増大する。モデルは無料でも、ハードウェアは売れる。

2. エコシステムのロックイン Cosmosが業界標準になれば、Isaac Sim、Isaac Lab-Arena、OSMOというNvidiaのツールチェーンがデファクトスタンダードになる。ツールは無料でも、それを動かすGPUとDGXシステムはNvidia製だ。

3. データのネットワーク効果 多くの開発者がCosmosを使うほど、コミュニティにフィードバックが蓄積され、モデルの品質が向上する。オープンソースの好循環だ。

日本のロボティクス産業への影響

日本はロボティクス大国だが、AI駆動のロボット開発では米中に遅れをとっている。Cosmosのオープン公開は、日本の産業界にとって大きなチャンスだ。

製造業への直接的インパクト

日本の製造業は、多品種少量生産への対応が課題となっている。従来のロボットプログラミングでは、新しい製品ラインのたびに専門のエンジニアがティーチングを行う必要があった。Cosmos Transfer 2.5を活用すれば、工場のデジタルツイン上で大量の合成データを生成し、新製品への対応をAIで自動化できる。

人材不足の解消

日本では製造業・物流業のロボットエンジニア不足が深刻だ。Cosmosのようなプラットフォームがオープン公開されることで、「ロボットの専門知識がなくても、AIの知識があればロボット開発に参入できる」というハードルの低下が期待される。

具体的な活用シナリオ

物流倉庫: ピッキングロボットの学習を合成データで加速し、多様な商品形状への対応力を強化
食品工場: 不定形物（野菜、肉など）のハンドリングを世界モデルで訓練
介護施設: ヒューマノイドロボットの安全な人間とのインタラクションをCosmos Reason 2で検証
農業: 屋外環境の多様性（天候、日照、地形）を合成データで網羅

料金と利用方法

Cosmosの全モデルはHugging Faceでオープン公開されており、ダウンロード・利用は完全無料だ。ただし、実際の運用にはGPUリソースが必要となる。

利用形態	コスト	備考
モデルダウンロード	無料	Hugging Faceから直接取得
ローカル実行	GPU購入費	推奨: A100/H100以上
クラウド実行（OSMO）	GPU利用料	Nvidia DGX Cloud対応
Isaac Sim	無料	Omniverse経由で利用可能
Isaac Lab-Arena	無料	オープンソース

参考として、Nvidia H100 GPUの市場価格は1基あたり約$25,000〜$30,000（約375万〜450万円）。クラウドでの利用であれば、AWS、GCP、Azureいずれでも時間単位で借りることが可能だ。

まとめ——ロボットAI開発の民主化が始まる

Nvidia Cosmosの最新リリースは、ロボティクスAIの開発パラダイムを根本から変える可能性を持っている。合成データによる学習の加速、世界モデルによる物理理解、標準ベンチマークによる公正な評価——これらがすべてオープンソースで手に入る時代が到来した。

今すぐできるアクションステップ

Hugging FaceでCosmosモデルをダウンロードして、自社のロボティクス課題に適用できるか検証する
Isaac Lab-Arenaのベンチマークで、自社のロボットポリシーを業界標準と比較する
小規模なPoCとして、既存のシミュレーション環境のデータをCosmos Transfer 2.5でフォトリアル変換し、実機転移の精度向上を測定する
社内のAIチームとロボットチームの連携を強化する。Cosmosはこの2つの領域を橋渡しするツールだ

ロボティクスAIの「データの壁」が崩れ始めている。日本の製造業・物流業がこの波に乗れるかどうかは、今後1〜2年の取り組みにかかっている。