Nvidia Vera Rubin NVL72が本格稼働——72 GPU・260TB/sの怪物ラック
Nvidia の次世代 AI ラックスケールシステム Vera Rubin NVL72 が、2026 年 5 月、ついに フル量産フェーズ に突入した。VideoCardz が報じたスペック詳報によると、ラック 1 本に 72 基の Rubin GPU と 36 基の Vera CPU を搭載し、scale-up bandwidth は 260TB/s という現行 Blackwell B200 NVL72(130TB/s)の 2 倍 に達する怪物構成だ。出荷は 2026 年下半期 から本格化し、AWS / Microsoft Azure / Google Cloud / Oracle Cloud Infrastructure (OCI) といったハイパースケーラに加えて、CoreWeave / Lambda / Nebius / Nscale などの「Neo Cloud Provider (NCP)」が先行展開枠を確保している。
「Vera Rubin」というコードネームは、暗黒物質の証拠を観測したことで知られる米国の天文学者 Vera Florence Cooper Rubin に由来する。Nvidia は Pascal、Volta、Turing、Ampere、Hopper、Blackwell と続いてきた天体物理・数学者ベースの命名規則を Rubin 世代でも踏襲した形だ。本稿では、Vera Rubin NVL72 のハードウェア仕様、HGX Rubin NVL8 を含む製品ラインナップ、Blackwell B200 NVL72 / Hopper H200 / AMD Helios との徹底比較、日本クラウド事業者の調達戦略、そして「2026 年下半期 AI インフラ覇権」の行方を、CTO・インフラ責任者・投資家向けに深掘りする。
Vera Rubin NVL72 とは何か
72 GPU + 36 CPU のラックスケール構成
Vera Rubin NVL72 は、Nvidia が GB200 NVL72(Blackwell 世代)で確立した 「ラック 1 本が 1 つの GPU として振る舞う」 というスケールアップ思想を、Rubin 世代向けに刷新したシステムだ。1 ラックの内訳は次の通り。
- GPU: Rubin GPU ×72 基(次世代 HBM4 を搭載)
- CPU: Vera CPU ×36 基(Arm v9 ベースのカスタム設計、Grace CPU の後継)
- NVLink Switch: 第 6 世代 NVLink Switch トレイ
- CX-9 SuperNIC: 800Gb/s ネットワーキング
- 冷却: ダイレクト液冷(D2C: Direct-to-Chip)
- 消費電力: 概ね 200kW 級(ラック単位)
- ラック重量: 約 1.8 トン
72 基の Rubin GPU は NVLink 6 で互いに直結され、ラック全体が scale-up bandwidth 260TB/s という単一の「スーパー GPU」として動作する。これは Blackwell GB200 NVL72 の 130TB/s に対して ちょうど 2 倍、Hopper H200 を Mellanox InfiniBand で接続した従来構成と比べると 10 倍以上 の帯域だ。
「Vera」CPU とは何か——Grace の後継
Vera CPU は、Nvidia が Grace CPU の後継として独自設計した Arm v9 ベースのデータセンター CPU だ。1 基あたり 88 コア / 176 スレッド(推定)、メモリ帯域は HBM3e と LPDDR5X のハイブリッド構成で 約 1.2TB/s、NVLink-C2C で隣接する Rubin GPU と 900GB/s で接続される。
Grace との大きな違いは、Vera が「GPU と非対称に組む」という設計思想を取り入れた点だ。Grace Hopper / Grace Blackwell は CPU 1 基に対して GPU 1〜2 基だったが、Vera Rubin NVL72 は Vera 36 基に対して Rubin 72 基、すなわち CPU:GPU = 1:2 の比率に振った。これは「AI 推論ワークロードでは GPU の演算密度がボトルネックで、CPU はオーケストレーション役に徹するべき」という Nvidia の判断を反映している。
Rubin GPU——HBM4 と次世代テンソルコア
Rubin GPU そのものについては、Nvidia は GTC 2026 で詳細を発表した。主要スペック(推定値含む)は以下の通り。
- 製造プロセス: TSMC N3P(カスタム版)
- トランジスタ数: 約 2,400 億(Blackwell B200 の約 1.6 倍)
- HBM: HBM4 ×8 スタック、合計 288GB / 13TB/s
- FP4 性能: 約 50 PFLOPS(B200 の約 1.7 倍)
- FP8 性能: 約 25 PFLOPS
- NVLink: 第 6 世代、双方向 1.8TB/s/GPU
Rubin の最大の特徴は、「推論ファースト」 で設計されている点だ。FP4 / FP6 ネイティブ演算ユニットの密度を Blackwell 比で約 70% 引き上げ、長文脈推論時に発生する KV キャッシュ I/O を最適化する専用ハードウェア(Nvidia は "Context Cache Engine" と呼ぶ)を搭載した。これにより、GPT-5.5 や Claude Opus 4.7 のような巨大モデルを 1M トークン文脈で叩いた場合のスループットが、Blackwell 比で実測 2.2〜2.8 倍まで伸びるとされる。
scale-up bandwidth 260TB/s の意味
ラック内 GPU 間帯域 260TB/s という数字は、AI ラックスケールの世界では決定的に重要だ。大規模モデルの学習・推論では、テンソル並列・パイプライン並列・専門家並列(MoE)の各次元で GPU 間に膨大な all-reduce / all-to-all 通信が発生する。この通信が GPU 演算と重ね合わせきれないと、いくら GPU 単体が速くても全体スループットは伸びない。
260TB/s というのは、72 基の GPU が 平均 3.6TB/s/GPU で双方向通信できる帯域だ。Blackwell GB200 NVL72 では 1.8TB/s/GPU だったため、ちょうど倍増。これにより、1 兆パラメータ級のモデルを学習する際の通信オーバーヘッドが大幅に低減され、Nvidia の社内ベンチでは MFU(Model FLOPs Utilization)が Blackwell 比で 1.4〜1.6 倍 に改善したと報告されている。
この図は、Vera Rubin NVL72 の物理構成と通信網を示している。
製品ラインナップ——NVL72 と HGX Rubin NVL8
Nvidia は今回、Vera Rubin 世代で 2 つの主要 SKU を提供する。
Vera Rubin NVL72(フラッグシップ)
ハイパースケーラ・NCP・国家研究機関向けのフラッグシップ。前述の 72 GPU / 36 CPU / 260TB/s 構成で、ラック単位での販売・運用が前提。価格は公表されていないが、業界推定で 1 ラックあたり $3.5〜4.5M(約 5.4〜7.0 億円) とされ、GB200 NVL72 の約 1.4〜1.6 倍に相当する。
HGX Rubin NVL8(中規模向け)
GPU 8 基構成の HGX 系ボードで、既存の DGX H200 / B200 を運用している企業がアップグレードしやすいフォームファクタ。NVLink ドメインは 8 GPU 内に閉じるため、scale-up bandwidth は約 28.8TB/s(3.6TB/s × 8)と NVL72 比では狭いが、データセンター床面積・電源容量の制約があるエンタープライズには現実的な選択肢だ。価格は $400〜500K(約 6,200〜7,750 万円)/ 8GPU が業界推定。
サーバ単位の販売も可能
NVL72 ラックの中の MGX サーバトレイ 単位での販売も継続される。これは ODM パートナー(Foxconn / Wiwynn / QCT / Supermicro 等)が独自設計のラック筐体に組み込むためで、Lambda・CoreWeave のような中規模 NCP が好む販売形態。1 トレイあたり Rubin GPU ×4 + Vera CPU ×2 構成で、価格は $200〜250K レンジ。
Vera Rubin NVL72 vs 競合製品 徹底比較
下表は、2026 年 5 月時点の AI ラックスケール・サーバ製品の主要スペックを横並びにしたものだ。
| 項目 | Vera Rubin NVL72 | Blackwell GB200 NVL72 | Hopper H200 (NVLink Switch) | AMD Helios (Instinct MI400) |
|---|---|---|---|---|
| 世代 | Rubin (2026) | Blackwell (2024) | Hopper (2023) | CDNA 5 (2026 後半予定) |
| GPU 数 / ラック | 72 | 72 | 8〜64(構成次第) | 72(予定) |
| CPU | Vera (Arm v9) ×36 | Grace ×36 | x86 別途 | EPYC Turin ×36 |
| CPU:GPU 比 | 1:2 | 1:2 | 任意 | 1:2 |
| HBM 容量 / GPU | HBM4 288GB | HBM3e 192GB | HBM3e 141GB | HBM4 320GB(予定) |
| HBM 帯域 / GPU | 13TB/s | 8TB/s | 4.8TB/s | 14TB/s(予定) |
| FP4 性能 / GPU | 約 50 PFLOPS | 約 30 PFLOPS | 非対応 | 約 45 PFLOPS(予定) |
| NVLink/Infinity 世代 | NVLink 6 | NVLink 5 | NVLink 4 | Infinity Fabric 4 |
| GPU 間帯域 / GPU | 1.8TB/s | 0.9TB/s | 0.45TB/s | 1.6TB/s(予定) |
| Scale-up bandwidth (ラック) | 260TB/s | 130TB/s | 28.8TB/s | 約 230TB/s(予定) |
| 消費電力 / ラック | 約 200kW | 約 120kW | 約 60kW | 約 180kW(予定) |
| 冷却方式 | ダイレクト液冷 | ダイレクト液冷 | 空冷 / 液冷混在 | ダイレクト液冷 |
| ラック価格(推定) | $3.5〜4.5M | $2.5〜3.5M | $1.0〜1.8M | $3.0〜4.0M(予定) |
| 出荷開始 | 2026 H2 | 2024 Q4〜 | 2023 Q4〜 | 2026 Q4 予定 |
この表からわかる要点を整理しよう。
1. Blackwell からの「2 倍ジャンプ」が綺麗に揃っている HBM 容量(192→288GB、+50%)、HBM 帯域(8→13TB/s、+62%)、FP4 性能(30→50 PFLOPS、+67%)、NVLink 帯域(0.9→1.8TB/s、+100%)、scale-up bandwidth(130→260TB/s、+100%)と、ほぼ全指標が 1.5〜2 倍 にスケーリングしている。これは Nvidia が「Moore 則の終焉後でも、システム設計で 2 年ごとに 2 倍出す」という Jensen の方針を確実に履行していることを示す。
2. Hopper H200 とは別世界の性能 H200 はわずか 2 年前の世代だが、Vera Rubin NVL72 と比較すると HBM 容量で約 2 倍、scale-up bandwidth で約 9 倍 という圧倒的差が付いている。Hopper 世代を学習用途で運用している企業は、推論用途への転用(あるいは中古市場への放出)を検討すべきタイミングだ。
3. AMD Helios は紙面スペックでは僅差 AMD が 2026 Q4 出荷予定の Instinct MI400 (Helios) は、HBM 容量 320GB / HBM 帯域 14TB/s と Vera Rubin を一部上回るスペックだ。scale-up bandwidth も 230TB/s と Vera Rubin に肉薄。ただし AMD には NVLink Switch / NCCL に匹敵する成熟したラックスケール通信スタックがなく、Infinity Fabric Switch も製品化第 1 世代。「絵に描いた餅」か「真の挑戦者」かは 2026 Q4 の実機ベンチ次第だ。
先行展開——4 ハイパースケーラ + 4 NCP
Nvidia の公式アナウンスによると、Vera Rubin NVL72 の最初の出荷枠は 8 社 が確保している。
ハイパースケーラ 4 社
- AWS: 既に Trainium2 / Trainium3 で自前 AI チップ路線を強化しているが、フロンティアモデル顧客(Anthropic、Perplexity 等)向けには Vera Rubin NVL72 を EC2 P7 シリーズ として 2026 H2 から提供開始予定。
- Microsoft Azure: 既報の通り Microsoft は Nvidia と最も深い AI 提携関係を持ち、Vera Rubin NVL72 の初期枠の 約 25% を確保したと推定される。OpenAI(旧来)と Anthropic(新提携)双方の推論基盤として運用見込み。
- Google Cloud: Trillium / TPU v8t 路線と並行して、Gemini 外部顧客向けに Vera Rubin NVL72 を A4 / A5 シリーズ として展開予定。
- Oracle Cloud Infrastructure (OCI): xAI / OpenAI から大規模 GPU 契約を獲得済みで、Vera Rubin NVL72 を「OCI Supercluster」として 25 万 GPU 級で展開する計画。
Neo Cloud Provider (NCP) 4 社
- CoreWeave: Nvidia が筆頭株主(10% 弱)の NCP で、Vera Rubin NVL72 の 発売前デモ にも参加。Microsoft / OpenAI 向けに大規模クラスタを提供する見込み。
- Lambda: AI スタートアップ向けに Vera Rubin NVL72 を 時間貸し で展開。GPU 不足を背景に「予約優先枠」モデルで売り上げを伸ばす戦略。
- Nebius: 旧 Yandex のクラウド事業を分社化したオランダ拠点の NCP。欧州・中東向けに Vera Rubin NVL72 を提供。
- Nscale: 英国拠点の NCP で、Microsoft との 1.5GW 契約を背景に Vera Rubin NVL72 を 数万 GPU 規模 で運用予定。
この図は、Vera Rubin NVL72 の出荷先構成と推定シェアを示している。
筆者の所感——「絶対王者」の維持と隠れたリスク
筆者は GTC 2024 以降、Nvidia の各世代発表を継続ウォッチしてきたが、Vera Rubin NVL72 の発表で改めて感じたのは「Nvidia は単なる GPU メーカーではなく、データセンター OS メーカーに変質した」という点だ。
NVL72 という製品は、GPU + CPU + NIC + NVLink Switch + 電源 + 冷却 + ソフトウェアスタック(CUDA / NCCL / NIM / Dynamo)まで含めた 垂直統合パッケージ だ。顧客(ハイパースケーラ)は「ラック単位で買って、電源と水を供給するだけ」で動かせる。これは Cisco や Sun Microsystems が 1990 年代に成功した「Network is the Computer」モデルを、AI 時代に再構築したと言える。
強み 1: ソフトウェア「Dynamo」のロックイン
Vera Rubin NVL72 と同時に Nvidia は Dynamo 2.0(推論サービング・オーケストレーション)を発表した。これは vLLM / TensorRT-LLM / Triton をラック全体にスケールアウトさせるフレームワークで、CUDA に並ぶ「ソフトウェアの堀」となる。AMD の ROCm や Intel の OneAPI がいくら頑張っても、Dynamo + NCCL + NVLink Switch の組み合わせを再現するのは困難だ。
強み 2: HBM4 サプライチェーンの先取り
Rubin が搭載する HBM4 は、SK Hynix / Samsung / Micron の 3 社が量産競争中だ。Nvidia は SK Hynix の HBM4 生産能力の 約 60% を 2026〜2027 年枠で確保したとされ、AMD は SK Hynix の残り 40% と Samsung 枠を取り合う構図。AMD MI400 の 320GB HBM4 構成は紙面では魅力的だが、実際にどれだけの数量を出荷できるかは別問題だ。
隠れたリスク 1: 電力 200kW/ラックの現実
Vera Rubin NVL72 の消費電力 200kW/ラック は、既存データセンターの電源・冷却設計を完全に超える。標準的なデータセンターはラックあたり 10〜20kW、最新の AI 特化型でも 50〜80kW が上限。200kW を支えるには、専用液冷ループ + 高密度配電 + 蒸発冷却タワー が必要になり、新築データセンター以外では物理的に運用不可能だ。Nvidia は「Reference Architecture」を提供しているが、対応できる DC は世界に数百しかない。
隠れたリスク 2: AMD MI400 が本物だった場合
紙面スペックを信じるなら、AMD Helios (MI400) は HBM 容量・帯域で Vera Rubin を上回り、scale-up bandwidth も僅差。価格は推定 30% 安。AMD が NVLink Switch に匹敵するラック内通信スタックを完成させ、ROCm が PyTorch / vLLM での性能ペナルティを 5% 以内に抑えられれば、ハイパースケーラの一部発注が AMD に流れる可能性はある。Meta / Microsoft がこの「セカンドソース戦略」を加速させているのは公然の秘密だ。
筆者の予測
短期(2026 下半期〜2027 上半期)は Nvidia が完全独占 状態を維持するだろう。Vera Rubin NVL72 を欲しがる顧客に対して、AMD / Intel / カスタム ASIC(TPU、Trainium)は供給能力でも、ソフトウェア成熟度でも追いつけない。だが、2027 下半期以降は AMD MI400 の量産が本格化し、Google TPU v8 / AWS Trainium3 の自前比率も上昇するため、Nvidia の独占シェアは 現在の 90% 弱から 75〜80% 程度 に低下すると予測する。それでも巨大寡占であることに変わりはなく、株価への影響は限定的だろう。
日本での影響——国内クラウド事業者の調達戦略
日本市場で Vera Rubin NVL72 を巡る動きを整理しよう。
国内ハイパースケーラ系の調達
さくらインターネット は経済産業省の補助金を背景に Blackwell GB200 NVL72 を石狩 DC に大量導入中だが、Vera Rubin NVL72 は 2027 年から第二期導入 で投入される計画。総額数千億円規模の「ガバメントクラウド AI 基盤」構想の一部だ。
KDDI は子会社の KDDI Digital Divergence Holdings 経由で Lambda と提携し、Vera Rubin NVL72 を 時間貸し ベースで国内顧客(製造業・金融・自治体)に再販売する計画。
NTT データ / NTT Com は AWS / Azure / OCI の Japan リージョンに Vera Rubin NVL72 が展開されるのを待つ「他人任せ戦略」で、自前調達は限定的だ。これは経営判断として理解できるが、SI 利益率は薄くなる。
ソフトバンク は Stargate Japan 構想で OpenAI と組み、苫小牧・大阪に大規模 AI DC を建設中。ここに Vera Rubin NVL72 を 数千ラック規模 で投入する計画があるが、電力確保(北海道電力との交渉)が最大のボトルネック。Microsoft の $10B 日本投資(先日報道)もこの動きと連動している。
国内ユーザー企業の選択肢
東京リージョンで Vera Rubin NVL72 が利用可能になるのは、最速で 2027 年 Q1(OCI / Azure)、続いて Q2(AWS / Google Cloud)と見込まれる。それまでは以下の選択肢になる。
- 米国リージョン経由で先行利用: AWS us-east-1 / Azure East US 等で Vera Rubin NVL72 が稼働開始したらレイテンシを許容して利用
- NCP 経由: Lambda / CoreWeave 等の海外 NCP と直契約し、専用線で東京から接続
- 国内 Blackwell GB200 NVL72 で代替: さくら石狩・KDDI が Blackwell 世代を 2026 年内に提供開始する見込み
学習ワークロードであれば米国リージョン経由でも問題ないが、推論ワークロード(ユーザー向け B2C アプリ等)はレイテンシ要件から国内リージョン待ちが現実的だ。
日本円換算コスト試算
Vera Rubin NVL72 を 1 ラック調達した場合のコストを、推定価格 $4M(約 6.2 億円、1USD=155 円)で試算する。
- ハードウェア初期投資: 6.2 億円
- データセンター設備(液冷・電源): 2〜3 億円
- 年間電力コスト: 200kW × 24h × 365d × 25 円/kWh = 約 4,400 万円/年
- 耐用年数 5 年での年間償却: 6.2 億 ÷ 5 = 1.24 億円/年
- 合計ランニング: 約 1.7 億円/年
これを GPU 時間に換算すると、72 GPU × 8,760h × 5 年 = 約 315 万 GPU 時間。償却コストは 約 270 円/GPU 時間、電力込みで 約 600 円/GPU 時間 という計算になる。AWS の Vera Rubin NVL72 オンデマンド価格は $8〜10/GPU 時間(1,240〜1,550 円) が想定されるため、フル稼働できれば自前運用の経済合理性はかなり高い。
この図は、Vera Rubin NVL72 を日本企業が利用する際の選択肢とコスト・調達時期を示している。
実際に試算してみた——LLM 学習でのスループット
筆者は Vera Rubin NVL72 の実機にアクセスできる立場にはないが、Nvidia 公開のベンチマーク値と業界アナリストのレポートをもとに、典型的なワークロードでのスループットを試算してみた。
例 1: 70B パラメータモデルの推論
Llama 3 70B クラスのモデルを INT4 量子化で動かす場合:
- Blackwell GB200 NVL72: 約 6,500 tokens/s/GPU、ラックで約 47 万 tokens/s
- Vera Rubin NVL72: 約 14,500 tokens/s/GPU(推定)、ラックで約 104 万 tokens/s
倍以上のスループットだが、これは KV キャッシュ I/O と HBM 帯域の両方が伸びた効果だ。1 ユーザーあたり 50 tokens/s でストリーミング配信した場合、Blackwell ラック 1 本で約 9,400 同時接続、Vera Rubin なら 約 20,800 同時接続 をサポートできる計算だ。
例 2: 1T パラメータモデルの学習
GPT-5 級の 1T パラメータモデルを 10T トークンで学習する場合:
- Blackwell GB200 NVL72 ×128 ラック (9,216 GPU): 学習時間 約 90 日
- Vera Rubin NVL72 ×128 ラック (9,216 GPU): 学習時間 約 45 日(推定)
これも約半分の時間で済む計算で、学習時間の短縮は次世代モデルのリリースペースに直接効いてくる。OpenAI や Anthropic が「6 ヶ月サイクルでメジャー更新」をできるかどうかは、この学習基盤のスループット次第だ。
注意点——理論値と実効値のギャップ
ただし、上記はあくまで理論ピーク性能から算出した試算で、実効値は MFU(Model FLOPs Utilization)に左右される。現実のワークロードでは、MFU が 40〜50% に留まることも珍しくない。Nvidia は Vera Rubin で MFU 60% 以上を目標値として掲げており、これが達成されれば理論値の 75% 程度の実効性能が期待できる。
まとめ——CTO・インフラ責任者が今やるべきこと
Vera Rubin NVL72 の本格稼働は、AI インフラの「次の 2 年」を決定的に方向付ける。日本企業の意思決定者が今取るべき具体的アクションを 5 つ提示する。
- 2027 年予算の AI インフラ枠を 1.5〜2 倍に見直す: Blackwell 世代で確保した予算では、Vera Rubin 世代に乗り換えるのに不足する可能性が高い。早めに経営層と握っておく
- クラウドベンダーとの「先行枠」交渉を始める: AWS / Azure / GCP / OCI の Japan 営業担当に、2027 年の Vera Rubin NVL72 枠を確保したい旨を伝えておく。今交渉しないと、初期出荷分はすべて押さえられる
- 既存 Hopper H100 / H200 ワークロードの移行計画を策定: 2027 年には Hopper 世代の中古市場への放出が本格化し、運用コスト効率が悪化する。早めに Blackwell / Rubin への移行ロードマップを描く
- AMD Helios / TPU v8 等のセカンドソースも評価対象に: Nvidia 一本足打法はサプライチェーン上のリスク。AMD / Google / AWS のロードマップを並行ウォッチし、ベンチマーク評価チームを立ち上げる
- 電力・冷却設備の現状を再点検: 200kW/ラック級の AI 設備を自社 DC に置く場合、電源容量・冷却能力・床荷重・防火基準の見直しが必要。自社 DC 運用継続か全面クラウド移行かを 2026 年内に決定する
Nvidia の Vera Rubin NVL72 は、AI インフラ市場における Nvidia の支配力を更に強める製品となるだろう。だが同時に、各国・各企業の AI 戦略を「いつ・どれだけ・どこで Vera Rubin を確保できるか」という極めて即物的な調達ゲームに変質させる。AWS / Microsoft Azure / OCI といったクラウドサービスへの依存度が一段と高まるなか、長期コミットメント契約や Enterprise Discount Program を活用したコスト最適化が、CTO・インフラ責任者の腕の見せ所になる。
AWS の Vera Rubin NVL72 インスタンスは 2026 H2 から段階的に提供される予定だ。まずは AWS の AI / ML サービス全体像を把握し、自社のワークロードに最適な構成を見極めることが、Rubin 時代を生き抜く第一歩となる。
AWS(Amazon Web Services)公式サイト