半導体28分で読める

Nvidia Vera Rubin NVL72が本格稼働——72 GPU・260TB/sの怪物ラック

Nvidia の次世代 AI ラックスケールシステム Vera Rubin NVL72 が、2026 年 5 月、ついに フル量産フェーズ に突入した。VideoCardz が報じたスペック詳報によると、ラック 1 本に 72 基の Rubin GPU36 基の Vera CPU を搭載し、scale-up bandwidth は 260TB/s という現行 Blackwell B200 NVL72(130TB/s)の 2 倍 に達する怪物構成だ。出荷は 2026 年下半期 から本格化し、AWS / Microsoft Azure / Google Cloud / Oracle Cloud Infrastructure (OCI) といったハイパースケーラに加えて、CoreWeave / Lambda / Nebius / Nscale などの「Neo Cloud Provider (NCP)」が先行展開枠を確保している。

「Vera Rubin」というコードネームは、暗黒物質の証拠を観測したことで知られる米国の天文学者 Vera Florence Cooper Rubin に由来する。Nvidia は Pascal、Volta、Turing、Ampere、Hopper、Blackwell と続いてきた天体物理・数学者ベースの命名規則を Rubin 世代でも踏襲した形だ。本稿では、Vera Rubin NVL72 のハードウェア仕様、HGX Rubin NVL8 を含む製品ラインナップ、Blackwell B200 NVL72 / Hopper H200 / AMD Helios との徹底比較、日本クラウド事業者の調達戦略、そして「2026 年下半期 AI インフラ覇権」の行方を、CTO・インフラ責任者・投資家向けに深掘りする。

Vera Rubin NVL72 とは何か

72 GPU + 36 CPU のラックスケール構成

Vera Rubin NVL72 は、Nvidia が GB200 NVL72(Blackwell 世代)で確立した 「ラック 1 本が 1 つの GPU として振る舞う」 というスケールアップ思想を、Rubin 世代向けに刷新したシステムだ。1 ラックの内訳は次の通り。

  • GPU: Rubin GPU ×72 基(次世代 HBM4 を搭載)
  • CPU: Vera CPU ×36 基(Arm v9 ベースのカスタム設計、Grace CPU の後継)
  • NVLink Switch: 第 6 世代 NVLink Switch トレイ
  • CX-9 SuperNIC: 800Gb/s ネットワーキング
  • 冷却: ダイレクト液冷(D2C: Direct-to-Chip)
  • 消費電力: 概ね 200kW 級(ラック単位)
  • ラック重量: 約 1.8 トン

72 基の Rubin GPU は NVLink 6 で互いに直結され、ラック全体が scale-up bandwidth 260TB/s という単一の「スーパー GPU」として動作する。これは Blackwell GB200 NVL72 の 130TB/s に対して ちょうど 2 倍、Hopper H200 を Mellanox InfiniBand で接続した従来構成と比べると 10 倍以上 の帯域だ。

「Vera」CPU とは何か——Grace の後継

Vera CPU は、Nvidia が Grace CPU の後継として独自設計した Arm v9 ベースのデータセンター CPU だ。1 基あたり 88 コア / 176 スレッド(推定)、メモリ帯域は HBM3e と LPDDR5X のハイブリッド構成で 約 1.2TB/s、NVLink-C2C で隣接する Rubin GPU と 900GB/s で接続される。

Grace との大きな違いは、Vera が「GPU と非対称に組む」という設計思想を取り入れた点だ。Grace Hopper / Grace Blackwell は CPU 1 基に対して GPU 1〜2 基だったが、Vera Rubin NVL72 は Vera 36 基に対して Rubin 72 基、すなわち CPU:GPU = 1:2 の比率に振った。これは「AI 推論ワークロードでは GPU の演算密度がボトルネックで、CPU はオーケストレーション役に徹するべき」という Nvidia の判断を反映している。

Rubin GPU——HBM4 と次世代テンソルコア

Rubin GPU そのものについては、Nvidia は GTC 2026 で詳細を発表した。主要スペック(推定値含む)は以下の通り。

  • 製造プロセス: TSMC N3P(カスタム版)
  • トランジスタ数: 約 2,400 億(Blackwell B200 の約 1.6 倍)
  • HBM: HBM4 ×8 スタック、合計 288GB / 13TB/s
  • FP4 性能: 約 50 PFLOPS(B200 の約 1.7 倍)
  • FP8 性能: 約 25 PFLOPS
  • NVLink: 第 6 世代、双方向 1.8TB/s/GPU

Rubin の最大の特徴は、「推論ファースト」 で設計されている点だ。FP4 / FP6 ネイティブ演算ユニットの密度を Blackwell 比で約 70% 引き上げ、長文脈推論時に発生する KV キャッシュ I/O を最適化する専用ハードウェア(Nvidia は "Context Cache Engine" と呼ぶ)を搭載した。これにより、GPT-5.5 や Claude Opus 4.7 のような巨大モデルを 1M トークン文脈で叩いた場合のスループットが、Blackwell 比で実測 2.2〜2.8 倍まで伸びるとされる。

scale-up bandwidth 260TB/s の意味

ラック内 GPU 間帯域 260TB/s という数字は、AI ラックスケールの世界では決定的に重要だ。大規模モデルの学習・推論では、テンソル並列・パイプライン並列・専門家並列(MoE)の各次元で GPU 間に膨大な all-reduce / all-to-all 通信が発生する。この通信が GPU 演算と重ね合わせきれないと、いくら GPU 単体が速くても全体スループットは伸びない。

260TB/s というのは、72 基の GPU が 平均 3.6TB/s/GPU で双方向通信できる帯域だ。Blackwell GB200 NVL72 では 1.8TB/s/GPU だったため、ちょうど倍増。これにより、1 兆パラメータ級のモデルを学習する際の通信オーバーヘッドが大幅に低減され、Nvidia の社内ベンチでは MFU(Model FLOPs Utilization)が Blackwell 比で 1.4〜1.6 倍 に改善したと報告されている。

この図は、Vera Rubin NVL72 の物理構成と通信網を示している。

Vera Rubin NVL72 ラック内部構成と260TB/s NVLink網の概念図

製品ラインナップ——NVL72 と HGX Rubin NVL8

Nvidia は今回、Vera Rubin 世代で 2 つの主要 SKU を提供する。

Vera Rubin NVL72(フラッグシップ)

ハイパースケーラ・NCP・国家研究機関向けのフラッグシップ。前述の 72 GPU / 36 CPU / 260TB/s 構成で、ラック単位での販売・運用が前提。価格は公表されていないが、業界推定で 1 ラックあたり $3.5〜4.5M(約 5.4〜7.0 億円) とされ、GB200 NVL72 の約 1.4〜1.6 倍に相当する。

HGX Rubin NVL8(中規模向け)

GPU 8 基構成の HGX 系ボードで、既存の DGX H200 / B200 を運用している企業がアップグレードしやすいフォームファクタ。NVLink ドメインは 8 GPU 内に閉じるため、scale-up bandwidth は約 28.8TB/s(3.6TB/s × 8)と NVL72 比では狭いが、データセンター床面積・電源容量の制約があるエンタープライズには現実的な選択肢だ。価格は $400〜500K(約 6,200〜7,750 万円)/ 8GPU が業界推定。

サーバ単位の販売も可能

NVL72 ラックの中の MGX サーバトレイ 単位での販売も継続される。これは ODM パートナー(Foxconn / Wiwynn / QCT / Supermicro 等)が独自設計のラック筐体に組み込むためで、Lambda・CoreWeave のような中規模 NCP が好む販売形態。1 トレイあたり Rubin GPU ×4 + Vera CPU ×2 構成で、価格は $200〜250K レンジ。

Vera Rubin NVL72 vs 競合製品 徹底比較

下表は、2026 年 5 月時点の AI ラックスケール・サーバ製品の主要スペックを横並びにしたものだ。

項目Vera Rubin NVL72Blackwell GB200 NVL72Hopper H200 (NVLink Switch)AMD Helios (Instinct MI400)
世代Rubin (2026)Blackwell (2024)Hopper (2023)CDNA 5 (2026 後半予定)
GPU 数 / ラック72728〜64(構成次第)72(予定)
CPUVera (Arm v9) ×36Grace ×36x86 別途EPYC Turin ×36
CPU:GPU 比1:21:2任意1:2
HBM 容量 / GPUHBM4 288GBHBM3e 192GBHBM3e 141GBHBM4 320GB(予定)
HBM 帯域 / GPU13TB/s8TB/s4.8TB/s14TB/s(予定)
FP4 性能 / GPU約 50 PFLOPS約 30 PFLOPS非対応約 45 PFLOPS(予定)
NVLink/Infinity 世代NVLink 6NVLink 5NVLink 4Infinity Fabric 4
GPU 間帯域 / GPU1.8TB/s0.9TB/s0.45TB/s1.6TB/s(予定)
Scale-up bandwidth (ラック)260TB/s130TB/s28.8TB/s約 230TB/s(予定)
消費電力 / ラック約 200kW約 120kW約 60kW約 180kW(予定)
冷却方式ダイレクト液冷ダイレクト液冷空冷 / 液冷混在ダイレクト液冷
ラック価格(推定)$3.5〜4.5M$2.5〜3.5M$1.0〜1.8M$3.0〜4.0M(予定)
出荷開始2026 H22024 Q4〜2023 Q4〜2026 Q4 予定

この表からわかる要点を整理しよう。

1. Blackwell からの「2 倍ジャンプ」が綺麗に揃っている HBM 容量(192→288GB、+50%)、HBM 帯域(8→13TB/s、+62%)、FP4 性能(30→50 PFLOPS、+67%)、NVLink 帯域(0.9→1.8TB/s、+100%)、scale-up bandwidth(130→260TB/s、+100%)と、ほぼ全指標が 1.5〜2 倍 にスケーリングしている。これは Nvidia が「Moore 則の終焉後でも、システム設計で 2 年ごとに 2 倍出す」という Jensen の方針を確実に履行していることを示す。

2. Hopper H200 とは別世界の性能 H200 はわずか 2 年前の世代だが、Vera Rubin NVL72 と比較すると HBM 容量で約 2 倍、scale-up bandwidth で約 9 倍 という圧倒的差が付いている。Hopper 世代を学習用途で運用している企業は、推論用途への転用(あるいは中古市場への放出)を検討すべきタイミングだ。

3. AMD Helios は紙面スペックでは僅差 AMD が 2026 Q4 出荷予定の Instinct MI400 (Helios) は、HBM 容量 320GB / HBM 帯域 14TB/s と Vera Rubin を一部上回るスペックだ。scale-up bandwidth も 230TB/s と Vera Rubin に肉薄。ただし AMD には NVLink Switch / NCCL に匹敵する成熟したラックスケール通信スタックがなく、Infinity Fabric Switch も製品化第 1 世代。「絵に描いた餅」か「真の挑戦者」かは 2026 Q4 の実機ベンチ次第だ。

先行展開——4 ハイパースケーラ + 4 NCP

Nvidia の公式アナウンスによると、Vera Rubin NVL72 の最初の出荷枠は 8 社 が確保している。

ハイパースケーラ 4 社

  1. AWS: 既に Trainium2 / Trainium3 で自前 AI チップ路線を強化しているが、フロンティアモデル顧客(Anthropic、Perplexity 等)向けには Vera Rubin NVL72 を EC2 P7 シリーズ として 2026 H2 から提供開始予定。
  2. Microsoft Azure: 既報の通り Microsoft は Nvidia と最も深い AI 提携関係を持ち、Vera Rubin NVL72 の初期枠の 約 25% を確保したと推定される。OpenAI(旧来)と Anthropic(新提携)双方の推論基盤として運用見込み。
  3. Google Cloud: Trillium / TPU v8t 路線と並行して、Gemini 外部顧客向けに Vera Rubin NVL72 を A4 / A5 シリーズ として展開予定。
  4. Oracle Cloud Infrastructure (OCI): xAI / OpenAI から大規模 GPU 契約を獲得済みで、Vera Rubin NVL72 を「OCI Supercluster」として 25 万 GPU 級で展開する計画。

Neo Cloud Provider (NCP) 4 社

  1. CoreWeave: Nvidia が筆頭株主(10% 弱)の NCP で、Vera Rubin NVL72 の 発売前デモ にも参加。Microsoft / OpenAI 向けに大規模クラスタを提供する見込み。
  2. Lambda: AI スタートアップ向けに Vera Rubin NVL72 を 時間貸し で展開。GPU 不足を背景に「予約優先枠」モデルで売り上げを伸ばす戦略。
  3. Nebius: 旧 Yandex のクラウド事業を分社化したオランダ拠点の NCP。欧州・中東向けに Vera Rubin NVL72 を提供。
  4. Nscale: 英国拠点の NCP で、Microsoft との 1.5GW 契約を背景に Vera Rubin NVL72 を 数万 GPU 規模 で運用予定。

この図は、Vera Rubin NVL72 の出荷先構成と推定シェアを示している。

Vera Rubin NVL72 の先行展開先8社と推定出荷シェアの円グラフ

筆者の所感——「絶対王者」の維持と隠れたリスク

筆者は GTC 2024 以降、Nvidia の各世代発表を継続ウォッチしてきたが、Vera Rubin NVL72 の発表で改めて感じたのは「Nvidia は単なる GPU メーカーではなく、データセンター OS メーカーに変質した」という点だ。

NVL72 という製品は、GPU + CPU + NIC + NVLink Switch + 電源 + 冷却 + ソフトウェアスタック(CUDA / NCCL / NIM / Dynamo)まで含めた 垂直統合パッケージ だ。顧客(ハイパースケーラ)は「ラック単位で買って、電源と水を供給するだけ」で動かせる。これは Cisco や Sun Microsystems が 1990 年代に成功した「Network is the Computer」モデルを、AI 時代に再構築したと言える。

強み 1: ソフトウェア「Dynamo」のロックイン

Vera Rubin NVL72 と同時に Nvidia は Dynamo 2.0(推論サービング・オーケストレーション)を発表した。これは vLLM / TensorRT-LLM / Triton をラック全体にスケールアウトさせるフレームワークで、CUDA に並ぶ「ソフトウェアの堀」となる。AMD の ROCm や Intel の OneAPI がいくら頑張っても、Dynamo + NCCL + NVLink Switch の組み合わせを再現するのは困難だ。

強み 2: HBM4 サプライチェーンの先取り

Rubin が搭載する HBM4 は、SK Hynix / Samsung / Micron の 3 社が量産競争中だ。Nvidia は SK Hynix の HBM4 生産能力の 約 60% を 2026〜2027 年枠で確保したとされ、AMD は SK Hynix の残り 40% と Samsung 枠を取り合う構図。AMD MI400 の 320GB HBM4 構成は紙面では魅力的だが、実際にどれだけの数量を出荷できるかは別問題だ。

隠れたリスク 1: 電力 200kW/ラックの現実

Vera Rubin NVL72 の消費電力 200kW/ラック は、既存データセンターの電源・冷却設計を完全に超える。標準的なデータセンターはラックあたり 10〜20kW、最新の AI 特化型でも 50〜80kW が上限。200kW を支えるには、専用液冷ループ + 高密度配電 + 蒸発冷却タワー が必要になり、新築データセンター以外では物理的に運用不可能だ。Nvidia は「Reference Architecture」を提供しているが、対応できる DC は世界に数百しかない。

隠れたリスク 2: AMD MI400 が本物だった場合

紙面スペックを信じるなら、AMD Helios (MI400) は HBM 容量・帯域で Vera Rubin を上回り、scale-up bandwidth も僅差。価格は推定 30% 安。AMD が NVLink Switch に匹敵するラック内通信スタックを完成させ、ROCm が PyTorch / vLLM での性能ペナルティを 5% 以内に抑えられれば、ハイパースケーラの一部発注が AMD に流れる可能性はある。Meta / Microsoft がこの「セカンドソース戦略」を加速させているのは公然の秘密だ。

筆者の予測

短期(2026 下半期〜2027 上半期)は Nvidia が完全独占 状態を維持するだろう。Vera Rubin NVL72 を欲しがる顧客に対して、AMD / Intel / カスタム ASIC(TPU、Trainium)は供給能力でも、ソフトウェア成熟度でも追いつけない。だが、2027 下半期以降は AMD MI400 の量産が本格化し、Google TPU v8 / AWS Trainium3 の自前比率も上昇するため、Nvidia の独占シェアは 現在の 90% 弱から 75〜80% 程度 に低下すると予測する。それでも巨大寡占であることに変わりはなく、株価への影響は限定的だろう。

日本での影響——国内クラウド事業者の調達戦略

日本市場で Vera Rubin NVL72 を巡る動きを整理しよう。

国内ハイパースケーラ系の調達

さくらインターネット は経済産業省の補助金を背景に Blackwell GB200 NVL72 を石狩 DC に大量導入中だが、Vera Rubin NVL72 は 2027 年から第二期導入 で投入される計画。総額数千億円規模の「ガバメントクラウド AI 基盤」構想の一部だ。

KDDI は子会社の KDDI Digital Divergence Holdings 経由で Lambda と提携し、Vera Rubin NVL72 を 時間貸し ベースで国内顧客(製造業・金融・自治体)に再販売する計画。

NTT データ / NTT Com は AWS / Azure / OCI の Japan リージョンに Vera Rubin NVL72 が展開されるのを待つ「他人任せ戦略」で、自前調達は限定的だ。これは経営判断として理解できるが、SI 利益率は薄くなる。

ソフトバンク は Stargate Japan 構想で OpenAI と組み、苫小牧・大阪に大規模 AI DC を建設中。ここに Vera Rubin NVL72 を 数千ラック規模 で投入する計画があるが、電力確保(北海道電力との交渉)が最大のボトルネック。Microsoft の $10B 日本投資(先日報道)もこの動きと連動している。

国内ユーザー企業の選択肢

東京リージョンで Vera Rubin NVL72 が利用可能になるのは、最速で 2027 年 Q1(OCI / Azure)、続いて Q2(AWS / Google Cloud)と見込まれる。それまでは以下の選択肢になる。

  1. 米国リージョン経由で先行利用: AWS us-east-1 / Azure East US 等で Vera Rubin NVL72 が稼働開始したらレイテンシを許容して利用
  2. NCP 経由: Lambda / CoreWeave 等の海外 NCP と直契約し、専用線で東京から接続
  3. 国内 Blackwell GB200 NVL72 で代替: さくら石狩・KDDI が Blackwell 世代を 2026 年内に提供開始する見込み

学習ワークロードであれば米国リージョン経由でも問題ないが、推論ワークロード(ユーザー向け B2C アプリ等)はレイテンシ要件から国内リージョン待ちが現実的だ。

日本円換算コスト試算

Vera Rubin NVL72 を 1 ラック調達した場合のコストを、推定価格 $4M(約 6.2 億円、1USD=155 円)で試算する。

  • ハードウェア初期投資: 6.2 億円
  • データセンター設備(液冷・電源): 2〜3 億円
  • 年間電力コスト: 200kW × 24h × 365d × 25 円/kWh = 約 4,400 万円/年
  • 耐用年数 5 年での年間償却: 6.2 億 ÷ 5 = 1.24 億円/年
  • 合計ランニング: 約 1.7 億円/年

これを GPU 時間に換算すると、72 GPU × 8,760h × 5 年 = 約 315 万 GPU 時間。償却コストは 約 270 円/GPU 時間、電力込みで 約 600 円/GPU 時間 という計算になる。AWS の Vera Rubin NVL72 オンデマンド価格は $8〜10/GPU 時間(1,240〜1,550 円) が想定されるため、フル稼働できれば自前運用の経済合理性はかなり高い。

この図は、Vera Rubin NVL72 を日本企業が利用する際の選択肢とコスト・調達時期を示している。

日本企業向けVera Rubin NVL72利用ルートとコスト比較

実際に試算してみた——LLM 学習でのスループット

筆者は Vera Rubin NVL72 の実機にアクセスできる立場にはないが、Nvidia 公開のベンチマーク値と業界アナリストのレポートをもとに、典型的なワークロードでのスループットを試算してみた。

例 1: 70B パラメータモデルの推論

Llama 3 70B クラスのモデルを INT4 量子化で動かす場合:

  • Blackwell GB200 NVL72: 約 6,500 tokens/s/GPU、ラックで約 47 万 tokens/s
  • Vera Rubin NVL72: 約 14,500 tokens/s/GPU(推定)、ラックで約 104 万 tokens/s

倍以上のスループットだが、これは KV キャッシュ I/O と HBM 帯域の両方が伸びた効果だ。1 ユーザーあたり 50 tokens/s でストリーミング配信した場合、Blackwell ラック 1 本で約 9,400 同時接続、Vera Rubin なら 約 20,800 同時接続 をサポートできる計算だ。

例 2: 1T パラメータモデルの学習

GPT-5 級の 1T パラメータモデルを 10T トークンで学習する場合:

  • Blackwell GB200 NVL72 ×128 ラック (9,216 GPU): 学習時間 約 90 日
  • Vera Rubin NVL72 ×128 ラック (9,216 GPU): 学習時間 約 45 日(推定)

これも約半分の時間で済む計算で、学習時間の短縮は次世代モデルのリリースペースに直接効いてくる。OpenAI や Anthropic が「6 ヶ月サイクルでメジャー更新」をできるかどうかは、この学習基盤のスループット次第だ。

注意点——理論値と実効値のギャップ

ただし、上記はあくまで理論ピーク性能から算出した試算で、実効値は MFU(Model FLOPs Utilization)に左右される。現実のワークロードでは、MFU が 40〜50% に留まることも珍しくない。Nvidia は Vera Rubin で MFU 60% 以上を目標値として掲げており、これが達成されれば理論値の 75% 程度の実効性能が期待できる。

まとめ——CTO・インフラ責任者が今やるべきこと

Vera Rubin NVL72 の本格稼働は、AI インフラの「次の 2 年」を決定的に方向付ける。日本企業の意思決定者が今取るべき具体的アクションを 5 つ提示する。

  1. 2027 年予算の AI インフラ枠を 1.5〜2 倍に見直す: Blackwell 世代で確保した予算では、Vera Rubin 世代に乗り換えるのに不足する可能性が高い。早めに経営層と握っておく
  2. クラウドベンダーとの「先行枠」交渉を始める: AWS / Azure / GCP / OCI の Japan 営業担当に、2027 年の Vera Rubin NVL72 枠を確保したい旨を伝えておく。今交渉しないと、初期出荷分はすべて押さえられる
  3. 既存 Hopper H100 / H200 ワークロードの移行計画を策定: 2027 年には Hopper 世代の中古市場への放出が本格化し、運用コスト効率が悪化する。早めに Blackwell / Rubin への移行ロードマップを描く
  4. AMD Helios / TPU v8 等のセカンドソースも評価対象に: Nvidia 一本足打法はサプライチェーン上のリスク。AMD / Google / AWS のロードマップを並行ウォッチし、ベンチマーク評価チームを立ち上げる
  5. 電力・冷却設備の現状を再点検: 200kW/ラック級の AI 設備を自社 DC に置く場合、電源容量・冷却能力・床荷重・防火基準の見直しが必要。自社 DC 運用継続か全面クラウド移行かを 2026 年内に決定する

Nvidia の Vera Rubin NVL72 は、AI インフラ市場における Nvidia の支配力を更に強める製品となるだろう。だが同時に、各国・各企業の AI 戦略を「いつ・どれだけ・どこで Vera Rubin を確保できるか」という極めて即物的な調達ゲームに変質させる。AWS / Microsoft Azure / OCI といったクラウドサービスへの依存度が一段と高まるなか、長期コミットメント契約や Enterprise Discount Program を活用したコスト最適化が、CTO・インフラ責任者の腕の見せ所になる。

AWS の Vera Rubin NVL72 インスタンスは 2026 H2 から段階的に提供される予定だ。まずは AWS の AI / ML サービス全体像を把握し、自社のワークロードに最適な構成を見極めることが、Rubin 時代を生き抜く第一歩となる。

AWS(Amazon Web Services)公式サイト

この記事をシェア