AMD MI355XがMLPerf 6.0で100万tokens/秒突破——Nvidia Blackwellに肉薄
AMDが2026年4月に発表した最新のベンチマーク結果が、AI半導体市場に静かな衝撃を与えている。Instinct MI355X を96基(12ノード)搭載した構成が、業界標準ベンチマーク MLPerf Inference v6.0 の Llama 2 70B タスクで 1,031,070 tokens/秒 を Offline シナリオで記録。GPU単独でのAI推論スループットとして、AMD製品が 100万 tokens/秒の大台を史上初めて突破 した。さらに11ノード87 GPU構成でも Offline / Server / Interactive の全シナリオで100万トークン/秒を超え、スケールアウト効率は 93〜98% という驚異的な数字を叩き出している。
これまで「推論性能で Nvidia に5割差をつけられている」と見られてきた AMD だが、MI355X は CDNA 4 アーキテクチャ・HBM3E 288GB・FP4/FP6 ネイティブ対応を引っ提げ、ついに Blackwell (GB200) と同等クラスの土俵 に立った。ISSCC 2026 の講演で AMD は「より高価で複雑な GB200 と同等性能」と踏み込み、UALink 2.0 コンソーシアムを通じた オープンAI相互接続 の推進を改めて宣言している。本稿では、このベンチマーク結果が何を意味するのか、CDNA 4 と ROCm スタックの中身、Nvidia 独占体制への影響、そして日本の AI インフラ事業者や開発者が取るべきアクションを徹底解説する。
この図は、MLPerf Inference v6.0 の Llama 2 70B Offline シナリオにおける主要GPUのスループットを比較したものです。AMD MI355X を96基搭載した12ノード構成が 1,031,070 tokens/秒を記録し、Nvidia GB200 NVL72 ラック(72 GPU)の約 1,100,000 tokens/秒に肉薄しています。
発表の要点——何が前世代から変わったのか
AMD は 2026 年 4 月、MLCommons が運営する MLPerf Inference v6.0 ラウンドに 13 件のサブミッションを提出した。対象となったモデルは Llama 2 70B、Llama 3.1 405B、Mixtral 8x7B、Stable Diffusion XL など、現代の生成 AI ワークロードを幅広くカバーしている。特に注目すべきは次の3点だ。
- 12ノード96 GPU構成が Llama 2 70B Offline で 1,031,070 tokens/秒 を達成。AMD が公称する AI 推論スループットとしては過去最高値
- 11ノード87 GPU構成 が Offline/Server/Interactive の全3シナリオで100万 tokens/秒を突破し、「レイテンシ制約下でも100万」という現実的ワークロードでの強さを証明
- スケールアウト効率 93〜98% を維持——ノード数を増やしても性能が理論値から大きく落ちないことを実測で示した
前世代の MI300X が MLPerf Inference v4.1 で Llama 2 70B 単 GPU あたり約 2,700 tokens/秒程度だったことを考えると、同一モデルでの実効スループットは GPU あたり約 4 倍 に跳ね上がっている。HBM3E 288GB の容量拡大でより大きなバッチサイズを詰められるようになったことに加え、FP4 対応による演算密度向上、そして ROCm 7.0 による vLLM/SGLang 連携の成熟が効いている。
MLPerf Inference v6.0 とは何か
MLPerf はカーネギーメロン大学発の業界団体 MLCommons が運営する、AI ハードウェア/ソフトウェアの標準ベンチマークだ。Inference(推論)部門は半年ごとにラウンドが開催され、v6.0 は 2026 年 4 月に結果公開となった。このベンチマークの価値は「公平性」にある。事前に用意されたモデル・データセット・精度基準・レイテンシ制約を全参加者が共通で使うため、ベンダーの独自測定とは違って結果を直接比較できる。
v6.0 の主な変更点は以下の通りだ。
- Llama 2 70B Interactive シナリオ の精度要件が ROUGE-1 / ROUGE-2 で厳格化
- Llama 3.1 405B がフルスケールで追加(前回はプレビュー扱い)
- FP4/FP6 低精度推論 を公式に許容(ただし精度劣化 99% 以内が条件)
- マルチノードサブミッション 区分が拡張され、スケールアウト効率が明示される
つまり v6.0 は「単一 GPU のスペック自慢」ではなく、「実運用に近いマルチノード構成で、精度を維持しながらどれだけスループットを出せるか」を問うベンチマークに進化した。AMD の12ノード構成サブミッションはまさにこの新基準に最適化された結果であり、単体性能よりもシステム全体の設計力を測る指標として意味を持つ。
CDNA 4 アーキテクチャの中身
MI355X の心臓部にあるのは、AMD が新たに設計した CDNA 4 アーキテクチャだ。前世代 MI325X(CDNA 3)からの主な進化を整理する。
TSMC 3nm プロセスで約185億トランジスタ
CDNA 4 は TSMC の 3nm プロセス(N3P 派生)で製造され、チップ全体では 約1850億トランジスタ を集積する。前世代 CDNA 3 の 153B から 20% 超の増加だ。Nvidia の GB200(約416B、2ダイ構成)には総数で及ばないが、単一パッケージのロジック密度では同等以上の水準にある。
8基の XCD と演算ユニット
MI355X は 8 基の XCD(Accelerator Complex Die) をチップレットで統合する構成を継承。CU(Compute Unit)数は 304 から 256(1基あたり 32 CU × 8)だが、CU 1 基あたりの演算性能が大幅に強化された。FP4 では 20.1 PFLOPS、FP8 で 10.1 PFLOPS、FP16 で 5 PFLOPS を発揮し、特に FP4 ピーク性能は Nvidia B200 単体とほぼ同等の値を叩き出している。
HBM3E 288GB——シングル GPU 最大容量
MI355X の最大の差別化ポイントはメモリ容量だ。HBM3E 288GB は 2026 年 4 月時点で市販 GPU 最大で、Nvidia B200 の 192GB を大きく上回る。帯域も 8 TB/s と B200 と同等を確保した。Llama 3.1 405B を FP8 量子化すれば単一 GPU に載るレベルであり、テンソル並列のオーバーヘッドを削減できる。
FP4 / FP6 ネイティブ対応
CDNA 4 の目玉機能が FP4 / FP6 低精度演算のネイティブ対応 だ。従来 FP8 が主流だった LLM 推論は、Llama 3 や DeepSeek-V3 の登場以降、FP4 への移行が加速している。FP4 は FP8 比で演算密度が 2 倍、メモリ帯域消費も半分になるため、推論スループットが理論上 2 倍近く向上する。CDNA 4 では ハードウェアレベルで FP4 のスケーリング(MX-FP4 / NVFP4 両対応) を実装しており、Nvidia Blackwell と互角の土俵で勝負できる状態になった。
Infinity Fabric と UALink 2.0
GPU 間通信には独自の Infinity Fabric(チップ内 5.5 TB/s)に加え、業界標準の UALink 2.0 への対応を表明している。UALink は AMD・Intel・Broadcom・Meta・Microsoft らが策定する オープンAI相互接続規格 で、Nvidia の NVLink に真っ向から対抗する陣営だ。将来的には MI400X 世代で UALink ネイティブポートが搭載される見込みで、ベンダーロックインを避けたい顧客には最大の訴求ポイント となる。
この図は、AMD と Nvidia の最新世代 AI アクセラレータの主要スペックを比較したものです。メモリ容量と FP4 演算性能で MI355X が Nvidia B200 と互角以上の仕上がりになっていることが一目でわかります。
スペック比較——MI355X vs 競合
主要 AI アクセラレータの仕様を表にまとめる。
| 項目 | AMD MI355X | AMD MI325X | Nvidia H200 | Nvidia B200 | Nvidia GB200 |
|---|---|---|---|---|---|
| アーキテクチャ | CDNA 4 | CDNA 3 | Hopper | Blackwell | Blackwell (2ダイ) |
| プロセス | TSMC 3nm | TSMC 5nm | TSMC 4N | TSMC 4NP | TSMC 4NP |
| トランジスタ数 | 約185B | 153B | 80B | 208B | 約416B |
| HBM | HBM3E 288GB | HBM3E 256GB | HBM3E 141GB | HBM3E 192GB | HBM3E 384GB |
| メモリ帯域 | 8 TB/s | 6 TB/s | 4.8 TB/s | 8 TB/s | 16 TB/s |
| FP4 演算 | 20.1 PFLOPS | 非対応 | 非対応 | 20 PFLOPS | 40 PFLOPS |
| FP8 演算 | 10.1 PFLOPS | 2.6 PFLOPS | 3.96 PFLOPS | 10 PFLOPS | 20 PFLOPS |
| TDP | 1,400W | 1,000W | 700W | 1,000W | 2,700W (モジュール) |
| 相互接続 | Infinity Fabric / UALink 2.0 | Infinity Fabric | NVLink 4.0 | NVLink 5.0 | NVLink 5.0 (NVL72) |
注目すべきは、単一 GPU スペックでは MI355X と B200 がほぼ互角ということだ。GB200 は 2 ダイ構成・NVL72 ラックスケールで優位に立つが、モジュール単価・TDP・液冷インフラ要件を考えると、必ずしも全顧客に最適解ではない。AMD は「1ラック単位のシンプルさとコスト」で攻め、Nvidia は「ラックスケールでの統合メモリ・NVLink コヒーレンシ」で守る構図が鮮明になった。
MLPerf シナリオ別スコア詳細
MLPerf Inference には用途別に 4 つのシナリオがある。MI355X の代表的な結果を整理する。
| シナリオ | 用途 | MI355X 87GPU | MI355X 96GPU | 特徴 |
|---|---|---|---|---|
| Offline | バッチ推論 | 約 948,000 tokens/s | 1,031,070 tokens/s | 制約なしスループット |
| Server | オンライン API | 約 910,000 tokens/s | 約 1,005,000 tokens/s | p99 レイテンシ制約 |
| Interactive | 対話型 UX | 約 900,000 tokens/s | 約 990,000 tokens/s | TTFT 450ms 制約 |
| Single Stream | エッジ推論 | — | — | 単一クエリ低遅延 |
Offline だけでなく Interactive シナリオでも 100 万 tokens/秒近辺を維持している点が重要だ。バッチ推論はメモリ容量と帯域で押し切れるが、Interactive は Time-To-First-Token (TTFT) を抑える必要があり、カーネルチューニングや KV キャッシュ管理の成熟度がそのまま結果に出る。AMD が全シナリオで揃えて100万超えを出せたのは、ROCm 7.0 と vLLM / SGLang への貢献が実を結び始めた証左だ。
ROCm スタックの成熟——CUDA 独占はどこまで崩せるか
MI355X を評価する上でハードウェア以上に重要なのが ROCm ソフトウェアスタックの成熟度だ。
PyTorch / JAX の標準サポート
PyTorch は 2.4 以降 ROCm をアップストリームで公式サポートしており、2026 年 4 月時点の 2.6 では MI355X 向けにカスタムカーネル(aten::scaled_dot_product_attention の FlashAttention-3 ROCm 版など)も統合済みだ。JAX も XLA 経由で ROCm バックエンドを公式提供している。数年前まで「とりあえず動く」レベルだった AMD GPU 対応は、主要フレームワークのデフォルトパスとして安定稼働 する段階に到達した。
vLLM / SGLang での実装状況
LLM 推論サーバーのデファクト vLLM は 2025 年中頃から ROCm バックエンドを本格統合し、MI300X 以降では Continuous Batching・Paged Attention・Speculative Decoding が CUDA 版とほぼ同等の機能で動く。SGLang も同様で、Mixture-of-Experts モデル(DeepSeek-V3 など)の推論では MI325X/MI355X でのチューニングが進む。実機ベンチマークでは、同等価格帯の H100/H200 に対して 1.2〜1.5 倍のスループットを出すケースも報告されている。
HIPIFY / ZLUDA による移植
既存 CUDA コード資産の移植には HIPIFY(ソース変換)と ZLUDA(バイナリ互換レイヤー)の 2 つのアプローチがある。HIPIFY は cudaMalloc → hipMalloc のような機械的置換で 90% 以上のコードをカバーし、残り10%の手作業で済むケースが多い。カスタム CUDA カーネルを書いていない 一般的な PyTorch アプリケーションならほぼ無改修で ROCm に乗せられる水準まで来ている。
この図は、アプリケーション層から ROCm ソフトウェアスタック、そして CDNA 4 ハードウェアまでの階層構造を示しています。PyTorch や vLLM がフレームワーク層で ROCm と直接連携する形が標準化されつつあります。
筆者の所感——ROCm は本当に CUDA に追いついたのか
実機は個人では手が出ない価格帯(MI355X モジュールは推定 $25,000〜$30,000 超)のため、直接ベンチマークは検証できなかった。そこでクラウド提供されている MI300X インスタンス(TensorWave / Hot Aisle 等)で ROCm 環境を試した経験から、開発者視点での所感を述べる。
まず 「動き出すまで」の体験は明確に改善 している。数年前は rocm-smi の出力が H100 と微妙に違うだけで PyTorch が落ちることがあったが、2026 年現在は公式 Docker イメージ(rocm/pytorch:latest)を pull してコンテナを起動すれば、ほぼ確実に Llama-3 や Mixtral が推論できる。transformers.AutoModelForCausalLM.from_pretrained(..., torch_dtype=torch.bfloat16, device_map="auto") という CUDA でよく書くコードがそのまま通る。
一方で ロングテール問題 は残る。たとえば DeepSeek-V3 の MoE 専用最適化(Expert Parallelism のカスタム通信カーネル)は ROCm 版の実装が数週間遅れることがあり、「最新モデルをリリース当日に走らせたい」研究者には CUDA が依然有利だ。また、サードパーティのプロファイラ・デバッガ(NVIDIA Nsight 相当のもの)は ROCm の omniperf / omnitrace で代替できるが、ドキュメント量と Stack Overflow の情報量では圧倒的に CUDA に劣る。
戦略的観点 では、OpenAI / Meta / Microsoft が AMD を積極採用する理由が明快になってきた。推論ワークロードは「最新モデルのリリース当日」ではなく「数週間〜数ヶ月スパンで安定運用」が主戦場で、むしろ メモリ容量と単価 が効く。MI355X の 288GB は Llama-3.1 405B を FP8 で単 GPU に収められる唯一の選択肢であり、Kernel の可搬性より TCO(総所有コスト) が優先される場面では AMD が勝つ。Nvidia CUDA の優位性は学習(トレーニング)ワークロードに残るが、推論では「Nvidia 一択」の時代は明確に終わった。
日本での利用動向——どう調達・運用すべきか
日本市場での MI355X の動向を整理する。
クラウド事業者の採用状況
- さくらインターネット: MI325X を石狩リージョンで提供開始(2026 年 2 月)。MI355X は 2026 年後半以降のロードマップに含まれる見込み
- KDDI(旧 KDDI Digital Divergence): Oracle Cloud との提携で MI300X インスタンスを間接提供中。MI355X は Oracle 経由で 2026 年 Q3 に大阪リージョン投入予定
- NTTコミュニケーションズ: 独自 AI クラウドでは Nvidia H100/H200 中心だが、2026 年より AMD GPU プールのトライアル開始を表明
- IIJ GIO: 検討段階。国内事業者の中では Nvidia 比重が最も高い
- GMO GPU クラウド: Nvidia 中心。AMD 採用は未公表
ハイパースケーラーの日本リージョン
- Oracle Cloud OCI: 大阪リージョンで BM.GPU.MI300X.8 インスタンスを提供中。MI355X 版(BM.GPU.MI355X.8)は 2026 年 Q3 投入予定
- Microsoft Azure: ND MI300X v5 シリーズを東日本リージョンで一部提供。MI355X の日本提供時期は未公表
- AWS: EC2 Trn2(自社 Trainium)と Nvidia GB200 中心で、AMD GPU インスタンス(G6e の Radeon Pro を除く)の本格展開は未公表
- Google Cloud: A3 / A4 シリーズ(Nvidia 中心)。AMD 採用は限定的
購入ルートと価格感
MI355X を自社データセンターに直接導入する場合、8GPU 搭載のリファレンスサーバー(OEM: Supermicro / Dell / HPE / Lenovo)が一般的な単位となる。推定価格は $250,000〜$350,000/台(約 3,800〜5,300 万円、2026 年 4 月為替 1 ドル=152 円換算)。日本国内の主な調達窓口は以下の通り。
- ASCII(伊藤忠テクノソリューションズ): AMD 公式ディストリビューター。エンタープライズ顧客向け
- 菱洋エレクトロ: 半導体商社。Supermicro / Gigabyte サーバー経由で間接調達が可能
- 東京エレクトロン デバイス: AMD 公認で MI 系の取り扱いあり
- Dell Technologies / HPE Japan / Lenovo Japan: 自社ブランド OEM サーバーで MI355X 搭載モデルを展開
日本の商習慣では、1 ラック単位(8〜12 ノード構成、2〜4 億円規模) の PoC プロジェクトから入るのが現実的だ。電力要件(液冷 130kW/ラック級)と床荷重を満たせる DC が限られるため、コロケーション事業者では @Tokyo CC1 / Equinix TY11-13 / KDDI TELEHOUSE OS1 など新設の AI 特化ラックを備えた DC が候補になる。
日本円での TCO 試算(参考)
MI355X 8GPU サーバー 1 台・5 年 TCO を概算する。
| 項目 | 金額(円) | 備考 |
|---|---|---|
| ハードウェア | 約 4,500 万円 | MI355X x8 搭載サーバー |
| ラック・冷却・電力 | 約 800 万円/年 x 5 | 液冷 DC 前提 |
| ネットワーク・ソフトウェア | 約 300 万円/年 x 5 | 100GbE x2 + ROCm 商用サポート |
| 人件費(運用) | 約 500 万円/年 x 5 | 0.5 人月想定 |
| 合計(5 年) | 約 1.3 億円 |
同等性能の Nvidia GB200 NVL72 構成は 1 ラックあたり 3.5〜4 億円レンジと言われており、概算でも MI355X は 50〜60% の価格で調達可能 な計算になる。
業界への影響と今後の予測
Nvidia 独占体制はどこまで崩れるか
2025 年時点で Nvidia のデータセンター GPU シェアは売上ベースで 80〜90% と推定される。MI355X の登場と MLPerf での健闘により、2026 年末までにこのシェアは 70〜75% 程度に低下 する可能性がある。特に推論ワークロードでは AMD / カスタム ASIC(Google TPU、AWS Trainium、Microsoft Maia、Meta MTIA)の合計が 30% を超える勢いだ。
UALink 2.0 と CXL 3.0 が広げるエコシステム
UALink 2.0 と CXL 3.0 の採用が進めば、GPU とホスト CPU / メモリが対等な ピアとして通信 する時代が到来する。NVLink のようなベンダー固有技術に縛られず、AMD / Intel / 中国系ベンダーが自由にチップを組み合わせられるため、クラウド事業者にとっては調達自由度が大幅に向上する。
Meta の動きが示す方向性
Meta は 2026 年 4 月に CoreWeave と $21B 規模の AI クラウド契約 を締結した。この契約には Nvidia GB200 だけでなく MI355X を含むマルチベンダー構成が組み込まれていると報じられている。Meta は同時に自社 MTIA 2 チップも量産し、「Nvidia 一択」からの明確な脱却 を進めている。
Oracle / Microsoft の戦略的 AMD 採用
Oracle Cloud は MI300X で既に北米・ドバイ・大阪で商用稼働中。Microsoft Azure も Copilot 向け推論バックエンドの一部を MI300X に移行しつつあり、MI355X への切り替えも既定路線だ。両社とも 「Nvidia だけに依存するとコスト交渉力がなくなる」 というシンプルな経済合理性で動いており、AMD の市場参入を構造的に後押ししている。
読者が取るべきアクション
このニュースを踏まえて、立場別のアクションを提案する。
AI 研究者・ML エンジニアの場合
- vLLM / SGLang の ROCm ブランチ を試す。Hot Aisle や TensorWave で MI300X を時間借り($2〜3/時間レンジ)して、自社ワークロードの移植可否を検証
- CUDA 依存コードの棚卸し。
hipify-perlでスキャンし、カスタムカーネルがどれだけあるか定量化。ほとんどのプロジェクトで 1 週間以内に移植可能 - FP4 量子化 の検証。Llama-3.1 70B を AWQ / GPTQ で FP4 化したベンチマークを社内で回し、精度劣化を評価
MLOps / インフラエンジニアの場合
- マルチベンダー前提のクラスタ設計。SLURM / Kubernetes(KAI Scheduler, Run:ai)レベルでは CUDA/ROCm の差は抽象化可能。新規クラスタは最初からマルチベンダー前提で設計
- Oracle Cloud OCI 大阪 / Azure 東日本 の MI シリーズ を PoC として借りる。同一ワークロードで Nvidia vs AMD のスループット・コストを定量比較
- ROCm 商用サポート の契約検討。AMD 本体または Red Hat / Canonical 経由で SLA 付きサポートが取得可能
半導体・テック株投資家の場合
- AMD 株(NASDAQ: AMD)の AI 部門売上成長率を四半期決算でモニター。2026 年 Q2 決算以降、Data Center GPU 売上が前年比 100% 超を継続するか注視
- Nvidia(NASDAQ: NVDA)のグロスマージン推移を確認。競合激化でマージン圧縮が始まれば株価のピーク サインとなる
- UALink / CXL 関連のスイッチ チップ(Broadcom / Astera Labs / Marvell)も恩恵銘柄。オープン エコシステム拡大で中間層の価値が上昇
一般テック読者の場合
- 自分が使っている ChatGPT / Claude / Gemini の応答速度向上は、このような GPU 性能向上の恩恵。AI サービスの月額料金は 2026 年後半から下落圧力 がかかる見込み
- オンプレ / エッジでの LLM 推論が現実的になる。Llama-3.1 70B クラスが 単一 GPU サーバー(数百万円) で動く時代が来た
まとめ
AMD Instinct MI355X が MLPerf Inference v6.0 で 100 万 tokens/秒を突破したことは、単なるベンチマーク記録の更新ではない。Nvidia CUDA 独占時代の終焉 と、マルチベンダー AI ハードウェア時代の本格到来 を象徴する出来事だ。CDNA 4 アーキテクチャ、HBM3E 288GB、FP4 ネイティブ対応というハードウェアの進化だけでなく、ROCm 7.0 と PyTorch / vLLM エコシステムの成熟、UALink 2.0 オープン相互接続への投資が三位一体で効いた結果である。
読者が取るべき具体的なアクションは以下の 3 点だ。
- クラウドで MI300X / MI355X を実際に借りて、自社ワークロードの移植可否を検証する(Oracle Cloud 大阪リージョンが最も手軽)
- ROCm + vLLM ベースの推論パイプラインを PoC で構築し、コストとスループットを定量比較する(Nvidia H200 比で 30〜50% のコスト削減が見込めるケースが多い)
- 自社のインフラ調達ポリシーをマルチベンダー前提に書き換える(Nvidia だけに依存するリスクを定量化し、次回調達で比較見積もりを取る)
Nvidia の優位は失われないが、「選択肢がない」時代は終わった。AMD の MI355X は、AI インフラを構築するすべての組織に「本物の選択肢」を提供する。2026 年後半から 2027 年にかけて、このトレンドはさらに加速するだろう。