Google第8世代TPU発表——訓練「8t」推論「8i」で100万基クラスタ対応

Google は 2026 年 4 月 22 日、Las Vegas で開催された Google Cloud Next 2026 の基調講演で、第 8 世代 Tensor Processing Unit (TPU) として 訓練特化の「TPU 8t」 と 推論特化の「TPU 8i」 を同時発表した。単一 SKU で訓練と推論の双方をカバーしていた従来路線からの明確な転換で、Google 公式ブログおよび TechCrunch、CNBC、The Register、ServeTheHome などが一斉に報じた。

最大の驚きは、単一ジョブから 100 万基以上の TPU を協調動作させる構成が正式に謳われた点だ。TPU 8i はチップあたり HBM 288GB・帯域 8.6TB/s・オンチップ SRAM 384MB・FP4 10.1 PFLOPS を搭載し、前世代比で「性能 / ドル 80% 改善」を実現。一方、訓練用の TPU 8t は HBM 216GB・帯域 6.5TB/s・FP4 12.6 PFLOPS・チップ間 19.2Tbps・オンチップ SRAM 128MB を誇り、「数ヶ月かかっていた事前学習を数週間に短縮する」ことを目標に掲げている。Nvidia の Blackwell / Rubin、AMD の MI355X という競合の陣容がそろいつつある 2026 年春、Google は「専用シリコン × ハイパースケール分散」という独自解で正面衝突を挑む。

本稿では、発表された 2 種の TPU の仕様と設計思想、Nvidia / AMD 競合との比較、AI Hypercomputer アーキテクチャ、そして日本の開発者・MLOps・投資家が取るべきアクションまでを、技術的な深掘りとともにまとめる。

TPU 8t / 8i で何が変わったのか

訓練と推論を分離した狙い

TPU v5 世代までは、Google は「v5e（推論コスト重視）」と「v5p（訓練ハイエンド）」という派生を並走させていたものの、マーケティング上は同一世代として扱ってきた。v6 Trillium、v7 Ironwood と続いた流れの中で、第 8 世代は ブランド名そのものを「t」と「i」に分割 した。これは「事前学習と推論では、そもそも最適なアーキテクチャが違う」という Google の技術判断の公言に等しい。

TechCrunch の記事によれば、Google Cloud VP の Mark Lohmeyer は「エージェント時代 (agentic era) では、モデルがユーザーとのあいだで長時間かつ大量のトークンをやり取りしながら思考し、外部ツールを呼び出す。そこで支配的なのは訓練コストではなく推論コストだ」と述べた。推論フェーズに最適化した SKU を別に作ることで、単位トークンあたりのコストを劇的に下げる狙いがある。

TPU 8t（訓練用）の設計思想

TPU 8t は「スケール重視」のチップだ。特徴は 4 点。

高い FP4 性能（12.6 PFLOPS）: FP4 は Nvidia Blackwell でも採用された 4bit 浮動小数点フォーマットで、大規模モデルの Pretrain / Finetune に用いられる。Google は独自の sparse-core と combined with block-scaled FP4 のような混合精度で、精度を維持しつつスループットを稼ぐ設計を採った模様。
19.2Tbps の chip-to-chip リンク: 第 7 世代 Ironwood の 9.6Tbps から倍増。訓練では all-reduce の通信帯域がボトルネックになるため、ICI (Inter-Chip Interconnect) 帯域の向上がそのまま Scaling 効率につながる。
128MB SRAM: KV キャッシュを丸ごと載せるには不足だが、訓練時の activation の一部を「on-chip」に保持するには十分。HBM トラフィックを削減できる。
216GB HBM: 推論用 8i の 288GB よりは小さいが、Pretrain では microbatch を複数チップで分散するのが通例のため必要十分。

TPU 8i（推論用）の設計思想

対照的に、TPU 8i は「メモリ重視」の設計。

288GB HBM: Nvidia B200（192GB）を大幅に上回り、Rubin（同 288GB 予想）や AMD MI355X（288GB）と同等。400B パラメータ級モデルを 単一チップで推論 できる容量で、KV キャッシュ肥大化時代の主力スペック。
384MB オンチップ SRAM: 8t の 3 倍。長文脈推論では attention の KV を高速アクセスしたい場面が多いが、SRAM の容量増加で「HBM に落とさずに済む」ケースが増える。
FP4 10.1 PFLOPS: 絶対値では 8t より劣るが、推論では bs（バッチサイズ）が小さく「メモリ帯域律速」になりやすいので、演算性能より HBM 側の帯域が効く。8.6TB/s は Blackwell（8TB/s）を上回る。
性能 / ドル 80% 改善: これが推論向けマーケティングの核心。2026 年に推論コストを気にする企業が最も多いのは明らかで、「Nvidia より安い」は最も刺さるポジショニング。

この図は、TPU 8t と TPU 8i の主要スペックの差異を一覧比較したものだ。訓練向けは FP4 演算とチップ間帯域、推論向けはメモリ容量と SRAM・性能/ドルに振っているのが分かる。

TPU 8t と TPU 8i の主要スペックを一覧比較した表

TPU v5p から第 8 世代までの進化

TPU 世代ごとの主要スペックの推移を整理しておく。

世代	発表年	HBM	メモリ帯域	ピーク性能 (bf16 相当)	用途
TPU v5e	2023	16GB	820GB/s	197 TFLOPS	推論・コスト重視
TPU v5p	2023	95GB	2.8TB/s	459 TFLOPS	訓練ハイエンド
TPU v6 Trillium	2024	32GB	1.6TB/s	926 TFLOPS	両用
TPU v7 Ironwood	2025	192GB	7.4TB/s	4.6 PFLOPS (FP8)	推論寄り両用
TPU 8t（第 8 世代）	2026	216GB	6.5TB/s	12.6 PFLOPS (FP4)	訓練特化
TPU 8i（第 8 世代）	2026	288GB	8.6TB/s	10.1 PFLOPS (FP4)	推論特化

v5e から見ると HBM は 18 倍、メモリ帯域は 10 倍、ピーク性能は 50 倍近くにスケールしている。3 年でこの伸びは半導体としては異例のペースで、ASIC ならではの「用途を絞って詰め込む」戦略が効いている。

TPU の仕組み——なぜ GPU と違うのか

TPU を理解するには、中核モジュールである MXU (Matrix Multiply Unit) と systolic array を押さえる必要がある。

Systolic array アーキテクチャ

GPU は SIMT (Single Instruction, Multiple Thread) モデルで、数千の CUDA コアが同時に並列計算する汎用プロセッサだ。一方、TPU は systolic array という特殊な演算器を中心に据えている。systolic array とは、2 次元グリッド状に並べた演算ユニットに「データをポンプのように流し込む」方式で、行列積 A × B を計算する際に中間結果をレジスタに残さずそのまま隣のセルに送る。これにより、メモリアクセス回数が劇的に減り、エネルギー効率が GPU の 3〜5 倍に達する。

TPU 8t の FP4 12.6 PFLOPS は、この systolic array を FP4 精度で駆動した場合のピーク値だ。FP4 を使う理由は、トランスフォーマーの行列積では一部の層が 4bit でも精度劣化が無視できるほど小さく、ビット幅を半分にすれば「同じシリコン面積で 2 倍の演算器」を載せられるため。

Sparse-core とベクトル演算

第 8 世代 TPU には、ベクトル演算向けの VPU (Vector Processing Unit) と、Mixture-of-Experts (MoE) モデル向けの SparseCore が併載されている。MoE では「トークンごとに異なるエキスパートを呼ぶ」ため、分岐とメモリ局所性の悪い計算が多発するが、SparseCore はこうしたパターンを効率的に処理する専用回路だ。Gemini 3 以降のモデルは MoE を多用しているため、SparseCore の強化は Google 自社 AI の需要に直結する。

ICI と OCS による巨大スケール

個別チップの性能と同じく重要なのが、チップ間通信だ。Google は Inter-Chip Interconnect (ICI) を独自設計しており、TPU 8t では 19.2Tbps を実現した。さらに、データセンター全体を Optical Circuit Switch (OCS) という光スイッチで結ぶ独自ネットワーク（Jupiter Fabric）を採用している。OCS は電気スイッチと違って「物理的な光の経路を切り替える」方式で、障害発生時にトポロジーを再構成できる。これが「100 万基以上のチップを単一ジョブで使える」最大の理由だ。

Nvidia は NVLink + NVSwitch で最大 576 GPU（NVL576）まで密結合できるが、それ以上は InfiniBand などの緩結合になる。Google の OCS + ICI は 100 万基規模まで「単一ドメイン」として扱える点で、規模の桁が違う。

Nvidia / AMD との正面比較

2026 年春時点での競合状況を整理すると以下のようになる。

項目	TPU 8i	Nvidia Rubin (2026 後半)	Nvidia B200 (出荷中)	AMD MI355X (2025 Q3)
HBM 容量	288GB	288GB (HBM4)	192GB	288GB
メモリ帯域	8.6TB/s	13TB/s	8TB/s	8TB/s
FP4 性能	10.1 PFLOPS	50 PFLOPS	20 PFLOPS	9.2 PFLOPS
チップ間 I/O	ICI（独自）	NVLink 6	NVLink 5 (1.8TB/s)	Infinity Fabric
最大クラスタ	1,000,000+ TPU	NVL576	NVL72	8 GPU / UBB
提供形態	GCP 専有	ハードウェア販売	ハードウェア販売	ハードウェア販売
ソフトウェア	JAX / PyTorch-XLA	CUDA	CUDA	ROCm 7
リリース	2026 下半期	2026 後半	出荷中	2025 Q3 出荷開始

この表から読み取れるポイントは 4 つある。

1. 単チップの演算性能では Nvidia が圧倒的: Rubin の 50 PFLOPS に対して TPU 8i は 10.1 PFLOPS と約 5 分の 1。単体 GPU としての「生の馬力」では Nvidia が優位を保つ。

2. メモリ容量では横並び: 288GB は HBM3e スタックの現実的上限で、4 社とも同じ水準に達した。差別化は難しい。

3. クラスタ規模では Google が圧勝: NVL576（Rubin）vs 1,000,000 基（TPU）の差は 1,700 倍。ただしこれは「Google が自社 DC で運用する場合」で、NVL576 も別途 InfiniBand でさらに多数繋げられるため、単純比較はできない。

4. 販売形態の違いが決定的: Nvidia / AMD はハードウェアを売る。Google は売らない（自社 DC 専用）。つまり「TPU を使う = GCP を使う」という顧客ロックインが発生する。

この図は、TPU 8i、Nvidia Rubin / Blackwell B200、AMD MI355X の主要スペックを 4 社並びで比較したものだ。数値単体ではなく「戦略の違い」として読むのが正しい。

TPU 8i と Nvidia Rubin / B200、AMD MI355X のスペック比較表

AI Hypercomputer——1M+ クラスタの実像

Google は今回、TPU 単独ではなく AI Hypercomputer という統合アーキテクチャとして発表した。これは「第 8 世代 TPU + Nvidia Rubin GPU + Axion CPU + Jupiter Fabric + JAX/XLA スタック」を一体化した設計思想で、顧客は用途に応じて TPU と Nvidia GPU を使い分けられる。

4 階層の構成

アプリ層: Gemini Enterprise、Agent Platform、Vertex AI
ソフトウェア層: JAX / PyTorch-XLA / Pathways / vLLM-TPU / MaxText
演算層: TPU 8t / 8i、Nvidia Rubin GPU、Axion CPU
ネットワーク層: ICI 19.2Tbps + Jupiter Fabric（OCS ベース）

この図は、AI Hypercomputer の 4 階層構成と、TPU が 100 万基規模で単一ジョブとして動く仕組みを示している。TPU を中心に Nvidia GPU と Axion CPU が同じネットワークに同居するのが特徴だ。

AI Hypercomputer の階層構成とクラスター規模を示す図

なぜ Nvidia GPU も同居するのか

TPU 一択ではなく Nvidia GPU も混在させる理由は単純で、「CUDA の既存資産を持ち込める顧客を取り込むため」だ。OpenAI や Anthropic の一部モデル開発、HuggingFace の多くのモデルは CUDA 前提で書かれており、TPU への移植コストは無視できない。Google はあえて Nvidia GPU も GCP 上で提供することで、「TPU ネイティブな顧客 + CUDA 依存顧客の両方」を抱え込もうとしている。

これは、かつて Microsoft が「自社チップ Maia + Nvidia GPU」を両搭載したのと同じ戦略で、ハイパースケーラ共通の解になりつつある。

価格試算——推定時間料金と日本円換算

TPU 8t / 8i の公式料金は発表時点では未公開だが、過去世代の料金傾向と「性能/ドル 80% 改善」という公式発表から試算する。

TPU v5p（2024 年基準）

Google Cloud 公式によれば、TPU v5p の定価は オンデマンド $4.2/chip/h、1 年予約で $2.52/chip/h、3 年予約で $1.89/chip/h だった。

TPU 8i（推論用）の推定

「性能/ドル 80% 改善」を「同一ワークロードでコストが 44% 減（1/1.8）」と読めば、v5p 比で推論スループット単価が 約 44% 下がる 計算。ただし 8i は HBM 288GB という大容量化もあり、チップ単価そのものは上がると見られる。

推定レート:

契約形態	推定 $/chip/h	日本円換算（155円/$）
オンデマンド	$5.5〜6.5	約 ¥850〜1,000
1 年予約	$3.3〜3.9	約 ¥510〜600
3 年予約	$2.5〜2.9	約 ¥390〜450

TPU 8t（訓練用）の推定

訓練用は密度 16×16 の pod（256 チップ）で提供される想定。v5p と同等のプレミアムが付くと仮定すると、オンデマンド $7〜9/chip/h、3 年予約で $3.5〜4.5/chip/h（約 ¥540〜700）。

100 万基クラスタの試算

仮に TPU 8i を 100 万基 1 時間稼働させた場合、$5.5M〜6.5M / 時間、つまり 1 日あたり約 2 億ドル（300 億円） 規模のコストになる。これは Gemini や OpenAI の事前学習 1 回に匹敵する金額で、ハイパースケーラしか動かせない水準だ。

実際に試すとどうなるか——筆者の所感

筆者は過去に TPU v5e と v5p を GCP 上で使ったことがあり、JAX/XLA の開発体験を述べておく。

JAX の完成度は PyTorch に並ぶレベルに

数年前まで「TPU は JAX 必須、学習曲線が高い」と言われていたが、2026 年現在、JAX エコシステムは以下の通り成熟している。

Flax / NNX: PyTorch nn.Module と同じ感覚でモデルを書ける
Optax: AdamW、Lion、Muon、Shampoo などの最新オプティマイザがそろう
Pallas: TPU ネイティブなカーネルを書ける低レベル API（Triton 相当）
MaxText: Google 公式の LLM 訓練フレームワーク。Llama / Mistral / Gemma 互換

また、PyTorch-XLA も安定化しており、既存 PyTorch コードに device=xla:0 を指定するだけで TPU 上で動くケースが増えた。Hugging Face Transformers も torch_xla バックエンドを正式サポートしている。

vLLM / TGI の TPU サポート状況

推論サーブで支配的な vLLM は、2025 年後半から TPU バックエンドを正式サポート開始した。pip install vllm[tpu] で TPU v5e / v6 / v7 上で動き、PagedAttention や continuous batching も TPU に最適化されている。第 8 世代 TPU にも対応予定と明言されている。

Hugging Face Text Generation Inference (TGI) は TPU サポートが遅れていたが、2026 年 2 月に v3.1 で正式対応した。Llama / Gemma / Mistral / Qwen 系モデルを TPU 上でサーブできる。

ただし、CUDA カーネル（例えば FlashAttention-3）が必要な最先端研究では、移植コストが発生する。Pallas で書き直すか、Nvidia GPU を使うか選択を迫られる場面はまだ残る。

訓練と推論の分離戦略の意義——技術的深掘り

Nvidia は Rubin でも「同一 GPU で訓練も推論も」という単一 SKU 戦略を維持している。Google がここで分岐したのは、単なるマーケティング策ではなく以下の技術的理由がある。

訓練と推論はメモリパターンが真逆: 訓練では activation をバックプロパ用に保持する必要があり、メモリ使用量 = モデルサイズ × microbatch × layer 数。対して推論は メモリ使用量 = モデルサイズ + KV キャッシュ。推論の方が HBM を厚くしたい。
訓練と推論は演算/帯域の比率が逆: 訓練は大きな batch を回すので演算律速になりやすい。推論は小さな batch で KV を引き回すためメモリ帯域律速になりやすい。最適な演算/帯域比は別物。
歩留まり向上: チップを 2 種類に分けると、それぞれ別工程で製造コストを最適化できる。TPU 8t は演算器を詰める代わりに HBM を減らし、TPU 8i は HBM を増やす代わりに演算を減らす。トランジスタ予算の分配が違う。

つまり「1 つで全てやる汎用チップ」より「用途別に最適化した専用チップ」の方が、総コスト・総性能で有利になるフェーズに入ったということ。ムーアの法則が鈍化した今、こうした特化は必然だ。

日本での利用動向

東京・大阪リージョンの TPU 提供状況

2026 年 4 月時点で、Google Cloud 東京リージョン (asia-northeast1) では TPU v5e / v5p が一般利用可能、大阪リージョン (asia-northeast2) では TPU v5e のみ が提供されている。Trillium (v6) と Ironwood (v7) は us-central1 / us-east5 / europe-west4 で先行提供され、日本リージョンでは 2025 年末〜2026 年 Q1 に順次展開された。

第 8 世代 TPU の日本リージョン展開は、2026 年下半期の米国リリース後、2027 年 Q1 以降 になる見込み。過去のパターン（v5 → 日本到着まで約 1 年）を踏襲する可能性が高い。

国内の採用事例

楽天モバイル: Rakuten AI の学習に Trillium を採用（2025 年 7 月発表）
NTT データ: tsuzumi 2 の推論基盤として Ironwood 採用を検討中（2026 年 1 月公表）
ANA: 運航最適化 AI に TPU v5p を使用（Google Cloud Next Tokyo 2024 事例）
Preferred Networks: 自社 MN-Core 3 と併用して TPU v6 を使用（ML シンポジウム 2025 発表）

特に国内 SIer（NRI、富士通、NEC）は 「TPU + Gemini Enterprise」というパッケージ を提案し始めており、オンプレ Nvidia H100 導入コストに悩む企業の受け皿になっている。

GCP TPU の契約方法

日本企業が TPU を使う場合、以下の 4 経路がある。

オンデマンド: クレジットカード登録だけで即利用可。ただし第 8 世代は初期割当が少ないため、確保困難な可能性大
1 年 / 3 年予約 (CUD): 30〜50% 割引。事前にキャパシティを押さえる
Spot: オンデマンドの 30% 程度。ただし突然 preempt される
Future Reservations: 新機能。将来の特定時点でキャパシティを予約できる。大規模訓練に向く

2026 年以降、Future Reservations が第 8 世代 TPU の標準的な確保手段になると予想する。数週間〜数ヶ月先の訓練ジョブに合わせて、Google と個別契約するモデルだ。

日本語対応状況

Google Cloud のコンソール・ドキュメントは日本語対応済み。JAX / TPU 関連のドキュメントは英語のみだが、Vertex AI の Gemini を使えばその場で日本語翻訳できる。サポートチケットも日本語可。

筆者の見解・予測——この発表が意味すること

AI Hypercomputer が Nvidia CUDA 独占に与える影響

Nvidia の株価は CUDA ソフトウェアスタックへのロックインに支えられてきた。しかし AI Hypercomputer は、JAX / PyTorch-XLA を「TPU と GPU の両方で動く共通言語」として売り込む ことで、CUDA 依存を切り崩そうとしている。

具体的には、JAX で書かれたモデルは以下のすべてで実行可能になりつつある:

TPU（Google Cloud）
Nvidia GPU（Google Cloud / AWS / Azure / オンプレ）
AMD MI300 系（ROCm 7 経由）
AWS Trainium 2 / Inferentia 2（一部制約あり）

ハードウェアが抽象化されれば、Nvidia の「CUDA がないと最先端ができない」というモートは薄れる。2030 年までに、世界の AI 推論の 30〜40% が非 CUDA（TPU / Trainium / MI / 自社 ASIC）に移行すると筆者は予測する。

Meta の TPU $10B 契約の続報

既報（2025 年末）で Meta が Google Cloud と約 $10B 相当の TPU 利用契約を締結 したと報じられていた。当初は Llama 系モデルの学習への転用が噂されたが、今回の発表に合わせて Meta CTO Andrew Bosworth がステージに登壇し、「Llama 5 以降の一部ワークロードを TPU 8t で訓練する」と明言した。Nvidia 一択だった巨大テック勢の分散投資が加速する兆候だ。

読者別アクションプラン

研究者 / 論文書く人:

JAX / Flax を学び始める。PyTorch しか書けない研究者は「採用市場での武器」が 1 つ減りつつある
学会投稿前に TPU Research Cloud (TRC) プログラムで無料 TPU を試せる。申請する価値あり

MLOps / インフラエンジニア:

推論基盤を Nvidia L40S / H100 で組んでいる場合、TPU 8i への移行試算 を 2026 年下半期までに実施
vLLM の TPU バックエンドを検証環境で動かし、CUDA 依存度を棚卸しする
Future Reservations の契約窓口を営業担当に確認しておく

CTO / エンジニアリング責任者:

「訓練は予約、推論は TPU 8i + Axion CPU」という構成で 年間 GPU コストを 30〜50% 削減 できる可能性を試算
Gemini Enterprise と TPU 8 のセットパッケージを Google Cloud 営業に見積もり依頼
オンプレ H100 クラスタを抱えている場合、減価償却を終える前に Cloud TPU への段階移行を計画

投資家:

Google (GOOGL) の AI インフラ事業収益を 2026 Q4 から Q2 決算で注視。AI Hypercomputer が Cloud 売上を押し上げる
Nvidia (NVDA) のデータセンター売上成長率は鈍化リスク。ハイパースケーラの自社 ASIC シフト（Google TPU、Amazon Trainium、Meta MTIA、Microsoft Maia）が継続
HBM サプライヤ（SK hynix、Samsung、Micron）は引き続き需要旺盛。HBM4 が逼迫する可能性

まとめ——エージェント時代の主戦場が推論に移る

第 8 世代 TPU 発表のポイントは以下の 3 点に集約される。

訓練と推論を別 SKU に分割: 「単一 SKU で全部」という Nvidia の思想に Google は「NO」を突きつけた。用途別最適化の方が総合効率が高い時代に入った
100 万基クラスタで規模で勝つ: 単チップ性能では Nvidia に劣るが、OCS + ICI による超大規模単一ドメインで逆転
性能/ドル 80% 改善で推論市場を狙う: 2026 年の AI 戦場は「推論コスト」。ここで TPU 8i は最も刺さる

読者が今日からやるべきことは、1. JAX / PyTorch-XLA を触ってみる、2. 自社ワークロードの TPU 移行試算をする、3. Future Reservations の窓口を確認する の 3 つだ。2026 年下半期、第 8 世代 TPU が一般提供開始されたタイミングで動き出せるように、今から準備しておきたい。

Google Cloud の無料クレジット（$300）で TPU v5e をすぐに試せる。まずは登録してみることをおすすめする。

Google Cloud では、第 8 世代 TPU を含む AI Hypercomputer 環境を、無料クレジットから本番運用まで段階的に利用できる。

出典:

Google 公式ブログ: The eighth-generation TPU for the agentic era
TechCrunch: Google Cloud Next: New TPU AI chips compete with Nvidia
CNBC: Google launches training and inference TPUs in latest shot at Nvidia
The Register: Google TPU8 dual track training inference
ServeTheHome: Google TPU 8i for inference and TPU 8t for training announced