Cerebras WSE-3——4兆トランジスタのウェハスケールAIチップ
「チップを大きくすれば、もっと速くなる」——この単純な発想を極限まで推し進めたのがCerebras Systemsだ。同社の第3世代ウェハスケールエンジンWSE-3は、300mmウェハの全面を1つのチップとして使用する。面積46,225mm²、トランジスタ数4兆個、AIコア90万個。通常のGPUチップ(約800mm²)の57倍の面積を持つ文字通り「巨大なチップ」だ。
Nvidia H200がAI学習の王者として君臨する中、Cerebrasは全く異なるアプローチで挑戦する。WSE-3はH200をどこまで脅かせるのか。Condor Galaxy 3スパコンの構想とあわせて徹底解説する。
ウェハスケールチップとは何か
通常の半導体製造では、300mmウェハ上に数十〜数百個の同一チップを並べて製造し、ダイシング(切断)して個々のチップに分離する。ウェハ上には必ず欠陥のあるダイ(不良品)が含まれるため、歩留まり(良品率)を管理するのが常識だ。
Cerebrasのウェハスケールエンジン(WSE)は、この常識を覆す。ウェハを切断せず、ウェハ全面を1枚の巨大チップとして使用する。当然、ウェハ上に欠陥部分は存在するが、WSEは冗長コアを備え、欠陥コアを自動的にバイパスする設計になっている。
以下の図は、WSE-3とNvidia H200のサイズ比較を示しています。
ウェハスケールの最大のメリットは、チップ内通信の高速化だ。通常のGPUクラスタでは、複数のGPU間をPCIeやNVLinkで接続するが、チップ間通信にはレイテンシとバンド幅の制約がある。WSEではすべてのコアが1枚のシリコン上のオンチップ配線で接続されるため、通信遅延がナノ秒オーダーに抑えられる。
WSE-3の技術仕様
| 項目 | WSE-3 | WSE-2 | Nvidia H200 |
|---|---|---|---|
| ダイサイズ | 46,225 mm² | 46,225 mm² | 814 mm² |
| トランジスタ数 | 4兆 | 2.6兆 | 800億 |
| AIコア数 | 90万 | 85万 | 16,896 (CUDA) |
| オンチップSRAM | 44 GB | 40 GB | 96 MB (L2) |
| メモリ帯域幅 (オンチップ) | 21 PB/s | 20 PB/s | 4.8 TB/s (HBM) |
| インターコネクト帯域 | 214 Pb/s | 220 Pb/s | 900 GB/s (NVLink) |
| 外部メモリ | 1.5 TB (DRAM) | 1.2 TB (DRAM) | 141 GB (HBM3e) |
| 製造プロセス | TSMC 5nm | TSMC 7nm | TSMC 4nm |
| TDP | ~23 kW | ~23 kW | 700 W |
| 価格 (推定) | $3〜5M/システム | $2〜3M/システム | ~$30K/GPU |
44GBのオンチップSRAM
WSE-3の最も特異な仕様は、44GBのオンチップSRAMだ。通常のGPUではL2キャッシュが数十〜数百MBに過ぎないが、WSEは全コアに分散配置されたSRAMを合計すると44GBに達する。
このSRAMにモデルの重みをすべて格納できれば、外部メモリ(HBMやDRAM)へのアクセスが不要になり、メモリ帯域幅のボトルネックが消滅する。Cerebrasによると、パラメータ数数百億規模のLLMであれば、重みの大部分をオンチップSRAMに保持できるという。
90万AIコアのアーキテクチャ
WSE-3の90万AIコアは、それぞれ独立した演算ユニットとルーター(通信機構)を持つ。コア間通信はメッシュネットワークで構成され、各コアは最近傍の4コアと直接通信する。
この設計は、畳み込みニューラルネットワーク(CNN)や大規模言語モデル(LLM)のテンソル演算に適している。特にLLMのパイプライン並列処理では、モデルの各レイヤーを異なるコア群に割り当て、データをシリコン内で順次流していく。GPU間のネットワーク通信が不要なため、パイプラインバブル(待ち時間)が最小化される。
Condor Galaxy 3——WSE-3を64基搭載するスパコン
CerebrasはUAE(アラブ首長国連邦)のG42と共同で、WSE-3を搭載したスーパーコンピュータCondor Galaxy 3を構築中だ。
以下の図は、CS-3システムとCondor Galaxy 3の構成を示しています。
Condor Galaxy 3は、64基のCS-3システムをファブリックで接続する。合計演算性能は**256 ExaFLOPS(FP16)**で、Nvidia H200ベースのクラスタと比較して:
- 同一パラメータ数のLLM学習: 約3〜5倍の高速化(Cerebras公称)
- 電力効率: ワットあたり性能で約2倍(Cerebras公称)
- セットアップ時間: NvidiaクラスタのInfiniBand設定が不要で、大幅に簡素化
ただしこれらの数値はCerebrasの自社ベンチマークに基づいており、独立した第三者検証はまだ限定的だ。
Nvidia H200 / B200との比較——実際のところどうなのか
WSE-3の「90万コア」「4兆トランジスタ」という数値は印象的だが、実際のAIワークロードでの比較はより慎重に見る必要がある。
WSE-3が強い領域:
- メモリバウンドな推論: 大規模LLMの推論で、モデル全体がオンチップSRAMに収まる場合。HBMアクセスのレイテンシがないため圧倒的に速い
- パイプライン並列学習: GPU間通信がボトルネックになる超大規模学習で、オンチップ通信の低レイテンシが活きる
- スパースモデル: 重みのスパース性(ゼロが多い構造)を活用するモデルで、WSEのアーキテクチャが最適化されている
Nvidia H200/B200が強い領域:
- 汎用性: CUDAエコシステムの圧倒的な成熟度。PyTorch/JAXの最適化、デバッグツール、プロファイラーが充実
- コストパフォーマンス: H200は約$30K、WSE-3搭載CS-3は$3〜5M。同じ予算で100基以上のH200を購入可能
- 柔軟なスケーリング: GPU数を柔軟に増減可能。WSE-3は1ウェハ=1チップで分割不可
- エコシステム: 数千社のソフトウェアベンダーがNvidiaに最適化。Cerebras向けの最適化はまだ限定的
CerebrasのIPOと事業展望
Cerebrasは2025年にIPOを計画していたが、米政府のG42(UAE)向け輸出規制の影響で延期された。2026年3月時点で、IPOは2026年後半に再設定されている。
同社の資金調達状況:
| ラウンド | 時期 | 金額 | 評価額 |
|---|---|---|---|
| Series A〜E | 2016〜2021 | 約$7.2億 | $40億 |
| Series F | 2024 | $2.5億 | $41億 |
| IPO (計画中) | 2026年後半 | 未定 | $70〜80億 (推定) |
売上の大部分はG42との大型契約(Condor Galaxy 1〜3)に依存しており、顧客基盤の多様化が課題だ。IPOに向けて、北米・欧州の大手クラウドプロバイダーやAI企業への販売拡大を進めている。
日本への影響
研究機関での活用可能性
日本の主要AI研究機関(理化学研究所、産業技術総合研究所など)は、次世代スパコン計画でNvidiaベースの構成を中心に検討している。しかしWSE-3のメモリバウンド性能が実証されれば、特定の研究ワークロード(大規模言語モデル、創薬シミュレーション)での採用が検討される可能性がある。
クラウドでの利用
CerebrasはCerebrasCloudとしてクラウド推論サービスを提供している。日本からも利用可能で、Llama 3.1 70Bの推論を約2,100トークン/秒で実行できる(GPU比で約10倍の速度)。ただし料金は比較的高く、大量推論にはAWSやGoogle CloudのGPUインスタンスの方がコスト効率が良いケースも多い。
日本の半導体産業への示唆
WSEのウェハスケール技術は、「ウェハの欠陥を許容して冗長設計で補う」という従来とは異なるパラダイムだ。この考え方は、歩留まりの課題を抱えるRapidusなど日本の先端半導体プロジェクトにとっても参考になる。ただし、WSEレベルの冗長設計には膨大なエンジニアリング投資が必要で、すぐに応用できるものではない。
まとめ——ウェハスケールは「異端」から「選択肢」へ
Cerebras WSE-3は、半導体設計の常識を覆すアプローチで一定の成果を上げている。4兆トランジスタ、90万AIコア、44GBオンチップSRAMという仕様は、特定のAIワークロードで圧倒的な性能を発揮する。
ただし、CUDAエコシステムの壁は厚く、Nvidiaを完全に置き換えることは当面ない。WSE-3は「Nvidiaとは別の最適解」として、特化型AIワークロードでの採用拡大が現実的なシナリオだ。
今後のアクションステップ:
- AIインフラ担当者: CerebrasCloudの無料トライアルでLlama推論速度を体験。GPU比での速度差を実感した上で、コスト対効果を自社ワークロードで試算
- 半導体業界ウォッチャー: CerebrasのIPO(2026年後半予定)を追跡。IPO目論見書で明かされる売上構成・顧客名・利益率に注目
- 研究者: スパースモデルやMixture of Experts(MoE)アーキテクチャの研究で、WSE-3の適合性を評価。Cerebrasの研究者プログラムへの参加も検討
「チップは切り出すもの」という常識が、Cerebrasによって書き換えられつつある。WSE-3はその最新章だ。