半導体12分で読める

Groq LPUが推論速度500トークン/秒を実現——GPU不要のAI推論革命

AIチャットボットの応答速度に不満を感じたことはないだろうか。ChatGPTやClaudeの返答を待つ数秒間——あの待ち時間を10分の1以下に短縮する技術が登場した。Groq社が開発したLPU(Language Processing Unit)は、LLM推論に特化した半導体チップで、Llama 3.1 70Bの推論速度500トークン/秒以上を達成している。これはNvidia H200の約5倍、OpenAI APIの約10倍の速度だ。

Groqは「GPUは推論に最適化されていない」と主張し、全く異なるアーキテクチャで推論コストの革命を起こそうとしている。LPUとは何か、なぜそれほど速いのか、そしてNvidiaの牙城を崩せるのか。

LPUとは何か——GPUとの根本的な違い

LPU(Language Processing Unit)は、Groqが独自設計した推論専用プロセッサだ。正式名称はTSP(Tensor Streaming Processor)で、GPUとは設計思想が根本的に異なる。

以下の図は、GPUとLPUのアーキテクチャの違いを示しています。

GPUとLPUのアーキテクチャ比較。GPUは汎用SIMD並列演算、LPUは推論特化の決定論的パイプライン

GPUの推論における非効率性

Nvidiaの GPUは本来**学習(Training)**のために最適化されている。大量のデータを同時に処理するSIMD(Single Instruction Multiple Data)アーキテクチャは、バッチ処理による学習には最適だが、推論には以下の非効率性がある:

  1. メモリバウンド問題: LLM推論はトークンを1つずつ逐次生成するため、毎回HBMからモデルの重みを読み出す必要がある。HBMの帯域幅が演算能力に追いつかず、GPUコアの大半がアイドル状態になる
  2. レイテンシの不確定性: GPUのスケジューラは動的にタスクを割り当てるため、同じ入力でも処理時間にばらつきが出る
  3. 消費電力: 学習と推論の両方に対応するための汎用設計が、推論のみの場合は無駄になる

LPUの設計思想——決定論的実行

LPU/TSPは、これらの問題を以下のアプローチで解決する:

  • SRAM内蔵: HBMの代わりに大容量SRAMをチップ内に搭載。外部メモリアクセスを最小化
  • 固定パイプライン: 演算の実行順序がコンパイル時に完全に決定される。ランタイムのスケジューリングオーバーヘッドがゼロ
  • 決定論的レイテンシ: 同じ入力に対して常に同じ処理時間。ジッター(時間のばらつき)がない
  • ストリーム処理: データが計算パイプラインを一方向に流れる設計。キャッシュミスの概念がない

この「コンパイラがすべてを事前に計画する」アプローチにより、チップの演算リソースが常に100%稼働する。GPUでは演算リソースの利用率が推論時30〜50%程度にとどまるのに対し、LPUは理論上90%以上を達成できる。

推論速度の比較——LPUはどれほど速いのか

以下の図は、各プラットフォームのLLM推論速度を比較しています。

LLM推論速度比較。Groq LPU 500トークン/秒、Cerebras 400、SambaNova 250、Nvidia H200 100、OpenAI API 50

プラットフォーム推論速度 (tok/s)レイテンシ (TTFT)モデル価格 (M tok 入力)
Groq LPU (GroqCloud)~50050ms未満Llama 3.1 70B$0.59
Cerebras (CS-3)~40080ms未満Llama 3.1 70B$0.60
SambaNova (SN40L)~250100ms未満Llama 3.1 70B$0.50
Nvidia H200 (vLLM)~100200ms未満Llama 3.1 70B$0.70 (推定)
OpenAI API~50300ms未満GPT-4o$2.50
Anthropic API~60250ms未満Claude 3.5 Sonnet$3.00

Groq LPUのTTFT(Time To First Token、最初のトークンが出力されるまでの時間)は50ms未満。人間がテキストを入力して送信した瞬間に、ほぼ即座に応答が始まる感覚だ。これは従来のGPUベースのAPI(200〜300ms)とは体験が根本的に異なる。

GroqCloud——クラウド推論サービスの全容

Groqは自社チップを活用したクラウド推論サービスGroqCloudを提供している。開発者はAPI経由でGroq LPU上の推論を利用できる。

対応モデル

  • Llama 3.1 8B / 70B / 405B: Meta社のオープンソースLLM
  • Mixtral 8x7B: Mistral AIのMoEモデル
  • Gemma 2 9B / 27B: Google DeepMindのオープンソースLLM
  • Whisper Large-v3: 音声認識モデル

料金体系(2026年3月時点)

モデル入力 ($/M tok)出力 ($/M tok)
Llama 3.1 8B$0.05$0.08
Llama 3.1 70B$0.59$0.79
Llama 3.1 405B$3.00$4.00
Mixtral 8x7B$0.24$0.24
Gemma 2 9B$0.20$0.20

注目すべきは、Llama 3.1 70Bの料金がOpenAI GPT-4oの約4分の1であること。速度5〜10倍、コスト4分の1という組み合わせは、大量推論を行うアプリケーション(チャットボット、コンテンツ生成、コード補完)で大きなコストメリットを生む。

Groqの事業展望と課題

資金調達と評価額

Groqは2024年にシリーズDで$6.4億を調達し、評価額は$28億に達した。2025年以降はさらなる資金調達を実施し、LPUチップの製造規模拡大とデータセンター増設に投資している。

最大の課題——供給能力

Groqの最大の課題はチップの供給量だ。TSPチップはSamsung 14nmプロセスで製造されており、TSMCの最先端プロセスと比べて電力効率で劣る。次世代TSPではTSMCの5nmプロセスへの移行が計画されているが、生産キャパシティの確保が課題となっている。

現時点でGroqのLPUチップの累計出荷数は数万基にとどまり、Nvidiaの年間数百万基のGPU出荷とは桁違いの差がある。この供給制約が、GroqCloudのレートリミット(利用制限)や大口顧客への対応能力を制約している。

エコシステムの構築

GPUにはCUDA/cuDNN/TensorRT/vLLMといった成熟したソフトウェアスタックがある。一方、Groq LPUのソフトウェアエコシステムは発展途上だ。Groqは以下の取り組みでエコシステム拡大を進めている:

  • GroqWare SDK: PyTorchモデルをLPU向けにコンパイルするツールキット
  • ONNX対応: ONNX形式のモデルを直接インポート可能
  • パートナーシップ: Hugging Face、LangChainとの統合

Nvidia vs Groq——推論市場の行方

NvidiaもGroqの台頭を意識し、推論に最適化したGPU(H200、B200のTensorRTモード)やNIM(Nvidia Inference Microservices)で対抗している。しかし、GPUの設計は根本的に「学習も推論もできる汎用チップ」であり、推論のみに特化したLPUとの速度差を完全に埋めることは構造的に難しい。

一方、Groqは学習ができない。LLMの学習はNvidia GPU(またはTPU、WSE)で行い、完成したモデルをGroq LPUで推論するというワークロードの分離が、現実的な利用形態になる。

日本への影響

AIアプリケーション開発

日本のAIスタートアップにとって、GroqCloudは魅力的な選択肢だ。特にリアルタイム対話型AI(カスタマーサポート、教育チューター、ゲームNPC)では、500トークン/秒の応答速度が体験を根本的に変える。

ChatGPT PlusClaude Proのような既存サービスと比較しても、GroqCloudのAPI経由でオープンソースLLMを利用する方がコスト効率が高いケースは多い。特に日本語対応のLlama 3.1やSwallowモデルをGroqで推論すれば、日本語チャットボットを低コスト・高速で運用できる。

推論コストの低減

日本企業のAI活用では「推論コストが高すぎる」という声が多い。GroqのLPUのような推論特化チップが普及すれば、推論コストは現在の3分の1〜5分の1に下がる可能性がある。これにより「コストが理由でAI導入を見送っていた」企業の背中を押す効果が期待できる。

半導体設計への示唆

Groq LPUの成功は、「汎用チップよりも特化チップの方が効率的」というASIC(特定用途向け集積回路)のアプローチを裏付ける。日本の半導体設計企業(ソシオネクスト、ルネサスなど)がAI推論向け特化チップの開発を検討する際の参考事例になる。

まとめ——推論特化チップの時代が始まる

Groq LPUは、AI推論の世界に新たな選択肢を提示した。500トークン/秒という速度は、GPUベースの推論とは次元が異なる体験を提供する。

今後のアクションステップ:

  1. AIアプリ開発者: GroqCloudの無料枠でLlama 3.1 70Bの推論速度を体験。自社アプリのレスポンスタイムがどの程度改善するか検証
  2. 企業のAI導入担当: 大量推論ワークロード(月間数百万リクエスト以上)のコスト比較を実施。GPU推論 vs GroqCloud vs OpenAI APIの3者でTCOを試算
  3. 半導体ウォッチャー: Groqの次世代TSP(TSMC 5nm予定)の発表を追跡。製造プロセスの微細化でLPUの電力効率がさらに向上すれば、GPUとの競争力が大幅に強化される

推論市場は学習市場とは異なるルールで動く。Groqはそのルールを書き換えようとしている。

この記事をシェア