DeepSeek V4が1兆パラメータに到達——32Bアクティブで効率革命を継続
2026年3月3日、中国のAIスタートアップDeepSeekが大規模言語モデルDeepSeek V4を公開した。総パラメータ数は1兆(1 Trillion)。しかし推論時に活性化されるのはわずか32B(320億)パラメータだけだ。つまり、全体のたった**3.2%**しか使わずに、GPT-5.4やClaude 4 Opus、Gemini 2.5 Ultraに匹敵する性能を叩き出す。
公開日は中国の「両会(全国人民代表大会・政治協商会議)」の開幕日。国家的政治イベントに合わせたリリースは、DeepSeekが単なる技術企業ではなく、中国のAI戦略における国策的存在であることを改めて印象づけた。
DeepSeekとは何か
DeepSeekは、中国の量的ヘッジファンドHigh-Flyer(幻方量化)が2023年に設立したAI研究企業だ。杭州に本拠を置き、創業者のLiang Wenfeng(梁文鋒)はHigh-Flyerの共同創設者でもある。金融市場で培った大規模計算の知見をAI研究に転用するという、異色の出自を持つ。
| 項目 | 詳細 |
|---|---|
| 設立 | 2023年、杭州 |
| 母体 | High-Flyer(幻方量化)── 中国トップの量的ヘッジファンド |
| 創業者 | Liang Wenfeng(梁文鋒) |
| GPUクラスタ | 推定10,000基以上のNvidia A100/H100 |
| 特徴 | オープンウェイト主義、効率重視のMoEアーキテクチャ |
| 主要モデル | DeepSeek V2, V3, V4, DeepSeek-Coder, DeepSeek-R1 |
DeepSeekが世界の注目を集めたのは2025年1月のDeepSeek V3だ。671Bパラメータ(37Bアクティブ)のMoEモデルを、わずか**$5.5M(約8.3億円)**という破格の訓練コストで完成させたと公表。米国のOpenAIやGoogleが数十億ドル規模の計算資源を投じる中、桁違いのコスト効率で同等性能を達成したことは「DeepSeekショック」として業界を震撼させた。
V4はその延長線上にあるが、スケールと効率の両面でさらに大きな飛躍を遂げている。
DeepSeek V4の技術的特徴
MoE(Mixture of Experts)アーキテクチャの極致
DeepSeek V4の核心は、**MoE(Mixture of Experts)**アーキテクチャにある。MoEとは、モデル内部に多数の「エキスパート」と呼ばれるサブネットワークを配置し、入力トークンごとにルーター(ゲーティングネットワーク)が最適なエキスパートの組み合わせを選択して活性化する仕組みだ。
以下の図は、DeepSeek V4のMoEアーキテクチャの概念を示しています。入力トークンがゲートルーターを通過し、1兆パラメータの中から32B分のエキスパートだけが選択・活性化される流れを可視化しています。
この設計により、モデルの「知識容量」は1兆パラメータ分を確保しつつ、推論時の計算コストは32Bモデル並みに抑えられる。GPT-5.4やClaudeのようなDenseモデル(全パラメータを毎回活性化する従来型)と比較すると、同じ性能を達成するために必要なGPUメモリと計算量が劇的に少ない。
主要な技術スペック
| 項目 | DeepSeek V4 | DeepSeek V3 | GPT-5.4 | Claude 4 Opus |
|---|---|---|---|---|
| 総パラメータ | 1兆(1T) | 671B | 非公開(推定1T+) | 非公開 |
| アクティブパラメータ | 32B | 37B | 非公開(Dense) | 非公開(Dense) |
| アーキテクチャ | MoE | MoE | Dense(推定) | Dense(推定) |
| コンテキスト長 | 128Kトークン | 128Kトークン | 128Kトークン | 200Kトークン |
| マルチモーダル | テキスト + 画像 + コード | テキスト + コード | テキスト + 画像 + 音声 | テキスト + 画像 |
| ウェイト公開 | オープン | オープン | 非公開 | 非公開 |
| 推定訓練コスト | $10M〜$15M | $5.5M | $100M+ | 非公開 |
| 推論コスト/1Mトークン | $0.50(入力) | $0.27 | $5.00 | $3.00 |
注目すべきは、V3からV4への進化で総パラメータ数を約1.5倍に増やしつつ、アクティブパラメータ数をむしろ32Bに削減している点だ。これは、エキスパートの数を大幅に増やしながら、各トークンに対してより少数の、より特化したエキスパートを選択する方向に設計を洗練させたことを意味する。結果として「知っていること」は増えたのに「考えるコスト」は下がるという、直感に反する効率向上が実現した。
V3からの主な改良点
DeepSeek V4がV3から改良した主要ポイントは以下の通りだ。
- エキスパート数の大幅増加: V3の約256エキスパートから、V4では推定1,000以上に拡大。各エキスパートがより狭い領域に特化
- ルーティング精度の向上: 新しいロードバランシングアルゴリズムにより、エキスパートの偏り(一部のエキスパートに負荷が集中する問題)を解消
- マルチモーダル対応の強化: テキストに加え、画像理解能力を新規追加。コード生成性能も大幅に向上
- コンテキスト処理の効率化: Multi-head Latent Attention(MLA)の改良版により、長文脈での品質劣化を抑制
- 推論速度の改善: FP8量子化への最適化により、同等ハードウェアでの推論スループットが約40%向上
ベンチマーク性能
DeepSeek V4は主要ベンチマークで、GPT-5.4やClaude 4 Opusと互角以上の性能を示している。以下の図は、主要ベンチマークにおける各モデルのスコア比較です。
特に注目すべきはHumanEval(コード生成)で93.0、MATH(数学推論)で90.5という高スコアだ。DeepSeek-Coderシリーズで培ったコーディング能力と、DeepSeek-R1で磨いた推論能力がV4の汎用モデルに統合された結果と見られる。
| ベンチマーク | DeepSeek V4 | GPT-5.4 | Claude 4 Opus | Gemini 2.5 Ultra | DeepSeek V3 |
|---|---|---|---|---|---|
| MMLU | 91.2 | 92.1 | 90.8 | 91.0 | 87.5 |
| HumanEval | 93.0 | 90.0 | 94.0 | 88.5 | 82.0 |
| MATH | 90.5 | 88.5 | 87.0 | 87.5 | 78.0 |
| GPQA | 62.5 | 64.0 | 63.2 | 61.0 | 55.0 |
| ARC-C | 97.0 | 97.5 | 96.8 | 96.5 | 94.0 |
V3からの伸びが最も大きいのはMATH(+12.5pt)とHumanEval(+11.0pt)で、エキスパートの専門分化が特にコーディングと数学推論の領域で効果を発揮していることがわかる。
「両会」タイミングの戦略的意味
DeepSeek V4の公開日が2026年3月3日、中国の「両会(全国人民代表大会・全国政治協商会議)」開幕日と一致していたことは偶然ではない。
両会は中国の最重要政治イベントであり、世界中のメディアが北京に注目するタイミングだ。2024年にはBaiduがErnie 4.0のアップデートを、2025年にはDeepSeek自身がV3の改良版をそれぞれ両会期間中にリリースしている。中国のテック企業が国家的イベントに合わせて技術成果を発表することは、もはや定番の戦略となっている。
背景には、中国政府がAIを「新質生産力(New Quality Productive Forces)」の柱として位置づけ、重点的な支援策を打ち出していることがある。DeepSeekは民間企業でありながら、そのオープンウェイト方針と高い技術力により、中国のAI技術力を国際的にアピールする「ショーケース」としての役割を担っている。
オープンウェイトの意義と影響
DeepSeek V4のもう一つの注目点は、1兆パラメータという超大規模モデルをオープンウェイトで公開したことだ。OpenAIのGPT-5.4、AnthropicのClaude 4 Opus、GoogleのGemini 2.5 Ultraはいずれもプロプライエタリであり、オープンウェイトのフロンティアモデルとしてはMetaのLlama 4やZhipu AIのGLM-5に続くものとなる。
オープンウェイトであることの実務的メリットは大きい。
- セルフホスト可能: API依存から脱却し、データを外部に送信せずに推論できる
- ファインチューニング: 自社データで追加学習し、特定ドメインに特化したモデルを構築できる
- コスト最適化: クラウドAPIの従量課金ではなく、自社GPUでの固定費運用が可能
- 規制対応: EU AI ActやGDPR下でのデータ主権要件を満たしやすい
ただし、1兆パラメータモデルのセルフホストには膨大なGPUメモリが必要だ。FP16では約2TB、FP8量子化でも約1TBのVRAMが必要となり、実質的にはH100を8基以上搭載したサーバーノード複数台が必要になる。中小企業が気軽にセルフホストできるスケールではない。
この点では、MoEアーキテクチャの特性が一部救いとなる。推論時にはアクティブな32Bパラメータ分の計算だけを行えばよいため、推論スループット自体は32Bの Denseモデルと同等だ。ボトルネックはメモリ帯域幅であり、計算能力ではない。
競合モデルとの料金比較
DeepSeek V4のAPI料金は、競合と比較して圧倒的に安価だ。
| モデル | 入力料金/1Mトークン | 出力料金/1Mトークン | 日本円換算(入力) |
|---|---|---|---|
| DeepSeek V4 | $0.50 | $1.50 | 約75円 |
| DeepSeek V3 | $0.27 | $1.10 | 約41円 |
| GPT-5.4 | $5.00 | $15.00 | 約750円 |
| Claude 4 Opus | $3.00 | $15.00 | 約450円 |
| Gemini 2.5 Ultra | $3.50 | $10.50 | 約525円 |
| Llama 4 Maverick(API) | $0.80 | $2.40 | 約120円 |
| GLM-5 | $1.00 | $3.20 | 約150円 |
※ 1ドル=150円で換算
GPT-5.4の入力料金と比較すると10分の1、Claude 4 Opusと比較しても6分の1という価格差だ。MoEアーキテクチャによる計算効率の高さが、そのままAPI料金の安さに直結している。
日本市場への影響
企業のLLM選定に与えるインパクト
日本企業にとって、DeepSeek V4の登場は「LLMの選択肢」を根本的に再考させるものだ。
これまで多くの日本企業は、セキュリティと信頼性を重視してOpenAIやAnthropicのAPIを採用してきた。しかしDeepSeek V4は、同等の性能をオープンウェイトで、しかも6〜10分の1の価格で提供する。特に以下のユースケースでは、DeepSeek V4への移行を検討する企業が増えるだろう。
- 大量テキスト処理: カスタマーサポート、契約書レビュー、翻訳などトークン消費が大きいタスク
- コード生成・補助: HumanEval 93.0という高いコーディング性能を活用した開発支援
- オンプレミス要件: 金融機関や官公庁など、データの外部送信が困難な環境
中国製AIに対する懸念
一方で、中国製AIモデルの利用には日本特有の懸念がある。
- データ主権: DeepSeek APIを利用する場合、入力データが中国のサーバーを経由する可能性
- 地政学的リスク: 米中対立の激化により、将来的にDeepSeek製品の利用が規制される可能性
- サプライチェーンリスク: 米国の半導体輸出規制がDeepSeekの開発能力に影響を与える可能性
これらの懸念に対しては、オープンウェイトの利点を活かして日本国内のクラウド上でセルフホストするという選択肢が有効だ。AWS東京リージョンやGoogle Cloud東京リージョンでDeepSeek V4を動かせば、データは日本国内に留まり、中国サーバーへのデータ送信リスクを回避できる。
MoEアーキテクチャの今後
DeepSeek V4の成功は、MoEアーキテクチャが今後のLLM開発の主流になることを強く示唆している。
GoogleはGeminiの一部にMoEを採用しており、Metaもllama 4でMoEへの移行を進めている。OpenAIもGPTシリーズでMoE的な手法を導入しているとの観測がある。「全パラメータを毎回活性化する」Denseモデルの時代は、効率の観点から終焉に向かいつつある。
DeepSeek V4が示した「1兆パラメータ、32Bアクティブ」という比率は、MoEの効率性がどこまで追求可能かを示す一つのマイルストーンだ。今後は10兆パラメータ超のモデルが、100B以下のアクティブパラメータで動作するような世界も視野に入る。
まとめ——効率革命の次のフェーズ
DeepSeek V4は、LLMの性能競争が「パラメータ数の多さ」から「パラメータの使い方の巧さ」へ移行していることを象徴するモデルだ。1兆パラメータの知識を32Bの計算コストで利用できるという効率性は、AI産業全体のコスト構造を変える可能性を秘めている。
日本のエンジニアや企業が今すぐ取るべきアクションは以下の通りだ。
- DeepSeek V4のAPIを試用する: 公式サイトから無料枠でベンチマークを実施し、自社のユースケースでGPT-5.4やClaudeとの性能差を実測する
- MoEアーキテクチャを理解する: 今後のLLM選定においてMoE vs Denseの違いを判断できるようにする。特にメモリ要件と推論速度のトレードオフを把握する
- セルフホストの可能性を検討する: オンプレミスやプライベートクラウドでの運用が可能かどうか、必要なGPUリソースとコストを試算する
- 競合モデルとの継続的な比較: Claude ProやGPT-5.4 Plusなどのプロプライエタリモデルとの性能・コスト比較を定期的に行い、最適な選択を維持する
DeepSeekショックは終わっていない。むしろV4によって、新たなフェーズに突入した。