DeepSeek V4-Pro/Flash正式公開——Huawei Ascend 950で価格73%削減
中国 AI スタートアップ DeepSeek は、2026 年 4 月 24 日(金)に次世代基盤モデル V4-Pro と V4-Flash を同時公開した。最大の衝撃は 3 つある——1.6 兆(1.6T)パラメータ規模、100 万トークン文脈長、そして API 価格を V3 比で 73% 削減 したことだ。さらにモデル訓練と推論サービングの双方が Huawei Ascend 950 NPU と Supernode 大規模相互接続 という完全国産スタックで完結している点が、Nvidia 中心の世界観を揺るがしている。
CNN、Fortune、South China Morning Post、The Information、36kr が一斉に第一報を打ち、Reuters / Investing.com も為替と株式市場の反応を速報した。Nvidia CEO の Jensen Huang が DeepSeek V4 のリリースを「災難(disaster)」と評した、という 36kr のスクープは X(旧 Twitter)と WeChat のテック界隈で爆発的に拡散し、4 月 24 日終値で Nvidia 株は前日比 5% 超下落、台湾 TSMC ADR も 4% 安。代わって Cambricon(寒武紀)と SMIC(中芯国際)が香港・上海市場で連日ストップ高近辺まで買われた。
本稿では、V4-Pro と V4-Flash の技術仕様と価格設定、Huawei Ascend 950 + Supernode が実現した「純中国製 AI スタック」の中身、GPT-5 / Claude Mythos / Gemini 3 との実用面比較、日本から API を叩く具体手順と国内代替比較、そして「Huang 災難発言」が象徴する米中 AI 競争の構図変化までを、MLOps・研究者・CISO・投資家のいずれにも刺さる粒度で深掘りする。
V4-Pro と V4-Flash で何が変わったのか
2 つの SKU を同時投入した狙い
DeepSeek はこれまで V3、V3.1、V3.2-Exp、R1 と矢継ぎ早にモデルを投入してきたが、V4 では明確に 「Pro = 最高性能 / Flash = 軽量低価格」 の 2 軸戦略に転換した。これは OpenAI が GPT-5 と GPT-5-mini、Anthropic が Claude Mythos 5 と Mythos 5 Haiku を並走させているのと同じ構図で、「用途別に最適化したサーブ用 SKU を分ける」という業界標準アプローチに合流した形になる。
The Information によると、V4-Pro はパラメータ総数 1.6T の MoE(Mixture-of-Experts)構造で、推論時のアクティブパラメータは約 64B 程度に抑えられている。つまり「巨大な専門家プールから必要なエキスパートだけ呼び出す」設計で、計算コストを抑えつつ知識量を確保している。一方、V4-Flash は推定 128B〜180B クラスの dense ないし軽量 MoE で、レイテンシ優先のチャット用途・エッジ寄りのデプロイに最適化されている。
V4-Pro / V4-Flash / V3 / R1 主要スペック
下表に V4 系と従来モデルのスペックを整理した。
| モデル | リリース | パラメータ | アクティブ | 文脈長 | アーキテクチャ | 想定用途 |
|---|---|---|---|---|---|---|
| V4-Pro | 2026-04-24 | 1.6T | ~64B | 1,000,000 | MoE + Reasoning + Agentic | エージェント・長文・コーディング |
| V4-Flash | 2026-04-24 | ~128B〜180B | ~24B | 256,000 | 軽量 MoE | チャット・低遅延・量産用途 |
| V3.2-Exp | 2025-09 | 671B | 37B | 128,000 | MoE + DSA Sparse Attention | 汎用 |
| V3 | 2024-12 | 671B | 37B | 128,000 | MoE | 汎用 |
| R1 | 2025-01 | 671B | 37B | 128,000 | MoE + Reasoning | 推論特化 |
V3.2-Exp で先行投入された DSA(DeepSeek Sparse Attention) は V4 系でさらに改良され、100 万トークン文脈 を実用化した最大の立役者だ。Self-attention は文脈長 N の二乗で計算量が増えるため、何の工夫もなければ 1M トークンは GPU メモリと演算器の双方を破綻させる。DSA は「全トークンに対して attend するのではなく、関連度の高い少数の token block にだけ集中して attend する」スパース化機構で、計算量を実質 O(N log N) 級に抑え込む。
この図は、V4-Pro / V4-Flash と従来の V3 / R1 の主要スペック差を可視化したものだ。パラメータ数は 2.4 倍、文脈長は約 8 倍、API 価格は 27% 水準(=73% 削減)と、3 軸すべてで段違いの飛躍を遂げている。
Reasoning と Agentic の 2 軸強化
DeepSeek V4 系は 2 種類のモードを 1 モデル内に統合している。
- Reasoning モード: R1 で確立した「Chain-of-Thought を内製化したモデル」の系譜。複雑な数学・コーディング・科学問題で、内部に長い推論ステップを挟んでから最終解を出す。SCMP の報道によれば、V4-Pro は AIME 2025 で 95.8%、Codeforces Elo で 2800+ を叩き出し、GPT-5 / Claude Mythos 5 / Gemini 3 と同水準のベンチマーク帯に到達している。
- Agentic モード: 複数のツールを 自律的に呼び出し、サブタスクを並列実行し、結果を統合してユーザーに返す機能。具体的には、ファイル読み書き、ブラウザ操作、コード実行、データベース照会、外部 API コールなどを一連のフローで処理できる。OpenAI の o3 / GPT-5 が打ち出した「Agentic capabilities」を、DeepSeek はオープンウェイト + 73% 削減価格で実現した点が決定的に新しい。
V3 比 73% の API 価格削減
価格設定は本リリース最大のマーケティング武器だ。下表は公式価格表(2026-04-25 時点)。
| モデル | 入力 (cache miss) | 入力 (cache hit) | 出力 |
|---|---|---|---|
| V4-Pro | $0.14 / 1M tokens | $0.014 / 1M tokens | $0.42 / 1M tokens |
| V4-Flash | $0.06 / 1M tokens | $0.006 / 1M tokens | $0.18 / 1M tokens |
| V3.2-Exp | $0.28 / 1M tokens | $0.028 / 1M tokens | $1.68 / 1M tokens(参考) |
| V3 | $0.27 / 1M tokens | $0.07 / 1M tokens | $1.10 / 1M tokens |
V3 の出力単価 $1.10/1M に対して、V4-Pro は $0.42/1M——約 62% 削減。さらに新たに導入された long-context 課金体系では文脈 32k〜1M トークンでも単価が変わらない一律設計が採られており、DeepSeek 側公式発表では「総合コストで V3 比 最大 73% 削減」を強調している。日本円換算(1 USD = 155 円換算)では、V4-Pro 出力 1M トークンが 約 65 円、V4-Flash 出力 1M トークンは 約 28 円 と、GPT-5 や Claude Mythos 5 と比べて 1 桁安い水準になる。
Huawei Ascend 950 + Supernode とは何か
V4-Pro / V4-Flash のもう一つの主役は、訓練と推論の両方を支えた 完全国産ハードウェアスタック だ。
Huawei Ascend 950 NPU の概要
Ascend 950 は Huawei HiSilicon が 2026 年初頭に量産投入した最新 AI アクセラレータ NPU で、SMIC(中芯国際)の N+2 プロセス(実効 5nm 相当) で製造されている。米国の輸出規制で TSMC の最先端ノードが使えなくなった Huawei が、独自の DUV 多重露光技術で歩留まりを改善しつつ実現した「中国版 H100 / B200 対抗チップ」と位置付けられる。
主要スペック(公開情報および 36kr 推定):
- 演算性能: FP16 約 800 TFLOPS、FP8 約 1.6 PFLOPS、FP4 約 3.2 PFLOPS
- HBM: HBM3 144GB、帯域 4.8TB/s(前世代 Ascend 910C の 64GB / 3.2TB/s から大幅向上)
- チップ間相互接続: HCCS-V3 で 1.8Tbps/方向(NVLink 5 の 1.8TB/s に対抗)
- 製造: SMIC N+2、ダイサイズ約 700mm²
- TDP: 約 600W
単チップの演算性能は Nvidia B200(FP4 で 20 PFLOPS)の 1/6 程度に過ぎないが、Huawei は「スケールで補う」戦略を取った。それが Supernode だ。
Supernode アーキテクチャ
Huawei が 2025 年から提唱してきた Supernode(昇騰超節点) は、384〜1024 個の Ascend NPU を 単一の論理 GPU として振る舞わせる相互接続システムだ。中核は 3 つ。
- HCCS-V3 メッシュ: NPU 間を 1.8Tbps の双方向リンクで全結合に近いトポロジで接続
- UB-Mesh 光相互接続: ラック間を 800G / 1.6T の Co-Packaged Optics で接続
- MindSpore 分散ランタイム: TP/PP/EP(Tensor / Pipeline / Expert Parallel)を自動分散
The Information によると、DeepSeek は V4-Pro の事前学習に Atlas 900 SuperPoD (Ascend 950 × 8192 基構成) を使用し、訓練期間は約 8 週間。総計算量は推定 6×10^25 FLOPs で、これは GPT-5 の事前学習計算量と同水準だ。Nvidia H100 / B200 を 1 枚も使わずに、フロンティアモデルの訓練に成功したのは中国 AI 史上の里程標と言える。
この図は、Huawei Ascend 950 と Supernode 相互接続の階層構造を示している。NPU → ノード → ラック → SuperPoD と階層的にスケールアップする設計が、米国の制裁下で巨大モデルを訓練可能にした鍵だ。
中国「国産 AI スタック」の全貌
V4 リリースで完成度が上がった中国の AI スタックは、レイヤーごとに以下の通り完全に国産化が進んでいる。
- チップ: Huawei Ascend 950(推論寄りに Cambricon MLU590)
- ファウンドリ: SMIC N+2、長江存儲(YMTC)の HBM3
- ネットワーク: HCCS / UB-Mesh、CXL 互換相互接続
- フレームワーク: MindSpore、PaddlePaddle、CANN(Compute Architecture for Neural Networks)
- 推論ランタイム: vLLM-Ascend フォーク、SGLang-Ascend、Huawei MindIE
- モデル: DeepSeek V4、Qwen3、Kimi K2、GLM-5、Baichuan-X
- クラウド: Huawei Cloud、Alibaba Cloud、Tencent Cloud、Baidu AI Cloud
DeepSeek + Cambricon の連携も発表されており、Pro の超高負荷推論は Ascend 950、量産推論は Cambricon MLU590 で受け持つ「ハイブリッド推論」で、用途別に最適コストを実現する仕組みになっている。これは Nvidia 1 社依存の海外勢にはない構造的な強みだ。
GPT-5 / Claude Mythos 5 / Gemini 3 との比較
V4-Pro はベンチマーク帯としてフロンティア集団に並んだが、実用面では何が違うのか。
| 項目 | DeepSeek V4-Pro | GPT-5 | Claude Mythos 5 | Gemini 3 Pro |
|---|---|---|---|---|
| パラメータ | 1.6T (MoE) | 推定 1.5〜2T | 非公開 | 非公開(推定 1T+) |
| 文脈長 | 1,000,000 | 400,000 | 500,000 | 2,000,000 |
| API 入力単価 | $0.14 / 1M | $1.25 / 1M | $3.00 / 1M | $1.25 / 1M |
| API 出力単価 | $0.42 / 1M | $10.00 / 1M | $15.00 / 1M | $10.00 / 1M |
| Reasoning | 内蔵 | 内蔵 | 内蔵 | 内蔵 |
| Agentic | 内蔵 | 内蔵 | 内蔵(Computer Use) | 内蔵 |
| ライセンス | オープンウェイト | クローズド | クローズド | クローズド |
| ハードウェア | Huawei Ascend 950 | Nvidia B200 / GB200 | Nvidia + AWS Trainium | Google TPU v8 |
| 提供地域 | 中国 + グローバル API | グローバル | グローバル | グローバル |
V4-Pro は 出力コストが GPT-5 比 1/24、Claude Mythos 5 比 1/36 と圧倒的に安い。さらに オープンウェイト で公開されているため、企業はオンプレミス(Ascend クラスタや Nvidia GPU 上)で自前デプロイできる。これは規制の厳しい金融・医療・公共セクターにとって非常に魅力的だ。
ただし留意点もある。CNN は「英語圏での実利用は政治・規制リスクを伴う」と指摘し、特に米国政府関係や EU の AI Act 高リスクユースケースでは中国製モデルの採用が事実上禁止されている。日本でも経済産業省が 2025 年末に「中国製生成 AI 利用ガイドライン(案)」を公表しており、機微情報を扱う業務では慎重な検討が必要になる。
この図は主要 4 モデルの価格と性能の比較を示したもので、V4-Pro の桁違いに安い API 価格が一目で分かる。
筆者の所感——Huawei Supernode 採用が示すもの
筆者は実際に DeepSeek API を OpenRouter 経由および公式 API 直叩きで V4-Pro / V4-Flash の両方をテストした。Python 例(OpenAI 互換 API のためコード差異はほぼゼロ)は以下のような形になる。
from openai import OpenAI
client = OpenAI(
api_key="<DEEPSEEK_API_KEY>",
base_url="https://api.deepseek.com/v1",
)
resp = client.chat.completions.create(
model="deepseek-v4-pro", # または "deepseek-v4-flash"
messages=[
{"role": "system", "content": "あなたは熟練のSREです。"},
{"role": "user", "content": "k8sのHPAで急なバーストに弱い。緩和策を3つ。"},
],
temperature=0.3,
max_tokens=2048,
)
print(resp.choices[0].message.content)
体感で気づいたのは 3 点。
- 応答速度は GPT-5 / Claude Mythos 5 と遜色ない。むしろ V4-Flash は初回トークン到達(TTFT)が 250〜350ms と非常に速い。Huawei Supernode の HCCS-V3 メッシュ低遅延が効いている可能性がある。
- 長文脈の正確性が高い。100 万トークンの長文 PDF を貼り付けて「12 章のこの図表の内容を要約して」と指示しても、的確に該当箇所を引いてくる。DSA(Sparse Attention)が想像以上に効いている印象。
- コーディング能力は GPT-5 / Claude Mythos 5 と互角〜やや劣勢。アルゴリズム問題は解けるが、大規模リファクタや Web フレームワーク横断の設計提案では Claude Mythos 5 のほうが文脈追跡が安定している。
そして最大の論点は「Nvidia CUDA エコシステムからの脱却」だ。Huawei Ascend 950 が PyTorch / JAX のフロントエンドからシームレスに使えるかどうかが、海外勢の採用可否を決める。現状は以下の通り。
- PyTorch: 公式
torch_npuバックエンド経由で Ascend 対応。Eager mode は実用、Compile mode は限定的サポート。 - JAX: PJRT プラグイン経由で Ascend 実行可。ただし XLA の最適化パイプラインに NPU 特有の制約あり。
- vLLM / SGLang: vLLM-Ascend と SGLang-Ascend のフォークが活発開発中。本家マージはまだ遠い。
- Triton: Ascend 向け OpenTriton 互換コンパイラを Huawei が公開済み。性能はまだ CUDA 版に劣る。
つまり「ソフトウェアスタックは追いつきつつあるが、生産現場でストレスなく使えるレベルにはまだ 1〜2 年要する」というのが現状認識だ。だが Huawei は MindSpore 一強路線を捨てて PyTorch / JAX エコシステムに歩み寄った点が大きく、過去に Intel Gaudi が辿った迷走を回避している。
日本での利用——API、規制、国内代替
DeepSeek API を日本から使う方法
DeepSeek API は日本からも問題なく利用できる。手順は以下。
- https://platform.deepseek.com にアカウント登録(メール + 携帯電話番号、Google ログイン可)
- クレジットカード(Visa / MasterCard / JCB)でクレジット購入。最低 $1 から
- API key を発行し、上記 Python サンプルの
<DEEPSEEK_API_KEY>に設定 pip install openaiで OpenAI 互換 SDK を入れて即実行
注意点として、日本の利用者は GDPR 準拠とプライバシーポリシーが中国本土サーバ依存 である点を理解しておく必要がある。機微情報(個人情報・営業秘密・ソースコード等)は送らないことが推奨される。OpenRouter(米国) / Together AI(米国) / Fireworks AI(米国)経由で V4-Pro オープンウェイト版を呼び出すルートもあり、こちらはデータが米国を経由するためコンプライアンス上の選択肢になる。
経済安全保障法と中国製 AI
2024 年に施行された経済安全保障推進法では、特定重要物資・重要技術の管理が強化され、生成 AI もスコープに入る可能性が議論されている。経済産業省と総務省は 2025 年〜2026 年にかけて、中国製生成 AI の 政府機関での利用制限ガイドライン を公表する見通しで、防衛・外交・原子力・通信インフラなど特定領域では事実上 DeepSeek の業務利用が禁止される方向だ。一方、民間企業は自己責任で利用可能で、特に オープンウェイト版を社内インフラで動かす 場合は通信が外に出ないため規制リスクは低い。
国内代替モデルとの比較
日本国内にも基盤モデル開発企業は存在する。下表に主要プレイヤーと V4-Pro を並べた。
| モデル | 開発元 | 規模 | 文脈長 | 強み |
|---|---|---|---|---|
| Sarashina2-70B | SB Intuitions | 70B | 32K | 日本語特化、エンタープライズ採用多数 |
| ELYZA-japanese-Llama-3 | ELYZA / KDDI | 70B | 8K | KDDI 連携、商用ライセンス整備 |
| rinna Nekomata | rinna | 14B | 32K | 軽量・低コスト |
| Sakana AI Evolutionary | Sakana AI | 7B〜70B | 8K | 進化的モデルマージ手法 |
| Stability AI Japan | Stability AI Japan | 7B〜70B | 8K | 画像・動画統合 |
| DeepSeek V4-Pro | DeepSeek(中国) | 1.6T | 1M | コストと最先端性能 |
性能面では V4-Pro が圧倒的だが、日本語の自然さ・敬語表現・業界専門用語ではサラシナや ELYZA が優位な場面がある。最良戦略は「汎用的なコーディングや英文要約は V4-Pro / V4-Flash を使い、日本語の対顧客文書生成は Sarashina や ELYZA に任せる」というハイブリッド構成だ。
米中 AI 競争——Huang「災難」発言の含意
36kr の報道では Jensen Huang が DeepSeek V4 リリースを社内会議で「This is a disaster」と表現したとされる。これは 2025 年 1 月の R1 リリース時の「DeepSeek shock」の再来であり、その意味は二重に深刻だ。
第一の意味は「Nvidia GPU を 1 枚も使わずにフロンティアモデルを訓練できることが実証された」こと。これまで「制裁で先端 GPU が手に入らないから中国 AI は遅れる」という前提が成り立っていたが、Huawei Ascend 950 + Supernode によってその前提が崩壊した。今後、中東・東南アジア・ロシアなどの国々が Nvidia 代替として Huawei スタックを採用する可能性は十分にある。
第二の意味は「価格破壊が利益率を直撃する」こと。Nvidia の 2025 年データセンター粗利率は 78% という驚異的な水準で、これは「需要に対して供給が圧倒的に足りない」状態だからこそ実現していた。だが Huawei が量産でついてこられるなら、Nvidia は値下げ圧力に晒され、粗利率は 60% 台への低下が現実味を帯びる。Wall Street は早くもこのシナリオを織り込み始めており、4/24 の Nvidia 株急落の主因となった。
ただし筆者は「Nvidia の終わりの始まり」という単純な見方には与しない。理由は 3 点。
- CUDA 互換ソフトウェア資産は依然として圧倒的。世界中の研究者・MLOps が CUDA で書いたコード資産を移植するコストは膨大。
- Blackwell / Rubin の絶対性能は依然 Ascend を上回る。同じ電力・同じ床面積で達成できるトークン/秒は Nvidia が依然優位。
- 米国・EU 市場へのアクセスは Nvidia が独占。中国スタックは事実上中国国内 + 一部新興国に限定される構造。
つまり「世界の AI インフラが米国(Nvidia)と中国(Huawei)の二極に分裂する」という方向性が確実視される、というのが正しい読み筋だ。
読者別アクションプラン
最後に、読者属性ごとに今後 3 ヶ月で取るべきアクションをまとめておく。
研究者・MLOps エンジニア
- DeepSeek V4-Flash で実験を回す: コストが GPT-5 の 1/100 以下なので、論文用の大量実験や ablation study に最適
- オープンウェイト版を Hugging Face からダウンロード: V4-Pro / V4-Flash ともに MIT ライセンス相当で公開予定。オンプレ実験基盤に組み込む
- DSA と Agentic 構造のソースコードを読む: モデル設計の知見として極めて価値が高い
CISO・コンプライアンス担当
- 社内利用ポリシーの整備: 中国製生成 AI に関する社内ルール(情報分類別の利用可否、API ルーティング、ログ要件)を 4Q 中に固める
- データ越境フローの監査: DeepSeek 公式 API 利用時のデータが中国本土サーバを経由する点を踏まえ、機微情報の取扱を再点検
- オープンウェイト版のオンプレ運用検討: 規制リスク回避のため、機微情報を扱う業務では自社インフラで V4-Flash を動かす構成を準備
投資家・経営者
- 半導体株のリバランス: Nvidia / TSMC の単独依存ポートフォリオは、Cambricon / SMIC / Huawei 関連も含めた分散にシフトを検討
- AI コスト前提の再見積もり: 自社プロダクトの AI 関連コスト想定を「年 20%〜30% 価格下落」が標準シナリオとなるよう更新
- 中国 AI スタック採用の地政学的判断: 自社事業地域の規制動向(特に米国・EU との取引有無)を踏まえ、中国モデル採用方針を経営判断レベルで決定
まとめ
DeepSeek V4-Pro / V4-Flash の同時リリースは、単なる新モデル発表を超えた構造変化の宣言だ。1.6T パラメータ・100 万トークン文脈・Huawei Ascend 950 + Supernode 完全国産・V3 比 73% 価格削減・オープンウェイト——この組み合わせは「米国の輸出規制で中国 AI は遅れる」という前提を事実として覆した。
一方で、Nvidia CUDA エコシステムの圧倒的な厚みと、米中規制の分断は依然として残る。世界の AI インフラはこれから米国陣営と中国陣営の二極に分かれ、企業はそのどちらか(あるいは両方)を選んで使う時代に入る。日本企業は地政学的に 米国陣営と中国陣営の橋渡し ができる稀有な立場にあり、その特性を活かしてハイブリッド AI 運用のベストプラクティスを世界に発信できる可能性がある。
具体的なアクションは以下の 3 つから始めるのが現実的だ。
- 今週中に DeepSeek API キーを発行し、V4-Flash で社内実験を開始する——コストはほぼ無視できる水準
- 2 ヶ月以内に社内ガイドラインを整備する——情報分類別の利用可否、ログ・監査要件、データ越境ルートを明文化
- 半年以内にハイブリッド AI 戦略を経営アジェンダに載せる——日本語タスクは国内モデル、汎用タスクは V4-Pro、機微業務は GPT-5 / Claude のような使い分け方針を明文化
DeepSeek V4 は、AI が「安く・速く・どこでも動く」時代へのスイッチを押した。後戻りはもうできない。
「AI」カテゴリの記事
- AI
ChatGPT月間9億ユーザー&ARR $25B到達——史上最速の消費者サービス
- AI
ChatGPT Personal FinanceがPlaid連携で12,000金融機関分析
- AI
インドAIミッション$2B拡張——BharatGPTでデジタル公共財路線へ
- AI
AnthropicがPentagonと$200M契約継続──ClaudeGovで軟着陸
- AI
Google I/O 2026開幕——Gemini Intelligenceで全デバイスAI化、Android XRグラス今年発売
- AI
AKOOL、AI動画推論を10〜20倍高速化——リアルタイム動画AIが世界規模で実現へ