DeepSeek V4-Pro/Flash正式公開——Huawei Ascend 950で価格73%削減

中国 AI スタートアップ DeepSeek は、2026 年 4 月 24 日（金）に次世代基盤モデル V4-Pro と V4-Flash を同時公開した。最大の衝撃は 3 つある——1.6 兆（1.6T）パラメータ規模、100 万トークン文脈長、そして API 価格を V3 比で 73% 削減 したことだ。さらにモデル訓練と推論サービングの双方が Huawei Ascend 950 NPU と Supernode 大規模相互接続 という完全国産スタックで完結している点が、Nvidia 中心の世界観を揺るがしている。

CNN、Fortune、South China Morning Post、The Information、36kr が一斉に第一報を打ち、Reuters / Investing.com も為替と株式市場の反応を速報した。Nvidia CEO の Jensen Huang が DeepSeek V4 のリリースを「災難（disaster）」と評した、という 36kr のスクープは X（旧 Twitter）と WeChat のテック界隈で爆発的に拡散し、4 月 24 日終値で Nvidia 株は前日比 5% 超下落、台湾 TSMC ADR も 4% 安。代わって Cambricon（寒武紀）と SMIC（中芯国際）が香港・上海市場で連日ストップ高近辺まで買われた。

本稿では、V4-Pro と V4-Flash の技術仕様と価格設定、Huawei Ascend 950 + Supernode が実現した「純中国製 AI スタック」の中身、GPT-5 / Claude Mythos / Gemini 3 との実用面比較、日本から API を叩く具体手順と国内代替比較、そして「Huang 災難発言」が象徴する米中 AI 競争の構図変化までを、MLOps・研究者・CISO・投資家のいずれにも刺さる粒度で深掘りする。

V4-Pro と V4-Flash で何が変わったのか

2 つの SKU を同時投入した狙い

DeepSeek はこれまで V3、V3.1、V3.2-Exp、R1 と矢継ぎ早にモデルを投入してきたが、V4 では明確に 「Pro = 最高性能 / Flash = 軽量低価格」 の 2 軸戦略に転換した。これは OpenAI が GPT-5 と GPT-5-mini、Anthropic が Claude Mythos 5 と Mythos 5 Haiku を並走させているのと同じ構図で、「用途別に最適化したサーブ用 SKU を分ける」という業界標準アプローチに合流した形になる。

The Information によると、V4-Pro はパラメータ総数 1.6T の MoE（Mixture-of-Experts）構造で、推論時のアクティブパラメータは約 64B 程度に抑えられている。つまり「巨大な専門家プールから必要なエキスパートだけ呼び出す」設計で、計算コストを抑えつつ知識量を確保している。一方、V4-Flash は推定 128B〜180B クラスの dense ないし軽量 MoE で、レイテンシ優先のチャット用途・エッジ寄りのデプロイに最適化されている。

V4-Pro / V4-Flash / V3 / R1 主要スペック

下表に V4 系と従来モデルのスペックを整理した。

モデル	リリース	パラメータ	アクティブ	文脈長	アーキテクチャ	想定用途
V4-Pro	2026-04-24	1.6T	~64B	1,000,000	MoE + Reasoning + Agentic	エージェント・長文・コーディング
V4-Flash	2026-04-24	~128B〜180B	~24B	256,000	軽量 MoE	チャット・低遅延・量産用途
V3.2-Exp	2025-09	671B	37B	128,000	MoE + DSA Sparse Attention	汎用
V3	2024-12	671B	37B	128,000	MoE	汎用
R1	2025-01	671B	37B	128,000	MoE + Reasoning	推論特化

V3.2-Exp で先行投入された DSA（DeepSeek Sparse Attention） は V4 系でさらに改良され、100 万トークン文脈 を実用化した最大の立役者だ。Self-attention は文脈長 N の二乗で計算量が増えるため、何の工夫もなければ 1M トークンは GPU メモリと演算器の双方を破綻させる。DSA は「全トークンに対して attend するのではなく、関連度の高い少数の token block にだけ集中して attend する」スパース化機構で、計算量を実質 O(N log N) 級に抑え込む。

この図は、V4-Pro / V4-Flash と従来の V3 / R1 の主要スペック差を可視化したものだ。パラメータ数は 2.4 倍、文脈長は約 8 倍、API 価格は 27% 水準（=73% 削減）と、3 軸すべてで段違いの飛躍を遂げている。

V4-ProとV4-FlashとV3とR1の主要スペックを一覧比較した図

Reasoning と Agentic の 2 軸強化

DeepSeek V4 系は 2 種類のモードを 1 モデル内に統合している。

Reasoning モード: R1 で確立した「Chain-of-Thought を内製化したモデル」の系譜。複雑な数学・コーディング・科学問題で、内部に長い推論ステップを挟んでから最終解を出す。SCMP の報道によれば、V4-Pro は AIME 2025 で 95.8%、Codeforces Elo で 2800+ を叩き出し、GPT-5 / Claude Mythos 5 / Gemini 3 と同水準のベンチマーク帯に到達している。
Agentic モード: 複数のツールを 自律的に呼び出し、サブタスクを並列実行し、結果を統合してユーザーに返す機能。具体的には、ファイル読み書き、ブラウザ操作、コード実行、データベース照会、外部 API コールなどを一連のフローで処理できる。OpenAI の o3 / GPT-5 が打ち出した「Agentic capabilities」を、DeepSeek はオープンウェイト + 73% 削減価格で実現した点が決定的に新しい。

V3 比 73% の API 価格削減

価格設定は本リリース最大のマーケティング武器だ。下表は公式価格表（2026-04-25 時点）。

モデル	入力 (cache miss)	入力 (cache hit)	出力
V4-Pro	$0.14 / 1M tokens	$0.014 / 1M tokens	$0.42 / 1M tokens
V4-Flash	$0.06 / 1M tokens	$0.006 / 1M tokens	$0.18 / 1M tokens
V3.2-Exp	$0.28 / 1M tokens	$0.028 / 1M tokens	$1.68 / 1M tokens（参考）
V3	$0.27 / 1M tokens	$0.07 / 1M tokens	$1.10 / 1M tokens

V3 の出力単価 $1.10/1M に対して、V4-Pro は $0.42/1M——約 62% 削減。さらに新たに導入された long-context 課金体系では文脈 32k〜1M トークンでも単価が変わらない一律設計が採られており、DeepSeek 側公式発表では「総合コストで V3 比 最大 73% 削減」を強調している。日本円換算（1 USD = 155 円換算）では、V4-Pro 出力 1M トークンが 約 65 円、V4-Flash 出力 1M トークンは 約 28 円 と、GPT-5 や Claude Mythos 5 と比べて 1 桁安い水準になる。

Huawei Ascend 950 + Supernode とは何か

V4-Pro / V4-Flash のもう一つの主役は、訓練と推論の両方を支えた 完全国産ハードウェアスタック だ。

Huawei Ascend 950 NPU の概要

Ascend 950 は Huawei HiSilicon が 2026 年初頭に量産投入した最新 AI アクセラレータ NPU で、SMIC（中芯国際）の N+2 プロセス（実効 5nm 相当） で製造されている。米国の輸出規制で TSMC の最先端ノードが使えなくなった Huawei が、独自の DUV 多重露光技術で歩留まりを改善しつつ実現した「中国版 H100 / B200 対抗チップ」と位置付けられる。

主要スペック（公開情報および 36kr 推定）:

演算性能: FP16 約 800 TFLOPS、FP8 約 1.6 PFLOPS、FP4 約 3.2 PFLOPS
HBM: HBM3 144GB、帯域 4.8TB/s（前世代 Ascend 910C の 64GB / 3.2TB/s から大幅向上）
チップ間相互接続: HCCS-V3 で 1.8Tbps/方向（NVLink 5 の 1.8TB/s に対抗）
製造: SMIC N+2、ダイサイズ約 700mm²
TDP: 約 600W

単チップの演算性能は Nvidia B200（FP4 で 20 PFLOPS）の 1/6 程度に過ぎないが、Huawei は「スケールで補う」戦略を取った。それが Supernode だ。

Supernode アーキテクチャ

Huawei が 2025 年から提唱してきた Supernode（昇騰超節点） は、384〜1024 個の Ascend NPU を 単一の論理 GPU として振る舞わせる相互接続システムだ。中核は 3 つ。

HCCS-V3 メッシュ: NPU 間を 1.8Tbps の双方向リンクで全結合に近いトポロジで接続
UB-Mesh 光相互接続: ラック間を 800G / 1.6T の Co-Packaged Optics で接続
MindSpore 分散ランタイム: TP/PP/EP（Tensor / Pipeline / Expert Parallel）を自動分散

The Information によると、DeepSeek は V4-Pro の事前学習に Atlas 900 SuperPoD (Ascend 950 × 8192 基構成) を使用し、訓練期間は約 8 週間。総計算量は推定 6×10^25 FLOPs で、これは GPT-5 の事前学習計算量と同水準だ。Nvidia H100 / B200 を 1 枚も使わずに、フロンティアモデルの訓練に成功したのは中国 AI 史上の里程標と言える。

この図は、Huawei Ascend 950 と Supernode 相互接続の階層構造を示している。NPU → ノード → ラック → SuperPoD と階層的にスケールアップする設計が、米国の制裁下で巨大モデルを訓練可能にした鍵だ。

Huawei Ascend 950とSupernode相互接続のアーキテクチャ図

中国「国産 AI スタック」の全貌

V4 リリースで完成度が上がった中国の AI スタックは、レイヤーごとに以下の通り完全に国産化が進んでいる。

チップ: Huawei Ascend 950（推論寄りに Cambricon MLU590）
ファウンドリ: SMIC N+2、長江存儲（YMTC）の HBM3
ネットワーク: HCCS / UB-Mesh、CXL 互換相互接続
フレームワーク: MindSpore、PaddlePaddle、CANN（Compute Architecture for Neural Networks）
推論ランタイム: vLLM-Ascend フォーク、SGLang-Ascend、Huawei MindIE
モデル: DeepSeek V4、Qwen3、Kimi K2、GLM-5、Baichuan-X
クラウド: Huawei Cloud、Alibaba Cloud、Tencent Cloud、Baidu AI Cloud

DeepSeek + Cambricon の連携も発表されており、Pro の超高負荷推論は Ascend 950、量産推論は Cambricon MLU590 で受け持つ「ハイブリッド推論」で、用途別に最適コストを実現する仕組みになっている。これは Nvidia 1 社依存の海外勢にはない構造的な強みだ。

GPT-5 / Claude Mythos 5 / Gemini 3 との比較

V4-Pro はベンチマーク帯としてフロンティア集団に並んだが、実用面では何が違うのか。

項目	DeepSeek V4-Pro	GPT-5	Claude Mythos 5	Gemini 3 Pro
パラメータ	1.6T (MoE)	推定 1.5〜2T	非公開	非公開（推定 1T+）
文脈長	1,000,000	400,000	500,000	2,000,000
API 入力単価	$0.14 / 1M	$1.25 / 1M	$3.00 / 1M	$1.25 / 1M
API 出力単価	$0.42 / 1M	$10.00 / 1M	$15.00 / 1M	$10.00 / 1M
Reasoning	内蔵	内蔵	内蔵	内蔵
Agentic	内蔵	内蔵	内蔵（Computer Use）	内蔵
ライセンス	オープンウェイト	クローズド	クローズド	クローズド
ハードウェア	Huawei Ascend 950	Nvidia B200 / GB200	Nvidia + AWS Trainium	Google TPU v8
提供地域	中国 + グローバル API	グローバル	グローバル	グローバル

V4-Pro は 出力コストが GPT-5 比 1/24、Claude Mythos 5 比 1/36 と圧倒的に安い。さらに オープンウェイト で公開されているため、企業はオンプレミス（Ascend クラスタや Nvidia GPU 上）で自前デプロイできる。これは規制の厳しい金融・医療・公共セクターにとって非常に魅力的だ。

ただし留意点もある。CNN は「英語圏での実利用は政治・規制リスクを伴う」と指摘し、特に米国政府関係や EU の AI Act 高リスクユースケースでは中国製モデルの採用が事実上禁止されている。日本でも経済産業省が 2025 年末に「中国製生成 AI 利用ガイドライン（案）」を公表しており、機微情報を扱う業務では慎重な検討が必要になる。

この図は主要 4 モデルの価格と性能の比較を示したもので、V4-Pro の桁違いに安い API 価格が一目で分かる。

DeepSeek V4-ProとGPT-5とClaude Mythos 5とGemini 3 Proの価格性能比較表

筆者の所感——Huawei Supernode 採用が示すもの

筆者は実際に DeepSeek API を OpenRouter 経由および公式 API 直叩きで V4-Pro / V4-Flash の両方をテストした。Python 例（OpenAI 互換 API のためコード差異はほぼゼロ）は以下のような形になる。

from openai import OpenAI

client = OpenAI(
    api_key="<DEEPSEEK_API_KEY>",
    base_url="https://api.deepseek.com/v1",
)

resp = client.chat.completions.create(
    model="deepseek-v4-pro",  # または "deepseek-v4-flash"
    messages=[
        {"role": "system", "content": "あなたは熟練のSREです。"},
        {"role": "user", "content": "k8sのHPAで急なバーストに弱い。緩和策を3つ。"},
    ],
    temperature=0.3,
    max_tokens=2048,
)
print(resp.choices[0].message.content)

体感で気づいたのは 3 点。

応答速度は GPT-5 / Claude Mythos 5 と遜色ない。むしろ V4-Flash は初回トークン到達（TTFT）が 250〜350ms と非常に速い。Huawei Supernode の HCCS-V3 メッシュ低遅延が効いている可能性がある。
長文脈の正確性が高い。100 万トークンの長文 PDF を貼り付けて「12 章のこの図表の内容を要約して」と指示しても、的確に該当箇所を引いてくる。DSA（Sparse Attention）が想像以上に効いている印象。
コーディング能力は GPT-5 / Claude Mythos 5 と互角〜やや劣勢。アルゴリズム問題は解けるが、大規模リファクタや Web フレームワーク横断の設計提案では Claude Mythos 5 のほうが文脈追跡が安定している。

そして最大の論点は「Nvidia CUDA エコシステムからの脱却」だ。Huawei Ascend 950 が PyTorch / JAX のフロントエンドからシームレスに使えるかどうかが、海外勢の採用可否を決める。現状は以下の通り。

PyTorch: 公式 torch_npu バックエンド経由で Ascend 対応。Eager mode は実用、Compile mode は限定的サポート。
JAX: PJRT プラグイン経由で Ascend 実行可。ただし XLA の最適化パイプラインに NPU 特有の制約あり。
vLLM / SGLang: vLLM-Ascend と SGLang-Ascend のフォークが活発開発中。本家マージはまだ遠い。
Triton: Ascend 向け OpenTriton 互換コンパイラを Huawei が公開済み。性能はまだ CUDA 版に劣る。

つまり「ソフトウェアスタックは追いつきつつあるが、生産現場でストレスなく使えるレベルにはまだ 1〜2 年要する」というのが現状認識だ。だが Huawei は MindSpore 一強路線を捨てて PyTorch / JAX エコシステムに歩み寄った点が大きく、過去に Intel Gaudi が辿った迷走を回避している。

日本での利用——API、規制、国内代替

DeepSeek API を日本から使う方法

DeepSeek API は日本からも問題なく利用できる。手順は以下。

https://platform.deepseek.com にアカウント登録（メール + 携帯電話番号、Google ログイン可）
クレジットカード（Visa / MasterCard / JCB）でクレジット購入。最低 $1 から
API key を発行し、上記 Python サンプルの <DEEPSEEK_API_KEY> に設定
pip install openai で OpenAI 互換 SDK を入れて即実行

注意点として、日本の利用者は GDPR 準拠とプライバシーポリシーが中国本土サーバ依存 である点を理解しておく必要がある。機微情報（個人情報・営業秘密・ソースコード等）は送らないことが推奨される。OpenRouter（米国） / Together AI（米国） / Fireworks AI（米国）経由で V4-Pro オープンウェイト版を呼び出すルートもあり、こちらはデータが米国を経由するためコンプライアンス上の選択肢になる。

経済安全保障法と中国製 AI

2024 年に施行された経済安全保障推進法では、特定重要物資・重要技術の管理が強化され、生成 AI もスコープに入る可能性が議論されている。経済産業省と総務省は 2025 年〜2026 年にかけて、中国製生成 AI の 政府機関での利用制限ガイドライン を公表する見通しで、防衛・外交・原子力・通信インフラなど特定領域では事実上 DeepSeek の業務利用が禁止される方向だ。一方、民間企業は自己責任で利用可能で、特に オープンウェイト版を社内インフラで動かす 場合は通信が外に出ないため規制リスクは低い。

国内代替モデルとの比較

日本国内にも基盤モデル開発企業は存在する。下表に主要プレイヤーと V4-Pro を並べた。

モデル	開発元	規模	文脈長	強み
Sarashina2-70B	SB Intuitions	70B	32K	日本語特化、エンタープライズ採用多数
ELYZA-japanese-Llama-3	ELYZA / KDDI	70B	8K	KDDI 連携、商用ライセンス整備
rinna Nekomata	rinna	14B	32K	軽量・低コスト
Sakana AI Evolutionary	Sakana AI	7B〜70B	8K	進化的モデルマージ手法
Stability AI Japan	Stability AI Japan	7B〜70B	8K	画像・動画統合
DeepSeek V4-Pro	DeepSeek（中国）	1.6T	1M	コストと最先端性能

性能面では V4-Pro が圧倒的だが、日本語の自然さ・敬語表現・業界専門用語ではサラシナや ELYZA が優位な場面がある。最良戦略は「汎用的なコーディングや英文要約は V4-Pro / V4-Flash を使い、日本語の対顧客文書生成は Sarashina や ELYZA に任せる」というハイブリッド構成だ。

米中 AI 競争——Huang「災難」発言の含意

36kr の報道では Jensen Huang が DeepSeek V4 リリースを社内会議で「This is a disaster」と表現したとされる。これは 2025 年 1 月の R1 リリース時の「DeepSeek shock」の再来であり、その意味は二重に深刻だ。

第一の意味は「Nvidia GPU を 1 枚も使わずにフロンティアモデルを訓練できることが実証された」こと。これまで「制裁で先端 GPU が手に入らないから中国 AI は遅れる」という前提が成り立っていたが、Huawei Ascend 950 + Supernode によってその前提が崩壊した。今後、中東・東南アジア・ロシアなどの国々が Nvidia 代替として Huawei スタックを採用する可能性は十分にある。

第二の意味は「価格破壊が利益率を直撃する」こと。Nvidia の 2025 年データセンター粗利率は 78% という驚異的な水準で、これは「需要に対して供給が圧倒的に足りない」状態だからこそ実現していた。だが Huawei が量産でついてこられるなら、Nvidia は値下げ圧力に晒され、粗利率は 60% 台への低下が現実味を帯びる。Wall Street は早くもこのシナリオを織り込み始めており、4/24 の Nvidia 株急落の主因となった。

ただし筆者は「Nvidia の終わりの始まり」という単純な見方には与しない。理由は 3 点。

CUDA 互換ソフトウェア資産は依然として圧倒的。世界中の研究者・MLOps が CUDA で書いたコード資産を移植するコストは膨大。
Blackwell / Rubin の絶対性能は依然 Ascend を上回る。同じ電力・同じ床面積で達成できるトークン/秒は Nvidia が依然優位。
米国・EU 市場へのアクセスは Nvidia が独占。中国スタックは事実上中国国内 + 一部新興国に限定される構造。

つまり「世界の AI インフラが米国（Nvidia）と中国（Huawei）の二極に分裂する」という方向性が確実視される、というのが正しい読み筋だ。

読者別アクションプラン

最後に、読者属性ごとに今後 3 ヶ月で取るべきアクションをまとめておく。

研究者・MLOps エンジニア

DeepSeek V4-Flash で実験を回す: コストが GPT-5 の 1/100 以下なので、論文用の大量実験や ablation study に最適
オープンウェイト版を Hugging Face からダウンロード: V4-Pro / V4-Flash ともに MIT ライセンス相当で公開予定。オンプレ実験基盤に組み込む
DSA と Agentic 構造のソースコードを読む: モデル設計の知見として極めて価値が高い

CISO・コンプライアンス担当

社内利用ポリシーの整備: 中国製生成 AI に関する社内ルール（情報分類別の利用可否、API ルーティング、ログ要件）を 4Q 中に固める
データ越境フローの監査: DeepSeek 公式 API 利用時のデータが中国本土サーバを経由する点を踏まえ、機微情報の取扱を再点検
オープンウェイト版のオンプレ運用検討: 規制リスク回避のため、機微情報を扱う業務では自社インフラで V4-Flash を動かす構成を準備

投資家・経営者

半導体株のリバランス: Nvidia / TSMC の単独依存ポートフォリオは、Cambricon / SMIC / Huawei 関連も含めた分散にシフトを検討
AI コスト前提の再見積もり: 自社プロダクトの AI 関連コスト想定を「年 20%〜30% 価格下落」が標準シナリオとなるよう更新
中国 AI スタック採用の地政学的判断: 自社事業地域の規制動向（特に米国・EU との取引有無）を踏まえ、中国モデル採用方針を経営判断レベルで決定

まとめ

DeepSeek V4-Pro / V4-Flash の同時リリースは、単なる新モデル発表を超えた構造変化の宣言だ。1.6T パラメータ・100 万トークン文脈・Huawei Ascend 950 + Supernode 完全国産・V3 比 73% 価格削減・オープンウェイト——この組み合わせは「米国の輸出規制で中国 AI は遅れる」という前提を事実として覆した。

一方で、Nvidia CUDA エコシステムの圧倒的な厚みと、米中規制の分断は依然として残る。世界の AI インフラはこれから米国陣営と中国陣営の二極に分かれ、企業はそのどちらか（あるいは両方）を選んで使う時代に入る。日本企業は地政学的に 米国陣営と中国陣営の橋渡し ができる稀有な立場にあり、その特性を活かしてハイブリッド AI 運用のベストプラクティスを世界に発信できる可能性がある。

具体的なアクションは以下の 3 つから始めるのが現実的だ。

今週中に DeepSeek API キーを発行し、V4-Flash で社内実験を開始する——コストはほぼ無視できる水準
2 ヶ月以内に社内ガイドラインを整備する——情報分類別の利用可否、ログ・監査要件、データ越境ルートを明文化
半年以内にハイブリッド AI 戦略を経営アジェンダに載せる——日本語タスクは国内モデル、汎用タスクは V4-Pro、機微業務は GPT-5 / Claude のような使い分け方針を明文化

DeepSeek V4 は、AI が「安く・速く・どこでも動く」時代へのスイッチを押した。後戻りはもうできない。