Nvidia Nemotron 3 Super——120Bのエンタープライズコーディングモデル

Nvidiaが2026年3月18日、エンタープライズ向けコーディング特化AINemotron 3 Superを正式リリースした。120B（1,200億）パラメータという大規模なモデルでありながら、コード生成・レビュー・デバッグ・リファクタリングに特化した設計が最大の特徴だ。HumanEval+で92.4点、SWE-Bench（実プロジェクトのバグ修正タスク）で58.7点と、既存のコーディング特化モデルを全ベンチマークで上回るスコアを記録している。

これまでのNemotronシリーズが汎用LLMとして設計されていたのに対し、Nemotron 3 Superは明確にソフトウェア開発のワークフローに最適化されている。企業のソースコードをクラウドに送信することなくオンプレミスで運用できる点が、セキュリティ意識の高いエンタープライズ企業にとって大きな魅力だ。

Nemotron 3 Superとは何か

Nemotronシリーズの位置づけ

NvidiaのNemotronシリーズは、同社がGPU（ハードウェア）だけでなくAIモデル（ソフトウェア）でも存在感を示すために開発しているLLMファミリーだ。

モデル	リリース時期	パラメータ	用途	ライセンス
Nemotron-3 8B	2024年Q2	8B	汎用	商用可
Nemotron-4 340B	2024年Q4	340B	汎用・エンタープライズ	商用可
Nemotron-3 Super	2025年Q1	49B	汎用・推論	Nvidia Open Model
Nemotron 3 Super	2026年3月	120B	コーディング特化	Nvidia Open Model

2026年のNemotron 3 Super 120Bは、シリーズ初のドメイン特化モデルだ。汎用性を犠牲にしてコーディング性能に全振りしたこの設計判断は、エンタープライズ市場におけるNvidiaの戦略的な方向転換を示している。

なぜコーディング特化なのか

Nvidiaがコーディング特化モデルを開発した背景には、エンタープライズAI市場の明確なトレンドがある。

2026年のMcKinseyの調査によると、企業がAIに最も投資している分野の第1位は**ソフトウェア開発の効率化（67%の企業が導入済みまたは導入予定）**だ。コード生成AI市場は2025年の$12Bから2028年には$45Bに成長すると予測されており（Gartner推定）、Nvidiaはこの成長市場に自社モデルで参入する形だ。

さらに、Nvidiaには独自の競争優位性がある。自社GPU上で最適化されたモデルを提供できるという点だ。Nemotron 3 SuperはNvidiaのTensorRT-LLMで最適化されており、同社のH100/H200/Blackwell GPUで最高の推論速度を発揮する。他社のGPUではこの最適化の恩恵を受けられないため、実質的にNvidia GPU購入のインセンティブにもなっている。

技術仕様と設計

アーキテクチャ

Nemotron 3 Superは、Dense（密結合）Transformerアーキテクチャを採用している。MoE（Mixture-of-Experts）が主流化する中であえてDenseを選択した理由は、コーディングタスクにおける予測可能なレイテンシーを重視したためだとNvidiaは説明している。

項目	仕様
パラメータ数	120B（1,200億）
アーキテクチャ	Dense Transformer Decoder-Only
コンテキスト長	256kトークン（約20万行のコード）
訓練トークン数	20T以上（コード80%・自然言語20%）
対応言語	Python, Java, C++, TypeScript, Go, Rust, C#, PHP, Ruby, Kotlin, Swift等80言語以上
ライセンス	Nvidia Open Model License
推論最適化	TensorRT-LLM 対応
GPU要件	H100 80GB × 2（FP16） / H200 × 1（FP8）

注目すべきは256kトークンのコンテキスト長だ。これは約20万行のソースコードに相当し、中規模のプロジェクト全体をコンテキストに含めることが可能だ。複数ファイルにまたがるバグの特定や、プロジェクト全体を考慮したリファクタリング提案が実現できる。

訓練データとコーディング特化の仕組み

Nemotron 3 Superの訓練は3段階で行われている。

第1段階: 事前訓練（Pre-training） 20T以上のトークンで事前訓練。データの80%はソースコード（GitHub、GitLab、Bitbucketの公開リポジトリからキュレーション）、残り20%は技術文書、APIドキュメント、Stack Overflow等の自然言語テキストだ。

第2段階: コード固有ファインチューニング（Code-Specific Fine-tuning） ソフトウェア開発の具体的なタスクに特化したデータセットでファインチューニング。以下のタスクが含まれる。

コード生成（自然言語→コード）
バグ修正（エラーログ→修正パッチ）
コードレビュー（Pull Request→レビューコメント）
テスト生成（実装コード→テストコード）
リファクタリング（レガシーコード→モダンコード）
ドキュメント生成（コード→docstring/README）

第3段階: RLHF（人間のフィードバックによる強化学習） プロのソフトウェアエンジニア1,200人以上による評価データを使用。特に「コードの正確性」「セキュリティ」「可読性」の3軸で強化学習が行われた。

ベンチマーク結果の詳細

主要ベンチマーク比較

以下の図は、Nemotron 3 Superと競合するコーディング特化AIモデルの性能比較を示しています。4つの主要ベンチマークでのスコアが一覧化されています。

エンタープライズコーディングAIモデルの性能比較。Nemotron 3 Super、DeepSeek Coder V3、CodeLlama 70B、StarCoder 2、Qwen 2.5 Coderの4指標での比較表

Nemotron 3 Superは全4ベンチマークでトップスコアを記録している。特にSWE-Benchのスコア58.7は、2位のDeepSeek Coder V3（55.2）を3.5ポイント上回っており、実プロジェクトのバグ修正能力で頭一つ抜けている。

ベンチマーク	Nemotron 3 Super	DeepSeek Coder V3	CodeLlama 70B	StarCoder 2	Qwen 2.5 Coder
HumanEval+	92.4	90.1	81.7	72.5	86.3
SWE-Bench	58.7	55.2	38.4	28.6	43.8
LiveCodeBench	62.3	58.2	42.1	35.4	48.9
MultiPL-E (平均)	88.1	85.7	76.3	68.9	80.2
パラメータ	120B	236B (MoE)	70B	15B	32B
コンテキスト長	256k	128k	100k	16k	128k

SWE-Benchでの突出した性能

SWE-Benchは、GitHubの実際のイシュー（バグ報告）をもとに、AIがバグを自動修正できるかを評価するベンチマークだ。単純なコード生成とは異なり、以下の能力が複合的に要求される。

イシューの理解: 自然言語で記述されたバグ報告を正確に解釈
コードベースのナビゲーション: 大規模プロジェクトの中から関連ファイルを特定
修正パッチの生成: 正しいファイルの正しい場所に正しい修正を適用
テストの通過: 既存テストを壊さずに新しいテストもパスする修正

Nemotron 3 Superが58.7点を記録したことは、これらの実践的な開発タスクにおいてAIが人間のジュニアエンジニアに匹敵する能力を持ち始めていることを示唆している。

MultiPL-E: 多言語コーディング能力

MultiPL-Eは、Python以外のプログラミング言語でのコード生成能力を測定するベンチマークだ。多くのコーディングAIモデルがPythonに偏った性能を示す中、Nemotron 3 Superは80言語以上で高い性能を維持している。

言語別のスコア（MultiPL-E）は以下の通りだ。

言語	Nemotron 3 Super	DeepSeek Coder V3	CodeLlama 70B
Python	93.2	91.5	83.4
TypeScript	91.8	88.3	79.1
Java	89.5	86.7	78.2
C++	87.3	84.1	75.8
Go	86.1	82.9	73.4
Rust	84.7	81.5	70.2
C#	88.9	85.2	76.9

特にRust（84.7点）とGo（86.1点）のスコアが高い点は注目だ。これらの言語はPythonと比較して訓練データが少ないにもかかわらず、高い性能を維持しており、Nvidiaの訓練データキュレーションの質の高さが窺える。

用途別の適性

以下の図は、各コーディングAIモデルの用途別適性を星評価で比較したものです。エンタープライズ対応、コード生成、バグ修正など6つの観点での評価が示されています。

コーディングAIモデルの用途別適性マップ。Nemotron 3 Super、DeepSeek Coder V3、CodeLlama、StarCoder 2、Qwen Coderの6観点での星評価比較

Nemotron 3 Superは特にエンタープライズ対応とバグ修正/コードレビューの分野で他モデルを圧倒している。一方、DeepSeek Coder V3はリファクタリングで高い評価を得ており、用途によっては選択の余地がある。

オンプレミス運用とセキュリティ上の利点

なぜオンプレミスが重要なのか

エンタープライズ企業がコーディングAIを導入する際、最大の懸念事項の1つがソースコードのセキュリティだ。GitHub CopilotやChatGPT APIを利用する場合、ソースコードがクラウドに送信される。これは以下のリスクを伴う。

知的財産の流出: プロプライエタリなアルゴリズムやビジネスロジックがサードパーティのサーバーに送信される
規制上のリスク: 金融・医療・防衛など規制の厳しい業界では、コードのクラウド送信がコンプライアンス違反になる可能性がある
データ残留の懸念: 送信されたコードがモデルの再訓練に利用される可能性（多くのプロバイダーはオプトアウトを提供しているが、不安は残る）

Nemotron 3 Superは完全にオンプレミスで運用可能だ。ソースコードが社内ネットワークの外に出ることがなく、上記のリスクをすべて排除できる。

必要なハードウェア構成

構成	GPU	メモリ	推論速度（トークン/秒）	推定コスト
最小構成	H100 80GB × 2	160GB	約30	約$60,000
推奨構成	H200 141GB × 1	141GB (FP8)	約45	約$35,000
高速構成	H200 × 2	282GB	約80	約$70,000
最速構成	B200 × 1	192GB (FP4)	約120	約$40,000

Nvidia Blackwell世代のB200を使用すれば、FP4量子化によって1GPUで120トークン/秒の推論速度を実現できる。これはCursorのようなリアルタイムコーディングアシスタントのバックエンドとしても十分な速度だ。

TensorRT-LLMによる最適化

Nemotron 3 Superは、Nvidiaの推論最適化エンジンTensorRT-LLMとの深い統合が行われている。具体的には以下の最適化が適用されている。

FP8/FP4量子化: 精度を維持しながらメモリ使用量を半減〜4分の1に削減
KVキャッシュ最適化: 256kトークンの長いコンテキストでもメモリ効率を維持
バッチ推論: 複数の開発者からのリクエストを同時処理する際のスループットを最大化
投機的デコーディング: 小さなドラフトモデルと組み合わせて推論速度を2-3倍に高速化

これらの最適化はNvidia GPU専用であり、AMD MI300XやIntel Gaudi 3では利用できない。これはNvidiaのエコシステム囲い込み戦略の一環とも言えるが、実際の推論速度の差は無視できないレベルだ。

競合モデルとの詳細比較

DeepSeek Coder V3との比較

DeepSeek Coder V3は236BパラメータのMoEアーキテクチャを採用しており、総パラメータ数ではNemotron 3 Superの約2倍だ。しかしMoEの特性上、推論時のアクティブパラメータは約25Bに抑えられている。

比較項目	Nemotron 3 Super	DeepSeek Coder V3
総パラメータ	120B (Dense)	236B (MoE, 25Bアクティブ)
推論速度	中速（全パラメータがアクティブ）	高速（25Bのみアクティブ）
メモリ要件	高（120B全体をロード）	超高（236B全体をロード）
コーディング性能	全指標で上位	多くの指標で2位
ライセンス	Nvidia Open Model	MIT
オフライン利用	完全対応	完全対応
GPU最適化	Nvidia GPU専用最適化あり	汎用

Nemotron 3 Superの明確な優位性はTensorRT-LLM最適化によるNvidia GPU上での推論速度とSWE-Benchで示された実践的バグ修正能力にある。一方、DeepSeek Coder V3はMITライセンスの自由度とMoEによるメモリ効率で優れている。

GitHub Copilot・Cursorとの使い分け

Nemotron 3 Superはモデル単体であり、GitHub CopilotやCursorのような統合開発環境（IDE）プラグインではない。ただし、これらのツールのバックエンドとしてNemotron 3 Superを利用することは可能だ。

比較項目	Nemotron 3 Super (自社運用)	GitHub Copilot	Cursor Pro
月額コスト	GPU償却費（$2,000-5,000/台/月）	$19/ユーザー/月	$20/ユーザー/月
ソースコード送信	不要（オンプレミス）	クラウドに送信	クラウドに送信
カスタマイズ	自社コードでファインチューニング可能	不可	不可
IDE統合	別途開発が必要	VS Code, JetBrains等対応	Cursor専用
損益分岐点	開発者100人以上で有利	少人数チーム向き	個人〜小規模チーム

開発者100人以上の大規模組織では、Nemotron 3 Superの自社運用がGitHub Copilotの月額課金を下回る可能性がある。一方、10人以下の小規模チームでは、GitHub CopilotやCursorを利用する方がコスト面で合理的だ。

Nvidia AI Enterpriseとの統合

エンタープライズ向けサポート体制

Nemotron 3 SuperはNvidia AI Enterpriseプラットフォームの一部として提供される。これには以下のサポートが含まれる。

Nvidia NIM（Nvidia Inference Microservices）: コンテナ化されたデプロイメントで、数コマンドでモデルを本番環境に展開
Nemo Customizer: 自社のコードベースでファインチューニングを実行するためのツール
エンタープライズサポート: 24/7の技術サポートとSLA保証
セキュリティアップデート: 脆弱性発見時の迅速なパッチ提供

Nvidia NIMによるデプロイ

Nvidia NIMを使用すると、以下の数コマンドでNemotron 3 Superをデプロイできる。

# Nvidia NIM でのデプロイ例
docker pull nvcr.io/nim/nvidia/nemotron-3-super-120b:latest
docker run --gpus all -p 8000:8000 \
  nvcr.io/nim/nvidia/nemotron-3-super-120b:latest

APIはOpenAI互換フォーマットに対応しているため、既存のGitHub CopilotやCursorの設定を変更するだけで、バックエンドをNemotron 3 Superに切り替えることが可能だ。

自社コードによるファインチューニング

なぜファインチューニングが重要か

汎用のコーディングモデルは、公開リポジトリのコードで訓練されている。しかし企業のソースコードには、社内独自のフレームワーク、命名規則、アーキテクチャパターンが存在する。ファインチューニングにより、これらの社内固有のパターンをモデルに学習させることで、生成コードの品質が大幅に向上する。

Nvidia Nemo Customizerを使用したファインチューニングの効果は以下の通り（Nvidiaの公表データ）。

指標	ファインチューニング前	ファインチューニング後	改善率
コードスタイル一致率	62%	94%	+52%
社内API正確利用率	45%	88%	+96%
コードレビュー通過率	71%	92%	+30%
自動テスト通過率	78%	95%	+22%

特に「社内API正確利用率」が45%から88%に改善される点は重要だ。汎用モデルでは存在しない社内APIを「ハルシネーション」で生成してしまうことがあるが、ファインチューニングにより実在する社内APIを正確に使用するようになる。

料金体系

Nemotron 3 Superの利用には複数のオプションがある。

プラン	内容	料金	日本円換算（1ドル=150円）
Nvidia AI Enterprise	フルサポート付き年間ライセンス	$4,500/GPU/年	約67.5万円/GPU/年
NIM API（クラウド）	Nvidiaホスト型API	$0.003/1Kトークン	約0.45円/1Kトークン
セルフホスト（無料）	Nvidia Open Modelライセンスで自社運用	無料（GPU費用のみ）	GPU費用のみ

注目すべきは**セルフホスト（無料）**オプションだ。Nvidia Open Modelライセンスのもと、モデルの重みを無料でダウンロードし、自社GPUで運用できる。ただし、TensorRT-LLMの商用最適化機能やNemo Customizerの一部機能にはAI Enterpriseライセンスが必要だ。

日本のエンタープライズAI導入における選択肢

日本市場の現状

日本企業のコーディングAI導入率は、2026年3月時点で約35%（IDC Japan推定）。米国の62%と比較すると大きく後れを取っているが、2025年から2026年にかけて急速に伸びている。導入企業の多くはGitHub Copilot（シェア約55%）かCursor（シェア約20%）を利用しており、自社モデルをオンプレミスで運用している企業はまだ少数（約8%）だ。

Nemotron 3 Superが日本企業に適するケース

金融機関: 銀行・証券・保険のソースコードは高度な機密性が求められ、クラウドへの送信が規制上困難。オンプレミスのNemotron 3 Superが最適解
大手SIer: NTTデータ、富士通、日立など大手SIerは、数千人規模の開発者を抱えている。開発者100人以上でGitHub Copilotよりコスト効率が良くなるため、ROIが見込める
自動車メーカー: 車載ソフトウェアの開発にはC/C++のコーディング能力が必要。Nemotron 3 SuperのC++スコア（87.3点）は業界最高クラス
ゲーム会社: 大規模なC++/C#コードベースを持つゲーム会社は、自社エンジンに特化したファインチューニングで大きな恩恵を得られる

導入の障壁

一方で、日本企業がNemotron 3 Superを導入する際の障壁も存在する。

GPU調達: H100/H200の入手は依然として困難。特に日本市場では米国向け出荷が優先されがちで、納期が6-12ヶ月に及ぶケースもある
運用人材: オンプレミスのLLM運用にはMLOps/LLMOpsの知識が必要だが、日本ではこのスキルセットを持つエンジニアが不足している
日本語性能: Nemotron 3 Superはコーディング特化モデルであり、日本語でのコードコメントやドキュメント生成の品質は汎用モデル（Claude、GPT-4o等）に劣る可能性がある
初期投資: GPU 2台で最低$60,000（約900万円）の初期投資が必要。中小企業にとってはハードルが高い

代替選択肢との比較

日本企業が検討すべきコーディングAIの選択肢を整理する。

選択肢	初期コスト	月額コスト（100人）	セキュリティ	カスタマイズ性	導入難易度
Nemotron 3 Super (自社運用)	900万円〜	約30万円（GPU償却）	最高	最高	高
GitHub Copilot Business	0円	約28万円	中	低	低
Cursor Business	0円	約30万円	中	低	低
DeepSeek Coder V3 (自社運用)	1,200万円〜	約40万円（GPU償却）	最高	高	高
Amazon CodeWhisperer Pro	0円	約27万円	中	低	低

100人の開発チームでは、初期投資を3年で償却する場合、Nemotron 3 Superの月額実質コストは約55万円（GPU償却30万円 + 初期投資月割25万円）となる。GitHub Copilotの28万円と比較すると割高だが、セキュリティとカスタマイズ性を重視する企業にとっては正当化できるコスト差だ。

オープンソースAIモデルのエンタープライズ活用トレンド

「AIのRed Hat」モデル

Nemotron 3 Superの登場は、AIモデルのエコシステムがLinuxの歴史を繰り返しつつあることを示唆している。Linuxカーネルは無料で利用可能だが、Red Hat Enterprise Linuxは有償のサポート・保証を付けて企業に提供されている。

Nvidiaが狙うのは、まさにこの「AIのRed Hat」ポジションだ。モデル自体はNvidia Open Modelライセンスで無料公開し、企業向けのサポート・最適化・カスタマイズツールを有償で提供する。このビジネスモデルは、GPU販売とソフトウェアサブスクリプションの両方から収益を得られるため、Nvidiaの利益構造をさらに強化する。

競合他社の動向

Meta（CodeLlama / Llama Code）: Apache 2.0ライセンスの完全オープンソースで攻勢。ただしエンタープライズサポートは自社では提供せず、パートナー経由
Google（Codey / Gemini Code）: Google Cloud Vertex AIとの統合でクラウド利用を推進。オンプレミスオプションは限定的
Anthropic: コーディング特化モデルは未リリースだが、Claude 3.5 Sonnetの汎用コーディング能力は業界最高水準
DeepSeek: MITライセンスの完全オープンソースで、中国市場を中心に急速にシェアを拡大

まとめ

Nvidia Nemotron 3 Superは、120Bパラメータのコーディング特化モデルとして、エンタープライズのソフトウェア開発に新たな選択肢を提供する。全主要ベンチマークでトップスコアを記録した性能、オンプレミス運用によるセキュリティ、TensorRT-LLMとの深い統合による推論速度——これらの要素が組み合わさることで、大規模開発組織にとって非常に魅力的なソリューションとなっている。

ただし、Nemotron 3 Superが万能薬ではないことも認識すべきだ。小規模チームにはGitHub CopilotやCursorの方がコスト効率が良く、オンプレミス運用には相応のインフラ投資と人材が必要だ。自社の開発組織の規模、セキュリティ要件、カスタマイズニーズを冷静に評価した上で、最適な選択を行うことが重要だ。

今すぐ取るべきアクションステップ

自社の開発者数とセキュリティ要件を棚卸し: 開発者100人以上かつソースコードのクラウド送信が困難な場合、Nemotron 3 Superの自社運用を検討する価値がある。GitHub Copilot/Cursorとの損益分岐点シミュレーションを実施しよう
Nvidia NIM APIで性能を事前評価: 自社運用の前に、NvidiaのクラウドAPI（$0.003/1Kトークン）でNemotron 3 Superの性能を自社のコードベースで検証する。特にSWE-Bench的なバグ修正タスクでの実力を確認しよう
GPU調達計画を早期に開始: H200/B200の納期は6-12ヶ月。導入を決定した場合は、GPUの発注をできるだけ早く開始する。NvidiaのDGX Cloud（クラウドGPU）を短期的な代替として活用することも検討する