Nvidia Nemotron 3 Super——120Bのエンタープライズコーディングモデル
Nvidiaが2026年3月18日、エンタープライズ向けコーディング特化AINemotron 3 Superを正式リリースした。120B(1,200億)パラメータという大規模なモデルでありながら、コード生成・レビュー・デバッグ・リファクタリングに特化した設計が最大の特徴だ。HumanEval+で92.4点、SWE-Bench(実プロジェクトのバグ修正タスク)で58.7点と、既存のコーディング特化モデルを全ベンチマークで上回るスコアを記録している。
これまでのNemotronシリーズが汎用LLMとして設計されていたのに対し、Nemotron 3 Superは明確にソフトウェア開発のワークフローに最適化されている。企業のソースコードをクラウドに送信することなくオンプレミスで運用できる点が、セキュリティ意識の高いエンタープライズ企業にとって大きな魅力だ。
Nemotron 3 Superとは何か
Nemotronシリーズの位置づけ
NvidiaのNemotronシリーズは、同社がGPU(ハードウェア)だけでなくAIモデル(ソフトウェア)でも存在感を示すために開発しているLLMファミリーだ。
| モデル | リリース時期 | パラメータ | 用途 | ライセンス |
|---|---|---|---|---|
| Nemotron-3 8B | 2024年Q2 | 8B | 汎用 | 商用可 |
| Nemotron-4 340B | 2024年Q4 | 340B | 汎用・エンタープライズ | 商用可 |
| Nemotron-3 Super | 2025年Q1 | 49B | 汎用・推論 | Nvidia Open Model |
| Nemotron 3 Super | 2026年3月 | 120B | コーディング特化 | Nvidia Open Model |
2026年のNemotron 3 Super 120Bは、シリーズ初のドメイン特化モデルだ。汎用性を犠牲にしてコーディング性能に全振りしたこの設計判断は、エンタープライズ市場におけるNvidiaの戦略的な方向転換を示している。
なぜコーディング特化なのか
Nvidiaがコーディング特化モデルを開発した背景には、エンタープライズAI市場の明確なトレンドがある。
2026年のMcKinseyの調査によると、企業がAIに最も投資している分野の第1位は**ソフトウェア開発の効率化(67%の企業が導入済みまたは導入予定)**だ。コード生成AI市場は2025年の$12Bから2028年には$45Bに成長すると予測されており(Gartner推定)、Nvidiaはこの成長市場に自社モデルで参入する形だ。
さらに、Nvidiaには独自の競争優位性がある。自社GPU上で最適化されたモデルを提供できるという点だ。Nemotron 3 SuperはNvidiaのTensorRT-LLMで最適化されており、同社のH100/H200/Blackwell GPUで最高の推論速度を発揮する。他社のGPUではこの最適化の恩恵を受けられないため、実質的にNvidia GPU購入のインセンティブにもなっている。
技術仕様と設計
アーキテクチャ
Nemotron 3 Superは、Dense(密結合)Transformerアーキテクチャを採用している。MoE(Mixture-of-Experts)が主流化する中であえてDenseを選択した理由は、コーディングタスクにおける予測可能なレイテンシーを重視したためだとNvidiaは説明している。
| 項目 | 仕様 |
|---|---|
| パラメータ数 | 120B(1,200億) |
| アーキテクチャ | Dense Transformer Decoder-Only |
| コンテキスト長 | 256kトークン(約20万行のコード) |
| 訓練トークン数 | 20T以上(コード80%・自然言語20%) |
| 対応言語 | Python, Java, C++, TypeScript, Go, Rust, C#, PHP, Ruby, Kotlin, Swift等80言語以上 |
| ライセンス | Nvidia Open Model License |
| 推論最適化 | TensorRT-LLM 対応 |
| GPU要件 | H100 80GB × 2(FP16) / H200 × 1(FP8) |
注目すべきは256kトークンのコンテキスト長だ。これは約20万行のソースコードに相当し、中規模のプロジェクト全体をコンテキストに含めることが可能だ。複数ファイルにまたがるバグの特定や、プロジェクト全体を考慮したリファクタリング提案が実現できる。
訓練データとコーディング特化の仕組み
Nemotron 3 Superの訓練は3段階で行われている。
第1段階: 事前訓練(Pre-training) 20T以上のトークンで事前訓練。データの80%はソースコード(GitHub、GitLab、Bitbucketの公開リポジトリからキュレーション)、残り20%は技術文書、APIドキュメント、Stack Overflow等の自然言語テキストだ。
第2段階: コード固有ファインチューニング(Code-Specific Fine-tuning) ソフトウェア開発の具体的なタスクに特化したデータセットでファインチューニング。以下のタスクが含まれる。
- コード生成(自然言語→コード)
- バグ修正(エラーログ→修正パッチ)
- コードレビュー(Pull Request→レビューコメント)
- テスト生成(実装コード→テストコード)
- リファクタリング(レガシーコード→モダンコード)
- ドキュメント生成(コード→docstring/README)
第3段階: RLHF(人間のフィードバックによる強化学習) プロのソフトウェアエンジニア1,200人以上による評価データを使用。特に「コードの正確性」「セキュリティ」「可読性」の3軸で強化学習が行われた。
ベンチマーク結果の詳細
主要ベンチマーク比較
以下の図は、Nemotron 3 Superと競合するコーディング特化AIモデルの性能比較を示しています。4つの主要ベンチマークでのスコアが一覧化されています。
Nemotron 3 Superは全4ベンチマークでトップスコアを記録している。特にSWE-Benchのスコア58.7は、2位のDeepSeek Coder V3(55.2)を3.5ポイント上回っており、実プロジェクトのバグ修正能力で頭一つ抜けている。
| ベンチマーク | Nemotron 3 Super | DeepSeek Coder V3 | CodeLlama 70B | StarCoder 2 | Qwen 2.5 Coder |
|---|---|---|---|---|---|
| HumanEval+ | 92.4 | 90.1 | 81.7 | 72.5 | 86.3 |
| SWE-Bench | 58.7 | 55.2 | 38.4 | 28.6 | 43.8 |
| LiveCodeBench | 62.3 | 58.2 | 42.1 | 35.4 | 48.9 |
| MultiPL-E (平均) | 88.1 | 85.7 | 76.3 | 68.9 | 80.2 |
| パラメータ | 120B | 236B (MoE) | 70B | 15B | 32B |
| コンテキスト長 | 256k | 128k | 100k | 16k | 128k |
SWE-Benchでの突出した性能
SWE-Benchは、GitHubの実際のイシュー(バグ報告)をもとに、AIがバグを自動修正できるかを評価するベンチマークだ。単純なコード生成とは異なり、以下の能力が複合的に要求される。
- イシューの理解: 自然言語で記述されたバグ報告を正確に解釈
- コードベースのナビゲーション: 大規模プロジェクトの中から関連ファイルを特定
- 修正パッチの生成: 正しいファイルの正しい場所に正しい修正を適用
- テストの通過: 既存テストを壊さずに新しいテストもパスする修正
Nemotron 3 Superが58.7点を記録したことは、これらの実践的な開発タスクにおいてAIが人間のジュニアエンジニアに匹敵する能力を持ち始めていることを示唆している。
MultiPL-E: 多言語コーディング能力
MultiPL-Eは、Python以外のプログラミング言語でのコード生成能力を測定するベンチマークだ。多くのコーディングAIモデルがPythonに偏った性能を示す中、Nemotron 3 Superは80言語以上で高い性能を維持している。
言語別のスコア(MultiPL-E)は以下の通りだ。
| 言語 | Nemotron 3 Super | DeepSeek Coder V3 | CodeLlama 70B |
|---|---|---|---|
| Python | 93.2 | 91.5 | 83.4 |
| TypeScript | 91.8 | 88.3 | 79.1 |
| Java | 89.5 | 86.7 | 78.2 |
| C++ | 87.3 | 84.1 | 75.8 |
| Go | 86.1 | 82.9 | 73.4 |
| Rust | 84.7 | 81.5 | 70.2 |
| C# | 88.9 | 85.2 | 76.9 |
特にRust(84.7点)とGo(86.1点)のスコアが高い点は注目だ。これらの言語はPythonと比較して訓練データが少ないにもかかわらず、高い性能を維持しており、Nvidiaの訓練データキュレーションの質の高さが窺える。
用途別の適性
以下の図は、各コーディングAIモデルの用途別適性を星評価で比較したものです。エンタープライズ対応、コード生成、バグ修正など6つの観点での評価が示されています。
Nemotron 3 Superは特にエンタープライズ対応とバグ修正/コードレビューの分野で他モデルを圧倒している。一方、DeepSeek Coder V3はリファクタリングで高い評価を得ており、用途によっては選択の余地がある。
オンプレミス運用とセキュリティ上の利点
なぜオンプレミスが重要なのか
エンタープライズ企業がコーディングAIを導入する際、最大の懸念事項の1つがソースコードのセキュリティだ。GitHub CopilotやChatGPT APIを利用する場合、ソースコードがクラウドに送信される。これは以下のリスクを伴う。
- 知的財産の流出: プロプライエタリなアルゴリズムやビジネスロジックがサードパーティのサーバーに送信される
- 規制上のリスク: 金融・医療・防衛など規制の厳しい業界では、コードのクラウド送信がコンプライアンス違反になる可能性がある
- データ残留の懸念: 送信されたコードがモデルの再訓練に利用される可能性(多くのプロバイダーはオプトアウトを提供しているが、不安は残る)
Nemotron 3 Superは完全にオンプレミスで運用可能だ。ソースコードが社内ネットワークの外に出ることがなく、上記のリスクをすべて排除できる。
必要なハードウェア構成
| 構成 | GPU | メモリ | 推論速度(トークン/秒) | 推定コスト |
|---|---|---|---|---|
| 最小構成 | H100 80GB × 2 | 160GB | 約30 | 約$60,000 |
| 推奨構成 | H200 141GB × 1 | 141GB (FP8) | 約45 | 約$35,000 |
| 高速構成 | H200 × 2 | 282GB | 約80 | 約$70,000 |
| 最速構成 | B200 × 1 | 192GB (FP4) | 約120 | 約$40,000 |
Nvidia Blackwell世代のB200を使用すれば、FP4量子化によって1GPUで120トークン/秒の推論速度を実現できる。これはCursorのようなリアルタイムコーディングアシスタントのバックエンドとしても十分な速度だ。
TensorRT-LLMによる最適化
Nemotron 3 Superは、Nvidiaの推論最適化エンジンTensorRT-LLMとの深い統合が行われている。具体的には以下の最適化が適用されている。
- FP8/FP4量子化: 精度を維持しながらメモリ使用量を半減〜4分の1に削減
- KVキャッシュ最適化: 256kトークンの長いコンテキストでもメモリ効率を維持
- バッチ推論: 複数の開発者からのリクエストを同時処理する際のスループットを最大化
- 投機的デコーディング: 小さなドラフトモデルと組み合わせて推論速度を2-3倍に高速化
これらの最適化はNvidia GPU専用であり、AMD MI300XやIntel Gaudi 3では利用できない。これはNvidiaのエコシステム囲い込み戦略の一環とも言えるが、実際の推論速度の差は無視できないレベルだ。
競合モデルとの詳細比較
DeepSeek Coder V3との比較
DeepSeek Coder V3は236BパラメータのMoEアーキテクチャを採用しており、総パラメータ数ではNemotron 3 Superの約2倍だ。しかしMoEの特性上、推論時のアクティブパラメータは約25Bに抑えられている。
| 比較項目 | Nemotron 3 Super | DeepSeek Coder V3 |
|---|---|---|
| 総パラメータ | 120B (Dense) | 236B (MoE, 25Bアクティブ) |
| 推論速度 | 中速(全パラメータがアクティブ) | 高速(25Bのみアクティブ) |
| メモリ要件 | 高(120B全体をロード) | 超高(236B全体をロード) |
| コーディング性能 | 全指標で上位 | 多くの指標で2位 |
| ライセンス | Nvidia Open Model | MIT |
| オフライン利用 | 完全対応 | 完全対応 |
| GPU最適化 | Nvidia GPU専用最適化あり | 汎用 |
Nemotron 3 Superの明確な優位性はTensorRT-LLM最適化によるNvidia GPU上での推論速度とSWE-Benchで示された実践的バグ修正能力にある。一方、DeepSeek Coder V3はMITライセンスの自由度とMoEによるメモリ効率で優れている。
GitHub Copilot・Cursorとの使い分け
Nemotron 3 Superはモデル単体であり、GitHub CopilotやCursorのような統合開発環境(IDE)プラグインではない。ただし、これらのツールのバックエンドとしてNemotron 3 Superを利用することは可能だ。
| 比較項目 | Nemotron 3 Super (自社運用) | GitHub Copilot | Cursor Pro |
|---|---|---|---|
| 月額コスト | GPU償却費($2,000-5,000/台/月) | $19/ユーザー/月 | $20/ユーザー/月 |
| ソースコード送信 | 不要(オンプレミス) | クラウドに送信 | クラウドに送信 |
| カスタマイズ | 自社コードでファインチューニング可能 | 不可 | 不可 |
| IDE統合 | 別途開発が必要 | VS Code, JetBrains等対応 | Cursor専用 |
| 損益分岐点 | 開発者100人以上で有利 | 少人数チーム向き | 個人〜小規模チーム |
開発者100人以上の大規模組織では、Nemotron 3 Superの自社運用がGitHub Copilotの月額課金を下回る可能性がある。一方、10人以下の小規模チームでは、GitHub CopilotやCursorを利用する方がコスト面で合理的だ。
Nvidia AI Enterpriseとの統合
エンタープライズ向けサポート体制
Nemotron 3 SuperはNvidia AI Enterpriseプラットフォームの一部として提供される。これには以下のサポートが含まれる。
- Nvidia NIM(Nvidia Inference Microservices): コンテナ化されたデプロイメントで、数コマンドでモデルを本番環境に展開
- Nemo Customizer: 自社のコードベースでファインチューニングを実行するためのツール
- エンタープライズサポート: 24/7の技術サポートとSLA保証
- セキュリティアップデート: 脆弱性発見時の迅速なパッチ提供
Nvidia NIMによるデプロイ
Nvidia NIMを使用すると、以下の数コマンドでNemotron 3 Superをデプロイできる。
# Nvidia NIM でのデプロイ例
docker pull nvcr.io/nim/nvidia/nemotron-3-super-120b:latest
docker run --gpus all -p 8000:8000 \
nvcr.io/nim/nvidia/nemotron-3-super-120b:latest
APIはOpenAI互換フォーマットに対応しているため、既存のGitHub CopilotやCursorの設定を変更するだけで、バックエンドをNemotron 3 Superに切り替えることが可能だ。
自社コードによるファインチューニング
なぜファインチューニングが重要か
汎用のコーディングモデルは、公開リポジトリのコードで訓練されている。しかし企業のソースコードには、社内独自のフレームワーク、命名規則、アーキテクチャパターンが存在する。ファインチューニングにより、これらの社内固有のパターンをモデルに学習させることで、生成コードの品質が大幅に向上する。
Nvidia Nemo Customizerを使用したファインチューニングの効果は以下の通り(Nvidiaの公表データ)。
| 指標 | ファインチューニング前 | ファインチューニング後 | 改善率 |
|---|---|---|---|
| コードスタイル一致率 | 62% | 94% | +52% |
| 社内API正確利用率 | 45% | 88% | +96% |
| コードレビュー通過率 | 71% | 92% | +30% |
| 自動テスト通過率 | 78% | 95% | +22% |
特に「社内API正確利用率」が45%から88%に改善される点は重要だ。汎用モデルでは存在しない社内APIを「ハルシネーション」で生成してしまうことがあるが、ファインチューニングにより実在する社内APIを正確に使用するようになる。
料金体系
Nemotron 3 Superの利用には複数のオプションがある。
| プラン | 内容 | 料金 | 日本円換算(1ドル=150円) |
|---|---|---|---|
| Nvidia AI Enterprise | フルサポート付き年間ライセンス | $4,500/GPU/年 | 約67.5万円/GPU/年 |
| NIM API(クラウド) | Nvidiaホスト型API | $0.003/1Kトークン | 約0.45円/1Kトークン |
| セルフホスト(無料) | Nvidia Open Modelライセンスで自社運用 | 無料(GPU費用のみ) | GPU費用のみ |
注目すべきは**セルフホスト(無料)**オプションだ。Nvidia Open Modelライセンスのもと、モデルの重みを無料でダウンロードし、自社GPUで運用できる。ただし、TensorRT-LLMの商用最適化機能やNemo Customizerの一部機能にはAI Enterpriseライセンスが必要だ。
日本のエンタープライズAI導入における選択肢
日本市場の現状
日本企業のコーディングAI導入率は、2026年3月時点で約35%(IDC Japan推定)。米国の62%と比較すると大きく後れを取っているが、2025年から2026年にかけて急速に伸びている。導入企業の多くはGitHub Copilot(シェア約55%)かCursor(シェア約20%)を利用しており、自社モデルをオンプレミスで運用している企業はまだ少数(約8%)だ。
Nemotron 3 Superが日本企業に適するケース
-
金融機関: 銀行・証券・保険のソースコードは高度な機密性が求められ、クラウドへの送信が規制上困難。オンプレミスのNemotron 3 Superが最適解
-
大手SIer: NTTデータ、富士通、日立など大手SIerは、数千人規模の開発者を抱えている。開発者100人以上でGitHub Copilotよりコスト効率が良くなるため、ROIが見込める
-
自動車メーカー: 車載ソフトウェアの開発にはC/C++のコーディング能力が必要。Nemotron 3 SuperのC++スコア(87.3点)は業界最高クラス
-
ゲーム会社: 大規模なC++/C#コードベースを持つゲーム会社は、自社エンジンに特化したファインチューニングで大きな恩恵を得られる
導入の障壁
一方で、日本企業がNemotron 3 Superを導入する際の障壁も存在する。
- GPU調達: H100/H200の入手は依然として困難。特に日本市場では米国向け出荷が優先されがちで、納期が6-12ヶ月に及ぶケースもある
- 運用人材: オンプレミスのLLM運用にはMLOps/LLMOpsの知識が必要だが、日本ではこのスキルセットを持つエンジニアが不足している
- 日本語性能: Nemotron 3 Superはコーディング特化モデルであり、日本語でのコードコメントやドキュメント生成の品質は汎用モデル(Claude、GPT-4o等)に劣る可能性がある
- 初期投資: GPU 2台で最低$60,000(約900万円)の初期投資が必要。中小企業にとってはハードルが高い
代替選択肢との比較
日本企業が検討すべきコーディングAIの選択肢を整理する。
| 選択肢 | 初期コスト | 月額コスト(100人) | セキュリティ | カスタマイズ性 | 導入難易度 |
|---|---|---|---|---|---|
| Nemotron 3 Super (自社運用) | 900万円〜 | 約30万円(GPU償却) | 最高 | 最高 | 高 |
| GitHub Copilot Business | 0円 | 約28万円 | 中 | 低 | 低 |
| Cursor Business | 0円 | 約30万円 | 中 | 低 | 低 |
| DeepSeek Coder V3 (自社運用) | 1,200万円〜 | 約40万円(GPU償却) | 最高 | 高 | 高 |
| Amazon CodeWhisperer Pro | 0円 | 約27万円 | 中 | 低 | 低 |
100人の開発チームでは、初期投資を3年で償却する場合、Nemotron 3 Superの月額実質コストは約55万円(GPU償却30万円 + 初期投資月割25万円)となる。GitHub Copilotの28万円と比較すると割高だが、セキュリティとカスタマイズ性を重視する企業にとっては正当化できるコスト差だ。
オープンソースAIモデルのエンタープライズ活用トレンド
「AIのRed Hat」モデル
Nemotron 3 Superの登場は、AIモデルのエコシステムがLinuxの歴史を繰り返しつつあることを示唆している。Linuxカーネルは無料で利用可能だが、Red Hat Enterprise Linuxは有償のサポート・保証を付けて企業に提供されている。
Nvidiaが狙うのは、まさにこの「AIのRed Hat」ポジションだ。モデル自体はNvidia Open Modelライセンスで無料公開し、企業向けのサポート・最適化・カスタマイズツールを有償で提供する。このビジネスモデルは、GPU販売とソフトウェアサブスクリプションの両方から収益を得られるため、Nvidiaの利益構造をさらに強化する。
競合他社の動向
- Meta(CodeLlama / Llama Code): Apache 2.0ライセンスの完全オープンソースで攻勢。ただしエンタープライズサポートは自社では提供せず、パートナー経由
- Google(Codey / Gemini Code): Google Cloud Vertex AIとの統合でクラウド利用を推進。オンプレミスオプションは限定的
- Anthropic: コーディング特化モデルは未リリースだが、Claude 3.5 Sonnetの汎用コーディング能力は業界最高水準
- DeepSeek: MITライセンスの完全オープンソースで、中国市場を中心に急速にシェアを拡大
まとめ
Nvidia Nemotron 3 Superは、120Bパラメータのコーディング特化モデルとして、エンタープライズのソフトウェア開発に新たな選択肢を提供する。全主要ベンチマークでトップスコアを記録した性能、オンプレミス運用によるセキュリティ、TensorRT-LLMとの深い統合による推論速度——これらの要素が組み合わさることで、大規模開発組織にとって非常に魅力的なソリューションとなっている。
ただし、Nemotron 3 Superが万能薬ではないことも認識すべきだ。小規模チームにはGitHub CopilotやCursorの方がコスト効率が良く、オンプレミス運用には相応のインフラ投資と人材が必要だ。自社の開発組織の規模、セキュリティ要件、カスタマイズニーズを冷静に評価した上で、最適な選択を行うことが重要だ。
今すぐ取るべきアクションステップ
- 自社の開発者数とセキュリティ要件を棚卸し: 開発者100人以上かつソースコードのクラウド送信が困難な場合、Nemotron 3 Superの自社運用を検討する価値がある。GitHub Copilot/Cursorとの損益分岐点シミュレーションを実施しよう
- Nvidia NIM APIで性能を事前評価: 自社運用の前に、NvidiaのクラウドAPI($0.003/1Kトークン)でNemotron 3 Superの性能を自社のコードベースで検証する。特にSWE-Bench的なバグ修正タスクでの実力を確認しよう
- GPU調達計画を早期に開始: H200/B200の納期は6-12ヶ月。導入を決定した場合は、GPUの発注をできるだけ早く開始する。NvidiaのDGX Cloud(クラウドGPU)を短期的な代替として活用することも検討する