NVIDIA Nemotron 3 Super——120Bを12Bで動かすOSSモデル

NVIDIAが3月11日、新たなオープンソースAIモデル「Nemotron 3 Super」を公開しました。総パラメータ数120B（1,200億）でありながら、推論時にはわずか12B（120億）のパラメータしか活性化しないという効率的な設計が最大の特徴です。GPQAベンチマークでは0.827を記録し、コンテキストウィンドウは100万トークン、前世代と比較して5倍以上のスループットを実現しています。

これだけのスペックをオープンソースで提供するという判断は、AI業界の競争構造を大きく変える可能性があります。

Nemotron 3 Superとは何か

Nemotron 3 Superは、NVIDIAが開発したMamba-TransformerハイブリッドMoE（Mixture of Experts）モデルです。従来のTransformerベースのモデルとは異なり、3つの技術を組み合わせた革新的なアーキテクチャを採用しています。

Mambaレイヤー（状態空間モデル）

Mambaは状態空間モデル（SSM）に基づくアーキテクチャで、従来のTransformerが持つ「入力長の二乗に比例して計算量が増える」という弱点を克服します。線形時間で処理できるため、100万トークンという長大なコンテキストウィンドウを実用的な速度で扱えます。長い文書の要約やコードベース全体の理解といったタスクで特に威力を発揮します。

Transformerレイヤー（Attention機構）

一方で、精密なトークン間の参照や複雑な推論にはTransformerのAttention機構が依然として強力です。Nemotron 3 SuperではMambaレイヤーとTransformerレイヤーを交互に配置することで、長文処理の効率性と高精度な推論能力を両立させています。

MoE（Mixture of Experts）ルーター

総パラメータ120Bのうち、各推論で実際に活性化されるのは12Bのみです。MoEルーターがタスクの内容に応じて最適なエキスパート（専門サブネットワーク）を選択し、残りのパラメータは休止状態のまま保持されます。これにより、120Bモデルの知識量を持ちながら12Bモデル相当の計算コストで推論が可能になります。

以下の図は、Nemotron 3 SuperのハイブリッドMoEアーキテクチャの全体構造を示しています。

Nemotron 3 SuperのMamba-TransformerハイブリッドMoEアーキテクチャ構造図 - Mambaレイヤーで長文を効率処理し、Transformerレイヤーで精密推論、MoEルーターで120B中12Bのみ活性化

この3層構造により、従来のアーキテクチャでは「大規模モデルは高性能だがコストも高い」というトレードオフがありましたが、Nemotron 3 Superはそのトレードオフを大幅に緩和しています。

ベンチマークで見る実力

Nemotron 3 Superの能力を客観的に示すのが、**GPQA（Graduate-Level Google-Proof Q&A）**ベンチマークです。これは大学院レベルの物理学・化学・生物学の問題を対象とし、単純な検索では回答できない深い推論力を測定します。

以下の図は、主要モデルとのGPQAスコア比較を示しています。

GPQAベンチマーク比較棒グラフ - Nemotron 3 Superは0.827でClaude Sonnet 4.6、Grok-4 Heavyに次ぐスコア。オープンソースかつ12Bアクティブで最高水準

注目すべきは、Claude Sonnet 4.6（0.899）やGrok-4 Heavy（0.884）といったクローズドソースの大規模モデルに次ぐスコアを、オープンソースかつ12Bアクティブパラメータという軽量構成で達成している点です。フルサイズのオープンソースモデルであるLlama 3.1 405Bが0.510であることを考えると、パラメータ効率の面でNemotron 3 Superは圧倒的な優位性を持っています。

競合モデルとの詳細比較

現在のAIモデル市場におけるNemotron 3 Superの位置づけを、主要な観点で比較します。

項目	Nemotron 3 Super	Claude Sonnet 4.6	GPT-4o	Llama 3.1 405B
GPQA スコア	0.827	0.899	0.538	0.510
アクティブパラメータ	12B	非公開	非公開	405B
コンテキスト長	100万トークン	20万トークン	12.8万トークン	12.8万トークン
オープンソース	はい	いいえ	いいえ	はい
推論コスト	自社インフラ次第	API課金	API課金	自社インフラ次第
MoE	あり（120B→12B）	非公開	非公開	なし（Dense）
量子化	NVFP4ネイティブ	-	-	別途必要
学習データ	25兆トークン	非公開	非公開	15兆トークン

Nemotron 3 Superの差別化要因は明確です。クローズドソースモデルに迫る性能を、オープンソースかつ低い推論コストで実現している点です。特にNVFP4（4bit浮動小数点）でのネイティブ学習により、後付けの量子化による性能劣化がなく、4bit推論時でもフル精度に近い品質を維持します。

技術的な革新ポイント

25兆トークンの事前学習

Nemotron 3 Superは25兆トークンという膨大なデータで事前学習されています。Llama 3.1の15兆トークンと比較しても67%多く、この学習量の差がベンチマークスコアの違いに直結しています。

NVFP4ネイティブ学習

従来のモデルでは、学習はFP16やBF16で行い、推論時に4bitや8bitに量子化するのが一般的でした。この方法では量子化による精度低下が避けられません。Nemotron 3 Superは学習段階から4bit浮動小数点（NVFP4）を使用しているため、推論時の精度低下が最小限に抑えられます。

Blackwell GPUとの最適化

NVIDIAの最新GPU「Blackwell」アーキテクチャ向けに最適化されており、NVFP4のハードウェアアクセラレーションをフル活用できます。これにより、前世代比5倍以上のスループットが実現しています。H100やA100でも動作しますが、Blackwellでの性能が最も引き出されます。

料金体系と導入コスト

Nemotron 3 Superはオープンソースのため、モデル自体は無料で利用できます。ただし、実際の運用にはインフラコストが発生します。

オンプレミスの場合:

NVIDIA H100 GPU（約400万円/枚）× 必要枚数
12Bアクティブパラメータであれば、H100 1枚でも推論可能
Blackwell B200を使えばさらに効率的（約500万円/枚、ただし性能は大幅向上）

クラウドの場合:

AWSのp5インスタンス（H100搭載）: 約$32/時間（約4,800円/時間）
Google CloudのA3インスタンス（H100搭載）: 約$31/時間（約4,650円/時間）
12Bアクティブなら小規模インスタンスでも動作し、コストを抑制可能

クローズドソースモデルのAPI課金（Claude Pro月額$20、ChatGPT Plus月額$20）と比較すると、小規模利用ではAPI課金の方がコスト効率が良いケースも多いです。しかし、大量の推論リクエストを処理する企業ユースケースでは、オンプレミスやクラウドGPUでのセルフホスティングが圧倒的にコスト効率が高くなります。

日本ではどうなるか

Nemotron 3 Superの登場は、日本のAI活用戦略に大きな影響を与える可能性があります。

オンプレミスAI運用の現実化

日本企業、特に金融・医療・製造業では、データの国外持ち出しに対する規制や社内ポリシーが厳しく、クラウドAPIへのデータ送信に抵抗感を持つ企業が少なくありません。Nemotron 3 Superは、こうした企業に社内ネットワーク内で完結する高性能AIを提供します。12Bアクティブパラメータという軽量さにより、従来なら数千万円規模のGPUクラスタが必要だった高性能推論を、比較的少ないGPU投資で実現できます。

日本語対応への期待と課題

25兆トークンの学習データには日本語データも含まれていますが、英語に比べると割合は限定的です。日本語での性能を最大化するには、日本語データでのファインチューニングが必要になるでしょう。オープンソースであるため、日本の研究機関や企業が独自に日本語特化版を開発することも可能です。実際、NII（国立情報学研究所）やPFN（Preferred Networks）といった組織が日本語LLMの開発に注力しており、Nemotron 3 Superをベースモデルとした日本語特化版の登場が期待されます。

エッジAIへの道

12Bアクティブパラメータという設計は、将来的にはエッジデバイスでの動作にも道を開きます。NVIDIAのJetsonシリーズやDRIVE Orinプラットフォームと組み合わせることで、工場の生産ライン、自動運転車、医療機器などのエッジ環境で高性能な推論を実行できる可能性があります。日本の製造業にとって、これは大きなビジネスチャンスです。

国内クラウドベンダーへの影響

さくらインターネットやGMOインターネットグループなど、国内クラウドベンダーがNVIDIA GPUを搭載したGPUクラウドサービスを拡充しています。Nemotron 3 Superのようなオープンソースモデルの登場は、これらのサービスの需要をさらに押し上げるでしょう。「日本国内のデータセンターで、オープンソースの高性能AIを運用する」というユースケースが現実的になります。

まとめ

Nemotron 3 Superは、「オープンソースでもクローズドソースに迫る性能が出せる」ことを証明した画期的なモデルです。Mamba-TransformerハイブリッドとMoEの組み合わせにより、120Bの知識を12Bのコストで活用できるという設計は、AI導入のコスト障壁を大幅に引き下げます。

日本のエンジニアや企業がこのモデルを活用するための具体的なステップは以下の通りです:

まずは触ってみる: Hugging FaceからNemotron 3 Superをダウンロードし、ローカル環境（NVIDIA GPU搭載PC）で推論を試す。12Bアクティブであれば、RTX 4090（約30万円）1枚でも基本的な推論は可能
ユースケースを特定する: 社内文書の要約、コードレビュー、カスタマーサポートの自動化など、自社のデータをAPI外に出したくないユースケースをリストアップ
本番環境を検討する: AWSやGoogle CloudのGPUインスタンス、または国内クラウドベンダーのGPUサービスで本番環境を構築。NVIDIAのNIMコンテナを使えばデプロイも容易

オープンソースAIモデルの急速な進化は、AIの民主化を加速させています。Nemotron 3 Superはその最前線に立つモデルであり、日本企業のAI戦略を考える上で無視できない存在です。