Nvidia Nemotron 3 Superが120BパラメータのハイブリッドMoEで登場——12Bアクティブの効率革命

Nvidiaは2026年3月11日に開催されたGTC 2026で、オープンソースの大規模言語モデル「Nemotron 3 Super」を正式発表した。総パラメータ数120Bでありながら、推論時にアクティブになるのはわずか12B——つまり10分の1の計算コストで120B級の知識量を活用できるという、効率性と性能を両立させたモデルだ。エンタープライズ向けのAIエージェントやワークフロー自動化を主なターゲットとし、Nvidiaハードウェアに最適化されたオープンモデルとして公開される。

Nemotron 3 Superとは何か

Nemotron 3 Superは、Nvidiaが独自に開発した**ハイブリッドMixture-of-Experts（MoE）**アーキテクチャを採用した大規模言語モデルだ。従来のDense（密結合）モデルでは全パラメータが推論のたびに計算に使われるため、モデルが大きくなるほど推論コストが線形に増大していた。MoEアーキテクチャはこの問題を根本的に解決する。

通常のMoEでは、FFN（フィードフォワードネットワーク）層を複数の「エキスパート」に分割し、ルーターがトークンごとに最適なエキスパートを選択する。Nemotron 3 Superの「ハイブリッド」が意味するのは、Dense Attention層とMoE FFN層を組み合わせた構造だ。Attention層で文脈全体の理解を維持しながら、FFN層ではルーターが120Bのパラメータプールから12B分のエキスパートだけを活性化させる。

この図はNemotron 3 SuperのハイブリッドMoEアーキテクチャの仕組みを示しています。入力トークンがDense Attention層で文脈理解を獲得した後、ルーターが最適なエキスパートを選択し、12B分のみを活性化させて推論を行います。

Nemotron 3 SuperのハイブリッドMoEアーキテクチャ図。Dense層で文脈理解を保持し、ルーターがTop-K選択でエキスパートを活性化する仕組み

結果として、120Bモデルの「知識量」と「表現力」を維持しつつ、実際の推論コストは12Bモデル並みに抑えられる。これはエンタープライズ環境で大規模モデルを実運用する際のコスト障壁を大幅に下げる革新的なアプローチだ。

技術的な特徴を深掘りする

アクティブパラメータ比率 10:1

Nemotron 3 Superの最大の特徴は、総パラメータ120Bに対してアクティブパラメータがわずか12Bという10:1の比率だ。これは競合するMoEモデルと比較しても非常に高い効率性を示している。例えばMetaのLlama 4 Scoutは109B中17Bがアクティブで約6.4:1、Llama 4 Maverickは400B中17Bで約23.5:1だ。Nemotron 3 Superは両者の中間に位置し、実用的なモデルサイズと高い効率比を両立させている。

Nvidiaハードウェア最適化

NvidiaがLLMを自社開発する最大の強みは、ハードウェアとソフトウェアの垂直統合だ。Nemotron 3 SuperはNvidia GPU（特にH100、H200、Blackwellアーキテクチャ）に最適化されており、TensorRT-LLMによる推論高速化、NeMoフレームワークによるファインチューニング、Triton Inference Serverでの本番デプロイまで、Nvidiaエコシステム内でシームレスに運用できる。

具体的には、MoEモデル特有の「エキスパート間通信」のオーバーヘッドをNvLink/NvSwitchの高帯域インターコネクトで最小化し、単一ノード内でのマルチGPU並列推論を効率化している。

オープンソースとしての公開

Nemotron 3 Superは、モデルの重みとファインチューニング用コードがオープンソースで公開される。Nvidia独自のNvidia Open Model Licenseの下で配布され、商用利用も可能だ。これにより、企業は自社データでのファインチューニングや、特定ドメインに特化したモデルの構築が可能になる。

Hugging FaceおよびNvidia NGC Catalogからダウンロード可能で、GGUF形式でのQuantized版も提供予定とされている。

エンタープライズ向けAIエージェントへの最適化

Nemotron 3 Superが特にフォーカスしているのは、エンタープライズ向けのAIエージェント（Agentic AI）ワークフローだ。ここでMoEアーキテクチャの効率性が真価を発揮する。

AIエージェントは、ユーザーの指示を解釈し、複数のツールを呼び出し、中間結果を評価し、最終的な回答を生成するという多段階の処理を行う。1回のタスクで数十回〜数百回のLLM推論が発生するため、1回あたりの推論コストが低いことが運用コストに直結する。120Bの知識量を12Bのコストで利用できるNemotron 3 Superは、このユースケースに理想的だ。

Nvidiaは同時に「Nvidia AI Blueprints」として、Nemotron 3 Superをベースにしたエンタープライズ向けのリファレンスアーキテクチャも公開している。カスタマーサポート自動化、ドキュメント分析、コード生成支援などのテンプレートが含まれ、企業がすぐに実装を開始できる環境を整えている。

競合モデルとの比較

2026年3月時点で、オープンソースLLM市場は激しい競争が繰り広げられている。Nemotron 3 Superの主な競合であるMistral Small 4とLlama 4シリーズと比較してみよう。

以下の図はNemotron 3 Super、Mistral Small 4、Llama 4シリーズの主要スペックを比較しています。総パラメータとアクティブパラメータの比率に注目すると、各モデルの設計思想の違いが明確に見えてきます。

オープンソースLLMベンチマーク比較。Nemotron 3 Super、Mistral Small 4、Llama 4の総パラメータ・アクティブパラメータ・推論コストを比較した表と棒グラフ

項目	Nemotron 3 Super	Mistral Small 4	Llama 4 Scout	Llama 4 Maverick
開発元	Nvidia	Mistral AI	Meta	Meta
総パラメータ	120B	32B	109B	400B
アクティブパラメータ	12B	32B (Dense)	17B	17B
アーキテクチャ	ハイブリッドMoE	Dense	MoE	MoE
ライセンス	Nvidia Open Model	Apache 2.0	Llama License	Llama License
ハードウェア最適化	Nvidia GPU特化	汎用	汎用	汎用
主なターゲット	エンタープライズAIエージェント	軽量汎用	汎用・エッジ	高性能タスク

Mistral Small 4との比較

Mistral Small 4は32BのDenseモデルで、そのコンパクトさゆえに単一GPUでの推論が可能な点が強みだ。しかし、Nemotron 3 Superは12Bのアクティブパラメータで同等以下の推論コストを実現しながら、120B分のパラメータに蓄えられた知識量ではMistral Small 4を大きく上回る。特に専門的な知識が求められるエンタープライズユースケースでは、この知識量の差が顕著に現れるだろう。

Llama 4シリーズとの比較

MetaのLlama 4 Scoutは109B中17Bアクティブで、Nemotron 3 Superと似たMoEアプローチを採用している。ただし、Nemotron 3 Superの「ハイブリッドMoE」はDense Attention層を組み合わせることで文脈理解の一貫性を高めている点が差別化ポイントだ。また、Nvidiaハードウェアへの最適化により、Nvidia GPU環境では推論レイテンシで有利になる可能性が高い。

一方、Llama 4 Maverickは400Bの総パラメータを持ち、知識量では上回る。しかしモデルサイズが大きいためデプロイ時のメモリ要件が厳しく、エンタープライズ環境での実用性ではNemotron 3 Superに軍配が上がる場面も多いだろう。

推論コストのインパクト

MoEアーキテクチャの効率性を具体的な数字で考えてみよう。仮にクラウドGPUの利用料金を基準にすると、推論コストはアクティブパラメータ数にほぼ比例する。

120B Denseモデルを動かす場合：H100 x 2〜4枚が必要、推論コスト約$0.006/1Kトークン（概算）
Nemotron 3 Super（12Bアクティブ）：H100 x 1枚で動作可能、推論コスト約$0.0006/1Kトークン（概算）

つまり、同じ知識量を約1/10のコストで利用できる計算になる。AIエージェントのように1タスクで数百回の推論を行うシナリオでは、この差は月間コストで数千ドルの違いになり得る。

NvidiaのAIモデル戦略

NvidiaがLLMを自社開発・公開する背景には明確な戦略がある。GPU販売を促進するためのソフトウェアエコシステム構築だ。

高性能なオープンソースモデルを無料で提供し、そのモデルがNvidia GPUで最も効率的に動作するよう最適化する。企業がNemotron 3 Superを採用すれば、必然的にNvidia GPUの購入・レンタルにつながる。これはNvidiaが長年GPUドライバやCUDAで成功してきた「ハードウェア＋ソフトウェアのロックイン」戦略のAI版と言える。

GTC 2026ではNemotron 3 Super以外にも、物理シミュレーション向けのNemotron PhysicalやヘルスケアAI向けのBioNeMoの拡張なども発表されており、Nvidiaがモデルレイヤーでも存在感を高めようとしていることは明らかだ。

日本市場への影響

エンタープライズAIの民主化が加速

日本企業のAI導入において、推論コストは依然として最大のハードルの一つだ。Nemotron 3 Superの登場により、120B級の高性能モデルを12B並みのコストで運用できるようになれば、中堅企業でも本格的なAIエージェントの導入が現実的になる。

特に、日本語を含む多言語対応の面でも120Bの総パラメータは有利だ。12Bクラスの小型モデルでは日本語性能が英語に比べて大きく劣化するケースが多いが、120Bの知識ベースを持つNemotron 3 Superであれば、日本語でのエンタープライズ利用にも十分な品質が期待できる。

Nvidia GPU依存のリスク

一方で、Nvidiaハードウェアへの最適化はベンダーロックインのリスクでもある。日本企業がNemotron 3 Superをベースに業務システムを構築した場合、将来的にAMDやIntelのGPUへ移行する際のスイッチングコストが高くなる可能性がある。技術選定の際は、Nemotronの性能面のメリットとベンダー依存のリスクを天秤にかける必要がある。

日本語ファインチューニングの可能性

オープンソースで公開されるため、日本企業や研究機関が日本語データでファインチューニングすることも可能だ。すでに国内ではELYZAやPreferred Networksなどがオープンソースモデルの日本語適応を進めており、Nemotron 3 Superベースの日本語特化モデルが登場する可能性は十分にある。MoEアーキテクチャのファインチューニングはDenseモデルに比べて技術的な難易度が高いが、NeMoフレームワークのサポートにより障壁は下がっている。

まとめ——次のアクション

Nvidia Nemotron 3 Superは、120Bの知識量を12Bのコストで利用できるハイブリッドMoEモデルとして、エンタープライズAIの実用化を大きく前進させるポテンシャルを持っている。以下のアクションステップを参考にしてほしい。

まず試す: Hugging FaceまたはNvidia NGC CatalogからNemotron 3 Superをダウンロードし、自社のユースケースでベンチマークを取る。特にMistral Small 4やLlama 4 Scoutとの比較評価を行い、タスクごとの性能差を確認する
ハードウェア要件を確認: 自社のGPU環境（オンプレミス or クラウド）でNemotron 3 Superが効率的に動作するか検証する。Nvidia GPUを持っている環境では特に有利だが、AMD GPUでの動作もコミュニティによるサポートが進む可能性がある
日本語性能を評価: 日本語でのタスク（要約、QA、コード生成など）で品質を検証し、必要に応じて日本語データでのファインチューニングを検討する。NeMoフレームワークのドキュメントを参照し、LoRAによる効率的な追加学習から始めるのがおすすめだ

オープンソースLLMの競争は2026年に入ってさらに激化している。Nvidia、Meta、Mistralがそれぞれ異なるアプローチで効率性と性能の限界を押し広げるなか、Nemotron 3 Superの「ハイブリッドMoE + ハードウェア最適化」という戦略が市場でどう評価されるか、今後の動向に注目だ。