Mistral Small 4が119Bパラメータで登場——Apache 2.0のオープンソースMoEモデル

フランスのAIスタートアップMistral AIが、2026年3月にMistral Small 4をリリースした。総パラメータ数119B（1,190億）という大規模モデルでありながら、トークンあたりのアクティブパラメータはわずか6B（60億）。128個のエキスパートネットワークから4つだけを選択するMixture-of-Experts（MoE）アーキテクチャにより、巨大モデルの性能とスモールモデルの推論速度を両立させた。さらに注目すべきは、このモデルがApache 2.0ライセンスで完全にオープンソース公開されたことだ。

これまでMistral AIが個別に提供してきた指示追従（Mistral Small）、推論（Magistral）、マルチモーダル（Pixtral）、エージェント型コーディング（Devstral）という4つの能力を1つのモデルに統合した点も画期的だ。コンテキストウィンドウは256kトークンをサポートし、テキストと画像の両方を入力として受け付ける。

Mistral Small 4のアーキテクチャ

Mistral Small 4の核心技術はMixture-of-Experts（MoE）アーキテクチャだ。従来の密結合（Dense）モデルでは、すべてのパラメータが各トークンの処理に関与するため、パラメータ数の増加がそのまま計算コストの増大につながっていた。MoEはこの問題を根本的に解決するアプローチである。

MoEの仕組み

MoEモデルでは、フィードフォワード層が複数の「エキスパート」ネットワークに分割される。Mistral Small 4の場合、128個のエキスパートが存在し、各トークンの処理時にルーター（ゲーティングネットワーク）が入力を分析して最も適切な4つのエキスパートだけを選択する。選ばれたエキスパートの出力は重み付けされて統合され、最終的な出力となる。

この設計により、モデル全体としては119Bパラメータの知識容量を持ちながら、実際の推論時にアクティブになるのはエキスパート部分が約6B、埋め込み層と出力層を含めても約8Bに抑えられる。つまり、モデルの知識量は119Bクラスでありながら、推論コストは8Bモデル並みという極めて効率的な構成だ。

なぜ128エキスパートなのか

エキスパート数の選択はMoE設計における重要な判断だ。エキスパート数が多いほどモデルの専門性が細分化され、各トークンに対してより適切な処理が可能になる。一方で、エキスパート数が多すぎるとルーティングの複雑さが増し、メモリ使用量も膨らむ。Mistral Small 4の128エキスパート × 4アクティブという構成は、専門性の深さと計算効率のバランスを取った設計と言える。

4つのモデルを1つに統合

Mistral Small 4の最大の革新は、従来は別々のモデルとして提供されていた4つの能力を統合した点にある。

1. 指示追従（Mistral Small由来）

ユーザーの指示を正確に理解し、求められた形式・内容で応答する基本的なチャット能力。構造化された出力（JSON、Markdownなど）の生成精度も高い。

2. 推論（Magistral由来）

数学的問題やロジカルシンキングを要するタスクで、ステップバイステップの思考連鎖（Chain-of-Thought）を展開する能力。AIME 2025数学ベンチマークで72.4点を記録し、同規模帯のモデルをリードしている。

3. マルチモーダル（Pixtral由来）

テキストだけでなく画像入力にも対応する。画像の内容理解、OCR、図表の読み取りなど、視覚情報を言語情報と統合して処理できる。

4. エージェント型コーディング（Devstral由来）

コードの生成・修正・レビューに加え、ツール呼び出しやファイル操作などのエージェント的なコーディングタスクに対応する。LiveCodeBenchで58.2点を記録し、コーディング特化モデルに匹敵する性能を示している。

以下の図は、Mistral Small 4のMoEアーキテクチャの全体像を示しています。128個のエキスパートからルーターが4つを選択し、119Bパラメータのうち6Bのみがアクティブになる仕組みが視覚化されています。

Mistral Small 4のMoEアーキテクチャ図。入力トークンからルーターが128エキスパート中4つを選択し、加重合計で出力を生成する流れ

これら4つの能力を1モデルに統合することで、企業はユースケースごとに異なるモデルをデプロイ・管理する必要がなくなる。チャットボット、コード生成、ドキュメント分析を1つのエンドポイントで処理できるため、運用コストとアーキテクチャの複雑さが大幅に削減される。

ベンチマーク結果

Mistral AIが公表したベンチマーク結果によると、Mistral Small 4は同規模帯のオープンソースモデルと比較して、複数の指標で同等以上のスコアを記録している。

ベンチマーク	Mistral Small 4	GPT-OSS 120B	Qwen 3.5	Llama 4 Scout
AA LCR	0.72	0.70	0.68	0.65
LiveCodeBench	58.2	55.0	53.5	51.8
AIME 2025	72.4	70.1	68.3	66.0
MMLU-Pro	75.8	76.2	74.1	73.5
コンテキスト長	256k	128k	128k	256k

特筆すべきはAA LCR（Agent Arena Long Context Retrieval）のスコアだ。Mistral Small 4は0.72をわずか1.6K文字の出力で達成しているのに対し、Qwenは同等のスコアを得るために5.8K〜6.1K文字の出力を必要としている。つまり、Mistral Small 4は少ない出力で効率的に正答に到達できることを意味し、実際のアプリケーションでのレイテンシーとコスト削減に直結する。

ClaudeやGPT-4oといったクローズドソースの最上位モデルには及ばない部分もあるが、Apache 2.0ライセンスのオープンソースモデルとしてはトップクラスの性能だ。自社サーバーでの運用やカスタマイズが可能な点を考慮すれば、実用面での優位性は大きい。

Configurable Reasoning

Mistral Small 4のユニークな機能の1つが、**Configurable Reasoning（設定可能な推論）**だ。APIリクエストごとにreasoning_effortパラメータを指定することで、推論の深さとレイテンシーのトレードオフをリクエスト単位で制御できる。

使い方

{
  "model": "mistral-small-4",
  "messages": [{"role": "user", "content": "..."}],
  "reasoning_effort": "high"
}

reasoning_effortにはlow、medium、highの3段階を指定できる。

low: 簡単な質問や分類タスクなど、深い推論が不要なケース。レイテンシーを最小化
medium: 一般的な質問応答やコード生成。バランスの取れた設定
high: 数学的推論や複雑なロジックを要するタスク。最大限の推論力を発揮

この機能により、同一モデルで「高速レスポンスが求められるカスタマーサポート」と「正確さが重要なデータ分析」を使い分けることができる。モデルを複数デプロイする必要がなくなるため、インフラコストの最適化にも貢献する。

企業導入のメリット

Mistral Small 4は企業利用を強く意識した設計になっている。パフォーマンス、コスト、ライセンスの3つの観点から導入メリットを整理する。

パフォーマンス改善

前モデルのMistral Small 3と比較して、以下の改善が報告されている。

レイテンシー: エンドツーエンドの完了時間が40%削減（レイテンシー最適化設定時）
スループット: 1秒あたりの処理リクエスト数が3倍に向上（スループット最適化設定時）

これらの改善は、MoEアーキテクチャによるアクティブパラメータの削減と、推論エンジンの最適化によるものだ。

セルフホスティングの現実性

アクティブパラメータが8B（埋め込み層含む）に抑えられているため、推論時のGPUメモリ要件は119Bの密結合モデルと比較して大幅に低い。ただし、全128エキスパートのパラメータはメモリ上にロードしておく必要があるため、VRAM要件は純粋な8Bモデルよりは大きい。それでも、A100 80GBを2〜4枚程度で実用的な推論が可能とされており、多くの企業にとって現実的な規模だ。

Hugging Face上でモデルの重みが公開されているほか、NVIDIA NIMでの最適化済みデプロイメントも提供されており、導入の敷居は低い。

Apache 2.0ライセンスの意義

Apache 2.0は商用利用、改変、再配布を制限なく許可するライセンスだ。これにより企業は以下のことが可能になる。

自社データでのファインチューニング
社内システムへの組み込み
カスタマイズ版の顧客への提供
プロプライエタリ製品への統合

MetaのLlamaシリーズが独自のコミュニティライセンスを採用し一部の商用利用に制限があるのに対し、Mistral Small 4はApache 2.0で完全に自由だ。法務部門のライセンス審査がシンプルになる点も、企業導入を加速させる要因となるだろう。

以下の図は、Mistral Small 4の主要ベンチマーク比較を示しています。AA LCR、LiveCodeBench、AIME 2025、MMLU-Proの4つの指標でGPT-OSS 120BおよびQwen 3.5と比較しています。

Mistral Small 4、GPT-OSS 120B、Qwen 3.5の主要ベンチマーク比較棒グラフ。AA LCR、LiveCodeBench、AIME 2025、MMLU-Proの4指標

日本のAI開発への影響

Mistral Small 4のリリースは、日本のAI開発にとっていくつかの重要な意味を持つ。

オンプレミス運用の選択肢拡大

日本企業は規制やセキュリティ要件からクラウドAPIの利用に慎重なケースが多い。Apache 2.0のMistral Small 4は、自社データセンターやプライベートクラウド上でのオンプレミス運用が完全に自由であり、金融機関、医療機関、官公庁などのセンシティブなデータを扱う組織にとって有力な選択肢となる。

日本語性能の課題

一方で、Mistral AIのモデルは歴史的に日本語性能が英語やフランス語に比べて弱い傾向がある。Mistral Small 4でも日本語の指示追従や生成品質は、英語と同等レベルには達していない可能性が高い。ただし、Apache 2.0ライセンスのおかげで日本語データでのファインチューニングが自由に行えるため、国内の研究機関やAIスタートアップが日本語特化版を開発する可能性は十分にある。

MoEアーキテクチャの普及

Mistral Small 4の成功は、MoEアーキテクチャがオープンソースLLMの主流になりつつあることを示している。日本の国産LLM開発プロジェクト（NICT、Preferred Networks、サイバーエージェントなど）にとっても、MoE設計の採用を検討する材料となるだろう。特に、計算資源が限られた環境で大規模モデルの性能を実現できるMoEのアプローチは、日本のAI開発エコシステムにとって戦略的に重要だ。

コスト面の影響

API経由でMistral Small 4を利用する場合、アクティブパラメータが6Bと軽量なため、推論コストは119Bの密結合モデルよりはるかに安価だ。日本のスタートアップやSaaS企業がAI機能を自社プロダクトに組み込む際のコスト障壁を下げることが期待される。セルフホスティングの場合も、A100を数枚用意するだけで119Bクラスの性能が得られるため、クラウドGPUの月額コストも現実的な範囲に収まる。

まとめ

Mistral Small 4は、MoEアーキテクチャの効率性、4つのモデル統合という利便性、Apache 2.0のオープン性を兼ね備えた、2026年3月時点でのオープンソースLLMの最先端モデルだ。以下のステップで導入を検討してみてほしい。

Hugging Faceでモデルを試す: まずはHugging Face上で公開されているモデルを使い、自社のユースケースに適合するか評価する。日本語タスクでの精度は特に検証が必要だ
Configurable Reasoningを活用する: reasoning_effortパラメータを使い分けて、タスクごとに最適なレイテンシー・精度のバランスを見つける
セルフホスティングを検討する: データの機密性が高い場合や、大量のリクエストを処理する場合は、NVIDIA NIMやvLLMを使ったセルフホスティングがコスト効率で有利になる可能性がある
日本語ファインチューニングを計画する: 日本語性能を最大限引き出すために、自社ドメインの日本語データでのファインチューニングを検討する。Apache 2.0ライセンスにより、チューニング済みモデルの商用利用も自由だ

オープンソースAIモデルの競争は加速しており、Meta、Google、Mistral AIが次々と高性能モデルを公開している。企業にとっては選択肢が増える好環境だが、それぞれのモデルの特性・ライセンス・性能を見極めた上での戦略的な採用が重要になる。