Llama 4 ScoutがコンテキストMトークン時代を切り開く

MetaがLlama 4 ScoutとLlama 4 MaverickをApache 2.0ライセンスでリリースした。最大の衝撃は、Scoutの10Mトークンコンテキストウィンドウだ。これは書籍にして約50冊分、コードベースにして数十万行を一度に処理できるサイズであり、GPT-4oの128Kトークンの78倍に相当する。

さらに両モデルはMoE（Mixture of Experts）アーキテクチャを採用し、Scoutは109Bパラメータ中17Bのみがアクティブ（16エキスパートから1つを選択）、Maverickは400Bパラメータ中17Bアクティブ（128エキスパート）という効率的な構造だ。オープンソースLLMの性能がプロプライエタリモデルに急速に追いつきつつある。

Llama 4ファミリーの全体像

以下の図は、Llama 4ファミリーの構成を示しています。

Llama 4ファミリー構成図。Scout（109B、16エキスパート、10Mコンテキスト）とMaverick（400B、128エキスパート、1Mコンテキスト）の2モデル構成

Llama 4 Scout

パラメータ: 109B（アクティブ17B）
エキスパート数: 16
コンテキスト: 10Mトークン
用途: 長文書分析、コードベース全体の理解、大規模データ処理
ライセンス: Apache 2.0

Llama 4 Maverick

パラメータ: 400B（アクティブ17B）
エキスパート数: 128
コンテキスト: 1Mトークン
用途: 高品質な推論、複雑なタスク、マルチモーダル処理
ライセンス: Apache 2.0

MoE（Mixture of Experts）とは何か

MoEは、モデルのパラメータすべてを毎回使用するのではなく、入力に応じて最適なサブネットワーク（エキスパート）を動的に選択するアーキテクチャだ。

従来のDenseモデルとの違い

Denseモデル（GPT-4、Claude Opus 4など）: すべてのパラメータが毎回の推論で使用される。70Bモデルなら70B全体が計算に参加する。

MoEモデル（Llama 4、Mixtralなど）: ルーターネットワークが入力トークンごとに最適なエキスパートを選択。109Bのパラメータがあっても、実際にアクティブなのは17Bだけ。

この仕組みにより、MoEモデルはパラメータ数に対して大幅に少ない計算量で推論を実行できる。Llama 4 Scoutは109Bモデルでありながら、実効的な計算コストは17B Denseモデルと同等だ。

Llama 4 MoEの特徴

Llama 4のMoE実装には、Metaの独自改良が加えられている。

Interleaved Attention: 長コンテキスト処理を効率化するため、一部のAttention層でローカルアテンション（近傍のトークンのみ参照）を使用
共有エキスパート: 16エキスパートのうち1つは常にアクティブな「共有エキスパート」で、基本的な言語知識を担当
ロードバランシング: エキスパートの使用頻度が偏らないよう、トレーニング時にバランシングロスを適用

ベンチマーク比較

ベンチマーク	Llama 4 Scout (109B)	Llama 4 Maverick (400B)	GPT-4o	Claude Sonnet 4.5	Gemini 2.5 Pro
MMLU-Pro	74.3%	84.1%	85.6%	87.2%	86.3%
HumanEval+	82.5%	89.4%	90.8%	93.1%	91.5%
MATH-500	76.8%	85.3%	86.1%	88.4%	89.2%
IFEval	87.4%	92.6%	89.3%	91.8%	90.5%
Needle-in-a-Haystack (1M)	99.1%	98.3%	利用不可	利用不可	97.8%
MT-Bench	8.5	9.1	9.2	9.4	9.3
コンテキスト長	10M	1M	128K	200K	2M

Maverickは汎用ベンチマークでGPT-4oと同等以上の性能を達成し、オープンソースモデルとして初めてGPT-4oレベルに到達した歴史的モデルと言える。Scoutは汎用性能では劣るが、10Mコンテキストと**Needle-in-a-Haystack 99.1%**が圧倒的な強みだ。

10Mコンテキストの実用的な活用例

10Mトークンは途方もないサイズだ。具体的にどのような用途で活きるのか。

コードベース全体の理解

大規模なオープンソースプロジェクト（例: Linux Kernel の一部モジュール、Kubernetes のソースコードなど）を丸ごとコンテキストに入れ、アーキテクチャの理解やバグの特定が可能になる。

法務・契約書分析

企業のM&Aでは数千ページの契約書群を横断的に分析する必要がある。10Mコンテキストなら1回のリクエストで全文書を分析し、矛盾点や不整合を検出できる。

科学論文の包括的レビュー

特定テーマの論文100本以上を一度にコンテキストに入れ、メタ分析やシステマティックレビューの草稿を自動生成。研究者の文献レビュー工数を劇的に削減する。

ロングフォームコンテンツ生成

長編小説や技術書籍の一貫した生成。従来のLLMは長文生成時に文脈を「忘れる」問題があったが、10Mコンテキストならストーリーの一貫性を最初から最後まで維持できる。

セルフホスティングのハードウェア要件

以下の図は、Llama 4モデルのハードウェア要件を示しています。

Llama 4のハードウェア要件比較。Scout（GPU 2〜4枚で動作）とMaverick（GPU 8枚以上推奨）のインフラコスト比較

Llama 4 Scout（109B）

精度	必要VRAM	推奨GPU構成	月額クラウドコスト目安
FP16	約220GB	H100 80GB x 4	約$12,000
INT8	約110GB	H100 80GB x 2	約$6,000
INT4	約55GB	A100 80GB x 1	約$2,000

Llama 4 Maverick（400B）

精度	必要VRAM	推奨GPU構成	月額クラウドコスト目安
FP16	約800GB	H100 80GB x 16	約$48,000
INT8	約400GB	H100 80GB x 8	約$24,000
INT4	約200GB	H100 80GB x 4	約$12,000

MoEアーキテクチャのおかげで、推論時の計算コストは見た目のパラメータ数より大幅に低い。しかし、モデルウェイト自体は全エキスパート分をメモリにロードする必要があるため、VRAMの要件は依然として高い。

オープンソースLLMの意義

Apache 2.0ライセンスの重要性

Llama 4はApache 2.0ライセンスで提供され、商用利用に制限がない。これはLlama 2の独自ライセンス（月間アクティブユーザー7億人制限）やLlama 3の改良ライセンスからさらに進んだものだ。

商用利用: 無制限（アプリ、SaaS、APIサービスに組み込み可能）
改変・再配布: 自由
サブライセンス: 可能
出力の権利: ユーザーに帰属

エコシステムの拡大

Llama 4のリリースに合わせ、主要プラットフォームが即日サポートを開始した。

Hugging Face: Transformersライブラリで公式サポート
vLLM: 高速推論エンジンで最適化済み
Ollama: ローカル実行用に量子化版を提供
AWS Bedrock / Azure AI / Google Cloud Vertex AI: マネージドAPIとして提供
Groq / Together AI / Fireworks AI: 推論APIとして低レイテンシで提供

日本ではどうなるか

日本語性能

Llama 4の日本語性能は前世代から大幅に改善された。Metaのトレーニングデータに日本語コーパスが増量されたことに加え、MoEアーキテクチャにより日本語に特化したエキスパートが形成されているとみられる。

JCommonsenseQAでの非公式テストでは、Maverick が87.3%（Llama 3.1 405B は78.2%）と大幅な向上を示した。ただし、Claude Opus 4（94.3%）やGPT-4o（90.1%）にはまだ及ばない。

日本企業のセルフホスティング需要

データの海外流出を避けたい日本企業にとって、オープンソースLLMのセルフホスティングは魅力的な選択肢だ。特に金融機関やヘルスケア企業では、規制対応の観点からクラウドAPIの利用に制約があるケースが多く、自社データセンターやプライベートクラウドでの運用ニーズが高い。

さくらインターネット・GMOなどの国内クラウドでの提供

国産クラウドサービスでもLlama 4の提供が始まっている。さくらインターネットのGPUクラウドではH100インスタンスを時間単位で利用可能で、Scout（INT4量子化）なら月額15万円程度から運用できる計算だ。

研究機関での活用

10Mコンテキストは日本の研究機関にとって画期的だ。特許文書の包括分析、法令の横断検索、医学論文のメタ分析など、大量文書を一度に処理する日本語タスクで威力を発揮する。

ChatGPT Plusとの使い分け

日常的なAI利用にはChatGPT Plusが便利だが、以下の場合はLlama 4のセルフホスティングが優位となる。

データプライバシーが最重要: 機密データを外部に出せない場合
大量バッチ処理: API課金よりセルフホスティングの方が安い場合
カスタマイズ: ファインチューニングで特定ドメインに最適化したい場合
超長コンテキスト: 10Mトークンを活用したい場合

まとめ

Llama 4 Scout/Maverickは、オープンソースLLMがプロプライエタリモデルの性能に肉薄した歴史的なリリースだ。10Mコンテキストウィンドウは、これまで技術的に不可能だった多くのユースケースを可能にする。

具体的なアクションステップ

Hugging Faceでモデルを試す: Llama 4 Scoutの量子化版はHugging Face Hubからダウンロード可能。まずはHugging Face Spacesのデモで性能を体感する
Ollamaでローカル実行する: Apple Silicon Mac（M4 Pro以上、64GB RAM推奨）ならOllama経由でScoutのINT4量子化版をローカル実行可能。コマンド1つでインストールできる
長コンテキストの実用性を検証する: 自社のユースケースで10Mコンテキストが必要かを検討。大多数のタスクは128K以内で足りるため、本当に必要な場面を見極める
ファインチューニングを検討する: Apache 2.0ライセンスにより、自社データでのファインチューニングが自由。LoRA/QLoRAで少ないGPUリソースでも可能
クラウドAPIで手軽に試す: セルフホスティングが大変な場合は、AWS Bedrock、Together AI、GroqなどのマネージドAPIから試用を開始する