Llama 4 ScoutがコンテキストMトークン時代を切り開く
MetaがLlama 4 ScoutとLlama 4 MaverickをApache 2.0ライセンスでリリースした。最大の衝撃は、Scoutの10Mトークンコンテキストウィンドウだ。これは書籍にして約50冊分、コードベースにして数十万行を一度に処理できるサイズであり、GPT-4oの128Kトークンの78倍に相当する。
さらに両モデルはMoE(Mixture of Experts)アーキテクチャを採用し、Scoutは109Bパラメータ中17Bのみがアクティブ(16エキスパートから1つを選択)、Maverickは400Bパラメータ中17Bアクティブ(128エキスパート)という効率的な構造だ。オープンソースLLMの性能がプロプライエタリモデルに急速に追いつきつつある。
Llama 4ファミリーの全体像
以下の図は、Llama 4ファミリーの構成を示しています。
Llama 4 Scout
- パラメータ: 109B(アクティブ17B)
- エキスパート数: 16
- コンテキスト: 10Mトークン
- 用途: 長文書分析、コードベース全体の理解、大規模データ処理
- ライセンス: Apache 2.0
Llama 4 Maverick
- パラメータ: 400B(アクティブ17B)
- エキスパート数: 128
- コンテキスト: 1Mトークン
- 用途: 高品質な推論、複雑なタスク、マルチモーダル処理
- ライセンス: Apache 2.0
MoE(Mixture of Experts)とは何か
MoEは、モデルのパラメータすべてを毎回使用するのではなく、入力に応じて最適なサブネットワーク(エキスパート)を動的に選択するアーキテクチャだ。
従来のDenseモデルとの違い
Denseモデル(GPT-4、Claude Opus 4など): すべてのパラメータが毎回の推論で使用される。70Bモデルなら70B全体が計算に参加する。
MoEモデル(Llama 4、Mixtralなど): ルーターネットワークが入力トークンごとに最適なエキスパートを選択。109Bのパラメータがあっても、実際にアクティブなのは17Bだけ。
この仕組みにより、MoEモデルはパラメータ数に対して大幅に少ない計算量で推論を実行できる。Llama 4 Scoutは109Bモデルでありながら、実効的な計算コストは17B Denseモデルと同等だ。
Llama 4 MoEの特徴
Llama 4のMoE実装には、Metaの独自改良が加えられている。
- Interleaved Attention: 長コンテキスト処理を効率化するため、一部のAttention層でローカルアテンション(近傍のトークンのみ参照)を使用
- 共有エキスパート: 16エキスパートのうち1つは常にアクティブな「共有エキスパート」で、基本的な言語知識を担当
- ロードバランシング: エキスパートの使用頻度が偏らないよう、トレーニング時にバランシングロスを適用
ベンチマーク比較
| ベンチマーク | Llama 4 Scout (109B) | Llama 4 Maverick (400B) | GPT-4o | Claude Sonnet 4.5 | Gemini 2.5 Pro |
|---|---|---|---|---|---|
| MMLU-Pro | 74.3% | 84.1% | 85.6% | 87.2% | 86.3% |
| HumanEval+ | 82.5% | 89.4% | 90.8% | 93.1% | 91.5% |
| MATH-500 | 76.8% | 85.3% | 86.1% | 88.4% | 89.2% |
| IFEval | 87.4% | 92.6% | 89.3% | 91.8% | 90.5% |
| Needle-in-a-Haystack (1M) | 99.1% | 98.3% | 利用不可 | 利用不可 | 97.8% |
| MT-Bench | 8.5 | 9.1 | 9.2 | 9.4 | 9.3 |
| コンテキスト長 | 10M | 1M | 128K | 200K | 2M |
Maverickは汎用ベンチマークでGPT-4oと同等以上の性能を達成し、オープンソースモデルとして初めてGPT-4oレベルに到達した歴史的モデルと言える。Scoutは汎用性能では劣るが、10Mコンテキストと**Needle-in-a-Haystack 99.1%**が圧倒的な強みだ。
10Mコンテキストの実用的な活用例
10Mトークンは途方もないサイズだ。具体的にどのような用途で活きるのか。
コードベース全体の理解
大規模なオープンソースプロジェクト(例: Linux Kernel の一部モジュール、Kubernetes のソースコードなど)を丸ごとコンテキストに入れ、アーキテクチャの理解やバグの特定が可能になる。
法務・契約書分析
企業のM&Aでは数千ページの契約書群を横断的に分析する必要がある。10Mコンテキストなら1回のリクエストで全文書を分析し、矛盾点や不整合を検出できる。
科学論文の包括的レビュー
特定テーマの論文100本以上を一度にコンテキストに入れ、メタ分析やシステマティックレビューの草稿を自動生成。研究者の文献レビュー工数を劇的に削減する。
ロングフォームコンテンツ生成
長編小説や技術書籍の一貫した生成。従来のLLMは長文生成時に文脈を「忘れる」問題があったが、10Mコンテキストならストーリーの一貫性を最初から最後まで維持できる。
セルフホスティングのハードウェア要件
以下の図は、Llama 4モデルのハードウェア要件を示しています。
Llama 4 Scout(109B)
| 精度 | 必要VRAM | 推奨GPU構成 | 月額クラウドコスト目安 |
|---|---|---|---|
| FP16 | 約220GB | H100 80GB x 4 | 約$12,000 |
| INT8 | 約110GB | H100 80GB x 2 | 約$6,000 |
| INT4 | 約55GB | A100 80GB x 1 | 約$2,000 |
Llama 4 Maverick(400B)
| 精度 | 必要VRAM | 推奨GPU構成 | 月額クラウドコスト目安 |
|---|---|---|---|
| FP16 | 約800GB | H100 80GB x 16 | 約$48,000 |
| INT8 | 約400GB | H100 80GB x 8 | 約$24,000 |
| INT4 | 約200GB | H100 80GB x 4 | 約$12,000 |
MoEアーキテクチャのおかげで、推論時の計算コストは見た目のパラメータ数より大幅に低い。しかし、モデルウェイト自体は全エキスパート分をメモリにロードする必要があるため、VRAMの要件は依然として高い。
オープンソースLLMの意義
Apache 2.0ライセンスの重要性
Llama 4はApache 2.0ライセンスで提供され、商用利用に制限がない。これはLlama 2の独自ライセンス(月間アクティブユーザー7億人制限)やLlama 3の改良ライセンスからさらに進んだものだ。
- 商用利用: 無制限(アプリ、SaaS、APIサービスに組み込み可能)
- 改変・再配布: 自由
- サブライセンス: 可能
- 出力の権利: ユーザーに帰属
エコシステムの拡大
Llama 4のリリースに合わせ、主要プラットフォームが即日サポートを開始した。
- Hugging Face: Transformersライブラリで公式サポート
- vLLM: 高速推論エンジンで最適化済み
- Ollama: ローカル実行用に量子化版を提供
- AWS Bedrock / Azure AI / Google Cloud Vertex AI: マネージドAPIとして提供
- Groq / Together AI / Fireworks AI: 推論APIとして低レイテンシで提供
日本ではどうなるか
日本語性能
Llama 4の日本語性能は前世代から大幅に改善された。Metaのトレーニングデータに日本語コーパスが増量されたことに加え、MoEアーキテクチャにより日本語に特化したエキスパートが形成されているとみられる。
JCommonsenseQAでの非公式テストでは、Maverick が87.3%(Llama 3.1 405B は78.2%)と大幅な向上を示した。ただし、Claude Opus 4(94.3%)やGPT-4o(90.1%)にはまだ及ばない。
日本企業のセルフホスティング需要
データの海外流出を避けたい日本企業にとって、オープンソースLLMのセルフホスティングは魅力的な選択肢だ。特に金融機関やヘルスケア企業では、規制対応の観点からクラウドAPIの利用に制約があるケースが多く、自社データセンターやプライベートクラウドでの運用ニーズが高い。
さくらインターネット・GMOなどの国内クラウドでの提供
国産クラウドサービスでもLlama 4の提供が始まっている。さくらインターネットのGPUクラウドではH100インスタンスを時間単位で利用可能で、Scout(INT4量子化)なら月額15万円程度から運用できる計算だ。
研究機関での活用
10Mコンテキストは日本の研究機関にとって画期的だ。特許文書の包括分析、法令の横断検索、医学論文のメタ分析など、大量文書を一度に処理する日本語タスクで威力を発揮する。
ChatGPT Plusとの使い分け
日常的なAI利用にはChatGPT Plusが便利だが、以下の場合はLlama 4のセルフホスティングが優位となる。
- データプライバシーが最重要: 機密データを外部に出せない場合
- 大量バッチ処理: API課金よりセルフホスティングの方が安い場合
- カスタマイズ: ファインチューニングで特定ドメインに最適化したい場合
- 超長コンテキスト: 10Mトークンを活用したい場合
まとめ
Llama 4 Scout/Maverickは、オープンソースLLMがプロプライエタリモデルの性能に肉薄した歴史的なリリースだ。10Mコンテキストウィンドウは、これまで技術的に不可能だった多くのユースケースを可能にする。
具体的なアクションステップ
- Hugging Faceでモデルを試す: Llama 4 Scoutの量子化版はHugging Face Hubからダウンロード可能。まずはHugging Face Spacesのデモで性能を体感する
- Ollamaでローカル実行する: Apple Silicon Mac(M4 Pro以上、64GB RAM推奨)ならOllama経由でScoutのINT4量子化版をローカル実行可能。コマンド1つでインストールできる
- 長コンテキストの実用性を検証する: 自社のユースケースで10Mコンテキストが必要かを検討。大多数のタスクは128K以内で足りるため、本当に必要な場面を見極める
- ファインチューニングを検討する: Apache 2.0ライセンスにより、自社データでのファインチューニングが自由。LoRA/QLoRAで少ないGPUリソースでも可能
- クラウドAPIで手軽に試す: セルフホスティングが大変な場合は、AWS Bedrock、Together AI、GroqなどのマネージドAPIから試用を開始する