AI13分で読める

Llama 4 ScoutがコンテキストMトークン時代を切り開く

MetaがLlama 4 ScoutLlama 4 MaverickをApache 2.0ライセンスでリリースした。最大の衝撃は、Scoutの10Mトークンコンテキストウィンドウだ。これは書籍にして約50冊分、コードベースにして数十万行を一度に処理できるサイズであり、GPT-4oの128Kトークンの78倍に相当する。

さらに両モデルはMoE(Mixture of Experts)アーキテクチャを採用し、Scoutは109Bパラメータ中17Bのみがアクティブ(16エキスパートから1つを選択)、Maverickは400Bパラメータ中17Bアクティブ(128エキスパート)という効率的な構造だ。オープンソースLLMの性能がプロプライエタリモデルに急速に追いつきつつある。

Llama 4ファミリーの全体像

以下の図は、Llama 4ファミリーの構成を示しています。

Llama 4ファミリー構成図。Scout(109B、16エキスパート、10Mコンテキスト)とMaverick(400B、128エキスパート、1Mコンテキスト)の2モデル構成

Llama 4 Scout

  • パラメータ: 109B(アクティブ17B)
  • エキスパート数: 16
  • コンテキスト: 10Mトークン
  • 用途: 長文書分析、コードベース全体の理解、大規模データ処理
  • ライセンス: Apache 2.0

Llama 4 Maverick

  • パラメータ: 400B(アクティブ17B)
  • エキスパート数: 128
  • コンテキスト: 1Mトークン
  • 用途: 高品質な推論、複雑なタスク、マルチモーダル処理
  • ライセンス: Apache 2.0

MoE(Mixture of Experts)とは何か

MoEは、モデルのパラメータすべてを毎回使用するのではなく、入力に応じて最適なサブネットワーク(エキスパート)を動的に選択するアーキテクチャだ。

従来のDenseモデルとの違い

Denseモデル(GPT-4、Claude Opus 4など): すべてのパラメータが毎回の推論で使用される。70Bモデルなら70B全体が計算に参加する。

MoEモデル(Llama 4、Mixtralなど): ルーターネットワークが入力トークンごとに最適なエキスパートを選択。109Bのパラメータがあっても、実際にアクティブなのは17Bだけ。

この仕組みにより、MoEモデルはパラメータ数に対して大幅に少ない計算量で推論を実行できる。Llama 4 Scoutは109Bモデルでありながら、実効的な計算コストは17B Denseモデルと同等だ。

Llama 4 MoEの特徴

Llama 4のMoE実装には、Metaの独自改良が加えられている。

  1. Interleaved Attention: 長コンテキスト処理を効率化するため、一部のAttention層でローカルアテンション(近傍のトークンのみ参照)を使用
  2. 共有エキスパート: 16エキスパートのうち1つは常にアクティブな「共有エキスパート」で、基本的な言語知識を担当
  3. ロードバランシング: エキスパートの使用頻度が偏らないよう、トレーニング時にバランシングロスを適用

ベンチマーク比較

ベンチマークLlama 4 Scout (109B)Llama 4 Maverick (400B)GPT-4oClaude Sonnet 4.5Gemini 2.5 Pro
MMLU-Pro74.3%84.1%85.6%87.2%86.3%
HumanEval+82.5%89.4%90.8%93.1%91.5%
MATH-50076.8%85.3%86.1%88.4%89.2%
IFEval87.4%92.6%89.3%91.8%90.5%
Needle-in-a-Haystack (1M)99.1%98.3%利用不可利用不可97.8%
MT-Bench8.59.19.29.49.3
コンテキスト長10M1M128K200K2M

Maverickは汎用ベンチマークでGPT-4oと同等以上の性能を達成し、オープンソースモデルとして初めてGPT-4oレベルに到達した歴史的モデルと言える。Scoutは汎用性能では劣るが、10Mコンテキストと**Needle-in-a-Haystack 99.1%**が圧倒的な強みだ。

10Mコンテキストの実用的な活用例

10Mトークンは途方もないサイズだ。具体的にどのような用途で活きるのか。

コードベース全体の理解

大規模なオープンソースプロジェクト(例: Linux Kernel の一部モジュール、Kubernetes のソースコードなど)を丸ごとコンテキストに入れ、アーキテクチャの理解やバグの特定が可能になる。

法務・契約書分析

企業のM&Aでは数千ページの契約書群を横断的に分析する必要がある。10Mコンテキストなら1回のリクエストで全文書を分析し、矛盾点や不整合を検出できる。

科学論文の包括的レビュー

特定テーマの論文100本以上を一度にコンテキストに入れ、メタ分析やシステマティックレビューの草稿を自動生成。研究者の文献レビュー工数を劇的に削減する。

ロングフォームコンテンツ生成

長編小説や技術書籍の一貫した生成。従来のLLMは長文生成時に文脈を「忘れる」問題があったが、10Mコンテキストならストーリーの一貫性を最初から最後まで維持できる。

セルフホスティングのハードウェア要件

以下の図は、Llama 4モデルのハードウェア要件を示しています。

Llama 4のハードウェア要件比較。Scout(GPU 2〜4枚で動作)とMaverick(GPU 8枚以上推奨)のインフラコスト比較

Llama 4 Scout(109B)

精度必要VRAM推奨GPU構成月額クラウドコスト目安
FP16約220GBH100 80GB x 4約$12,000
INT8約110GBH100 80GB x 2約$6,000
INT4約55GBA100 80GB x 1約$2,000

Llama 4 Maverick(400B)

精度必要VRAM推奨GPU構成月額クラウドコスト目安
FP16約800GBH100 80GB x 16約$48,000
INT8約400GBH100 80GB x 8約$24,000
INT4約200GBH100 80GB x 4約$12,000

MoEアーキテクチャのおかげで、推論時の計算コストは見た目のパラメータ数より大幅に低い。しかし、モデルウェイト自体は全エキスパート分をメモリにロードする必要があるため、VRAMの要件は依然として高い。

オープンソースLLMの意義

Apache 2.0ライセンスの重要性

Llama 4はApache 2.0ライセンスで提供され、商用利用に制限がない。これはLlama 2の独自ライセンス(月間アクティブユーザー7億人制限)やLlama 3の改良ライセンスからさらに進んだものだ。

  • 商用利用: 無制限(アプリ、SaaS、APIサービスに組み込み可能)
  • 改変・再配布: 自由
  • サブライセンス: 可能
  • 出力の権利: ユーザーに帰属

エコシステムの拡大

Llama 4のリリースに合わせ、主要プラットフォームが即日サポートを開始した。

  • Hugging Face: Transformersライブラリで公式サポート
  • vLLM: 高速推論エンジンで最適化済み
  • Ollama: ローカル実行用に量子化版を提供
  • AWS Bedrock / Azure AI / Google Cloud Vertex AI: マネージドAPIとして提供
  • Groq / Together AI / Fireworks AI: 推論APIとして低レイテンシで提供

日本ではどうなるか

日本語性能

Llama 4の日本語性能は前世代から大幅に改善された。Metaのトレーニングデータに日本語コーパスが増量されたことに加え、MoEアーキテクチャにより日本語に特化したエキスパートが形成されているとみられる。

JCommonsenseQAでの非公式テストでは、Maverick が87.3%(Llama 3.1 405B は78.2%)と大幅な向上を示した。ただし、Claude Opus 4(94.3%)やGPT-4o(90.1%)にはまだ及ばない。

日本企業のセルフホスティング需要

データの海外流出を避けたい日本企業にとって、オープンソースLLMのセルフホスティングは魅力的な選択肢だ。特に金融機関やヘルスケア企業では、規制対応の観点からクラウドAPIの利用に制約があるケースが多く、自社データセンターやプライベートクラウドでの運用ニーズが高い。

さくらインターネット・GMOなどの国内クラウドでの提供

国産クラウドサービスでもLlama 4の提供が始まっている。さくらインターネットのGPUクラウドではH100インスタンスを時間単位で利用可能で、Scout(INT4量子化)なら月額15万円程度から運用できる計算だ。

研究機関での活用

10Mコンテキストは日本の研究機関にとって画期的だ。特許文書の包括分析、法令の横断検索、医学論文のメタ分析など、大量文書を一度に処理する日本語タスクで威力を発揮する。

ChatGPT Plusとの使い分け

日常的なAI利用にはChatGPT Plusが便利だが、以下の場合はLlama 4のセルフホスティングが優位となる。

  • データプライバシーが最重要: 機密データを外部に出せない場合
  • 大量バッチ処理: API課金よりセルフホスティングの方が安い場合
  • カスタマイズ: ファインチューニングで特定ドメインに最適化したい場合
  • 超長コンテキスト: 10Mトークンを活用したい場合

まとめ

Llama 4 Scout/Maverickは、オープンソースLLMがプロプライエタリモデルの性能に肉薄した歴史的なリリースだ。10Mコンテキストウィンドウは、これまで技術的に不可能だった多くのユースケースを可能にする。

具体的なアクションステップ

  1. Hugging Faceでモデルを試す: Llama 4 Scoutの量子化版はHugging Face Hubからダウンロード可能。まずはHugging Face Spacesのデモで性能を体感する
  2. Ollamaでローカル実行する: Apple Silicon Mac(M4 Pro以上、64GB RAM推奨)ならOllama経由でScoutのINT4量子化版をローカル実行可能。コマンド1つでインストールできる
  3. 長コンテキストの実用性を検証する: 自社のユースケースで10Mコンテキストが必要かを検討。大多数のタスクは128K以内で足りるため、本当に必要な場面を見極める
  4. ファインチューニングを検討する: Apache 2.0ライセンスにより、自社データでのファインチューニングが自由。LoRA/QLoRAで少ないGPUリソースでも可能
  5. クラウドAPIで手軽に試す: セルフホスティングが大変な場合は、AWS Bedrock、Together AI、GroqなどのマネージドAPIから試用を開始する

この記事をシェア