45超のLLM構造を一覧できる「Architecture Gallery」が凄い
LLM(大規模言語モデル)の世界は急速に進化し、毎月のように新モデルが登場している。しかし「Llama 3 と DeepSeek V3 のアーキテクチャは具体的に何が違うのか」「GQA や MLA とは何か」と問われて即答できるエンジニアは多くないだろう。そんな疑問に応える決定版リソースが登場した。
機械学習の教育者・研究者として知られる Sebastian Raschka 氏が、**45を超える主要LLMのアーキテクチャを視覚的に整理したギャラリー「LLM Architecture Gallery」**を公開した。Hacker News でもスコア210を記録し、AI コミュニティで大きな注目を集めている。各モデルの Transformer ブロック構造、注意機構の種類、正規化手法、位置エンコーディングなどが統一的なフォーマットで図示されており、モデル間の比較が一目で可能になる。
この記事では、ギャラリーの内容を日本語で徹底解説する。LLM の3大アーキテクチャ分類、2024〜2026年の主要技術トレンド、そして日本の AI エンジニアがこのリソースをどう活用すべきかを詳しく見ていこう。
LLM Architecture Gallery とは何か
LLM Architecture Gallery は、Sebastian Raschka 氏が個人サイト上で公開している無料のオンラインリソースだ。Raschka 氏は「Build a Large Language Model (From Scratch)」の著者であり、Lightning AI のリサーチディレクターを務める LLM 分野の第一人者だ。
このギャラリーの特徴は以下の通りである。
- 45以上のモデルを収録(Llama 3, DeepSeek V3, Qwen3, Gemma 3, GPT-OSS など)
- 各モデルの Transformer ブロック構造を統一フォーマットで図解
- 注意機構(MHA / GQA / MLA)、位置エンコーディング(RoPE / ALiBi)、正規化(Pre-Norm / Post-Norm)などの技術要素を一覧比較
- 各モデルの原論文・技術レポートへのリンク付き
- Dense型 / Sparse MoE型 / ハイブリッド型の3カテゴリに分類
従来、こうした情報は各モデルの論文やブログ記事に分散しており、横断的に比較するには膨大な時間が必要だった。ギャラリーはその手間を劇的に削減し、LLM のアーキテクチャ選択やモデル設計の学習に最適な教材となっている。
LLMアーキテクチャの3大分類
ギャラリーで取り上げられているモデルは、大きく3つのカテゴリに分類される。以下の図でその全体像を把握しよう。
この図は、LLM のアーキテクチャを Dense 型、Sparse MoE 型、ハイブリッド型の3カテゴリに分類し、それぞれの代表モデルと特徴を示している。
Dense(密結合)型
Dense 型は、推論時にモデルの全パラメータを毎回使用するアーキテクチャだ。GPT シリーズの原型であり、最もシンプルで理解しやすい構造である。
代表的な Dense 型モデルとして、以下が挙げられる。
- Llama 3(Meta): 8B / 70B / 405B パラメータ。GQA を採用し、128Kトークンのコンテキスト長に対応
- OLMo 2 / OLMo 3(AI2): 完全オープンソース。学習データ・コード・重み全てを公開
- Qwen3 Dense(Alibaba): 0.6B〜32B の多様なサイズ展開。多言語対応に優れる
- Gemma 3(Google DeepMind): 1B〜27B。スライディングウィンドウ注意を採用
- Mistral Small 3.2(Mistral AI): 24B パラメータ。効率性を重視した設計
Dense 型のメリットは推論品質の安定性だ。全パラメータが協調して動作するため、特定タスクに偏ることなくバランスの取れた応答が得られる。一方で、パラメータ数が増えるほど計算コストが線形に増加するというデメリットがある。
Sparse MoE(Mixture of Experts)型
MoE 型は、モデル内部に複数の「エキスパート」(専門家ネットワーク)を持ち、入力トークンごとに一部のエキスパートだけを活性化するアーキテクチャだ。全パラメータ数は巨大でも、推論時に使用するパラメータ数(アクティブパラメータ)は限定されるため、計算効率が飛躍的に向上する。
代表的な MoE 型モデルは以下の通りだ。
- DeepSeek V3 / V3.2(DeepSeek): 671B 総パラメータ、37B アクティブ。MLA(Multi-head Latent Attention)を採用し、KVキャッシュを大幅削減
- Llama 4 Maverick(Meta): 400B 総パラメータ、17B アクティブ。128エキスパートのうち毎回1つを選択
- GPT-OSS(OpenAI): OpenAI 初のオープンソースモデル。MoE アーキテクチャを採用
- Grok 2.5(xAI): 300B超の総パラメータ。リアルタイム情報アクセスと組み合わせ
- GLM(THUDM / 清華大学): 中国発の大規模 MoE モデル
MoE 型の画期的な点は、総パラメータ数と推論コストを分離できることだ。DeepSeek V3 は671Bのパラメータを持ちながら、推論時には37Bしか使わない。つまり、405Bの Llama 3 よりも低い計算コストで、671B相当の知識量を活用できる可能性がある。
ハイブリッド型
ハイブリッド型は、Dense と MoE、あるいは Transformer と SSM(State Space Model)など、異なるアーキテクチャを融合した設計だ。それぞれの長所を組み合わせることで、単一アーキテクチャでは達成困難な性能を狙う。
- Qwen3 Next(Alibaba): Dense 層と MoE 層を交互に配置。コンテキストの初期処理を Dense で行い、後段を MoE で効率的に処理
- Nemotron 3(NVIDIA): Dense プレフィックスに MoE ブロックを連結
- Jamba(AI21 Labs): Transformer と Mamba(SSM)を交互に積層。長文脈処理に強い
- Zamba 2(Zyphra): SSM と Attention を共有パラメータで統合
- RecurrentGemma(Google DeepMind): Gemma に RNN 的な構造を導入
ハイブリッド型は、特に長いコンテキスト長での効率性に優れる。Transformer の二次的な計算量増加を SSM やローカル注意で軽減しつつ、グローバルな文脈理解は Transformer 層で担保するという設計思想だ。
主要モデルのアーキテクチャ比較
ギャラリーの情報をもとに、主要モデルの技術パラメータを比較表にまとめた。
| モデル | タイプ | 総パラメータ | アクティブパラメータ | 注意機構 | 位置エンコーディング | コンテキスト長 |
|---|---|---|---|---|---|---|
| Llama 3 405B | Dense | 405B | 405B | GQA | RoPE | 128K |
| DeepSeek V3 | MoE | 671B | 37B | MLA | RoPE | 128K |
| Qwen3 32B | Dense | 32B | 32B | GQA | RoPE | 128K |
| Gemma 3 27B | Dense | 27B | 27B | GQA + SWA | RoPE | 128K |
| Llama 4 Maverick | MoE | 400B | 17B | GQA | RoPE | 1M+ |
| Mistral Small 3.2 | Dense | 24B | 24B | GQA + SWA | RoPE | 128K |
| GPT-OSS | MoE | 非公開 | 非公開 | GQA | RoPE | 非公開 |
| Grok 2.5 | MoE | 300B+ | 非公開 | GQA | RoPE | 128K+ |
| OLMo 3 | Dense | 1B〜32B | 全量 | GQA | RoPE | 32K〜128K |
| Nemotron 3 | Hybrid | 非公開 | 非公開 | GQA | RoPE | 128K |
注目すべき点がいくつかある。まず、ほぼ全てのモデルが RoPE を採用していること。ALiBi や Learned Positional Embedding はほぼ姿を消し、RoPE が位置エンコーディングの事実上の標準になった。次に、GQA の普及率が極めて高いこと。MHA(Multi-Head Attention)は旧世代の設計となり、新モデルのほとんどが GQA もしくはより先進的な MLA を選択している。
2024〜2026年の5大アーキテクチャトレンド
ギャラリーを俯瞰すると、LLM 設計の潮流がはっきりと見える。以下の図で5つの主要トレンドを整理した。
この図は、注意機構、位置エンコーディング、MoE 構造、正規化手法、スライディングウィンドウ注意の5つのトレンドと、ギャラリー内モデルにおける採用率を示している。
トレンド1: MHA → GQA → MLA の進化
Transformer の注意機構は、**Multi-Head Attention(MHA)からGrouped Query Attention(GQA)へ、さらにMulti-head Latent Attention(MLA)**へと進化している。
MHA は Query / Key / Value の各ヘッドが1対1で対応する最も基本的な構造だ。しかし推論時の KV キャッシュが巨大になるという問題があった。
GQA は Key / Value のヘッド数を Query より少なくすることで、KV キャッシュサイズを劇的に削減する。例えば Llama 3 の405Bモデルでは、128の Query ヘッドに対して Key / Value は8ヘッドに集約されている。これにより、MHA と比較して KV キャッシュが16分の1になる。
MLA は DeepSeek が開発した最先端の注意機構で、KV をさらに低ランクの潜在空間に圧縮する。DeepSeek V3 では、KV キャッシュが GQA 比でさらに数分の一に削減されており、671B という巨大モデルを現実的なコストで運用可能にした鍵がこの技術だ。
トレンド2: RoPE の標準化
**Rotary Position Embedding(RoPE)**は、トークンの位置情報を回転行列として注意ヘッドに組み込む手法だ。2023年頃までは ALiBi(Attention with Linear Biases)や学習可能な位置埋め込みなど複数の手法が競合していたが、2024年以降の新モデルではほぼ例外なく RoPE が採用されている。
RoPE が標準化された理由は主に3つある。
- 外挿性能が高い: 学習時より長いシーケンスにも比較的よく汎化する
- 相対位置の表現が自然: 回転行列の性質を利用して、2トークン間の距離を内積に自然に反映できる
- 実装が簡単: 既存の Transformer にほぼ変更なしで追加でき、計算オーバーヘッドも小さい
トレンド3: MoE の密集プレフィックス
MoE モデルの新しい設計パターンとして、序盤の数層を Dense(密結合)で構成し、後半の層のみ MoE にする「密集プレフィックス(Dense Prefix)」が広まっている。
この設計の意図は、入力トークンの初期表現を全パラメータで丁寧に構築し、十分にリッチな特徴量が得られた後で MoE によるルーティングを行うことだ。Nemotron 3 や Qwen3 Next がこのアプローチを採用しており、MoE のルーティング精度が向上し、学習の安定性も増すとされている。
トレンド4: QK-Norm の採用
QK-Norm は、注意機構の Query ベクトルと Key ベクトルに対して正規化(normalization)を適用する技術だ。大規模モデルの学習において、注意スコアが極端な値になること(attention logit の爆発)を防ぎ、学習を安定化させる。
Gemma 3、OLMo 2、Llama 4 Maverick など、最新のモデルで急速に採用が広がっている。特に 100B 以上の大規模モデルや、long context を扱うモデルで効果が顕著とされる。
トレンド5: スライディングウィンドウ注意
**スライディングウィンドウ注意(Sliding Window Attention / SWA)**は、一部の Transformer 層で注意の範囲を固定長のウィンドウ(例: 4,096トークン)に制限する手法だ。残りの層はフルアテンション(全トークンを参照)を維持するため、ローカルな文脈理解とグローバルな文脈理解を両立できる。
Gemma 3 や Mistral Small 3.2 では、SWA 層とフルアテンション層を交互に配置するパターンが採用されている。メモリ使用量を削減しつつ、長文脈での性能低下を最小限に抑える効果がある。
GQA / MLA / RoPE の仕組みをもう少し深く
ここでは、ギャラリーで頻出する3つの技術について、もう少し踏み込んで解説する。
GQA(Grouped Query Attention)の仕組み
従来の MHA では、例えば32ヘッドの場合、Q / K / V それぞれに32セットの投影行列が必要だった。GQA では、Q は32ヘッドのまま、K と V のヘッド数を4や8に集約する。複数の Q ヘッドが1つの K-V ペアを共有することで、KV キャッシュサイズとメモリ帯域の消費を削減する。
具体的な数値で言えば、Llama 3 70B は Q=64ヘッド、KV=8ヘッドの構成だ。これにより MHA 比で KV キャッシュが8分の1になり、バッチサイズを大幅に拡大できる。つまり同じ GPU メモリで8倍のリクエストを同時処理できる可能性があるということだ。
MLA(Multi-head Latent Attention)の仕組み
MLA は DeepSeek V2 で初めて導入された手法で、KV キャッシュをさらに圧縮する。通常の注意機構では各ヘッドの Key / Value を個別に保存するが、MLA ではこれを低ランク行列に射影(圧縮)してからキャッシュする。推論時には圧縮済みのベクトルからオンザフライで Key / Value を復元する。
DeepSeek V3 の MLA では、KV キャッシュのサイズが GQA 比でさらに5〜10倍小さくなると報告されている。これが、671B という巨大モデルを比較的少ない GPU で推論可能にしている最大の要因だ。
RoPE(Rotary Position Embedding)の仕組み
RoPE は、トークンの位置 $m$ に応じて注意ヘッドの特徴量ベクトルを回転させる。2次元ごとのペアに対して、位置 $m$ に比例した角度で回転行列を適用する。2つのトークンの内積を計算すると、回転角の差(つまり2トークン間の距離)だけが残る。これにより、絶対位置を知らなくても相対位置を自然に反映できる。
さらに、RoPE は学習時のコンテキスト長を超えた外挿にも対応しやすい。NTK-Aware Scaling や YaRN などの拡張手法を適用することで、4K トークンで学習したモデルを 128K トークンに拡張するといったことが可能になる。
日本のAIエンジニアはどう活用すべきか
LLM Architecture Gallery は、日本の AI エンジニアにとって特に価値の高いリソースだ。その理由と活用方法を考察する。
1. モデル選定の判断材料として
日本企業で LLM を導入する際、「どのモデルを選ぶか」は最重要の意思決定だ。ギャラリーを使えば、候補モデルのアーキテクチャ上の違いを短時間で把握できる。例えば「推論コストを最優先にしたい」なら MoE 型を、「安定性を重視したい」なら Dense 型を検討するといった判断が、アーキテクチャの理解に基づいて行える。
Claude Pro や ChatGPT Plus などの商用 LLM を利用する場合でも、背後のアーキテクチャを理解しておくことで、プロンプト設計やコンテキスト長の管理がより適切に行える。
2. 自社モデル開発・ファインチューニングの設計指針
日本語特化モデルの開発やファインチューニングを行う場合、ギャラリーは設計の出発点になる。例えば、OLMo 3 のようなフルオープンソースモデルをベースに、GQA + RoPE + QK-Norm の構成でファインチューニングするといった設計判断を、ギャラリーの情報をもとに下せる。
3. 技術トレンドの定点観測
ギャラリーは継続的に更新されている。新モデルが発表されるたびに追加されるため、定期的にチェックすることで LLM アーキテクチャのトレンド変化をいち早くキャッチできる。これは技術ブログの執筆、社内勉強会の資料作成、採用面接での技術的議論など、様々な場面で活きてくる。
4. 日本語特有の考慮事項
日本語は英語に比べてトークン数が多くなりやすい(同じ内容でも1.5〜2倍のトークンを消費する)。そのため、KV キャッシュの効率性は日本語ユースケースでは特に重要だ。GQA や MLA を採用したモデルは、日本語処理において相対的に大きなメリットを享受できる。
また、Gemini のような長コンテキスト対応モデルは、日本語の文書処理(契約書、技術文書の要約など)で特に威力を発揮する。RoPE ベースのコンテキスト拡張技術を理解しておくことは、こうしたモデルの性能限界を見極める上で重要だ。
料金とアクセス方法
LLM Architecture Gallery は 完全無料 で公開されている。特別な登録やアカウント作成は不要で、ブラウザからアクセスするだけで全ての図と情報を閲覧できる。
ギャラリーに掲載されている各モデルの利用料金は以下の通りだ(API利用の場合)。
| モデル | 入力単価 (1M tokens) | 出力単価 (1M tokens) | 日本円換算(入力/出力) |
|---|---|---|---|
| Llama 3 405B | $3.00 | $3.00 | 約450円 / 450円 |
| DeepSeek V3 | $0.27 | $1.10 | 約40円 / 165円 |
| Gemma 3 27B | 無料(オープンウェイト) | 無料(オープンウェイト) | 自前GPU費用のみ |
| Qwen3 32B | $0.30 | $0.60 | 約45円 / 90円 |
| Mistral Small 3.2 | $0.10 | $0.30 | 約15円 / 45円 |
※ 価格は2026年3月時点。日本円は1ドル=150円で換算。
MoE モデル(特に DeepSeek V3)は総パラメータ数に対して驚くほど低コストであることが分かる。これはアーキテクチャの効率性が直接的に料金に反映されている好例だ。
まとめ——LLMアーキテクチャの「地図」を手に入れよう
Sebastian Raschka 氏の LLM Architecture Gallery は、急速に進化する LLM の世界を俯瞰するための「地図」だ。以下の3ステップで活用を始めよう。
-
まずギャラリーを開いて全体像を掴む: LLM Architecture Gallery にアクセスし、Dense / MoE / ハイブリッドの3分類を確認する。自分が使っている LLM がどのカテゴリに属するかを把握しよう
-
5大トレンドを自分の知識に紐付ける: GQA、RoPE、MoE Dense Prefix、QK-Norm、SWA の5つのキーワードを覚え、各技術が「何を解決するのか」を理解する。これだけで LLM の論文や技術記事の読解速度が格段に上がる
-
モデル選定に活かす: 次に LLM を導入・切り替える機会が来たら、ギャラリーの比較表を参照して「なぜそのモデルを選ぶのか」をアーキテクチャの観点から説明できるようにしよう。Claude Pro や ChatGPT Plus、Gemini などの商用 LLM を検討する際にも、背後の技術を理解しておくことで、より適切な選択ができるはずだ
LLM の進化は止まらない。しかし、アーキテクチャの基本構造を理解していれば、新モデルが登場しても「何が変わって、何が変わらないのか」を冷静に判断できる。ギャラリーを定期的にチェックして、LLM の最新動向を追い続けよう。