Google Gemma 4がApache 2.0で公開——オープンLLMの最前線
2026年4月2日、Google DeepMindはオープンウェイトLLM「Gemma 4」を公開した。Gemini 3と同じ研究基盤から生まれた4つのモデルがApache 2.0ライセンス(商用利用完全無料)で提供され、スマートフォンからデータセンターまでをカバーする。31Bモデルは業界標準のArena AIテキストリーダーボードで世界3位にランクインし、オープンモデルの新たなベンチマークを打ち立てた。
Gemma 4とは何か
Gemma 4は、Googleが自社の最上位モデル「Gemini 3」の研究成果をベースに構築したオープンウェイトLLMファミリーだ。「オープンウェイト」とは、モデルの重み(パラメータ)が公開されており、開発者が自分のハードウェアでダウンロード・実行・ファインチューニングできることを意味する。
前世代のGemma 2(2024年6月公開)から約2年を経て、アーキテクチャ・性能ともに大幅に進化した。特に今回は「エージェント能力」にフォーカスし、関数呼び出し(Function Calling)や構造化JSON出力をネイティブサポートしている点が最大の特徴だ。
4つのモデルバリエーション
Gemma 4は用途に応じて4サイズが提供される。
| モデル | パラメータ数 | アーキテクチャ | コンテキスト長 | 主な用途 |
|---|---|---|---|---|
| E2B | 実効2B | MoE | 128K | スマートフォン・IoTデバイス |
| E4B | 実効4B | MoE | 128K | エッジデバイス・ラップトップ |
| 26B | 26B | MoE | 256K | 開発者ワークステーション |
| 31B | 31B | Dense | 256K | サーバー・クラウド推論 |
この図はGemma 4の4モデルの位置づけとターゲットデバイスを示しています。
**E2B・E4Bの「E」はEffective(実効)**を意味する。MoE(Mixture of Experts)アーキテクチャにより、全パラメータのうち推論時にアクティベートされるのは一部のみで、実効的なパラメータ数が2B・4Bに抑えられる。これにより、スマートフォンのような限られたメモリでも高性能を発揮できる。
ベンチマーク性能
Gemma 4の31Bモデルは、複数のベンチマークで印象的なスコアを記録している。
| ベンチマーク | Gemma 4 31B | Llama 4 Scout | Qwen 3 32B | 評価内容 |
|---|---|---|---|---|
| AIME 2026 | 89.2% | 75.8% | 82.1% | 数学的推論 |
| GPQA Diamond | 84.3% | 78.2% | 80.5% | 科学知識 |
| LiveCodeBench v6 | 80.0% | 72.4% | 76.8% | コーディング |
| Arena AI(テキスト) | 3位 | 8位 | 5位 | 総合評価 |
特に注目すべきは**AIME 2026での89.2%**だ。これは高度な数学オリンピック問題を解くベンチマークで、同サイズ帯のオープンモデルでは突出した数値となっている。
マルチモーダル対応
Gemma 4の全モデルが画像と動画の入力をネイティブサポートする。加えて、E2BとE4Bは音声入力にも対応しており、エッジデバイスでの音声アシスタントや画像認識アプリケーションに適している。
従来、マルチモーダル機能はクラウドAPIを通じてのみ利用可能だったが、Gemma 4ではローカル実行でもこれらの機能が使える。スマートフォン上で動画を解析したり、オフライン環境で画像の質問応答を行ったりすることが可能になった。
エージェント機能
Gemma 4が前世代から最も進化した領域がエージェント能力だ。
Function Calling(関数呼び出し)
外部ツールやAPIをLLMから直接呼び出す機能をネイティブサポート。天気情報の取得、データベースの検索、外部サービスの操作などをモデルが自律的に判断して実行できる。
構造化JSON出力
APIレスポンスやデータ抽出の結果を、指定したスキーマに従ったJSONで出力可能。従来のプロンプトエンジニアリングによる「JSONで出力してください」という指示よりも遥かに信頼性が高い。
マルチステップ推論
複数のステップを踏む複雑なタスク(例: 「予算内でホテルを検索し、空室を確認し、予約する」)を、段階的に計画・実行できる。
競合モデルとの比較
この図はGemma 4と競合オープンモデルの性能比較を示しています。
2026年のオープンLLM市場は三つ巴の様相を呈している。
| 項目 | Gemma 4(Google) | Llama 4(Meta) | Qwen 3(Alibaba) |
|---|---|---|---|
| ライセンス | Apache 2.0 | Llama Community License | Apache 2.0 |
| 商用利用 | 完全無料 | 条件付き無料(月間7億ユーザー以下) | 完全無料 |
| モデルサイズ | 2B〜31B | 17B〜405B | 0.6B〜110B |
| マルチモーダル | 画像・動画・音声 | 画像・動画 | 画像・動画・音声 |
| エージェント機能 | ネイティブ対応 | ネイティブ対応 | ネイティブ対応 |
| 日本語対応 | 140言語以上 | 多言語対応 | 多言語対応(中国語に強い) |
| 公開日 | 2026年4月2日 | 2025年4月 | 2025年4月 |
Gemma 4の差別化ポイントは以下の3つだ。
- Apache 2.0ライセンス: Llama 4はユーザー数制限があるが、Gemma 4は完全に制限なし
- エッジデバイス最適化: E2B(実効2B)はスマートフォンで動作する最小サイズで、かつエージェント機能を備える
- Googleエコシステム統合: Google Cloud、Vertex AI、Android上のMediaPipeなどとの統合が深い
一方、弱点もある。31Bが最大モデルであり、Llama 4 Scout(109B MoE)やQwen 3 110Bのような大規模モデルは提供されていない。超大規模タスクでは不利になる可能性がある。
料金と利用方法
Gemma 4のモデルウェイトは以下のプラットフォームから無料でダウンロードできる。
- Hugging Face:
google/gemma-4-31b - Kaggle: Kaggle Models
- Ollama:
ollama run gemma4(ローカル実行に最適)
クラウドで利用する場合はGoogle CloudのVertex AI経由でAPIアクセスも可能だ。Vertex AIでの利用料金はトークン量に応じた従量課金制となる。
また、Geminiとは異なり、Gemma 4はオープンウェイトモデルのため自社サーバーでの運用が可能。データのプライバシーが重要なユースケース(医療、金融、法務など)で特に強みを発揮する。
日本視点:140言語対応の意味
Gemma 4は140言語以上のデータでトレーニングされており、日本語もサポート対象に含まれる。これは日本の開発者にとって以下の点で重要だ。
日本語ファインチューニングの土台
ベースモデルが日本語を一定程度理解しているため、少量の日本語データでファインチューニングするだけで高品質な日本語モデルが構築できる。Gemma 2では日本語性能に不満が多かったが、Gemma 4では改善が報告されている。
エッジAIの日本市場
日本はスマートフォン普及率が高く、製造業ではエッジAIの需要が急増している。E2B(2B)モデルがスマートフォンで動作することで、オフライン対応の日本語AIアシスタントや工場内の画像検査システムへの応用が期待できる。
中国モデル(Qwen 3)への対抗
日本の企業が中国製AIモデルを採用することへの懸念が一部で存在する。Apache 2.0ライセンスのGemma 4は、Qwen 3と同等の条件で利用できる信頼性の高い代替選択肢となる。
今後の展望
GoogleはGemma 4を「エッジAIの民主化」の柱と位置づけている。今後の注目ポイントは以下の通りだ。
- Gemma 4 Ultra(仮称): 31B以上の大規模モデルの追加投入の可能性
- Android統合: 次期Android(Android 17)でのオンデバイスAI機能強化にGemma 4が採用される可能性
- 日本語特化モデル: コミュニティによる日本語ファインチューニング版の登場
まとめ:今すぐできるアクションステップ
- 試す:
ollama run gemma4でローカル環境にGemma 4をインストールし、性能を体感する - 比較する: 自社のユースケースでLlama 4やQwen 3と性能を比較検証する
- エッジを検討する: スマートフォンやIoTデバイスでのAI活用にE2B/E4Bモデルの適用を検討する
- 日本語をテストする: 日本語タスクでの品質を評価し、ファインチューニングの必要性を判断する
- ライセンスを確認する: Apache 2.0のため商用利用に制限はないが、利用規約を確認しておく