Gemini 2.5 Ultra公開——100万トークン×全モダリティ統合の衝撃

100万トークンのコンテキストウィンドウ、テキスト・画像・動画・音声・コードを単一モデルで処理するネイティブマルチモーダル、そしてコーディングベンチマーク SWE-bench でGPT-5 を上回るスコア。Google が2026年3月に公開した Gemini 2.5 Ultra は、大規模言語モデル（LLM）の競争をさらに一段階引き上げた。API 料金は入力 $7/100万トークン（約1,050円） と、Ultra クラスのモデルとしては攻めた価格設定だ。

この記事では、Gemini 2.5 Ultra の技術的な中身から競合比較、料金体系、そして日本市場への影響までを詳しく解説する。

Gemini 2.5 Ultra とは何か

Gemini 2.5 Ultra は、Google DeepMind が開発した最新のフラッグシップ AI モデルだ。前世代の Gemini 2.0 Ultra から大幅にアーキテクチャが刷新され、以下の3つの柱で構成されている。

1. ネイティブマルチモーダル

従来の多くの LLM は、テキストを主軸に画像や音声を「後付け」で処理していた。Gemini 2.5 Ultra は異なるアプローチをとっている。テキスト、画像、動画、音声、コードの5つのモダリティを事前学習の段階から統合的に扱う設計だ。これにより、例えば「この動画の3分22秒の場面で話されている内容をコードに変換して」といった、複数モダリティをまたぐ複雑な指示を自然に処理できる。

以下の図は、Gemini 2.5 Ultra のマルチモーダルアーキテクチャの概要を示しています。5つの入力モダリティが統合エンコーダで単一のトークン空間に変換され、Transformer コアで処理される仕組みです。

Gemini 2.5 Ultraのマルチモーダルアーキテクチャ概要図。テキスト・画像・動画・音声・コードの5入力が統合エンコーダを経てTransformerコアで処理される

統合エンコーダは各モダリティの入力を共通のトークン空間にマッピングする。これにより、Transformer コアは入力がテキストであっても動画であっても、同じ注意機構（Attention）で横断的に処理できる。Google DeepMind の研究チームによれば、この設計により「モダリティ間の暗黙的な知識転移」が発生し、例えば音声認識の精度が画像理解の学習データからも恩恵を受けるという。

2. 100万トークンのコンテキストウィンドウ

100万トークンは、英語で約75万語、日本語でもおよそ50万字以上に相当する。これは文庫本約5冊分、あるいは大規模なコードベース全体を一度にモデルに渡せる量だ。

長大なコンテキストウィンドウは、以下のようなユースケースで威力を発揮する。

コードベース全体の理解: リポジトリ全体を渡して「このバグの原因を特定して」と指示
長時間動画の分析: 1時間の会議録画を丸ごと入力して議事録を生成
大量文書の横断検索: 数百ページの契約書群から特定条項の矛盾を発見
長期対話の記憶保持: 数日にわたるプロジェクトの会話履歴を保持したまま作業を継続

Google は RULER（長文理解ベンチマーク）128K トークン評価でスコア95を達成したと報告しており、これは GPT-5 の78、Claude Opus 4 の85を大きく上回る。長文処理は Gemini 2.5 Ultra の最大の差別化ポイントだ。

3. Mixture of Experts（MoE）による効率化

Gemini 2.5 Ultra は MoE（Mixture of Experts）アーキテクチャを採用している。これは、モデル全体のパラメータ数は巨大だが、推論時には入力に応じて一部の「エキスパート」モジュールのみが活性化する仕組みだ。全パラメータを毎回計算する密なモデルと比較して、推論コストを大幅に削減しつつ、品質を維持できる。

この効率化が、Ultra クラスのモデルとしては攻撃的な API 料金設定を可能にしている。

ベンチマーク比較——主要LLMとの実力差

Gemini 2.5 Ultra は複数の主要ベンチマークで最高水準のスコアを記録した。以下の図は、コーディング、数学推論、マルチモーダル理解、長文理解の4カテゴリでの比較結果を示しています。

主要LLMベンチマーク比較の棒グラフ。コーディング・数学推論・マルチモーダル・長文理解の4カテゴリでGemini 2.5 Ultra、GPT-5、Claude Opus 4、Llama 4 Maverickを比較

この図から分かるとおり、Gemini 2.5 Ultra は4カテゴリすべてでトップスコアを獲得しています。特に長文理解での優位性が際立っています。

以下の表に主要ベンチマークの詳細数値をまとめた。

ベンチマーク	Gemini 2.5 Ultra	GPT-5	Claude Opus 4	Llama 4 Maverick
SWE-bench（コーディング）	92	88	90	78
MATH-500（数学推論）	96	94	91	85
MMMU（マルチモーダル）	88	82	80	73
RULER 128K（長文理解）	95	78	85	65
HumanEval（コード生成）	94	92	91	82
GPQA Diamond（科学推論）	82	79	78	68

特筆すべきは SWE-bench でのスコアだ。SWE-bench は実際の GitHub イシューを解決するタスクで、コーディング能力の実践的な指標として業界で広く参照されている。Gemini 2.5 Ultra の92点は、GPT-5 の88点を4ポイント上回った。これは「コーディング AI としてもトップクラス」であることを意味する。

一方で、Claude Opus 4 は SWE-bench で90点と僅差であり、特に日本語テキスト処理や長文要約の品質では独自の強みを持つ。どのモデルが「最強」かは、ユースケース次第というのが現実的な評価だ。

料金体系と日本円換算

Gemini 2.5 Ultra は Google Cloud Vertex AI および Gemini API 経由で利用できる。料金体系は以下のとおりだ。

項目	料金（USD）	日本円換算（1ドル=150円）
入力トークン（テキスト）	$7 / 100万トークン	約1,050円
出力トークン（テキスト）	$21 / 100万トークン	約3,150円
画像入力	$0.002 / 画像	約0.3円
動画入力	$0.006 / 秒	約0.9円
音声入力	$0.004 / 秒	約0.6円
コンテキストキャッシュ割引	入力料金の50%OFF	—

主要モデルとの料金比較も重要だ。

モデル	入力料金（/100万トークン）	出力料金（/100万トークン）	コンテキスト長
Gemini 2.5 Ultra	$7	$21	100万
GPT-5	$10	$30	25.6万
Claude Opus 4	$15	$75	20万
Llama 4 Maverick（API）	$5	$15	12.8万

Gemini 2.5 Ultra は、コンテキスト長あたりのコストパフォーマンスで圧倒的な優位性がある。100万トークンのコンテキストを$7で利用できるのに対し、同等の情報量を GPT-5 で処理しようとすると複数回のAPI呼び出しが必要になり、実質コストは数倍に膨らむ。

コンテキストキャッシュも注目の機能だ。同じプロンプトプレフィックスを繰り返し使う場合、2回目以降は入力料金が50%オフになる。大量の文書を固定コンテキストとして設定し、異なる質問を投げるようなRAGパターンで大幅なコスト削減が可能だ。

Google Cloud Vertex AI での法人利用

Gemini 2.5 Ultra は Google Cloud の Vertex AI プラットフォーム経由で法人向けに提供される。Vertex AI 経由での利用には、以下のエンタープライズ向け機能が含まれる。

データプライバシー保証: 入力データがモデルの学習に使用されないことを契約で保証
SLA: 99.9%のアップタイム保証（Gemini API の無料枠にはSLAなし）
VPC Service Controls: 企業のVPC内でAPIを閉域接続可能
監査ログ: Cloud Audit Logs との統合で全リクエストを記録
カスタムチューニング: 企業固有のデータでファインチューニング可能（別途料金）

Google は既に「Fortune 500企業の70%以上が Vertex AI を利用している」と発表しており、Gemini 2.5 Ultra の追加でさらにエンタープライズ顧客の囲い込みを強化する狙いだ。

開発者にとって何が変わるか

Gemini 2.5 Ultra の登場は、開発者のワークフローにいくつかの具体的な変化をもたらす。

コーディングアシスタントとしての実力

SWE-bench 92点のスコアは、Gemini 2.5 Ultra が単なる「コード補完ツール」ではなく、実際のソフトウェアエンジニアリングタスクを高精度でこなせることを意味する。具体的には以下のようなタスクが得意だ。

バグの根本原因分析と修正パッチの生成
複数ファイルにまたがるリファクタリング
テストケースの自動生成
コードレビューと改善提案

100万トークンのコンテキストと組み合わせると、リポジトリ全体をコンテキストに載せたうえでコーディングタスクを実行できる。これは Gemini の Google AI Studio や、Vertex AI のコード支援機能で直接活用できる。

マルチモーダル開発の民主化

これまで画像認識、音声処理、動画分析にはそれぞれ専門のモデルやパイプラインが必要だった。Gemini 2.5 Ultra では、単一のAPIエンドポイントで全モダリティを処理できるため、開発の複雑さが大幅に軽減される。

例えば、従来は「音声をWhisperで文字起こし→テキストをGPTで分析→結果を画像生成AIに渡す」という3段階のパイプラインが必要だった処理が、Gemini 2.5 Ultra では1回のAPI呼び出しで完結する可能性がある。

日本市場への影響

日本語処理の実力

Google は Gemini 2.5 Ultra の多言語対応を強化しており、日本語は「Tier 1」言語として最優先でサポートされている。前世代の Gemini 2.0 Ultra では日本語の長文要約で品質低下が指摘されていたが、2.5 Ultra では100万トークンコンテキストと改善されたトークナイザにより、日本語でも安定した出力が期待される。

ただし、実際の日本語処理品質については第三者評価を待つ必要がある。日本語のトークン効率（1文字あたりのトークン消費量）は英語より高く、100万トークンでも日本語換算ではやや少ない文字数しか処理できない点にも注意が必要だ。

日本企業の導入シナリオ

Vertex AI 経由での法人利用が可能であるため、日本企業にとっては以下のようなユースケースが現実的だ。

コールセンターの自動化: 音声入力をそのまま Gemini に渡し、回答生成から感情分析まで一括処理
製造業の品質検査: カメラ映像をリアルタイムで分析し、不良品検出と報告書作成を自動化
法務・コンプライアンス: 数百ページの契約書を一括で読み込み、リスク条項の抽出と比較
ソフトウェア開発: 大規模コードベースの理解と保守作業の効率化

Google Cloud の東京リージョン（asia-northeast1）で Vertex AI が利用可能であるため、データの国内保持が求められる企業でも導入しやすい環境が整っている。

競合サービスとの使い分け

日本市場では OpenAI の GPT-5 と Anthropic の Claude Opus 4 が先行して法人契約を獲得している。Gemini 2.5 Ultra の参入により、企業は3つのモデルをユースケースに応じて使い分ける戦略がベストプラクティスになるだろう。

長文処理・マルチモーダル: Gemini 2.5 Ultra（100万トークン、全モダリティ対応）
日本語文章品質・安全性: Claude Opus 4（Constitutional AI による安全性）
エコシステム連携: GPT-5（Microsoft 365 / Azure との統合）

まとめ——今すぐ試すべき3つのアクション

Gemini 2.5 Ultra は、100万トークンのコンテキスト、ネイティブマルチモーダル、そしてトップクラスのコーディング性能を兼ね備えた現時点で最も汎用性の高い LLM の一つだ。特に長文処理とマルチモーダル統合では他モデルに対して明確な優位性を持つ。

以下の3つのアクションから始めてみてほしい。

Google AI Studio で無料トライアル: Google AI Studio で Gemini 2.5 Ultra を選択し、100万トークンコンテキストの実力を自分のユースケースで試す。無料枠でも基本的な検証は可能だ。
既存ワークフローとの比較: 現在 GPT-5 や Claude を使っている処理を Gemini 2.5 Ultra に置き換えて、品質・速度・コストを比較する。特に長文入力や画像・動画を含むタスクで差が出やすい。
Google Cloud で法人利用を検討: エンタープライズ用途であれば Vertex AI 経由での利用を検討する。データプライバシー保証、SLA、VPC 接続が必要な企業は、Google Cloud の営業チームに問い合わせてカスタム見積もりを取得しよう。

AI モデルの進化は加速している。Gemini 2.5 Ultra の登場で、「どのモデルを、どの用途で使うか」を戦略的に判断するスキルがますます重要になってきた。まずは手を動かして、自分の業務での最適解を見つけてほしい。