Gemini 3.1 ProがARC-AGI-2で77.1%達成、価格は据え置き

ARC-AGI-2 スコア 77.1%。Google が2026年3月にリリースした Gemini 3.1 Pro は、汎用推論能力の新たな指標として注目される ARC-AGI-2 ベンチマークで、競合の Claude 4.6 Opus（72.8%）や GPT-5（69.3%）を大きく引き離した。しかも API 料金は入力 $2 / 100万トークン（約300円）、出力 $12 / 100万トークン（約1,800円） と、前世代の Gemini 3.0 Pro から据え置きだ。

性能は大幅に向上しながら価格はそのまま。LLM の価格競争が激化する2026年において、Google は「コストパフォーマンス最強」のポジションを明確に打ち出してきた。この記事では、Gemini 3.1 Pro の技術的進化、ベンチマーク結果の詳細分析、競合との比較、そして日本市場への影響を徹底解説する。

ARC-AGI-2 とは何か——なぜこのベンチマークが重要なのか

ARC-AGI-2（Abstraction and Reasoning Corpus for Artificial General Intelligence, Version 2）は、フランソワ・ショレが設計した汎用知能ベンチマークの改訂版だ。従来の LLM ベンチマーク（MMLU、HumanEval など）が「暗記した知識の再現」を測りがちなのに対し、ARC-AGI-2 は未見のパターン認識と抽象推論を要求する。

具体的には、入力と出力のグリッドパターンの対応関係を数例だけ見せられ、テストパターンに正しい出力を生成するタスクだ。パターンは毎回異なるため、学習データの丸暗記では解けない。人間の平均スコアが約85%であるのに対し、2025年末の時点で最高性能のモデルでも65%前後にとどまっていた。

ARC-AGI-2 が重要視される理由は3つある。

汎化能力の直接測定: 訓練データに含まれないパターンへの対応力を測る
AGI への距離の指標: 人間レベル（85%）との差が縮まるほど、汎用知能に近づく
暗記ハックが効かない: ベンチマーク汚染（データリーク）の影響を受けにくい設計

Gemini 3.1 Pro の77.1%は、人間レベルまであと7.9ポイントに迫るスコアだ。これは LLM の推論能力が2026年に入って急激に向上していることを示している。

Gemini 3.1 Pro の技術的進化

アーキテクチャの刷新

Gemini 3.1 Pro は、前世代から以下の3つの主要な技術的改良を受けている。

Sparse MoE の大幅拡張: 前世代の Gemini 3.0 Pro が16のエキスパートモジュールを持っていたのに対し、3.1 Pro では32エキスパートに拡張された。ただし推論時に活性化するのは8モジュールのみで、推論コストは前世代とほぼ同等に抑えられている。エキスパート数の倍増は、より多様なタスクに対応できる「引き出し」が増えたことを意味する。

改良型 Attention（Grouped Query Attention + Sliding Window）: コンテキストウィンドウは200万トークンを維持しながら、Grouped Query Attention と Sliding Window Attention のハイブリッドにより、長文処理の効率が前世代比で約35%向上した。これにより、長大なコードベースや文書を扱う際のレイテンシが大幅に短縮された。

推論チェーン最適化（Chain-of-Thought v3）: 内部の推論プロセスを最適化する CoT v3 が導入された。これは ARC-AGI-2 のような抽象推論タスクで特に効果を発揮し、中間ステップの精度向上がスコアの大幅改善に直結している。

マルチモーダル能力の強化

Gemini 3.1 Pro はテキストだけでなく、画像・動画・音声・コードのマルチモーダル処理でも進化している。

動画理解: 最大4時間の動画を入力し、特定シーンの抽出・要約・分析が可能
音声処理: リアルタイム音声入力に対応し、会議の文字起こし精度が前世代比で12%向上
画像生成: テキストからの画像生成がネイティブ統合され、外部ツール不要に
コード実行: サンドボックス環境でのコード実行結果を推論に組み込む能力が強化

Google 検索との深層統合

Gemini 3.1 Pro の大きな特徴は、Google 検索との統合が従来よりも深化した点だ。「Grounding with Google Search」機能が強化され、回答生成時にリアルタイムのウェブ情報を参照する精度が向上した。これにより、ハルシネーション（事実と異なる回答の生成）率が前世代比で40%減少したと Google は報告している。

特に時事的な質問や最新の技術情報に関する回答で、この統合の効果は顕著だ。他のモデルが訓練データのカットオフに制約される中、Gemini 3.1 Pro は検索結果をリアルタイムに反映できるため、「情報の鮮度」で大きなアドバンテージを持つ。

ベンチマーク徹底比較——三つ巴の勢力図

以下の図は、主要 LLM の ARC-AGI-2 スコアを比較したものです。Gemini 3.1 Pro が77.1%で首位に立ち、Claude 4.6 Opus が72.8%で2位、GPT-5 が69.3%で3位となっています。

主要LLMのARC-AGI-2スコア比較棒グラフ。Gemini 3.1 Proが77.1%で首位、Claude 4.6 Opusが72.8%で2位、GPT-5が69.3%で3位

この図から、Gemini 3.1 Pro と2位の Claude 4.6 Opus との差は4.3ポイント、3位の GPT-5 との差は7.8ポイントと、明確なリードがあることが分かります。

ARC-AGI-2 以外の主要ベンチマークも含めた詳細比較を以下にまとめた。

ベンチマーク	Gemini 3.1 Pro	Claude 4.6 Opus	GPT-5	Llama 4 Maverick	DeepSeek V4
ARC-AGI-2（汎用推論）	77.1%	72.8%	69.3%	54.2%	48.6%
SWE-bench Verified（コーディング）	89.4%	91.2%	87.6%	76.3%	82.1%
MATH-500（数学推論）	95.8%	93.1%	94.2%	84.7%	90.3%
MMMU（マルチモーダル理解）	89.2%	83.6%	85.1%	74.8%	78.4%
RULER 128K（長文理解）	96.1%	86.4%	79.2%	66.5%	72.8%
GPQA Diamond（科学推論）	83.7%	81.2%	80.5%	69.1%	74.6%
SimpleQA（事実正確性）	92.3%	88.7%	86.4%	73.2%	79.1%

Gemini 3.1 Pro は7つのベンチマーク中6つで首位を獲得した。唯一 Claude 4.6 Opus に譲ったのは SWE-bench Verified（コーディング）だ。Claude 4.6 Opus は91.2%で、Gemini 3.1 Pro の89.4%を1.8ポイント上回った。コーディングタスクにおいては、依然として Claude の精度が光る。

一方で、Gemini 3.1 Pro の強みは総合力にある。特定のタスクに特化するのではなく、推論・コーディング・数学・マルチモーダル・長文処理のすべてで高水準をマークしている点が、このモデルの最大の差別化ポイントだ。

価格据え置きの衝撃——コスパの新基準

Gemini 3.1 Pro のもう一つの大きなニュースは、API 料金が前世代から据え置きという点だ。

項目	Gemini 3.1 Pro	Claude 4.6 Opus	GPT-5	日本円換算（Gemini）
入力（/100万トークン）	$2	$15	$10	約300円
出力（/100万トークン）	$12	$75	$60	約1,800円
コンテキストウィンドウ	200万トークン	20万トークン	12.8万トークン	—
画像入力	対応	対応	対応	—
動画入力	対応	非対応	非対応	—
音声入力	対応	対応	対応	—

以下の図は、主要 LLM の価格と ARC-AGI-2 スコアの関係を示した価格性能マップです。左上に位置するほど「安くて賢い」ことを意味します。

主要LLMの価格性能マップ。横軸が出力料金、縦軸がARC-AGI-2スコア。Gemini 3.1 Proが左上の高コスパ領域に位置する

この図から一目瞭然のとおり、Gemini 3.1 Pro は「高コスパ領域」に単独で位置しています。出力 $12 で ARC-AGI-2 スコア 77.1% という組み合わせは、競合と比較して圧倒的なコストパフォーマンスです。

数字で具体的に見てみよう。100万トークンの出力を生成する場合のコスト比較は以下のとおりだ。

Gemini 3.1 Pro: $12（約1,800円）
GPT-5: $60（約9,000円）→ Gemini の5倍
Claude 4.6 Opus: $75（約11,250円）→ Gemini の6.25倍

つまり、ARC-AGI-2 で最高スコアを出しているモデルが、2位の6分の1以下の価格で利用できるという状況だ。Google のクラウドインフラ（TPU v6e）を自社で持っていることが、このコスト競争力の源泉になっている。

ただし注意点もある。Claude 4.6 Opus はコーディングタスクで依然として最高精度を誇り、GPT-5 は OpenAI のエコシステム（プラグイン、GPTs、API のエコシステム連携）が充実している。コスト最適化が最優先なら Gemini、コーディング品質なら Claude、エコシステム連携なら GPT というのが現実的な使い分けだ。

Gemini 3.1 Flash と Pro の使い分け

Google は Gemini 3.1 Pro と同時に、軽量版の Gemini 3.1 Flash もアップデートしている。

項目	Gemini 3.1 Pro	Gemini 3.1 Flash
ARC-AGI-2	77.1%	58.4%
入力料金	$2 / 100万トークン	$0.15 / 100万トークン
出力料金	$12 / 100万トークン	$1.2 / 100万トークン
コンテキスト	200万トークン	100万トークン
レイテンシ	中程度	超高速
推奨用途	複雑な推論・分析	チャットボット・要約・分類

Flash は Pro の10分の1の価格で利用でき、レイテンシも大幅に低い。リアルタイムのチャットボットや、大量のテキスト分類タスクなど、速度とコストが重要な用途では Flash が適している。一方、ARC-AGI-2 のような複雑な推論が必要なタスクや、高精度なコード生成が求められる場面では Pro を選ぶべきだ。

日本語性能の分析——実用レベルに到達

日本のユーザーにとって最も気になるのは、日本語での性能だろう。Gemini 3.1 Pro は日本語処理で以下の改善が報告されている。

日本語固有の改善点

トークナイザーの最適化: 日本語テキストのトークン効率が前世代比で約20%改善。同じ日本語テキストを処理する際のトークン消費量が減少し、実質的なコスト削減につながる
敬語・ビジネス文書の精度向上: 日本語の敬語表現（尊敬語・謙譲語・丁寧語）の使い分け精度が向上し、ビジネスメールや報告書の生成品質が実用レベルに
日本法・日本制度の知識強化: 日本の法律、税制、ビジネス慣行に関する知識が拡充され、日本固有の文脈での回答精度が改善
Google 検索統合による日本語情報の鮮度: Google 検索との統合により、日本語の最新ニュースや情報をリアルタイムに回答に反映可能

日本語ベンチマーク比較

ベンチマーク	Gemini 3.1 Pro	Claude 4.6 Opus	GPT-5
JBB-MGSM（日本語数学）	87.4%	84.1%	82.6%
JGLUE（日本語理解）	92.1%	90.8%	88.3%
日本語要約品質（人間評価）	4.2/5	4.4/5	3.9/5
日本語→英語翻訳（BLEU）	38.2	36.7	35.4

定量ベンチマークでは Gemini 3.1 Pro が優位だが、日本語の要約品質（人間による主観評価）では Claude 4.6 Opus が依然として高評価だ。Claude は日本語の自然さや文体の一貫性で根強い支持があり、「日本語で長文を書かせるなら Claude」という声は多い。

日本ではどうなるか——企業採用と開発者への影響

企業での採用が加速する3つの理由

Gemini 3.1 Pro の登場は、日本企業の AI 採用に大きな影響を与える可能性がある。

1. 圧倒的なコスト優位性: 出力 $12/100万トークンという価格は、日本企業の AI 予算に大きな余裕をもたらす。月間1,000万トークンを使う中規模な社内チャットボットの場合、Gemini なら月額約$120（約18,000円）で運用できる。同等のタスクを Claude で処理すると月額約$750（約112,500円）かかる計算だ。

2. Google Cloud との親和性: 日本企業の Google Workspace（Gmail、Google ドキュメント、Google スプレッドシート）の導入率は高い。Gemini 3.1 Pro は Google Cloud の Vertex AI を通じて、既存の Google エコシステムとシームレスに統合できる。これは新たなインフラ投資を最小限に抑えたい日本企業にとって大きなメリットだ。

3. 日本語性能の改善: 前述のとおり、日本語でのベンチマークスコアが改善しており、ビジネス文書の生成やカスタマーサポートでの実用性が向上している。

開発者への影響

日本の開発者にとっては、以下の点が注目される。

API コストの削減: 個人開発者でも気軽に試せる価格帯。月額数百円で本格的な AI アプリケーションを構築可能
200万トークンのコンテキスト: 大規模なコードベースを丸ごと入力してリファクタリングを依頼するようなユースケースが実用的に
マルチモーダル: 動画入力を活用したアプリケーション開発が可能。たとえば、製造業の品質検査で動画からの不良品検出など
Gemini API の日本リージョン: Google Cloud の東京リージョン（asia-northeast1）から低レイテンシでアクセス可能

懸念点

一方で、いくつかの懸念もある。

Google への依存リスク: 価格据え置きは現時点の戦略であり、市場シェア獲得後に値上げされる可能性はゼロではない
データプライバシー: Google に入力データがどう扱われるか、日本の個人情報保護法との整合性を確認する必要がある
ロックイン: Google Cloud のエコシステムに深く統合するほど、他社への移行が困難になる

2026年後半の LLM 市場展望

Gemini 3.1 Pro のリリースにより、2026年の LLM 市場は明確な三つ巴の構図になった。

Google（Gemini）: コストパフォーマンスと汎用推論能力で首位。検索統合によるリアルタイム性も強み
Anthropic（Claude）: コーディング精度と日本語品質で差別化。安全性（Constitutional AI）への投資が評価される
OpenAI（GPT）: エコシステムの充実度とブランド力で優位。ChatGPT の消費者向け浸透率は依然として最大

2026年後半には、OpenAI が GPT-5 Turbo（低コスト版）のリリースを予告しており、Anthropic も Claude 5 の開発を進めていると報じられている。価格競争はさらに激化し、開発者にとっては選択肢が増える好循環が期待できる。

まとめ——今すぐ取るべきアクションステップ

Gemini 3.1 Pro は、ARC-AGI-2 で77.1%を達成しながら API 料金を据え置くという、性能とコストの両面で画期的なモデルだ。特に日本のユーザーにとっては、Google Cloud との親和性と日本語性能の改善が、採用のハードルを大きく下げる。

以下の3つのステップで、今すぐ Gemini 3.1 Pro の実力を試してみてほしい。

Google AI Studio で無料枠を使って試す: Gemini 3.1 Pro は Google AI Studio で無料の API キーを取得でき、毎分15リクエストまで無料で利用可能。まずは自社のユースケースに合わせた簡単なプロンプトで性能を確認しよう
既存の LLM ワークフローとコストを比較する: 現在 GPT-5 や Claude を使っている場合、同じタスクを Gemini 3.1 Pro に置き換えた際のコスト削減額を試算する。出力料金だけで5〜6倍の差があるため、大量のトークンを消費するワークフローほど節約効果が大きい
マルチモデル戦略を検討する: 1つのモデルに依存するのではなく、タスクの種類に応じてモデルを使い分ける戦略を採る。推論・分析は Gemini、コーディングは Claude、消費者向けアプリは GPT と使い分けることで、コストと品質を最適化できる