GPT-5.4 Thinkingが人間超え——デスクトップ操作で75%のスコア達成
AIがパソコンを人間より上手に操作する時代が来た。OpenAIが発表したGPT-5.4 Thinkingは、デスクトップ操作ベンチマーク「OSWorld-Verified」で75.0%のスコアを記録し、人間の平均スコア72.4%を初めて上回った。前世代のGPT-5.2が47.3%だったことを考えると、わずか数か月で27.7ポイントもの飛躍を遂げたことになる。
これは単なるベンチマークの数字ではない。AIが実際のデスクトップ環境でスプレッドシートを操作し、ブラウザでリサーチし、複数のアプリケーションを跨いだ作業を、人間以上の精度でこなせることを意味する。
GPT-5.4 Thinkingとは何か
テスト時計算の統合
GPT-5.4 Thinkingの最大の特徴は、**テスト時計算(test-time compute)**を推論プロセスに統合した初のモデルであることだ。従来のLLMは、与えられたプロンプトに対して即座に回答を生成していた。GPT-5.4 Thinkingは異なる。回答を出す前に「考える時間」を取り、問題を分解し、複数のアプローチを内部で検証してから最良の回答を出力する。
この仕組みは、OpenAIのo1やo3シリーズで導入された推論モデルの系譜を引くものだが、GPT-5.4 Thinkingではさらに進化している。テスト時の計算量を動的に調整し、簡単な質問には素早く、複雑なタスクには十分な時間をかけて回答する適応型推論を実現した。
GPT-5.3-codexの統合
もう1つの革新は、GPT-5.3-codexのフロンティアコーディング能力を統合したことだ。GPT-5.3-codexは、OpenAIが開発者向けに提供していたコーディング特化モデルであり、コード生成・デバッグ・リファクタリングにおいて当時最高性能を誇っていた。
GPT-5.4 Thinkingはこのコーディング能力を汎用的な推論能力と融合させることで、「考えながらコードを書き、コードの結果を見ながらさらに考える」という反復的な問題解決が可能になった。
ベンチマークの衝撃——OSWorld-Verified 75.0%
OSWorldとは
OSWorldは、AIモデルが実際のデスクトップ環境(Ubuntu、Windows、macOS)でタスクを実行する能力を測定するベンチマークだ。ファイル操作、ブラウザ操作、スプレッドシート編集、メールの送信、複数アプリ間の連携など、現実のオフィスワーカーが日常的に行うタスクが出題される。
「OSWorld-Verified」は、その中でも特に厳密に検証されたサブセットであり、自動採点の信頼性が高い評価基準として業界標準になっている。
この図は、主要AIモデルのOSWorld-Verifiedベンチマークスコアを比較したものです。
各モデルのスコア比較
| モデル | OSWorld-Verified | スプレッドシート | GDPvalナレッジワーク | 備考 |
|---|---|---|---|---|
| GPT-5.4 Thinking | 75.0% | 87.3% | 83.0% | 人間超え達成 |
| Claude Opus 4.6 | 58.2% | 72.1% | 76.5% | Anthropicの最上位モデル |
| GPT-5.2 | 47.3% | 68.4% | 71.2% | 前世代 |
| Gemini 2.5 Ultra | 42.1% | 61.8% | 68.3% | Googleの最上位モデル |
| Claude 3.5 Sonnet | 30.5% | 52.3% | 58.7% | 旧世代だが高コスパ |
| GPT-4o | 22.0% | 45.1% | 49.8% | 2024年世代 |
| 人間平均 | 72.4% | 78.5% | 79.0% | 一般的なオフィスワーカー |
GPT-5.4 Thinkingは、OSWorldだけでなくスプレッドシートモデリングタスクでも87.3%(GPT-5.2は68.4%)、GDPvalナレッジワークでも**83.0%**を記録している。特にスプレッドシートタスクでの伸びは著しく、財務モデリングやデータ分析といった実務的なタスクでの能力向上が顕著だ。
なぜ人間を超えられたのか
人間平均72.4%をAIが超えたという事実は、文脈を理解する必要がある。OSWorldのタスクの多くは、「正確さ」と「手順の遵守」が重視される。人間はクリエイティブな問題解決やコンテキストの理解では優れるが、定型的な手順の正確な実行においてはミスや見落としが発生する。
GPT-5.4 Thinkingが人間を超えたのは、以下の要因が大きい。
- 手順の正確な実行: テスト時計算により、各ステップを慎重に検証してから次に進む
- 複数ソースの情報統合: 異なるアプリケーションからの情報を矛盾なく統合する能力が高い
- 疲労なし: 長時間のタスクでもパフォーマンスが低下しない
- コーディング能力の活用: スプレッドシートの複雑な数式やスクリプトの作成で優位性を発揮
GPT-5.4モデルファミリーの全体像
OpenAIはGPT-5.4 Thinkingを頂点に、複数のバリエーションを展開している。
この図は、GPT-5.4モデルファミリーの構成と各バリエーションの位置付けを示しています。
各バリエーションの詳細
| モデル | 対象ユーザー | 特徴 | 想定用途 |
|---|---|---|---|
| GPT-5.4 Thinking | 研究者・高度タスク | テスト時計算統合、最高性能 | 複雑な分析、研究、高精度タスク |
| GPT-5.4 Pro | エンタープライズ | 高性能 + 高スループット | 業務システム統合、大規模API利用 |
| GPT-5.4 Mini | 一般ユーザー・開発者 | コスト効率重視 | 日常的なチャット、開発補助 |
| GPT-5.4 Nano | エッジ・モバイル | 超軽量・低レイテンシ | オンデバイス推論、IoT |
ネイティブコンピュータ使用モード
GPT-5.4 Thinkingの注目機能の1つがネイティブコンピュータ使用モードだ。従来のAIアシスタントはテキストベースの対話が中心だったが、このモードではAIが直接マウスカーソルを動かし、キーボード入力を行い、画面上のUI要素を認識・操作できる。
さらに、ExcelやGoogle Sheetsとの金融プラグインが組み込まれており、財務モデルの構築、ピボットテーブルの作成、マクロの実行などをネイティブに行える。これは従来のコピー&ペーストベースのアプローチとは一線を画す統合度だ。
競合モデルとの比較
Anthropic Claude Opus 4.6
Claude Proの最上位モデルであるClaude Opus 4.6は、OSWorldで58.2%を記録している。GPT-5.4 Thinkingには及ばないが、長文の文脈理解やコーディングタスクにおいては依然として強力な競合だ。特にコードレビューや大規模なコードベースの分析においては、Claude Opus 4.6の100万トークンコンテキストウィンドウが大きなアドバンテージとなっている。
Google Gemini 2.5 Ultra
GoogleのGemini 2.5 Ultraは42.1%にとどまっており、GPT-5.4との差は32.9ポイントと大きい。ただし、Geminiはマルチモーダル入力(画像・動画・音声の同時処理)においては独自の強みを持っており、単純なベンチマーク比較だけでは語れない部分がある。
総合比較
| 評価軸 | GPT-5.4 Thinking | Claude Opus 4.6 | Gemini 2.5 Ultra |
|---|---|---|---|
| デスクトップ操作 | ★★★★★ | ★★★★ | ★★★ |
| コーディング | ★★★★★ | ★★★★★ | ★★★★ |
| 長文理解 | ★★★★ | ★★★★★ | ★★★★ |
| マルチモーダル | ★★★★ | ★★★★ | ★★★★★ |
| コスト効率 | ★★★ | ★★★★ | ★★★★ |
| レイテンシ | ★★★(推論時間あり) | ★★★★ | ★★★★ |
実務への影響——何が変わるのか
オフィスワーカーへの影響
GPT-5.4 Thinkingの75.0%というスコアは、定型的なオフィス業務の大部分をAIが代行できる水準に達したことを意味する。具体的には以下のタスクが現実的になった。
- スプレッドシート分析: 売上データの集計、ピボットテーブル作成、財務モデリング
- リサーチ: 複数のWebソースからの情報収集・要約・レポート作成
- メール処理: 定型メールの自動作成・分類・返信ドラフト
- データ入力: 紙の書類からのデータ抽出・入力
開発者への影響
CursorなどのAIコーディングツールにGPT-5.4 Thinkingが統合されれば、開発ワークフローは大きく変わる。コーディング能力のベースがGPT-5.3-codexレベルであることを考えると、以下のシナリオが現実味を帯びる。
- フルスタック実装: 要件定義から実装・テスト・デプロイまでを一気通貫で実行
- レガシーコード移行: 古いコードベースの分析・リファクタリング・モダン化
- デバッグの自動化: エラーログの分析からパッチ作成・テストまでを自動実行
料金体系(推定)
OpenAIは記事執筆時点で正式な料金を公開していないが、現行モデルの価格構成から以下の推定が可能だ。
| プラン | 月額(推定) | 日本円換算(1ドル=155円) | 対象 |
|---|---|---|---|
| ChatGPT Plus(GPT-5.4 Mini) | $20 | 約3,100円 | 一般ユーザー |
| ChatGPT Pro(GPT-5.4 Thinking) | $200 | 約31,000円 | ヘビーユーザー |
| API(GPT-5.4 Thinking) | 従量課金 | 入力$15/100万トークン(推定) | 開発者 |
| API(GPT-5.4 Mini) | 従量課金 | 入力$0.30/100万トークン(推定) | コスト重視の開発者 |
日本への影響——「AIに仕事を奪われる」議論の新フェーズ
日本のオフィスワークの特殊性
日本のオフィスワークには、欧米とは異なる特殊な要素がある。Excelの複雑な帳票文化、独自のワークフロー承認プロセス、紙ベースの書類が依然として多い点などだ。GPT-5.4 Thinkingのデスクトップ操作能力がこれらの日本固有の環境でどの程度通用するかは、まだ未知数である。
しかし、スプレッドシートタスクで87.3%を記録していることは、日本のExcel文化にとって大きなインパクトとなりうる。日本企業の多くがExcelを業務の中心に据えており、関数やマクロの作成、データ集計、レポート生成といったタスクの自動化需要は極めて大きい。
雇用への影響
経済産業省の推計では、日本のホワイトカラー業務の約40%がAIで代替可能とされている。GPT-5.4 Thinkingの登場により、この推計がより現実味を帯びてきた。ただし、以下の点に注意が必要だ。
- 完全な代替ではなく補助: 人間の判断が必要な場面は依然として多い
- 新たな職種の創出: AIの管理・監督・プロンプトエンジニアリングなどの新しい役割が生まれる
- 段階的な移行: 一夜にして置き換わるのではなく、数年かけて徐々に業務プロセスが変化する
教育への影響
日本の大学・専門学校のカリキュラムも見直しが必要になる。単純なExcel操作やデータ入力のスキルは陳腐化が加速し、代わりにAIツールを効果的に使いこなす能力、AIの出力を批判的に評価する能力、AIでは代替しにくい創造的思考力の育成が重要になる。
まとめ——AIエージェント時代の幕開け
GPT-5.4 Thinkingの75.0%という数字は、AIがデスクトップ操作において人間の平均を超えた歴史的なマイルストーンだ。テスト時計算の統合とコーディング能力の融合により、AIは「テキストで答えを返すチャットボット」から「実際にパソコンを操作して仕事をこなすエージェント」へと進化した。
今後数か月で、この能力は各種SaaSツールやIDEに統合され、ビジネスや開発の現場に浸透していくだろう。人間に求められるのは、AIを「同僚」として使いこなし、AIが苦手な領域(曖昧な要件の整理、ステークホルダーとの交渉、倫理的判断など)で価値を発揮することだ。
アクションステップ
- ChatGPTユーザー: ChatGPT PlusプランでGPT-5.4 Miniを試し、日常業務(メール作成、データ分析、リサーチ)への活用を始める。効果を実感できたらProプランへのアップグレードを検討する
- 開発者: CursorやClaude Proなど複数のAIコーディングツールを比較し、自分のワークフローに最適なものを選定する。GPT-5.4 ThinkingのAPI公開後は、既存ツールとの統合を検討する
- マネージャー・経営者: チーム内の業務のうち、定型的なデスクトップ操作タスク(データ入力、レポート作成、スプレッドシート集計)をリストアップし、AIエージェントによる自動化の投資対効果を試算する
- 学生・キャリアチェンジ検討者: 「AIにできない仕事」を意識したスキル開発に投資する。具体的には、複雑な問題の構造化能力、対人コミュニケーション、ドメイン専門知識の深化が有効だ