CursorがComposer 2発表——自社モデルでClaude超えを主張

AIコーディングエディタのCursorが、初の自社開発AIモデル「Composer 2」を正式に発表した。日次アクティブユーザー100万人を突破した同社にとって、サードパーティモデルへの依存から脱却する戦略的な一手だ。SWE-bench Verifiedで58.2%を記録し、AnthropicのClaude Opus 4.6（55.8%）を上回ったと主張している。API価格は入力$0.50/Mトークンと、競合モデルの半額以下に設定された。

本記事では、Composer 2の技術的な仕組み、ベンチマーク結果の詳細、料金体系、そして日本の開発者にとっての意味を包括的に解説する。

Composer 2とは何か

Composer 2は、Cursor（開発元: Anysphere社）が自社で一から開発したコーディング特化の大規模言語モデル（LLM）だ。これまでCursorはOpenAIのGPTシリーズやAnthropicのClaudeシリーズをバックエンドとして利用してきたが、Composer 2によって初めて自社モデルをフラッグシップとして提供する体制に移行した。

なぜ自社モデルを開発したのか

Cursorが自社モデルに踏み切った背景には、3つの課題がある。

コスト構造の改善: サードパーティAPIへの支払いがユーザー数の増加に比例して膨らんでいた。100万DAUで1人あたり数十回のAPI呼び出しが発生すると、APIコストは月間数千万ドル規模に達する
レイテンシの最適化: コーディングエディタでは応答速度がUXに直結する。サードパーティAPIでは制御できないレイテンシの問題を、自社インフラで解決したい
コーディングに特化した最適化: 汎用LLMではカバーしきれない、コードの構文解析・型推論・依存関係の理解に特化したモデルアーキテクチャを追求できる

200Kトークンコンテキストウィンドウ

Composer 2の最大の特徴は、200,000トークンのコンテキストウィンドウだ。これは一般的なプロジェクトのコードベースの大部分を一度に処理できる容量で、Claude Opus 4.6の200Kトークンと同等、GPT-5.4の128Kトークンを大きく上回る。

200Kトークンがどれだけのコードに相当するかを具体的に示すと、以下のようになる。

言語	推定行数（200Kトークン）	典型的なプロジェクト規模
Python	約50,000行	中〜大規模Webアプリ
TypeScript	約45,000行	フルスタックNext.jsアプリ
Java	約40,000行	エンタープライズマイクロサービス
Rust	約35,000行	システムレベルライブラリ

この大容量コンテキストにより、プロジェクト全体の構造を理解した上でのコード生成・リファクタリングが可能になる。従来の「1ファイルずつ処理」から「プロジェクト全体を見渡して最適な変更を提案」へと、AIコーディング支援のパラダイムが変わる。

以下の図は、Composer 2のアーキテクチャと処理パイプラインの全体像を示しています。

Composer 2のアーキテクチャ概要。入力コンテキスト200Kトークンからコード理解エンジン、Composer 2モデルを経て、コード生成・差分適用・レビュー・説明文を出力する

この図のとおり、Composer 2は単なるLLMではなく、AST解析やセマンティック理解を組み合わせたコード理解エンジンと、RLHF/RLAIFハイブリッド学習で最適化されたモデルの2層構造で動作する。

学習方法とモデルアーキテクチャ

Anysphere社はComposer 2の学習方法について、以下の要素を公開している。

学習データ

オープンソースコード: GitHub上の数十億行のコードを、ライセンスを遵守した形で学習に使用
プロプライエタリデータ: Cursorの利用許諾に同意したユーザーの匿名化されたコーディングパターン（opt-in方式）
合成データ: AIが生成した高品質コードとその修正履歴を人工的に作成

学習手法

事前学習後、2段階のファインチューニングが行われている。

SFT（Supervised Fine-Tuning）: 人間の熟練エンジニアによるコードレビュー・修正ペアを教師データとして使用
RLHF + RLAIF ハイブリッド: 人間のフィードバック（RLHF）に加え、AIモデル自身による評価（RLAIF）を組み合わせることで、スケーラブルかつ高品質なアライメントを実現

特にRLAIF（Reinforcement Learning from AI Feedback）の活用は注目に値する。コードの正しさはテスト実行によって客観的に検証できるため、AIによる評価が人間のフィードバックと高い相関を示すという。Anysphere社は「コーディングドメインはRLAIFとの相性が極めて良い」と説明している。

推論最適化

Composer 2はコーディングエディタ内での使用を前提に設計されているため、推論速度にも重点が置かれている。

スペキュレイティブデコーディング: 小型モデルで候補トークンを先行生成し、大型モデルで検証する2段階推論
KVキャッシュ最適化: 同一プロジェクト内での連続リクエストでは、コンテキストのキャッシュを再利用して応答時間を短縮
量子化: INT8/FP8混合量子化により、精度を維持しつつGPUメモリ消費を削減

ベンチマーク結果の詳細

Composer 2は複数のコーディングベンチマークで競合モデルを上回る結果を示した。以下に主要ベンチマークの比較を示す。

ベンチマーク	Composer 2	Claude Opus 4.6	GPT-5.4	Gemini 3.1 Pro	Copilot (GPT-5.4)
SWE-bench Verified	58.2%	55.8%	53.1%	50.7%	44.3%
HumanEval+	94.5%	92.8%	93.1%	90.4%	88.7%
MBPP+	89.3%	87.1%	88.6%	85.2%	82.9%
LiveCodeBench	72.1%	69.4%	67.8%	65.3%	60.1%
多言語（MultiPL-E）	81.7%	83.2%	79.5%	77.8%	74.6%

以下の図は、SWE-bench Verifiedにおける各モデルのスコア比較を視覚的に示しています。

AIコーディングモデルのSWE-bench Verifiedベンチマーク比較。Composer 2が58.2%で首位、Claude Opus 4.6が55.8%で2位

この図のとおり、SWE-bench VerifiedではComposer 2がClaude Opus 4.6を約2.4ポイント上回っている。

ベンチマーク結果の注意点

ただし、いくつかの留意点がある。

多言語対応ではClaude Opus 4.6が優位: MultiPL-Eベンチマークでは、Claude Opus 4.6が83.2%でComposer 2（81.7%）を上回った。Composer 2はPython・TypeScript・Rustに強い一方、Haskell・Scalaなどのマイナー言語ではClaude Opus 4.6に及ばない
自社ベンチマーク問題: SWE-bench Verifiedのスコアは、Cursor自身が計測・公表したものだ。独立した第三者検証はまだ行われていない
実務との乖離: ベンチマークは単一ファイルの関数レベルの問題が多く、実務でのプロジェクト全体にまたがるタスクとは性質が異なる

料金体系

Composer 2の料金は、CursorのサブスクリプションプランとAPI利用の2つのルートで提供される。

Cursorサブスクリプション

プラン	月額	月額（日本円換算）	Composer 2利用	その他モデル
Hobby（無料）	$0	¥0	50回/月	GPT-5.4: 200回
Pro	$20	約¥3,000	無制限（Fast）	Claude/GPT無制限
Business	$40/席	約¥6,000/席	無制限（優先）	全モデル + 管理機能

※ 日本円は1ドル＝150円で換算

API料金

開発者がComposer 2をAPI経由で利用する場合の料金は以下のとおりだ。

項目	Composer 2	Claude Opus 4.6	GPT-5.4
入力	$0.50/Mトークン	$15.00/Mトークン	$5.00/Mトークン
出力	$2.00/Mトークン	$75.00/Mトークン	$15.00/Mトークン
コンテキスト上限	200K	200K	128K

入力$0.50/Mトークンという価格設定は破格だ。Claude Opus 4.6の30分の1、GPT-5.4の10分の1に相当する。出力もClaude Opus 4.6の約37分の1と大幅に安い。

この攻撃的な価格設定には、2つの戦略的意図が読み取れる。

エコシステムの拡大: 低価格APIで開発者を呼び込み、Composer 2を中心としたツールチェーンのデファクトを目指す
サブスクリプションへの誘導: API利用者がComposer 2の品質を体験した後、Cursor Pro/Businessへの移行を促す

ただし、コーディング以外のタスク（文章生成、分析、推論問題）ではClaude Opus 4.6やGPT-5.4が依然として優位であるため、Composer 2のAPIは「コーディング専用」として位置づけるのが現実的だ。

競合との比較

AIコーディングツール市場は急速に拡大しており、Composer 2の登場で競争がさらに激化している。

Cursor + Composer 2 vs GitHub Copilot

項目	Cursor (Composer 2)	GitHub Copilot
月額	$20（Pro）	$19（Pro）
AIモデル	Composer 2（自社）+ Claude/GPT	GPT-5.4ベース
コンテキスト	200K	128K
マルチファイル編集	対応（Composer）	Agent Mode対応
IDE	Cursor（VSCode fork）	VSCode / JetBrains / Neovim
ターミナル統合	あり	あり
セキュリティ（SOC2）	対応	対応
オフライン利用	不可	不可

価格帯はほぼ同等だが、Cursorは自社モデルを搭載することでモデル選択の柔軟性とコーディングに特化した最適化で差別化を図る。一方、GitHub CopilotはVSCodeやJetBrains等の既存IDEで使えるエコシステムの広さが強みだ。

市場シェアの推移

2026年3月時点のAIコーディングツール市場は、以下のような勢力図になっている。

ツール	推定DAU	主要モデル	特徴
GitHub Copilot	約300万	GPT-5.4	最大のエコシステム
Cursor	約100万	Composer 2	自社モデルで差別化
Windsurf (Codeium)	約80万	独自 + Claude	コード検索に強み
Replit Agent	約50万	独自	ブラウザ完結
Amazon Q Developer	約40万	独自	AWS連携

Cursorの100万DAUは、GitHub Copilotの約3分の1だが、成長速度ではCursorが上回っている。2025年初頭の20万DAUから1年で5倍に成長しており、Composer 2の投入でさらなるユーザー獲得が見込まれる。

日本の開発者にとっての影響

日本語コード対応

Composer 2は英語中心のコーディングデータで学習されているが、日本語コメントやドキュメンテーション、変数名の日本語対応は十分に機能する。ただし、以下の点には注意が必要だ。

日本語コメント生成: 品質はClaude Opus 4.6にやや劣る。特にニュアンスの微妙な表現や技術用語の日本語訳で差が出る
日本語ドキュメント: JSDocやdocstringの日本語生成は実用レベルだが、敬語の使い分けなど細かい点ではClaude Opus 4.6の方が自然
コード自体: プログラミング言語は国際共通なので、コード品質に言語圏の差はほぼない

日本の開発者コミュニティの反応

Composer 2の発表後、日本のTech Twitter（X）やZenn・Qiitaでは活発な議論が起きている。

肯定的な声:

「SWE-benchでClaude超えは素直にすごい。Cursor Proの月$20でこれが使い放題なのはコスパ最強」
「200Kコンテキストでプロジェクト全体を理解してくれるのが実務では一番ありがたい」
「APIが$0.50/Mは安すぎる。自作ツールのバックエンドとして使いたい」

懐疑的な声:

「自社ベンチマークの数字だけでは判断できない。第三者検証待ち」
「コーディング特化なのは良いが、Claude Opus 4.6のような汎用性がないのは困る場面もある」
「Cursorに依存するリスクが高まる。VSCodeで使えないのがネック」

料金面のインパクト

日本の開発者にとって、円安環境下での$20/月（約3,000円）は決して安くはない。しかし、Composer 2が従来のClaude Opus 4.6やGPT-5.4と同等以上の性能をCursor内で提供するなら、別途APIキーを用意してClaude ProやChatGPT Plusに課金する必要がなくなる。結果としてトータルコストは削減される可能性が高い。

構成	月額コスト	日本円換算
Cursor Pro のみ（Composer 2）	$20	約¥3,000
VSCode + Copilot + Claude Pro	$19 + $20 = $39	約¥5,850
VSCode + Copilot + ChatGPT Plus	$19 + $20 = $39	約¥5,850

Composer 2の限界と課題

汎用性の欠如

Composer 2はコーディングに特化しているため、以下の用途ではClaude Opus 4.6やGPT-5.4に及ばない。

長文の技術ドキュメント生成: RFC、設計書、プロポーザルの作成
高度な推論タスク: 数学的証明、論理パズル、複雑なシステム設計の検討
自然言語の翻訳・校正: 技術文書の多言語化

ベンダーロックインのリスク

Composer 2はCursorエディタ内での利用が前提だ。APIも提供されているが、エディタ統合での体験が最も最適化されている。これは、チームでエディタを統一する必要がある企業にとってはハードルになりうる。特にJetBrains IDEを使うJava/Kotlin開発チームや、Neovimを使うインフラエンジニアは恩恵を受けにくい。

モデルの透明性

Anysphere社はモデルのパラメータ数、学習データの詳細、アーキテクチャの具体的な構造を公開していない。オープンソースコミュニティからは「クローズドモデルの性能主張を鵜呑みにすべきではない」との指摘もある。

今後の展望

短期（3〜6ヶ月）

第三者ベンチマーク検証: 独立した研究機関によるSWE-bench再検証が行われる見込み
JetBrains対応の可能性: Anysphere社はJetBrains IDEへの対応を「検討中」としている
Composer 2 API の安定化: 現在ベータ版のAPIが正式リリースされ、サードパーティツールへの組み込みが進む

中長期（6〜12ヶ月）

Cursor以外への展開: Composer 2がVSCode拡張として提供される可能性
エンタープライズ向けオンプレミス: セキュリティ要件の厳しい企業向けに、自社サーバーでの推論を提供
マルチモーダル対応: デザインモックアップからのコード生成など、画像入力への対応

まとめ——Composer 2で開発者がいま取るべきアクション

CursorのComposer 2は、AIコーディングツール市場に大きなインパクトを与える製品だ。SWE-bench VerifiedでClaude Opus 4.6を上回るスコア、200Kトークンのコンテキスト、そして破格のAPI料金は、少なくとも「試す価値がある」ことを示している。

一方で、自社ベンチマークの信頼性、汎用性の限界、ベンダーロックインのリスクは冷静に評価すべきだ。以下の3つのステップで、Composer 2を自分の開発ワークフローに取り入れることを推奨する。

無料枠で試す: CursorのHobbyプラン（無料）でComposer 2を月50回まで利用できる。まずは自分のプロジェクトで実際にコード生成・リファクタリングを試し、品質を体感しよう
既存ツールと比較する: 同じタスクをGitHub CopilotやClaude Opus 4.6でも実行し、自分のユースケースでどのモデルが最適かをデータで判断する。ベンチマークスコアと実務での使い勝手は必ずしも一致しない
API統合を検討する: CI/CDパイプラインでのコードレビュー自動化、テスト生成、ドキュメント生成など、Composer 2のAPIを既存ワークフローに組み込む方法を探る。$0.50/Mトークンの価格なら、実験的な導入のハードルは極めて低い

AIコーディングモデルの競争は今後さらに激化する。重要なのは特定のツールに依存しすぎず、常に最適なツールを選択できる柔軟性を保つことだ。Composer 2はその選択肢の一つとして、確実にチェックしておくべき存在と言える。