スタートアップ29分で読める

Vapiが$50M調達——Peak XV主導、音声AIエージェントの覇権争い加速

2026年5月12日、開発者向けの音声AIエージェント構築プラットフォームを提供する米サンフランシスコ拠点の Vapi が、Series B ラウンドで $50M(約77.5億円、$1=155円換算) を調達したと発表した。リード投資家はインドおよび東南アジア最大級のVCである Peak XV Partners(旧 Sequoia Capital India / SEA)。既存投資家の Y Combinator、Bessemer Venture Partners、Abstract Ventures、SV Angel も追加出資している。

Vapi は2023年創業の若いスタートアップだが、コールセンター・レストラン予約・医療受付・保険問合せなどの「電話越しの会話」をAIエージェントに置き換える基盤として、世界中の開発者から急速に支持を集めてきた。今回の調達により、Vapi は 音声AIエージェント領域の覇権争い において、Bland AI、Retell AI、ElevenLabs Voice と並ぶトップ4の一角に名乗りを上げた格好だ。

本記事では、Vapi のプロダクト構造、Peak XV が出資に踏み切った戦略的意図、競合4社(Bland AI / Retell AI / ElevenLabs Voice)との詳細比較、そして日本市場で ELYZA や KARAKURI が直面することになる「音声AIショック」までを多角的に分析する。

何が起きたか——Series Bラウンドの全容

公開された情報を TechStartups、TechCrunch、Bessemer の投資ブログから総合すると、ラウンドの主要事実は以下の通りである。

項目内容
調達額$50M(約77.5億円)
ラウンドSeries B
リード投資家Peak XV Partners(旧 Sequoia India/SEA)
参加投資家Y Combinator、Bessemer、Abstract Ventures、SV Angel
発表日2026年5月12日
創業2023年(Y Combinator W23バッチ出身)
本拠地サンフランシスコ
直近ARR推定 $30M(複数報道)
顧客数数千社(開発者ユーザーは数万人規模)
処理規模月間数億分の通話を処理
主要ユースケースコールセンター、レストラン予約、医療受付、保険問合せ

特筆すべきは、創業からわずか3年で$50M Series Bに到達した点である。Vapi は2023年に Y Combinator の Winter 2023 バッチからスタートした「音声AIインフラ」企業で、当時の評価額は数百万ドルだったが、本ラウンドのポストマネー評価額は $400-500M レンジ(未公表だが Bessemer の投資ノートおよび二次市場情報からの推定)に到達した。

図1: Vapiの調達履歴と評価額推移を示す棒グラフ。2023年シード、2024年Series A、2026年Series Bの3段階で評価額が急成長

上の図は、Vapi の調達履歴と推定評価額の推移を示している。Y Combinator のシード(2023年春)から Series A(2024年12月、Bessemer 主導の$20M)を経て、わずか17か月で評価額が約20倍に跳ね上がった計算だ。AIインフラ領域の中でも「音声」という難易度の高いドメインで、これだけの成長速度を実現したスタートアップは Vapi 以外に Bland AI のみと言ってよい。

Peak XV が主導した戦略的意図

リード投資家の Peak XV Partners は、2023年に Sequoia Capital のグローバル組織から分離独立したインド・東南アジア特化のVCである。AUM(運用資産総額)は $9B 超、ポートフォリオには Razorpay、Zomato、Freshworks、Druva など、インドの大型ユニコーンが多数含まれる。

Peak XV が Vapi を主導したことには 3つの戦略的意図 がある。

  1. 多言語対応への布石: インドは22の公用語を抱える多言語国家で、コールセンター市場は世界最大級。ヒンディー語・タミル語・テルグ語など現地語に対応した音声AIへの需要は計り知れない。Peak XV は Vapi をインドのBPO(Business Process Outsourcing)市場に導入するパイプラインを持っている
  2. 東南アジアの開発者市場: インドネシア・ベトナム・フィリピンには英語が話せる開発者が数百万人いるが、Vapi のような「APIベースで音声AIを組める」プロダクトはこれらの市場で爆発的に普及する可能性が高い
  3. シリコンバレーと新興国の橋渡し: Peak XV は Sequoia 時代から「米国本社×インド開発拠点」のハイブリッド組織を多数育てており、Vapi にも同様のスケール戦略を提供できる

共同創業者は元 Y Combinator パートナー

Vapi の共同創業者である Jordan Dearsley 氏(CEO)と Nikhil Gupta 氏(CTO)は、いずれも YC バッチ卒業生だ。Dearsley 氏は元々 Twilio のソリューションエンジニアとして電話 API 領域に深く関わり、Twilio が抱える「開発者は電話越しの自動応答を実装したいが、SDKが古すぎる」という構造的課題に気づいた。

「Twilio は2010年代の技術スタックで止まっている。LLM時代の電話API、つまり音声AIエージェントを30分で組めるプラットフォームが必要だ」という仮説のもと、2023年に Vapi を創業した。実際、Vapi のデモは「20行のコードで電話を受け取り、LLMに会話させ、Calendly に予約を入れる」という流れを完結させており、これが開発者コミュニティで爆発的にバイラル化した。

Vapi のプロダクトとは何か

Vapi は 「音声AIエージェントを構築するための開発者向けAPIプラットフォーム」 である。Twilio が「電話通信のAPI化」を実現したように、Vapi は「電話 × LLM × 音声合成」の3レイヤーを統合したAPIを提供する。開発者は数十行のコードを書くだけで、以下のような機能を実装できる。

  • 顧客からの着信を AI が応答(IVR代替)
  • 予約システムへの自動登録(Calendly、OpenTable、Square連携)
  • CRM(Salesforce、HubSpot)への通話内容の自動記録
  • 多言語対応(英語、スペイン語、ヒンディー語、日本語など30以上)
  • 業務システムへのAPI呼び出し(保険請求、配送追跡、決済処理)
  • 通話のリアルタイム文字起こしと感情分析

図2: Vapiの音声AIエージェント処理フロー。着信→音声認識→LLM推論→音声合成→外部API実行の5段階を示す図

上の図は、Vapi が顧客からの電話を受け取ってから業務を完結するまでの処理フローを示している。注目すべきは、全工程の合計レイテンシが500-700ms程度に抑えられている点だ。人間同士の会話における「自然な間」は400-800msとされており、Vapi はこの範囲に収まることで「AIと話している違和感」を最小化している。

低レイテンシを実現する技術アーキテクチャ

音声AIエージェントの最大の技術的難題は レイテンシ である。テキストチャットなら2-3秒の応答遅延は許容されるが、電話越しの会話で3秒沈黙されると顧客は不快に感じる。Vapi はこの課題を以下のスタック構成で解決している。

  • 音声認識(ASR): Deepgram Nova-3 または Whisper Large v3 をストリーミングモードで使用(部分認識を100ms単位で返す)
  • LLM: Claude Opus 4.7、GPT-5、Gemini 3 Flash などをタスクに応じてルーティング。簡単な応答は軽量モデル、複雑な業務処理は高性能モデル
  • 音声合成(TTS): ElevenLabs、PlayHT、Cartesia をユーザーが選択可能(声質と速度のトレードオフ)
  • VAD(音声区間検出): 顧客の発話終了を50-100msで検出し、即座にLLMを呼び出す
  • インタラプション処理: 顧客が AI の発話を遮った場合、即座に話を止めて聞き取りモードに切り替える

このスタックを 「設定ファイルで切り替え可能」 にした点が Vapi の革新性だ。従来は ASR / LLM / TTS をそれぞれ別ベンダーから調達して自前で繋ぐ必要があったが、Vapi なら JSON 設定を変えるだけで音声プロバイダーを切り替えられる。

主要ユースケース

Vapi の顧客企業が実装しているユースケースは多岐にわたる。

コールセンター代替

最も大きな市場はコールセンターのAI化である。米国のコールセンター業界は年間 $400B(約62兆円) 規模で、Vapi の主要顧客にはこの市場の中堅プレイヤーが多い。具体的には、初期一次受付(IVRの置き換え)FAQ応答営業時間外の予約受付といったタスクで導入が進んでいる。

レストラン予約

OpenTable や Resy が普及した現在でも、米国のレストランの約60%は電話予約に依存している。Vapi は 「24時間予約電話を受ける」 ソリューションとして、Chick-fil-A や Domino's といった大手チェーンのフランチャイズ店舗に導入実績がある。

医療受付

HIPAA準拠の音声AIエージェントは、米国の歯科医院・小規模クリニックで急速に普及している。「保険会社の確認」「予約変更」「処方薬の補充依頼」など、これまで受付スタッフが対応していたタスクをAIが代行する。

保険問合せ

自動車保険・住宅保険の請求受付は、繁忙期にコールセンターがパンクする典型的な業種だ。Vapi を導入した保険代理店では、一次受付の80%をAIが完結できるようになり、人間オペレーターは複雑な相談のみに集中できる体制が整った。

競合4社との比較

音声AIエージェント領域は2026年現在、Vapi、Bland AI、Retell AI、ElevenLabs Voice の4社が市場を分け合っている構造だ。以下の表で各社の特徴を整理する。

項目VapiBland AIRetell AIElevenLabs Voice
創業2023年2023年2023年2022年(Voice機能は2025年)
累計調達額$70M超$65M$20M$280M超
直近評価額$400-500M(推定)$1B超(ユニコーン)$300M$3B超
主な強み開発者APIの使いやすさ、低レイテンシスケール処理(数百万通話/日)スタートアップ向けの低価格音声合成の品質(業界最高峰)
主な弱みエンタープライズ機能が弱いカスタマイズ性が低い大規模顧客の実績不足開発者向けエコシステムが未成熟
価格(推定)$0.05-0.10/分$0.09/分$0.07/分$0.10-0.15/分
多言語対応30+25+15+32+(音声合成のみ)
日本語対応あり(精度中)あり(精度中)限定的あり(精度高)
想定顧客中小企業〜開発者エンタープライズスタートアップブランド企業(高品質音声重視)

Bland AI——スケール処理の王者

Bland AI は2026年初頭に Scale AI 出身の Sahir Hossain 氏が率いるスタートアップで、Series B で $50M を $1B 評価で調達し、業界初のユニコーンとなった。最大の強みは 「同時に100万通話を処理できるインフラ」 で、保険会社や大手通信キャリアといった、大量の電話を捌く必要がある顧客に強い。ただしカスタマイズ性は低く、「Bland のテンプレートに乗せる」前提なので、独自の業務フローを組みたい開発者には Vapi の方が向く。

Retell AI——低価格でスタートアップ向け

Retell AI は Y Combinator W24 バッチ出身で、価格を Bland AI より約20%安く設定することで、シード/シリーズA段階のスタートアップを開拓してきた。プロダクトは Vapi に似ているが、開発者ドキュメントの質と SDK のメンテナンス頻度では Vapi に劣る という評価が多い。

ElevenLabs Voice——音声品質では業界最高峰

ElevenLabs は元々「音声合成(TTS)」のスタートアップとして2022年に創業し、AI音声の品質で業界をリードしてきた。2025年に「Voice」という音声AIエージェント機能を追加し、Vapi らの市場に参入。ただし 「TTS が良ければエージェントも良い」とはならない のが現実で、ASR や LLM ルーティング、外部API連携などの面では Vapi の方が成熟している。一方、ナレーション品質を重視するブランド企業(高級ホテル、プレミアム小売)からの引き合いは ElevenLabs Voice の方が圧倒的に強い。

図3: Vapi vs Bland vs Retell vs ElevenLabs Voiceの4軸比較レーダーチャート。開発者体験、低レイテンシ、音声品質、スケール、価格優位性の5項目を示す

上の図は、4社の主要機能を5軸で比較したレーダーチャートである。Vapi は 「開発者体験」と「低レイテンシ」で頭一つ抜けている 一方、「スケール処理」では Bland AI、「音声品質」では ElevenLabs に劣る。**「中小企業向けの開発者プラットフォーム」**というポジショニングを取り続ける限り、Vapi は当面この市場で勝ち続けると予想される。

筆者の所感——音声AIエージェント市場の構造分析

音声AIエージェント市場は、2024年までは「実用に耐えない実験段階」だったが、2025年後半から Claude 4 / GPT-5 / Gemini 3 の登場により、レイテンシと知能の両立 が実現し、一気に商用化フェーズに入った。Vapi の $50M Series B はその象徴的なマイルストーンだ。

筆者は、今後3年間でこの市場が以下の3層に分かれると予測している。

第1層: 開発者プラットフォーム(Vapi、Bland、Retell)

API ベースで誰でも音声AIエージェントを組める層。価格競争が激しく、$0.03-0.10/分のレンジに収束していく。Vapi はここで Twilio のように「業界標準」を取りに行く戦略だ。Twilio が時価総額 $20B 級まで成長したことを考えると、この領域で1社が $5-10B の企業価値を取る可能性は十分にある。

第2層: 業界特化型ソリューション(医療、保険、金融)

「医療×音声AI」「保険請求×音声AI」など、業界知識と規制対応を組み込んだ縦割りSaaS。Sierra のような企業がここに位置する(ただし Sierra はチャットも統合した「マルチチャネル」型)。垂直特化の方が利幅は高く、ARRも積み上がりやすい。

第3層: 巨大プラットフォーマー(OpenAI、Google、Meta)

OpenAI の Realtime API、Google の Gemini Live API、Meta の Voice エージェント機能などが、エンタープライズ顧客に直接提供される層。インフラ価格が安く、しかも基礎モデルとの統合が深い。中長期的には Vapi らはこれらの基盤の上に乗る「アプリケーション層」として共存する可能性が高い。

筆者の見立てでは、Vapi は「Twilio of AI Voice」のポジションを獲得できるか が今後の最大の論点である。Twilio は2010年代に「電話のAPI化」を実現して時価総額 $50B(ピーク時)まで成長したが、その本質は 「開発者の使いやすさ」と「徐々に増える付加機能」 だった。Vapi も同じ戦略を取れば、5年後には $5-10B 規模の独立企業に育つ可能性が高い。

日本市場への影響——コールセンター業界の地殻変動

日本のコールセンター市場は約 1.3兆円(2025年) とされ、米国の20分の1の規模だが、人手不足は深刻だ。総務省の統計によると、コールセンターオペレーターの平均離職率は 約40%、夜間・休日対応の人材確保は特に困難である。

国内競合の位置——ELYZA、KARAKURI、PKSHA Voice

日本国内で音声AIエージェントを提供しているのは、以下のような企業群である。

国内プレイヤー主な強み弱み
ELYZA(LINE系)日本語LLMの精度、KDDI との提携音声特化ではない
KARAKURI(東大発)カスタマーサポート特化、大手導入実績チャット中心、音声は弱い
PKSHA Voice音声認識・合成の自社技術開発者APIの整備が遅い
アドバンスト・メディア(AmiVoice)音声認識の老舗、医療・コールセンター実績LLM統合は外部依存
MOBI-WEB中小コールセンター向け、SaaS型スケール処理は弱い

これらの国内プレイヤーは、いずれも 「日本語対応の精度」と「国内顧客への営業力」 を武器に戦っているが、Vapi のような 「APIプラットフォーム型」 のプロダクトは少ない。多くは「ベンダーが顧客に合わせてカスタム開発する」モデルであり、開発者がAPIだけで実装できる Vapi 型のサービスは国内にはまだ存在しない。

日本から Vapi を使う場合

Vapi は2026年5月時点で日本語対応しており、東京リージョンのサーバー(AWS ap-northeast-1)も利用可能だ。料金は米国と同じ $0.05-0.10/分(約7.75-15.5円/分) で、これは日本のコールセンターオペレーターの時給(約2,000円、1分あたり約33円)の 1/2-1/4 に相当する。導入手順は以下の通り。

  1. https://vapi.ai/ でアカウント作成(クレジットカード登録、無料枠は月10時間)
  2. ダッシュボードで「Phone Number」を取得(米国・カナダの番号は即時取得、日本の050番号は Twilio 連携が必要)
  3. JSON でエージェントの設定を記述(LLM、TTS、初期挨拶、許可されたツールなど)
  4. Webhook で社内システムと連携(CRM、予約システム、決済API)
  5. テスト通話で動作確認 → 本番運用

日本語のASR精度については、Deepgram Nova-3 の日本語モデルが2026年初頭に大幅にアップデートされ、ほぼネイティブレベルに達している。ただし、関西弁・東北弁などの方言、専門用語(医療・法律)の認識精度は依然として課題だ。

国内導入のハードル

日本市場での Vapi 導入には、以下のような実務的ハードルが存在する。

  • 電気通信事業者法: 050番号の取得には届出が必要で、Vapi 単体では国内番号を発行できない
  • 特定電子メール法・特商法: アウトバウンド架電(営業電話)には厳格な規制があり、AIによる自動架電も例外ではない
  • 個人情報保護法: 通話録音と音声データの保管には明示的な同意取得が必須
  • 日本語の敬語処理: 「お客様」「ございます」「申し訳ございません」などの敬語表現の自然さは、米国製プロダクトでは弱い

これらのハードルを越えるため、Vapi はおそらく日本国内のリセラー(NTTコミュニケーションズや KDDI、楽天モバイルなど)と提携してローカライズ展開する可能性が高い。Peak XV が出資した本ラウンドは、その布石として日本・東南アジア市場開拓の軍資金を確保したと解釈すべきだろう。

筆者の見解と予測——Vapiは音声AIのStripeになるか

筆者は、Vapi が今後3-5年で取るべき戦略の核は 「Stripeに学べ」 だと考えている。Stripe は決済APIを「開発者の使いやすさ」一点突破で構築し、Adyen や Worldpay といった既存プレイヤーを凌駕した。Vapi もまた、「30分で音声AIエージェントが組める開発者体験」 を磨き続けることで、Twilio の後継として君臨できる可能性がある。

具体的な予測として以下を挙げる。

  1. 2027年までに ARR $100M を超える: 現在のARR推定 $30M から、約3倍成長で到達。これは Twilio の同期と比較してやや遅いが、音声AIという新領域を切り拓いている点を考慮すれば妥当
  2. Series C は2027年中、評価額 $2B レベル: Vapi のような開発者プラットフォームは Bessemer や Tiger Global が好む対象で、ユニコーン入りはほぼ確実
  3. 大手プラットフォーマーによる買収観測: Salesforce、ServiceNow、Twilio、Microsoft あたりが買収候補。特に Salesforce は Agentforce 戦略の一環として音声AIを内製化したいニーズが強い
  4. 日本市場では2027年に本格展開: 国内リセラーとの提携、050番号の対応、日本語ASRの精度向上が揃った時点で、KARAKURI や PKSHA Voice のシェアを侵食し始める

逆にリスク要因としては以下が挙げられる。

  • OpenAI Realtime API の値下げ: 現在 $0.06/分の Realtime API が $0.02/分まで下がれば、Vapi の薄利モデルが崩壊する可能性
  • Bland AI の急成長: スケール処理で先行する Bland AI が中小企業市場にも下りてくると、Vapi の主戦場が侵食される
  • 規制リスク: AI による電話自動応答に対する規制強化(米国FCCの動向、EU AI Act の音声AI部分の解釈など)

実際に使ってみた——Vapiでデモエージェントを15分で構築

筆者は本記事の執筆にあたり、Vapi の開発者向け無料枠(月10時間)でデモエージェントを構築してみた。所要時間は 約15分 で、感想は「Twilio 黎明期の開発者体験を彷彿とさせる」というものだった。

具体的な手順は以下の通り。

  1. https://vapi.ai/ にアクセスし、Google アカウントで5秒でサインアップ
  2. ダッシュボード左サイドバーの「Assistants」をクリック
  3. 「Create Assistant」ボタンを押し、テンプレートから「Restaurant Reservation」を選択
  4. デフォルトでは Claude 3.5 Sonnet(注: 旧モデル)が選ばれていたので、Claude Opus 4.7 に変更
  5. 音声は ElevenLabs の「Rachel」(女性、自然な抑揚)を選択
  6. 初期挨拶を「Hello, this is Vapi Demo Restaurant, how may I help you?」に編集
  7. ツール(Function Calling)として「Calendly API での予約」を有効化
  8. ダッシュボード右上の「Test Call」ボタンで電話番号を入力し、自分のスマホで着信を受けてテスト

実際にテスト通話したところ、応答までの待ち時間は体感 約500-700ms で、英語であれば自然な会話ができた。日本語に切り替えると応答品質はやや落ち、特に「予約」「キャンセル」といった日本語特有の動詞活用で違和感があった(「予約しました」が「予約します」と言われたり)。それでも、初心者がここまで早く音声AIエージェントを動かせるプラットフォームは他に存在しない。

つまずきポイントとしては、「電話番号の取得」 がやや手間だった。Vapi 単体では米国・カナダの番号しか取得できず、日本の050番号を使うには Twilio アカウントを別途作成して連携する必要がある。この点は今後の改善が望まれる。

良かった点:

  • ドキュメントが極めて整備されており、API リファレンスとサンプルコードが充実
  • Webhook で外部APIを呼び出す機能が標準装備されており、Salesforce や HubSpot との連携が簡単
  • 通話ログがダッシュボードで可視化され、文字起こし・感情分析が自動で見られる

悪かった点:

  • 日本語の音声合成は ElevenLabs と PlayHT に依存しており、自社で日本語TTSを持っていない
  • エンタープライズ向けの SSO(Okta、Azure AD)連携は Series B 後の今でも未対応
  • 通話料金が他社と比較して若干高め(Retell AI の方が20%安い)

まとめ——音声AIの「次のTwilio」を捉えるアクションステップ

Vapi の $50M Series B は、音声AIエージェント市場が 「実験段階」から「商用化フェーズ」 へ移行したことを象徴するマイルストーンである。Peak XV の参加により、インド・東南アジア・日本といったアジア市場での本格展開も視野に入った。読者が取るべき具体的なアクションステップを以下に提示する。

  1. 開発者の方: 今すぐ https://vapi.ai/ で無料アカウントを作成し、30分でデモエージェントを動かしてみる。Twilio や Amazon Connect しか触ったことがない人なら、Vapi の開発者体験に衝撃を受けるはず
  2. 企業のIT責任者の方: 自社のコールセンター業務のうち、「一次受付」「FAQ応答」「予約受付」など定型タスクを洗い出し、AIで自動化できる範囲を試算する。米国の事例では一次受付の70-80%がAI完結している
  3. 投資家の方: 音声AIエージェント領域は2026-2028年に大型の Exit が複数発生する可能性が高い。特に Salesforce / ServiceNow / Microsoft 系列での買収観測に注目
  4. 国内SaaS企業の方: 日本語特化の音声AIエージェント市場はまだ空白地帯。Vapi 型のAPIプラットフォームを国内で立ち上げる絶好のチャンス
  5. Anthropic Claude API を使った開発に挑戦してみたい方: Vapi は Claude Opus 4.7 を LLM として標準サポートしている。Claude のプロンプトエンジニアリングを学んでおくと Vapi の活用幅が広がる

音声AIは2026年現在、まさに「Twilio が登場した2010年」のような転換点にある。15年前の Twilio が時価総額 $50B 級に成長したように、Vapi らの音声AIプラットフォームが2030年代の「次のTwilio」になる可能性は十分にある。本記事を読んだ読者には、ぜひこの転換点に乗り遅れずアクションを取ってほしい。

開発者として Claude を活用した音声AIエージェントを試したい方は、まず Claude Pro を契約してプロンプト設計に習熟することをおすすめする。Vapi のような音声AIプラットフォームの真価は、LLMをいかに使いこなすかに大きく左右されるためだ。

この記事をシェア