DeepMind出身David Silverが$1.1B史上最大シード——人間不要の超学習AI

2026年4月27日（月）、ロンドン拠点のAIスタートアップ Ineffable Intelligence が、シードラウンドで $1.1B（約1,650億円） を評価額 $5.1B（約7,650億円） で調達したことを発表した。シード段階としては欧州史上最大、世界全体でも歴代トップクラスの規模である。創業者は元DeepMindの強化学習チームリードで、AlphaGo・AlphaZero・AlphaStar の中心人物として知られる David Silver 氏。リード投資家は Sequoia Capital と Lightspeed Venture Partners、戦略パートナーとして Nvidia、Google、DST Global、Index Ventures、UK Sovereign AI Fund が名を連ねた。

特筆すべきは、David Silver 氏が Founders Pledge を通じて自身の Ineffable equity から得る利益の100%を寄付する と表明したことだ。Founders Pledge 史上最大規模となり、現在の評価額ベースでも数十億ドル規模の慈善誓約となる。本記事では、この記録的シードラウンドの背景、Ineffable Intelligence が掲げる「人間データに依存しない超学習AI」の技術的意味、そして欧州AI生態系・日本AI業界への影響を多角的に分析する。

何が起きたか——記録的シードの全容

TechCrunch、CNBC、Bloomberg、Tech.eu の報道を総合すると、ラウンドの主要事実は以下の通りである。

項目	内容
調達額	$1.1B（約1,650億円）
評価額	$5.1B（約7,650億円、post-money）
ラウンド	シード（Seed）
創業時期	2025年後半
本拠地	ロンドン（英国）
リード投資家	Sequoia Capital、Lightspeed Venture Partners
参加投資家	Nvidia、Google、DST Global、Index Ventures、UK Sovereign AI Fund
創業者・CEO	David Silver（元DeepMind / UCL教授）
目標	人間データに依存しない汎用超知能（superlearner）の構築

シードラウンドで $1.1B というのは異例中の異例である。比較対象として、2023年の Mistral AI のシード（$113M）、2024年の Inflection AI のシリーズB（$1.3B）、2024年の Safe Superintelligence Inc. の創業時 $1B 調達などがあるが、Ineffable はこれらを上回る規模をシード段階で確保した。Bloomberg の報道では、複数の投資家が「Silver 氏のチームが提示したロードマップを見て、5社以上のVCが追加で参加を希望したが枠が不足して断られた」とされている。

David Silver という人物

David Silver 氏は、強化学習（Reinforcement Learning, RL）研究の世界的権威である。University College London（UCL）の教授職を保持しつつ、DeepMind では2013年から強化学習チームをリードし、以下の歴史的成果を主導した。

AlphaGo（2016年）: 韓国の李世乭九段に4勝1敗で勝利。人間データ（プロ棋譜）を初期に利用
AlphaGo Zero（2017年）: 人間データを一切使わず、自己対戦のみで AlphaGo を上回る強さに到達
AlphaZero（2017年）: 同じアルゴリズムで囲碁・チェス・将棋すべてを超人レベルに学習
AlphaStar（2019年）: リアルタイム戦略ゲーム StarCraft II でグランドマスター級の腕前を獲得
MuZero（2020年）: ゲームのルールすら明示的に与えずに環境モデルを学習

これらの研究は、いずれも「人間データへの依存度を段階的に減らしていく」軌跡を辿っている。Ineffable Intelligence のミッションは、この延長線上にある「人間データを完全に排除した超学習AI」を、ゲームではなく汎用領域に拡張することだと位置付けられている。

Ineffable Intelligence の超学習AIとは何か

Ineffable Intelligence のアプローチは、現在主流の大規模言語モデル（LLM）と根本的に異なる。GPT-5.5、Claude Mythos、Gemini Ultra といったLLMは、インターネット上の膨大な文章を模倣することで言語能力を獲得し、その後 RLHF（人間のフィードバックによる強化学習）でアラインメントされる。つまり「人間が書いたものを真似る」ことが学習の根幹にある。

これに対し、Silver 氏が提唱する superlearner（超学習者）は、AlphaZero と同じ哲学に立つ。

図1: Ineffable Intelligence の投資家構成と$1.1Bシード調達の構造を示す図

この図は、$1.1B シードラウンドの投資家構成を示している。リード投資家のSequoia / Lightspeed に加え、GPU供給を担うNvidia、DeepMindの母体であるGoogle、UK Sovereign AI Fund という政府系資金、そしてDavid Silver氏自身が利益を寄付する Founders Pledge までが一つのエコシステムを形成している点が興味深い。

強化学習と自己対戦の核心

強化学習とは、エージェントが環境の中で行動 → 報酬の獲得 → 方策の更新というループを繰り返し、報酬を最大化する方策を学ぶ枠組みである。AlphaZero では以下のステップで学習が進んだ。

ニューラルネットワークがランダム初期化される
自分自身のコピーと対戦（self-play）し、勝敗データを生成
モンテカルロ木探索（MCTS）で「より良い手」を探索
ニューラルネットワークがその探索結果を模倣するように更新
1〜4 を繰り返すと、ネットワークは指数的に強くなる

この方式の革新性は、学習データが自己生成される点にある。人間の棋譜やラベル付けは不要で、ルール（合法手）と報酬関数（勝ち=+1, 負け=-1）だけがあれば良い。

図2: 既存LLMの教師あり学習とIneffable方式の強化学習を比較したフローチャート

この図は、既存LLM（教師あり学習中心）と Ineffable Intelligence（純強化学習＋自己対戦）の学習プロセスを対比している。前者は人間データの量と質に縛られるのに対し、後者は計算資源と良い報酬関数があれば原理上は人間を超えるレベルまで到達できる。

汎用領域への拡張という難題

ただし、ゲームと現実世界には決定的な違いがある。ゲームには「明確なルール」と「離散的な勝敗」があるが、現実世界には報酬関数が定義しづらいタスクが大半である。たとえば「優れたエッセイを書く」「正しい医学的診断をする」「効率的なコードを書く」といった問題では、何が「報酬+1」で何が「-1」なのかが自明ではない。

Tech.eu の報道によると、Ineffable Intelligence は以下の3つの方向性で取り組むとされる。

形式的検証可能な領域: 数学の定理証明、プログラムの正当性検証など、機械的に正解を判定できる領域から着手
シミュレーション環境: 物理シミュレーター・経済シミュレーター内でのエージェント学習。AlphaStar の延長
学習可能な報酬モデル: 人間が直接ラベル付けするのではなく、自己生成した出力を評価する「報酬関数自体を学習する」アプローチ

これらは、いずれも DeepMind が過去に発表した論文に通底する方向性である。

既存LLMとの比較表

主要な汎用AIプレイヤーと Ineffable Intelligence のアプローチを比較すると以下のようになる。

企業 / 製品	主要モデル	学習方式	人間データ依存度	直近評価額	直近調達額
OpenAI	GPT-5.5	Pretrain + RLHF + RLVR	高（インターネット文章＋ラベル）	$500B	$40B（2025）
Anthropic	Claude Mythos	Pretrain + Constitutional AI	高	$183B	$13B（2026 Q1）
Google DeepMind	Gemini Ultra 2	Pretrain + RLHF + Tool RL	高	（非上場部門）	—
xAI	Grok 5	Pretrain + RL Post-training	高	$200B	$10B（2026）
Mistral AI	Mistral Large 3	Pretrain + RLHF	中	$13.5B	$700M
Ineffable Intelligence	未発表（superlearner）	Pure RL + Self-Play	極めて低（理論上ゼロ）	$5.1B	$1.1B（シード）

シード段階で $5.1B という評価額は、Mistral AI の現在の評価額（$13.5B、シリーズB以降の累計調達 ~$1.5B）の約 38% に相当する。創業からわずか半年でこの水準に達したことは、投資家が「Pure RL アプローチが LLM の枠を超える可能性」に強く賭けていることを示している。

欧州AI生態系での位置づけ——UK Sovereign AI Fundの戦略的意義

Ineffable Intelligence のロンドン拠点という選択、そして UK Sovereign AI Fund の参加は、地政学的にも重要な意味を持つ。

欧州AIプレイヤーとの比較

企業	拠点	特徴	評価額
Mistral AI	パリ	オープンウェイト、汎用LLM	$13.5B
Stability AI	ロンドン	画像生成（Stable Diffusion）、財務難	~$1B
Wayve	ロンドン	自動運転特化AI	$2B
Cohere	トロント / ロンドン	エンタープライズLLM	$5.5B
Ineffable Intelligence	ロンドン	Pure RL 超学習AI	$5.1B

英国は2024年以降、「AI Safety Institute」「AI Sovereign Compute（10万H200相当）」などの国家戦略を推進しており、UK Sovereign AI Fund はその一環である。Bloomberg によると、UK Sovereign AI Fund からの出資額は約 $150M で、英国政府が単一スタートアップに対して行った出資としては過去最大級だ。

Stargate / xAI Colossus との計算資源競争

Ineffable Intelligence の計算戦略は明確で、Nvidia の戦略出資により最新世代GPU（おそらくBlackwell Ultra / Rubin系）の優先供給枠を確保したと見られる。CNBC の報道では「20万GPU相当のクラスタを2027年までに構築する」とされている。

比較すると以下の通りだ。

OpenAI / Microsoft Stargate: 100万GPU超、$500B 規模
xAI Colossus 2: 100万GPU目標、メンフィス
Anthropic / AWS Project Rainier: 数十万Trainium2
Ineffable Intelligence: 20万GPU

絶対規模では Stargate に劣るものの、強化学習は「同じ環境で大量のロールアウトを並列実行する」ことが鍵となるため、必ずしも事前学習向けの巨大クラスタと同じ最適化軸ではない。AlphaZero 当時の TPU クラスタも、絶対規模よりも「自己対戦の並列度」を最大化する設計だった。

筆者の所感——「人間データ不要」が意味する三つの破壊

ここからは筆者独自の視点で、本ニュースが意味するものを掘り下げたい。

(1) データ枯渇問題への根本解

Epoch AI の2024年論文によると、現在のLLMは2028年頃にインターネット上の高品質テキストを使い切ると予測されている。OpenAI、Anthropic、Google はすでに合成データ（synthetic data）と RLVR（Reinforcement Learning with Verifiable Rewards）に依存度を高めている。Silver 氏のアプローチは、この延長線上を超えて「そもそもインターネットデータを使わない」という極端な解だ。これが成功すれば、データ不足は完全に解消される。一方で失敗すれば、汎用領域での報酬関数定義が「次の壁」として残る。

(2) スケーリング則の代替パラダイム

LLMのスケーリング則（パラメータ数 × データ量 × 計算量）は、データ供給が頭打ちになった時点で有効性を失う。RL + Self-Play のスケーリング則は本質的に異なり、「計算量とシミュレーション忠実度」が支配変数となる。これは Nvidia が同社に出資した戦略的理由でもある——LLMで FLOPs を売るより、RLで FLOPs を売る方が、長期的には市場が拡大しうるからだ。

(3) Founders Pledge 全寄付の意味

David Silver 氏が equity 利益の100%を寄付することは、単なる慈善行為以上の意味を持つ。これは 「私はこの会社を金銭目的で創業していない」 というシグナルであり、AGI / superintelligence の安全性に関する Effective Altruism コミュニティ（DeepMind出身者の多くが関与）への強いコミットメントの表明である。Anthropic、Safe Superintelligence Inc.、Conjecture などと並び、Ineffable は「ミッションドリブン型 AGI企業」のトップクラスに位置する。

筆者の予測としては、Ineffable Intelligence は今後12〜18ヶ月以内に「数学オリンピック級の問題を完全自律で解く」「新しい科学的発見（タンパク質構造、材料設計など）をAIが自発的に行う」といったマイルストーンを発表する可能性が高い。これは AlphaGo / AlphaFold の流れを汲む、Silver 氏らしい派手な実証になるはずだ。

ちなみに筆者は本記事執筆中、Claude Pro と Gemini Advanced に Silver 氏の旧論文（"Mastering the game of Go without human knowledge", Nature 2017）を読み込ませて、それぞれに Ineffable のロードマップを推測させてみた。Claude は「定理証明とコード生成から始まる」と予測し、Gemini は「物理シミュレーション内のロボティクスに進む」と予測した。両方とも筋が通っていて甲乙つけがたい——だが Silver 氏の過去論文の傾向（環境モデル学習 = MuZero）から考えると、Gemini の予測（シミュレーション環境）の方が筋が良い気がする。

日本ではどうなるか——理研・産総研・Sakana AI への示唆

図3: 主要AI企業の評価額ランキングを示す棒グラフ

この図は2026年4月時点の主要AI企業の評価額を比較したものだ。Ineffable Intelligence の $5.1B は、シード段階としては Sakana AI（$1.5B、シリーズB以降）の3倍以上の水準である。日本のAI業界はこの動向にどう反応すべきだろうか。

Sakana AI と Preferred Networks との対比

日本国内で Ineffable のような「基礎研究ドリブン × トップ研究者主導」のAIスタートアップに最も近いのは、David Ha 氏（元Google Brain / Stability AI）と Llion Jones 氏（Transformerの著者）が創業した Sakana AI である。Sakana AI は「進化計算 × LLM」という独自路線を掲げ、評価額 $1.5B 規模に到達している。Ineffable と Sakana AI の共通点は以下の通りだ。

元Google系トップ研究者が創業
「LLMスケーリング以外」のアプローチを掲げる
ミッションドリブン（AGI 安全性、計算資源効率など）

一方、Preferred Networks（PFN）は古くから強化学習研究で知られ、Chainer や深層強化学習の実装で世界的な実績がある。PFN は近年 LLM（PLaMo）にシフトしているが、もし「Ineffable に対抗できる日本企業」を挙げるなら PFN しかいないだろう。

理研・産総研の研究戦略

理化学研究所の AIP（革新知能統合研究センター）と産総研（AIST）の AIRC（人工知能研究センター）は、強化学習・自己対戦型AIの基礎研究では世界レベルにある。だが、これを $1.1B 規模の事業化に持ち込めるエコシステムが日本にはまだ存在しない。Ineffable のシードに UK Sovereign AI Fund が参加した事実は、国家ファンドの戦略出資という新しい資金流路を示している。日本でも経産省・NEDO・JIC（産業革新投資機構）などが、汎用AI企業への巨額シード出資を検討すべき時期に来ている。

日本企業はどう動くべきか

日本企業（特に SIer、コンサル、商社）への示唆は以下の通り。

強化学習人材の確保: LLMファインチューニング人材は飽和に近づいている。次の戦略人材は強化学習・MCTS・Self-Play の専門家
シミュレーション環境の整備: 製造業（トヨタ、ファナック）、ゲーム（任天堂、SQEX）、金融（MUFG）など、日本企業は「クローズドな高品質シミュレーション環境」を持つ。これは Ineffable 型 AI の学習に不可欠な資産
円換算でのコスト感: $1.1B = 約1,650億円。日本のメガバンクや総合商社にとって支払えない額ではない。国内ベンチャー1社への出資としては前例がないが、不可能ではない

特に2点目は重要で、日本の製造業が持つ「実機×シミュレータの高精度な結合（デジタルツイン）」は、欧米のソフトウェア企業が容易には複製できない競争優位である。Ineffable と組んで（あるいは単独で）「産業特化型 superlearner」を構築する戦略は、日本のテック業界にとって現実的な突破口になりうる。

ちなみに、現時点で日本のエンドユーザーが Ineffable Intelligence の製品を直接利用する手段はない。同社は B2B / 研究提携モデルから始める意向を示しており、コンシューマー向けプロダクトは予定されていない。当面、日本のAIユーザーは引き続き ChatGPT Plus、Claude Pro、Gemini Advanced といった主流LLMサービスを使い分けるのが妥当だろう。

読者へのアクションステップ

Ineffable Intelligence の動向を踏まえ、読者が今すぐ取れる具体的なアクションを3つ提案する。

強化学習の基礎を学び直す: David Silver 氏の UCL 講義「Reinforcement Learning Course」（YouTubeで無料公開中、全10回）と、Sutton & Barto の教科書 Reinforcement Learning: An Introduction （第2版）を一読する。LLM中心の知識だけでは今後5年のAI業界を読み解けない
Self-Play / RLVR を実機で試す: OpenAI o3 / o4 や DeepSeek-R1 では RLVR（検証可能報酬）の効果が公開されている。これを既存のLLMアプリに組み込む試行を、まずは社内ハッカソンレベルで始める
国内VC・国家ファンドとの連携を検討する: 日本企業が強化学習特化型スタートアップを支援する枠組みは未整備だ。経産省・NEDO の助成金、JIC、各社のCVC を組み合わせた連合出資モデルを早期に検討すべき。Ineffable は「シードで $1.1B が成立する時代」が到来したことを実証した

最後に強調しておきたいのは、Silver 氏の「人間データは超知能の天井になる」という洞察は、過去10年の機械学習の進歩を最もよく見てきた人物の信念だということだ。LLMによる「人間の真似」がブームの中心にあった2020年代前半に対し、2026年から始まる新しい局面では、**「人間を超える学習者」**が中心テーマになるかもしれない。Ineffable Intelligence のシードラウンドは、そのパラダイムシフトの号砲である。

参考ソース: