Nvidia Proteina-Complexa——100万のタンパク質バインダーを生成するAI創薬モデル
130以上の標的タンパク質に対して、100万を超える設計バインダーが実験で検証済み ── NvidiaがGTC 2026で発表したタンパク質設計AIモデル「Proteina-Complexa」は、構造ベースの創薬に新たなブレイクスルーをもたらす可能性がある。GPUの帝王として知られるNvidiaが、なぜタンパク質設計という一見無関係な領域に本格参入したのか。その答えは、AI創薬市場が今後10年で最も急成長するAI応用分野の一つになるという確信にある。
AlphaFold 3がタンパク質の構造予測で革命を起こした後、次のフロンティアは「望みの機能を持つタンパク質を設計する」ことだ。Proteina-Complexaはまさにこの「設計」に特化したモデルであり、従来のRFdiffusionやProteinMPNNとは異なる独自のアプローチで、製薬業界が切望する「高速・大量・高精度」のバインダー設計を実現した。本記事では、このモデルの技術的な仕組み、競合との比較、そして日本の製薬・バイオテック業界への影響を徹底解説する。
Proteina-Complexa とは何か
背景 ── 「構造予測」から「タンパク質設計」へ
2024年のAlphaFold 3の発表により、タンパク質の3次元構造を高精度で予測することは事実上「解決済み」の問題になりつつある。しかし、創薬の現場で本当に必要なのは構造予測の先にある「設計(Design)」だ。
具体的に言えば、標的タンパク質(例えばがん細胞表面の受容体)に対して、ピンポイントで結合する人工タンパク質(バインダー)を設計できれば、それ自体が抗体医薬品の候補になる。従来、この設計には数年単位の試行錯誤が必要だったが、AIモデルの進化により数時間〜数日で大量の候補を生成できるようになりつつある。
モデルの概要
Proteina-Complexaは、Nvidiaの研究チームが開発したタンパク質バインダー設計に特化した推論モデルだ。GTC 2026のヘルスケア・ライフサイエンスセッションで初公開された。
主な特徴は以下の通りだ。
- 拡散モデル(Diffusion Model)ベース: 画像生成AI(Stable Diffusion等)と同じ原理を3次元タンパク質構造に適用。ノイズから徐々にバインダー構造を「彫り出す」アプローチ
- 構造認識型Transformer: 標的タンパク質の3D構造を入力とし、結合界面を認識した上でバインダーの骨格構造とアミノ酸配列を同時に生成
- 大規模実験検証: 130以上の異なるターゲットに対して100万を超えるバインダーが設計され、そのうち相当数がwet lab(実験室での実験)で結合活性が確認された
- オープンソース公開: モデルの重みとコードがオープンソースとして公開され、研究者・製薬企業が自由に利用できる
以下の図は、Proteina-Complexaによるタンパク質バインダー設計のワークフローを示している。
この図が示すように、ユーザーは標的タンパク質のPDB構造ファイルを入力するだけで、モデルが自動的に結合部位を同定し、拡散プロセスを通じて大量のバインダー候補を生成する。最終的に結合親和性スコアでランキングされた候補が出力される。
技術的な仕組み
拡散モデルによるタンパク質設計
Proteina-Complexaの核心は、条件付き拡散モデル(Conditional Diffusion Model) だ。画像生成AIではテキストプロンプトを条件としてピクセルを生成するが、このモデルでは標的タンパク質の3D構造を条件として、バインダーの原子座標を生成する。
具体的なプロセスは以下の通りだ。
- フォワードプロセス(ノイズ付加): 既知のタンパク質複合体構造にガウスノイズを段階的に付加し、構造情報を破壊する
- 逆プロセス(デノイジング): ニューラルネットワークが、標的タンパク質の構造を条件として、ノイズから徐々にバインダー構造を復元する。このとき、結合界面の形状相補性や静電的相互作用が暗黙的に学習されている
- 配列設計: 構造(骨格)が決まった後、各残基位置に最適なアミノ酸を割り当てる「逆フォールディング」ステップが実行される
このアプローチの画期的な点は、従来の手法が「構造設計」と「配列設計」を別々のステップで行っていたのに対し、Proteina-Complexaはこの2つを統合的に最適化できることだ。
構造認識型Transformer
モデルのバックボーンには、3D座標を直接処理できるSE(3)-equivariant Transformerが採用されている。SE(3)等変性とは、入力構造を回転・並進させても出力が一貫して変換される性質を指す。タンパク質は3次元空間に存在するため、座標系に依存しないモデルが必要不可欠だ。
Transformerのアテンション機構は、標的タンパク質とバインダー間の残基ペアの相互作用を効率的にモデル化する。これにより、結合界面における水素結合、疎水性相互作用、塩橋などの物理化学的な力を学習ベースで近似できる。
訓練データとスケール
Proteina-Complexaの訓練には以下のデータが使用されたとされる。
| データソース | 内容 | 規模 |
|---|---|---|
| PDB(Protein Data Bank) | 実験的に決定されたタンパク質複合体構造 | 約20万構造 |
| AlphaFold DB | 予測された単量体構造 | 2億構造以上 |
| 社内合成データ | RFdiffusion等で生成し、分子動力学シミュレーションで検証 | 非公開 |
特筆すべきは、Nvidiaが自社のDGX SuperPODインフラを活用して大規模な訓練を実行した点だ。数千GPUを用いた訓練により、従来の学術グループでは到達できなかったモデルサイズと訓練データ量を実現している。
「130ターゲット・100万バインダー」の意味
なぜこの数字が重要なのか
従来のタンパク質設計研究では、1つのターゲットに対して数百〜数千のバインダー候補を生成し、その中から実験で数十〜数百を検証するのが一般的だった。しかしProteina-Complexaは、130以上の異なるターゲットに対して合計100万以上のバインダーを設計し、その多くを実験で検証したという桁違いのスケールを達成している。
この数字が意味するのは以下の点だ。
- 汎用性の実証: 特定のターゲットだけでなく、多様なタンパク質ファミリーに対して機能することが示された
- スケーラビリティ: 大量の候補を短時間で生成・評価できるため、リード化合物の発見確率が飛躍的に向上する
- 実験との整合性: 計算上の予測だけでなく、wet labでの実験検証を経ているため、製薬企業が信頼して採用できる
創薬パイプラインへの影響
従来の創薬では、標的同定からリード化合物の発見まで平均3〜5年を要していた。Proteina-Complexaのような高速バインダー設計ツールを導入することで、このフェーズを数カ月に短縮できる可能性がある。
| 創薬ステージ | 従来の所要期間 | AI活用後の予想期間 | 削減率 |
|---|---|---|---|
| 標的同定 | 1〜2年 | 3〜6カ月 | 60〜75% |
| リード発見(バインダー設計) | 1〜3年 | 数週間〜3カ月 | 90%以上 |
| リード最適化 | 1〜2年 | 6カ月〜1年 | 50% |
| 前臨床試験 | 1〜2年 | 1〜1.5年 | 25% |
特に「リード発見」フェーズでの時間短縮は劇的であり、これがProteina-Complexaの最大の価値提案だ。
競合モデルとの比較
タンパク質設計AIの分野には、すでに複数の強力なモデルが存在する。以下の図で主要モデルを比較する。
AlphaFold 3 との違い
AlphaFold 3はGoogle DeepMindが開発した汎用的な構造予測モデルだ。タンパク質、DNA、RNA、リガンドの複合体構造を高精度で予測できるが、その主な用途は「既存のタンパク質の構造を予測する」ことにある。一方、Proteina-Complexaは「新しいタンパク質を設計する」ことに特化している。
| 比較項目 | AlphaFold 3 | Proteina-Complexa |
|---|---|---|
| 主目的 | 構造予測(予測) | バインダー設計(生成) |
| 入力 | アミノ酸配列 | 標的タンパク質の3D構造 |
| 出力 | 3D構造予測 | 新規バインダーの配列+構造 |
| 用途 | 構造解析、ドッキング | 抗体・バインダー医薬品候補の設計 |
| 関係 | 相補的(前工程) | 相補的(後工程) |
実際の創薬ワークフローでは、AlphaFold 3で標的の構造を予測し、その構造をProteina-Complexaに入力してバインダーを設計するという連携が想定される。両モデルは競合というより補完関係にある。
RFdiffusion との違い
ワシントン大学のDavid Baker研究室(2024年ノーベル化学賞受賞)が開発したRFdiffusionは、Proteina-Complexaと最も直接的に競合するモデルだ。
RFdiffusionはオープンソースで広く使われているが、Proteina-Complexaは以下の点で差別化を図っている。
- スケール: Nvidiaの計算資源を活用した大規模訓練により、より多様なターゲットに対する汎化性能が高い
- エンドツーエンド設計: 構造と配列を統合的に最適化するため、RFdiffusion + ProteinMPNNの2ステップパイプラインより効率的
- GPU最適化: Nvidia GPU上での推論が高度に最適化されており、DGX Cloud上で大量のバインダーを高速生成できる
ESM-3 との違い
EvolutionaryScaleが開発したESM-3は、98Bパラメータの巨大な生成言語モデルで、タンパク質の配列・構造・機能を同時に生成できる。アプローチとしてはより汎用的だが、バインダー設計に特化した精度ではProteina-Complexaに分があるとされる。
Nvidia のヘルスケアAI戦略における位置づけ
BioNeMoプラットフォーム
Proteina-ComplexaはNvidiaのヘルスケアAIプラットフォーム「BioNeMo」のエコシステムに統合されている。BioNeMoは以下のモデルを包含する包括的なプラットフォームだ。
| モデル名 | 用途 |
|---|---|
| MolMIM | 低分子化合物の生成・最適化 |
| ESMFold (NIM版) | タンパク質構造予測の高速推論 |
| DiffDock | タンパク質-リガンドドッキング |
| Proteina-Complexa | タンパク質バインダー設計 |
| GenSLM | ゲノム配列の生成モデル |
Nvidiaの狙いは明確だ。創薬パイプラインの各ステージにAIモデルを配置し、すべてをNvidia GPUとDGX Cloud上で稼働させることで、製薬企業のAIインフラ需要をまるごと取り込むことにある。
ビジネスインパクト
Nvidiaのヘルスケア事業の売上は2025年度で約$2B(約3,000億円)と推定されるが、AI創薬ツールの普及により2028年には$10B規模に成長するとアナリストは予測している。Proteina-Complexa自体は無償公開だが、これを実行するためのGPUインフラ(DGX H200、DGX GH200など)の需要を創出するという「レーザーとプリンタモデル」のビジネス戦略だ。
AI創薬市場の現状と展望
市場規模
AI創薬市場は急速に拡大している。
- 2025年: 約$5.7B(Grand View Research推計)
- 2028年: 約$18B(CAGR 46%)
- 2030年: 約$40B以上
特にタンパク質設計(Protein Engineering)分野は、抗体医薬品、ワクチン、酵素工学など多岐にわたる応用があり、AI創薬市場の中でも最も成長率が高いセグメントとされている。
製薬大手の動き
すでに多くの製薬大手がAI創薬への投資を加速している。
| 企業 | 主なAI創薬パートナー/投資 | 規模 |
|---|---|---|
| ロシュ | Recursion Pharmaceuticals | $1.5B提携 |
| ファイザー | 社内AI部門 + CytoReason | $100M+ |
| アストラゼネカ | Absci Corporation | $650M提携 |
| サノフィ | Insilico Medicine | $1.2B提携 |
| 武田薬品 | Schrödinger | $200M+ |
Proteina-Complexaのオープンソース公開は、これらの製薬企業が自社パイプラインにすぐに統合できることを意味し、採用の加速が期待される。
日本の製薬・バイオテック業界への影響
日本のAI創薬の現状
日本のAI創薬は世界的に見ると発展途上だが、いくつかの注目すべき動きがある。
武田薬品工業: グローバル製薬企業として最も積極的にAI創薬に取り組んでおり、SchroedingerやRecursionとの提携に加え、社内にもAI創薬チームを構築。Proteina-Complexaの採用も視野に入るだろう。
中外製薬: ロシュグループの一員として、親会社のAI創薬資産にアクセスできる有利な立場にある。タンパク質工学に強みを持つ中外にとって、バインダー設計AIは特に親和性が高い。
Preferred Networks(PFN): 日本のAIスタートアップとして、創薬向けの分子生成モデルを開発中。Matlantisプラットフォームで材料探索AIを提供しており、バイオ領域への拡張を進めている。
MOLCURE: タンパク質設計に特化した日本のバイオテックスタートアップ。独自のAIモデルでバインダー設計を行っており、Proteina-Complexaの登場は直接的な競合となる可能性がある。
日本企業にとっての機会と脅威
機会:
- Proteina-Complexaがオープンソースであるため、日本の研究機関・製薬企業もすぐに試用・導入できる
- NvidiaのDGX CloudはAWS東京リージョンでも利用可能であり、データの国内保持が可能
- 日本は抗体医薬品の研究開発で世界上位の実績を持ち、バインダー設計AIの需要基盤がある
- AMEDの「創薬DX推進事業」(年間予算約300億円)から研究開発資金の獲得が見込める
脅威:
- 海外製薬企業がAI創薬を先行することで、日本企業の新薬開発スピードがさらに遅れる懸念
- AI創薬人材の不足。特に構造生物学×機械学習のクロスオーバー人材は日本では極めて少ない
- 計算インフラの格差。NvidiaのGPUクラスターの導入コストは依然として高額であり、中小バイオテック企業にはハードルが高い
政策面の動き
日本政府は2025年に閣議決定した「バイオ経済社会実現計画」の中で、AI創薬を重点推進分野に位置づけている。具体的には以下の施策が進行中だ。
- AMED 創薬DX推進事業: タンパク質設計AIを含むデジタル創薬ツールの開発・導入を支援(2025〜2029年、総額約1,500億円)
- 理研-製薬コンソーシアム: 理化学研究所を中心に、国内製薬企業12社が参加するAI創薬コンソーシアムが2025年に発足。共通の計算基盤上でモデルの共同開発を進める
- 東大-NVidia連携: 東京大学とNvidiaが2025年に締結した包括連携協定の一環として、BioNeMoプラットフォームの東大への導入が進行中
技術的な限界と今後の課題
現時点での限界
Proteina-Complexaは画期的なモデルだが、いくつかの重要な限界も認識されている。
- 免疫原性の予測: 設計されたバインダーが人体で免疫反応を引き起こすかどうかの予測は、現時点ではモデルのスコープ外。別途のin silico免疫原性予測ツールとの組み合わせが必要
- 翻訳後修飾: 糖鎖付加やリン酸化などの翻訳後修飾がバインダーの結合に与える影響は、現モデルでは十分にモデル化されていない
- 動的構造: タンパク質は静的な構造ではなく、溶液中で揺らいでいる。この動的な構造変化(コンフォメーション変化)の考慮は限定的
- 膜タンパク質: 細胞膜に埋め込まれた膜タンパク質への適用は、脂質二重層環境のモデル化の困難さから精度が低い
今後の発展方向
Nvidiaは以下の方向でモデルの改良を進めるとされている。
- マルチモーダル統合: 低分子化合物、核酸、脂質など、タンパク質以外の分子との相互作用もモデル化
- 分子動力学との統合: 拡散モデルで生成したバインダーを分子動力学シミュレーションで精密化するエンドツーエンドパイプライン
- フェデレーテッドラーニング: 製薬企業の機密データを共有せずにモデルを改善する連合学習アプローチ
まとめ
Nvidia Proteina-Complexaは、AI創薬の「構造予測」時代から「タンパク質設計」時代への移行を象徴するモデルだ。130以上のターゲットに対する100万バインダーの実験検証は、単なる学術的成果ではなく、製薬産業の創薬パイプラインを根本から変革するポテンシャルを持つ。オープンソースでの公開は、業界全体のAI創薬の底上げにつながるだろう。
今後に向けた具体的なアクションステップは以下の通りだ。
- 製薬企業の研究者: Proteina-Complexaのオープンソースコードを自社の計算環境に導入し、既存パイプラインの標的タンパク質に対するバインダー設計を試みる。NvidiaのBioNeMo Cloudでの試用も可能なため、GPU環境が社内にない場合でもすぐに評価を開始できる
- バイオテック・スタートアップの経営者: AI創薬の競争は「モデルの差」から「データとwet labの差」にシフトしつつある。Proteina-Complexaのようなモデルが無償で使える以上、差別化の源泉は独自の標的データベースと実験検証能力にある。AMEDの創薬DX推進事業への申請を含め、計算インフラとwet labの両面で投資を検討すべきだ
- AIエンジニア・データサイエンティスト: タンパク質設計AIは、NLP/画像認識に次ぐ「第3の波」として急成長中の分野だ。拡散モデル、SE(3)-equivariant NN、グラフニューラルネットワークなどの技術スタックを習得することで、AI創薬領域でのキャリア構築が可能。東大やPFNのバイオAI関連の講座・インターンへの参加も有効な第一歩となる