ヒューマノイドがテニスを打つ——LATENT、不完全データで運動スキル獲得

二足歩行のヒューマノイドロボットが、ラケットを握り、飛んでくるボールに反応してフォアハンドを打ち返す——SF映画のような光景が、いま現実になりつつある。清華大学・北京大学・Galbot・上海 Qi Zhi Institute・上海 AI Lab の共同研究チームが発表した「LATENT（Learning Athletic Tennis Skills from Imperfect Human Motion Data）」は、不完全な人間のモーションキャプチャデータから、ヒューマノイドロボットに本格的なテニススキルを学習させることに成功したプロジェクトだ。

実装に使われたのは、中国 Unitree 社の汎用ヒューマノイドロボット「Unitree G1」。身長約127cm、重量約35kg の小型ヒューマノイドが、ボール打撃・ターゲット返球・反応的フットワーク・ラリー継続といった高度な運動スキルを実際にこなしている。Hacker News でもスコア119を獲得し、23件のコメントが寄せられるなど注目を集めている。

LATENT とは何か

LATENT は「Learning Athletic Tennis Skills from Imperfect Human Motion Data」の略で、ヒューマノイドロボットに人間のスポーツスキルを転移するための研究フレームワークだ。

従来のロボット学習では、完璧なモーションデータが前提とされてきた。人間の動きを精密にキャプチャし、そのデータをロボットに忠実に模倣させるというアプローチだ。しかし、テニスのような激しいスポーツでは、モーションキャプチャデータに以下のような問題が生じる。

身体的不一致: 人間の体型・関節構造とロボットの体型は大きく異なる
データの断片化: テニスのスイング動作は一瞬で、連続した長時間のデータ取得が困難
物理的な不整合: キャプチャ時のノイズや遮蔽により、物理法則に反するデータが混入する
動作の非連続性: サーブ、フォアハンド、バックハンド、フットワークなど個別に収集されたモーションの接続が不自然

LATENT はこれらの「不完全さ」を前提とした設計になっている点が画期的だ。完璧なデータを求めるのではなく、断片的で不完全なデータからでも自然な動作を生成できるフレームワークを構築した。

LATENT の技術アーキテクチャ

LATENT のパイプラインは、大きく4つのステージで構成される。以下の図でその全体像を示す。

LATENTフレームワーク全体像：不完全なモーションデータからヒューマノイドのテニススキルを獲得するパイプライン

この図は、人間のモーションキャプチャから始まり、フラグメント修正、モーション構成、強化学習によるポリシー最適化、Sim-to-Real 転移を経て、最終的に Unitree G1 実機でテニス動作を実行するまでの流れを示している。

ステージ1: モーションフラグメントの修正

最初のステージでは、収集された人間のモーションキャプチャデータを「フラグメント」（断片）単位で処理する。テニスの動作データは本質的に断片的だ。1回のフォアハンドスイングは約0.5〜1秒、サーブは約2秒程度しか持続しない。これらの短い断片を、ロボットの身体構造に合わせて物理的に整合性のある形に修正する。

具体的には、人間の骨格モデルから Unitree G1 の関節構造へのリターゲティング（運動学的な変換）を行い、関節角度の制限や重心バランスを考慮して不自然な姿勢を補正する。この過程で、元のモーションの「自然さ」を可能な限り保持することが重要になる。

ステージ2: モーション構成（Composition）

修正された個々のフラグメント（スイング、ステップ、構え直しなど）を、自然に連結・合成するのが第2ステージだ。テニスでは「ボールに向かって移動→スイング→元のポジションに戻る」という一連の動作が必要だが、それぞれの動作は別々にキャプチャされている場合が多い。

LATENT では、フラグメント間の遷移をスムーズにする「トランジションネットワーク」を学習し、異なる動作の断片を物理的に自然な形で接続する。これにより、「フットワークからスイングへの移行」「スイング後の体勢回復」といった連続動作が実現される。

ステージ3: 強化学習によるポリシー最適化

構成されたモーションを基に、シミュレーション環境（Isaac Gym 等）で強化学習を行う。ここでのポリシー（制御方策）は、以下の目標を同時に最適化する。

モーショントラッキング: 参照モーションに近い動作を維持する
タスク達成: ボールを正確に打ち返す
安定性: 転倒せずバランスを保つ
自然さ: 人間らしい滑らかな動きを実現する

報酬関数は、これらの目標をバランスよく組み合わせて設計されている。特に重要なのは、モーショントラッキング報酬とタスク報酬のバランスだ。トラッキングに重みを置きすぎると柔軟な対応ができず、タスク報酬に偏ると不自然な動きになる。LATENT ではこのトレードオフを適切に制御する手法を提案している。

ステージ4: Sim-to-Real 転移

シミュレーションで学習したポリシーを、実際の Unitree G1 ロボットに転移する最終ステージだ。シミュレーションと現実の間には「Reality Gap」（現実ギャップ）と呼ばれる差異が存在する。重力、摩擦、空気抵抗、モーターの応答特性などが微妙に異なるため、シミュレーションで完璧に動作するポリシーが実機ではうまくいかないケースが多い。

LATENT では、ドメインランダマイゼーション（物理パラメータをランダムに変動させてロバスト性を高める手法）を適用し、この Gap を克服している。実際のデモ映像では、Unitree G1 がボールマシンから発射されるボールに対して安定したフォアハンドリターンを行い、複数回のラリーを継続している。

実現された4つのテニススキル

LATENT で学習した Unitree G1 は、以下の4つのスキルを実際に実行できる。

1. ボール打撃（Ball Striking） 飛んでくるボールに対してラケット面を正確に合わせ、打撃するスキル。ボールの軌道予測とスイングタイミングの調整が求められる高度なタスクだ。

2. ターゲット返球（Targeted Return） 単にボールを打ち返すだけでなく、コート上の指定されたターゲットエリアに向けて返球するスキル。打撃角度と力の調整が必要になる。

3. 反応的フットワーク（Reactive Footwork） ボールの着弾地点に応じて、横方向や前後方向にステップを踏んで最適な打撃位置に移動するスキル。二足歩行ロボットにとって、動的バランスを保ちながらの素早い移動は極めて難しい課題だ。

4. ラリー継続（Rally Continuation） 上記3つのスキルを組み合わせ、連続してボールを打ち返すラリーを実現するスキル。フットワーク→スイング→リカバリ→再ポジショニングのサイクルを繰り返す必要があり、LATENT のモーション構成技術が最も発揮される場面だ。

Unitree G1 ヒューマノイドの仕様

LATENT の実装プラットフォームとして選ばれた Unitree G1 は、中国の Unitree Robotics が開発した小型ヒューマノイドロボットだ。

項目	スペック
身長	約127cm
体重	約35kg
自由度（DoF）	23以上
歩行速度	最大2m/s 以上
バッテリー	リチウムイオン（約2時間稼働）
センサー	深度カメラ、IMU、力覚センサー
価格帯	約1.6万ドル（約240万円）〜
製造元	Unitree Robotics（杭州）

注目すべきは価格だ。Boston Dynamics の Atlas が研究用途で数百万ドル規模であるのに対し、Unitree G1 は民生向けの価格帯に収まっている。この「手頃さ」が、大学研究室レベルでのヒューマノイド研究を大きく加速させている。

競合・関連研究との比較

LATENT はロボットスポーツ AI というニッチな領域に属するが、近年この分野は急速に発展している。以下の図で主要プロジェクトを比較する。

ロボットスポーツAI研究比較マップ：主要プロジェクトの対象スポーツ・ロボット形態・学習手法を比較

この図は、LATENT を含む5つの主要プロジェクトを、対象スポーツ、ロボット形態、学習手法、研究機関、特徴の軸で比較したものだ。LATENT がヒューマノイドによるテニスという点で独自のポジションにあることがわかる。

項目	LATENT	Google DeepMind i-GOAT	DribbleBot (MIT)	Tesla Optimus	Figure 02
対象	テニス	卓球	サッカー	汎用作業	汎用作業
ロボット形態	ヒューマノイド	ロボットアーム	四足歩行	ヒューマノイド	ヒューマノイド
全身運動	あり	なし（上半身のみ）	あり（四足）	あり	あり
動的バランス	必須	不要（固定ベース）	必須	低速動作中心	低速動作中心
モーションデータ活用	不完全データ対応	自己対戦で生成	シミュレーション生成	遠隔操作データ	遠隔操作データ
実機デモ	あり	あり	あり	あり	あり
学術論文	あり	Nature掲載	ICRA掲載	非公開	非公開

LATENT の最大の差別化ポイントは、「ヒューマノイド × 高速スポーツ × 不完全データ」という三重の難題に取り組んでいる点だ。Google DeepMind の卓球ロボットは大きな成果を上げたが、固定ベースのロボットアームであり全身の動的バランスは不要だった。一方、LATENT は二足歩行で走り、飛んでくるボールを打つという、はるかに複雑なタスクに挑んでいる。

技術的ブレークスルーの意義

LATENT がもたらした技術的なブレークスルーは、ロボティクス全体に波及しうるものだ。

不完全データからの学習

これまでのロボット学習は「高品質なデータを大量に集める」ことが前提だった。しかし現実世界のモーションデータは常に不完全だ。LATENT の手法が一般化すれば、データ収集のハードルが大幅に下がり、多様なスキルの学習が加速する可能性がある。

モーション構成技術

個々の動作断片を自然に連結する技術は、スポーツ以外にも応用範囲が広い。製造ラインでの組立作業、災害現場での救助活動、介護での身体補助など、複数の動作を流れるように連結する必要がある場面は無数にある。

Sim-to-Real の高度化

シミュレーションから実機への転移は、ロボティクスの永遠の課題だ。LATENT がテニスのような高速・高精度タスクで Sim-to-Real を成功させたことは、この技術の成熟度が新しいレベルに達したことを意味する。

日本のロボティクス産業への影響

LATENT の成果は、日本のロボティクス産業にとって複数の示唆を持つ。

日本の強みと課題

日本はロボティクス大国として知られるが、その強みは主に産業用ロボット（ファナック、安川電機、川崎重工など）にある。ヒューマノイドロボットの分野では、ホンダの ASIMO が先駆的な存在だったものの、2022年に開発が終了している。現在、ヒューマノイド開発の最前線は中国（Unitree、Galbot）やアメリカ（Tesla、Figure AI、Agility Robotics）にシフトしている。

LATENT が示す方向性

LATENT の研究は、ヒューマノイドロボットの用途が産業用途だけでなく、エンターテインメントやスポーツにも広がりうることを示している。日本は「ロボットと共存する文化」を持つ国として、以下の領域で先行できる可能性がある。

スポーツトレーニング: AIコーチとしてのヒューマノイドロボット（テニス、バドミントン、卓球などの練球相手）
リハビリテーション: 人間の動作を模倣・補助するロボットによる身体機能回復支援
エンターテインメント: テーマパークやイベントでの高度なパフォーマンスロボット

中国のロボティクス台頭

LATENT の研究チーム構成（清華大学・北京大学・Galbot・上海 AI Lab）は、中国のロボティクス研究エコシステムの厚みを象徴している。Unitree G1 の低価格戦略と相まって、ヒューマノイド研究のアクセシビリティが飛躍的に向上しており、日本の研究機関も戦略的な対応が求められる。

特に注目すべきは、Unitree G1 が約240万円から入手可能な点だ。日本の大学研究室でも導入可能な価格帯であり、LATENT のようなモーション学習研究を日本国内でも追試・発展させることは十分に現実的だ。

今後の展望

LATENT の研究は現時点では「フォアハンドリターン」が中心だが、今後は以下の方向に発展する可能性が高い。

バックハンド・サーブの追加: より多様なショットのモーション学習
対人ラリー: ボールマシンではなく人間プレーヤーとの実際の対戦
戦略的プレー: ショットの配球パターンを考慮した戦術レベルの意思決定
他のスポーツへの汎化: バドミントン、スカッシュなどラケットスポーツ全般への展開
より大型のロボットでの実装: フルサイズヒューマノイドでの高速運動

また、Unitree からは G1 の後継機種やより大型の H1 も展開されており、プラットフォームの進化とともに実現可能な運動スキルの幅も広がっていくだろう。

まとめ

LATENT は、ヒューマノイドロボットに人間のスポーツスキルを学習させるという野心的な挑戦において、大きな一歩を踏み出した研究だ。不完全なモーションデータを前提とした設計思想は、データ収集のボトルネックを解消し、ロボット学習の民主化を加速させるポテンシャルを秘めている。

この研究に関心を持った方は、以下のステップで理解を深めることをお勧めする。

論文・デモを確認: LATENT プロジェクトページで公開されているデモ動画と技術詳細を確認する
関連研究を比較: Google DeepMind の卓球ロボット論文（Nature 掲載）や MIT DribbleBot の論文を読み、アプローチの違いを理解する
Unitree G1 を調査: ヒューマノイド研究に関心がある場合、Unitree G1 のスペックと価格を確認し、研究プラットフォームとしての可能性を検討する

ロボティクスとAIの融合は、今後ますます加速していく。LATENT のような研究が示すのは、ロボットが人間の「身体知」を獲得する時代が、もはや遠い未来ではないという事実だ。

Claude Pro のような最新AIツールを活用すれば、こうしたロボティクス研究の論文読解や技術分析を効率的に進めることができる。AI技術の最前線を追いかけたい方は、ぜひ活用を検討してほしい。