Helios——ByteDanceと北京大学が60秒リアルタイム動画生成を実現

TikTokの親会社ByteDanceと中国のトップ大学**北京大学（Peking University）**が、動画生成AI「Helios」を共同でリリースした。最大の特徴は、60秒間の1080p動画をリアルタイム速度で生成できる点だ。つまり、60秒の動画を生成するのに要する時間が約60秒——動画の尺と同じ時間で出力が完了する。

従来の動画生成AI（Runway Gen-4、OpenAI Sora、Pika等）は、10秒の動画を生成するのに1〜3分を要するのが一般的だった。Heliosのリアルタイム生成は、動画生成AIの「使い勝手」を根本から変える可能性を秘めている。しかもモデル重みはオープンソースで公開されており、研究者やクリエイターが自由にアクセスできる。

本記事では、Heliosの技術的なブレークスルー、従来モデルとの比較、TikTokエコシステムへの統合可能性、そして日本のクリエイターエコノミーへの影響を詳しく解説する。

ByteDanceのAI研究体制

ByteDanceは世界最大級のテクノロジー企業の一つであり、TikTok（中国国内版は抖音/Douyin）を運営する。2024年の売上高は約**1,200億ドル（約18兆円）**に達し、従業員数は15万人を超える。

同社のAI研究部門はByteDance Researchとして独立した組織を持ち、北京、上海、シンガポール、マウンテンビューなど世界7拠点に2,000人以上のAI研究者を擁する。自然言語処理、コンピュータビジョン、推薦アルゴリズム、音声認識など、TikTokのコアプロダクトに直結する研究を推進してきた。

動画生成AI分野では、2024年にMagicAnimate（人体アニメーション生成）、2025年にPixelDance（テキストから高品質動画生成）をリリースしており、Heliosはその集大成ともいえる第3世代モデルだ。

一方の北京大学は、コンピュータサイエンス学部の視覚情報処理研究室が動画生成の基礎研究で世界をリードしてきた。特にDiffusion Modelの高速化に関する論文は、直近2年間で被引用数が上位1%に入る複数の高インパクト論文を生み出している。

今回のHeliosは、ByteDanceの大規模エンジニアリングリソースと北京大学の基礎研究力を融合した産学連携プロジェクトの成果だ。

Heliosの技術的なブレークスルー

Heliosがリアルタイム動画生成を実現した技術の核心は、**ストリーミング推論（Streaming Inference）**にある。

ストリーミング推論とは

従来の動画生成AIは、動画全体を一括で処理する「バッチ推論」方式を採用していた。例えば60秒の動画を生成する場合、60秒分のすべてのフレーム（30fps なら1,800フレーム）の生成が完了するまで出力を開始できない。このため、動画が長くなるほど待ち時間が指数関数的に増大する。

Heliosのストリーミング推論は、この問題を根本的に解決する。動画を5秒単位のチャンクに分割し、各チャンクを逐次的に生成・出力する。第1チャンク（0〜5秒）の生成が完了した時点で即座にフレームの出力を開始し、バックグラウンドで第2チャンク（5〜10秒）の生成を並行して進める。

以下の図は、Heliosのアーキテクチャとストリーミング推論パイプラインの全体像を示している。

Heliosのアーキテクチャ概要。テキストエンコーダーからストリーミングDiTを経て、5秒単位のチャンクを逐次生成し60秒のリアルタイム動画を出力する

この図のとおり、ストリーミングDiTが動画を5秒単位のチャンクに分割して逐次生成し、各チャンクは前のチャンクの末尾フレームを初期条件として引き継ぐことで、シーン全体の一貫性を維持する。

スライディングウィンドウ時空間アテンション

チャンク分割の課題は、チャンクの境界でシーンの不連続が生じることだ。Heliosはこれをスライディングウィンドウ時空間アテンションで解決する。

具体的には、各チャンクの生成時に前のチャンクの末尾2秒分のフレームをオーバーラップ領域として参照する。このオーバーラップ領域の潜在表現をアテンション機構に組み込むことで、チャンク間の映像的な連続性（色調、動きの方向、被写体の形状）がシームレスに維持される。

この手法は、大規模言語モデル（LLM）で使われるスライディングウィンドウアテンション（Mistralの採用で有名になった技術）を動画生成に応用したものだ。テキストにおける文脈維持と同様の原理で、映像の「文脈」を維持している。

効率的な潜在空間圧縮

Heliosは**3D-VAE（3次元変分オートエンコーダー）**を用いて動画データを効率的に圧縮する。空間方向に8倍、時間方向に8倍の圧縮率を達成し、1080p・60秒の動画（約1,800フレーム）を処理可能なサイズの潜在表現に変換する。

この圧縮率は、LTX 2.3（空間8倍・時間4倍）やSora（推定で空間4倍・時間2倍）と比較しても高い。高圧縮でありながら視覚品質を維持できるのは、3D-VAEの学習に大規模な動画データセットを使用し、復元品質を最大化するよう最適化しているためだ。

モデルスペック

Heliosの主要スペックは以下のとおりだ。

パラメータ数: 約8B（80億パラメータ）
出力解像度: 最大1080p（1920×1080）
最大生成尺: 60秒
フレームレート: 30fps
生成速度: 60秒動画を約60秒で生成（H100 GPU 1枚）
テキストエンコーダー: CLIP ViT-L/14 + T5-XXL
ライセンス: Apache 2.0（オープンソース）

従来の動画生成AIとの比較

Heliosの最大の差別化ポイントである「生成速度」を中心に、主要モデルとの詳細比較を行う。

以下の図は、10秒間の1080p動画を生成する場合の所要時間を比較したものだ。

動画生成AIの処理速度比較。Heliosが約10秒でリアルタイム生成を達成する一方、Pika 2.0は約160秒を要する

この図から明らかなように、Heliosの生成速度は他モデルを圧倒している。10秒の動画を10秒で生成する「リアルタイム」を実現しているのはHeliosのみだ。

項目	Helios	LTX 2.3	Runway Gen-4	OpenAI Sora	Pika 2.0
最大解像度	1080p	4K (2160p)	4K (2160p)	1080p	1080p
最大生成尺	60秒	約30秒	最大2分	最大1分	最大30秒
10秒動画の生成時間	約10秒	約20秒	約90秒	約120秒	約160秒
リアルタイム生成	可能	準リアルタイム	不可	不可	不可
物理演算	基本的	限定的	高品質	限定的	なし
公開形態	オープンソース	オープンソース	クローズド	クローズド	クローズド
パラメータ数	約8B	約13B	非公開	非公開	非公開
料金	無料（ローカル）	無料（ローカル）	$96〜/月	$20〜/月	$10〜/月

速度 vs 品質のトレードオフ

Heliosの圧倒的な速度は、一定のトレードオフの上に成立している。最大解像度は1080pに留まり、4K出力が可能なLTX 2.3やRunway Gen-4には及ばない。また、物理シミュレーションの精度もRunway Gen-4のPhysics-Aware Generationと比較すると基本的なレベルだ。

しかし、動画生成AIのユースケースを考えると、「待ち時間ゼロ」の価値は絶大だ。特にTikTokやInstagram Reelsなどの短尺動画プラットフォームでは1080pで十分であり、素早く大量のバリエーションを試せるHeliosの速度は大きなアドバンテージとなる。

長尺生成の優位性

従来のモデルでは、生成尺が長くなるにつれて品質が急激に低下する傾向があった。10秒を超えるとフレーム間の不整合が目立ち、30秒以上では被写体の形状が大きく崩れることも珍しくなかった。

Heliosのストリーミング推論は、この問題を構造的に解決する。各チャンクは5秒と短いため、チャンク内での品質は安定する。チャンク間の連続性はスライディングウィンドウアテンションで維持されるため、60秒の長尺でもシーンの一貫性が保たれる。これは、他のモデルが苦手とする「1分間のストーリー性のある動画」の生成に大きなアドバンテージをもたらす。

TikTok動画制作への統合可能性

HeliosがByteDanceから生まれたことの意味は、単なる研究成果以上に大きい。TikTokの動画制作ワークフローへの統合が視野に入るからだ。

TikTokの動画制作エコシステム

TikTokの月間アクティブユーザーは2026年時点で20億人を超え、1日あたりのアップロード動画数は数千万本に達する。これらの動画の大部分は、スマートフォン1台で撮影・編集されている。

TikTokアプリにはすでに、背景除去、美肌フィルター、音声エフェクト、テキストオーバーレイなどの編集機能が内蔵されている。ここにHeliosベースのAI動画生成機能が追加されれば、テキストプロンプトを入力するだけでTikTok向けの動画が即座に生成できるようになる。

想定される統合シナリオ

シナリオ1: テンプレート動画の自動生成

TikTokのトレンドは「型」（ダンス、リアクション、ビフォーアフター等）で拡散する。Heliosを使えば、トレンドの「型」に合わせた動画テンプレートをAIで自動生成し、ユーザーは自分の素材を差し込むだけで完成するワークフローが実現する。

シナリオ2: 広告クリエイティブの大量生成

TikTok広告プラットフォームにHeliosを統合すれば、広告主がプロダクト情報を入力するだけで、ターゲット層ごとに最適化された複数バリエーションの広告動画をリアルタイムに生成できる。A/Bテストの効率が飛躍的に向上する。

シナリオ3: ライブコマースの動的演出

中国の抖音（TikTokの中国版）ではライブコマースが巨大な市場を形成している。Heliosのリアルタイム生成能力を活用すれば、ライブ配信中に商品に合わせた背景映像やエフェクトを動的に生成する演出が可能になる。

競合プラットフォームへの波及

TikTokがHeliosベースの機能を実装すれば、YouTube Shorts、Instagram Reels、Snapchatなどの競合プラットフォームも同等の機能を急ぎ開発・導入する必要に迫られる。AI動画生成は、短尺動画プラットフォームの新たな差別化軸になる可能性がある。

中国AI研究の現在地

Heliosのリリースは、中国のAI研究が世界最前線にあることを改めて示している。

産学連携モデルの強さ

中国では、ByteDance、Alibaba、Tencent、Baiduなどの大手テック企業と、北京大学、清華大学、中国科学院などのトップ研究機関の間で緊密な産学連携が行われている。企業が計算リソースとデータを提供し、大学が基礎研究と人材を供給する。この連携モデルは、米国のBig Tech中心のアプローチとは異なる形で、高い研究効率を実現している。

2026年3月時点で、AI関連の国際トップ会議（NeurIPS、ICML、ICLR等）における中国発の論文比率は**約35%**に達し、米国に肉薄している。とりわけ動画生成、3Dモデル生成、マルチモーダルAIの分野では、中国発の研究が世界をリードするケースが増えている。

オープンソース戦略の背景

ByteDanceがHeliosをオープンソースで公開した背景には、戦略的な意図がある。

エコシステムの拡大: オープンソース化によりコミュニティが形成され、モデルの改良やアプリケーション開発が加速する
人材獲得: 最先端モデルの公開は、世界中のAI研究者にByteDanceの技術力をアピールする効果がある
規制対応: 中国当局が生成AI企業に透明性を求める中、オープンソースは規制リスクの軽減にもつながる
商用サービスへの誘導: モデルは無料でもAPI利用やエンタープライズサポートは有料、というビジネスモデルを見据えている

この戦略は、MetaがLlamaシリーズをオープンソース化した手法と類似している。基盤モデルをオープンにすることで、その上に構築されるサービスでの収益化を狙うアプローチだ。

日本のクリエイターエコノミーへの影響

日本の動画クリエイター市場

日本のクリエイターエコノミーは2026年時点で約1兆5,000億円の市場規模に達している。YouTuber、TikToker、VTuberなどの個人クリエイターに加え、企業のソーシャルメディアチームも大きなセグメントを占める。

特にTikTokは日本でも急成長しており、月間アクティブユーザーは2,500万人を超えた。企業の広告出稿額も前年比40%増のペースで拡大している。

Heliosがもたらすクリエイティブの変革

個人クリエイターへの影響

従来、高品質な動画コンテンツの制作には、撮影機材、編集ソフトのスキル、そして多大な時間が必要だった。Heliosのリアルタイム生成は、このハードルを劇的に下げる。テキストでアイデアを入力するだけで、即座にTikTok投稿可能な品質の動画が手に入る。

これにより、動画制作のスキルが乏しくても「アイデアの質」で勝負できるようになる。テキストベースのプロンプトエンジニアリングが、動画クリエイターの新しい必須スキルとなるだろう。

VTuber業界への応用

日本が世界をリードするVTuber市場（市場規模約8,000億円）にも、Heliosは影響を及ぼしうる。現在のVTuberは主に2D/3Dアバターをリアルタイムに動かす形式だが、Heliosのリアルタイム動画生成を組み合わせれば、アバターの背景や演出をAIで動的に生成する新しい配信形態が実現する。

広告・マーケティング業界への影響

日本の広告代理店やマーケティング企業にとって、AI動画生成の高速化は業務効率の飛躍的な向上を意味する。現在、ソーシャルメディア向け広告動画の制作には外注費を含めて1本あたり10万〜50万円、納期は1〜2週間が一般的だ。Heliosを活用すれば、同等品質の動画をリアルタイムに生成でき、バリエーション展開も容易になる。

日本語プロンプト対応の現状

HeliosのテキストエンコーダーはCLIP ViT-L/14とT5-XXLの組み合わせだ。T5-XXLは多言語対応しているため、基本的な日本語プロンプトは処理可能だ。しかし、英語プロンプトと比較すると、日本語特有の表現（「わびさび」「もののあわれ」といった美的概念や、日本の風景・建築様式の記述）に対する理解は限定的だ。

日本のクリエイターがHeliosを最大限活用するためには、当面は英語プロンプトの使用が推奨される。将来的には、日本語特化のファインチューニングモデルがコミュニティから登場することが期待される。

法的・倫理的な考慮点

日本でHeliosを商用利用する場合、以下の点に注意が必要だ。

著作権: AI生成動画の著作権帰属は日本法では明確に定まっていない。「創作的寄与」の度合いによって判断される可能性が高い
肖像権: 実在の人物に似た映像を生成するリスクがある。人物を含む動画の商用利用には慎重な確認が必要
景品表示法: ECサイトでAI生成の商品動画を使用する場合、実物と大きく異なる映像は景品表示法違反となる可能性がある
TikTokの利用規約: TikTokはAI生成コンテンツのラベル表示を義務化しており、投稿時に適切なラベル付けが必要

動画生成AIの今後の展望

2026年後半〜2027年のロードマップ

Heliosのストリーミング推論技術は、今後のAI動画生成モデルの標準的なアプローチになる可能性が高い。各社のロードマップを展望する。

ByteDance: Helios v2で4K対応とストリーミング推論の両立を目指す。TikTokアプリへの機能統合は2026年後半に段階的に開始される見込み
Runway: Gen-5でストリーミング推論を採用し、4K品質のリアルタイム生成を計画
OpenAI: Soraの次バージョンで、ChatGPTとの深い統合によるインタラクティブな動画生成を志向
Lightricks: LTX 3.0で4K+リアルタイム生成をオープンソースで実現する計画を発表

リアルタイム動画生成がもたらす未来

リアルタイム動画生成が一般化すると、動画は「作る」ものから「湧き出る」ものへと性質が変わる。テキストチャットのように即座に映像コミュニケーションが可能になり、「テキストで指示→即座に映像で応答」というインターフェースが日常化する。

これはゲーム、教育、医療シミュレーション、不動産バーチャルツアーなど、あらゆる産業に波及する変革だ。Heliosのストリーミング推論は、その未来への第一歩と言える。

まとめ——60秒リアルタイム生成が切り拓く新時代

Heliosは、ByteDanceと北京大学の産学連携が生んだ画期的な動画生成AIだ。ストリーミング推論という新しいアプローチにより、60秒の動画をリアルタイム速度で生成する壁を突破した。解像度やクオリティではRunway Gen-4やLTX 2.3に及ばない面もあるが、「待ち時間ゼロ」のインパクトは動画生成AIの使い方そのものを変える。

ByteDanceという世界最大の動画プラットフォーム企業から生まれた技術である点も見逃せない。TikTokへの統合が実現すれば、20億人のユーザーがAI動画生成を日常的に使う時代が到来する。

今すぐ取るべきアクションステップは以下の3つだ。

Heliosをローカルまたはクラウドで試す: モデルはHugging Faceでオープンソース公開されている。NVIDIA RTX 4090またはクラウドGPU（RunPod、Lambda Cloud等）で、60秒動画のリアルタイム生成を体験しよう。英語プロンプトから始めるのが品質面でおすすめだ
ストリーミング推論の技術論文を読む: Heliosの論文はarXivで公開されている。ストリーミング推論とスライディングウィンドウアテンションの仕組みを理解することで、今後のAI動画生成モデルのトレンドを先読みできる
自社の動画制作ワークフローへの適用を検討する: TikTokやInstagram Reels向けのマーケティング動画、プロダクト紹介動画、教育コンテンツなど、短尺・大量生成が求められるユースケースから導入を始めよう。まずはPoCとして10本程度の動画をHeliosで生成し、従来手法との品質・コスト・時間を比較するのが有効だ