AI16分で読める

LTX 2.3が映像と音声を同時生成——22Bパラメータで4K/50fps対応のオープンソースAI

動画生成AIの世界に、ゲームチェンジャーが現れた。イスラエルのAI企業Lightricksが2026年3月にリリースしたLTX 2.3は、22BパラメータのDiffusion Transformerモデルで、テキストプロンプトから映像と音声を同時に生成できる初のオープンソースモデルだ。最大4K解像度・50FPSに対応し、モデルの重みはすべて公開されている。

これまでの動画生成AIは映像だけを出力し、音声は別のモデルで後付けするのが常識だった。LTX 2.3はこの常識を覆し、単一のフォワードパスで映像と音声を同期生成する。映像制作のワークフローが根本から変わる可能性がある。

Lightricksとは何か

Lightricksは2013年にイスラエル・エルサレムで創業されたAI企業だ。もともとは写真・動画編集アプリ「Facetune」「Videoleap」で知られるコンシューマー向け企業だったが、近年はAI基盤モデルの開発にシフトしている。

項目詳細
創業2013年、イスラエル・エルサレム
創業者ゼエフ・ファルビマン(CEO)ほか5名
累計資金調達$335M以上(約500億円)
従業員数約500名
主力製品Facetune、Videoleap、LTXシリーズ
LTXシリーズLTX 1.0(2024年)→ 2.0(2025年)→ 2.3(2026年3月)

LTXシリーズは同社のAI研究部門が開発する動画生成基盤モデルで、バージョンを重ねるごとに飛躍的な進化を遂げてきた。LTX 1.0は720pの短尺動画生成に留まっていたが、2.0で1080p対応とリアルタイム生成を実現。そして今回の2.3で、4K解像度と音声同時生成という2つのブレイクスルーを達成した。

LTX 2.3の技術アーキテクチャ

LTX 2.3の中核は**Diffusion Transformer(DiT)**と呼ばれるアーキテクチャだ。従来の拡散モデル(Diffusion Model)がU-Netベースだったのに対し、DiTはTransformerの自己注意機構(Self-Attention)を拡散プロセスに組み込んでいる。これにより、長いシーケンス(映像フレーム + 音声波形)を効率的に処理できる。

22Bパラメータの内訳

22B(220億)というパラメータ数は、動画生成モデルとしては過去最大級だ。参考までに、GPT-4は約1.8T(1兆8000億)パラメータと推定されているが、動画生成という計算コストの高いタスクでは22Bでも巨大なモデルに分類される。

モデルの構造は大きく3つのコンポーネントに分かれる。

  1. 映像生成ブランチ(約14B): フレームごとの視覚情報を生成し、時間的一貫性を保つ
  2. 音声生成ブランチ(約5B): 映像の内容に合致した環境音・効果音・音楽を生成
  3. 同期制御モジュール(約3B): 映像と音声のタイミングを合わせ、リップシンクや効果音の同期を制御

以下の図は、LTX 2.3のパイプライン全体像を示しています。

LTX 2.3のパイプライン図。テキストプロンプトからテキストエンコーダ、22BパラメータのDiffusion Transformer、そして映像(4K/50FPS)と音声の同時出力までの流れを表示

この図が示すとおり、テキストプロンプトがエンコーダで意味的ベクトルに変換された後、単一のDiffusion Transformerが映像トークンと音声トークンを同時に生成する。従来のパイプライン型(映像生成 → 音声後付け)とは根本的に異なるアプローチだ。

なぜ「同時生成」が重要なのか

従来の動画+音声制作では、以下のようなワークフローが必要だった。

  1. テキストから映像を生成(Sora、Runway等)
  2. 映像を音声生成AIに入力(AudioLDM、MusicGen等)
  3. 手動でタイミングを調整
  4. 不一致があれば再生成

このプロセスは時間がかかるだけでなく、映像と音声の「意味的一貫性」が保証されないという問題があった。たとえば、雨のシーンに合わせて雨音を生成しても、雨粒が地面に落ちるタイミングと音のタイミングがずれることがある。

LTX 2.3は映像と音声を同一のモデル内で同時に生成するため、以下の利点がある。

  • 意味的同期: 雷のフラッシュと雷鳴が自然なタイミングで発生
  • リップシンク: 人物の口の動きと音声が一致
  • 環境音の一貫性: 室内・屋外などのシーン環境に合った音響特性を自動適用
  • ワークフロー短縮: 映像→音声→調整の3ステップが1ステップに集約

4K / 50FPSの技術的意味

解像度の進化

4K(3840 x 2160ピクセル)対応は、動画生成AIにとって大きなマイルストーンだ。解像度が上がるほど計算量は指数関数的に増加する。

解像度ピクセル数720p比
720p (1280x720)約92万1x
1080p (1920x1080)約207万2.25x
4K (3840x2160)約830万9x

4Kは720pの9倍のピクセル数を処理する必要がある。各ピクセルの時間的一貫性も保たなければならないため、実際の計算コストは単純なピクセル数の比以上に大きくなる。LTX 2.3がこれを実現できた背景には、DiTアーキテクチャの効率的なアテンション機構と、パッチベースの段階的超解像処理がある。

50FPSの意義

フレームレートについても、50FPSは動画生成AIとしては突出している。映画は一般に24FPS、テレビは30FPS、ゲームは60FPSが標準だ。50FPSはテレビとゲームの中間に位置し、滑らかな動きを実現する。

特にスポーツ映像やアクションシーンでは、24FPSでは動きがぼやけてしまう。50FPSなら自然な動きの滑らかさを維持でき、プロフェッショナルな映像制作にも耐える品質を提供する。

競合モデルとの比較

動画生成AI市場は競争が激化しているが、LTX 2.3はいくつかの重要な差別化要因を持っている。以下の図で主要モデルを比較する。

動画生成AI比較表。LTX 2.3、Sora、Runway Gen-4、Pika 2.0を開発元・パラメータ数・解像度・FPS・音声生成・オープンソース・料金の7項目で比較

この比較が示すとおり、LTX 2.3の最大の差別化ポイントは「音声同時生成」と「完全オープンソース」の2点だ。

各モデルの詳細比較

項目LTX 2.3SoraRunway Gen-4Pika 2.0
最大解像度4K (2160p)1080p4K (2160p)1080p
最大FPS50302424
最大動画長60秒60秒40秒10秒
音声同時生成対応非対応非対応効果音のみ
オープンソース完全公開非公開非公開非公開
パラメータ数22B非公開非公開非公開
利用料金無料(自前GPU)$20/月〜$12/月〜$8/月〜
API提供あり(セルフホスト)ありありあり
必要GPUNVIDIA A100/H100 80GBクラウドのみクラウドのみクラウドのみ

Sora(OpenAI)との違い

OpenAIのSoraは動画生成AI市場の先駆者として知名度が高い。映像品質と物理シミュレーションの精度では依然としてトップクラスだが、最大解像度は1080pに留まり、音声生成には対応していない。また、クローズドモデルであるため、カスタマイズや自社サーバーでの運用はできない。料金もChatGPT Plusの$20/月に含まれるものの、高解像度・長尺動画には追加クレジットが必要だ。

Runway Gen-4との違い

Runway Gen-4は4K対応で映像品質も高い。クリエイター向けの充実したUI/UXが強みだが、FPSは24に制限されており、音声生成には対応していない。月額$12からの有料プランが必要で、商用利用にはさらに上位プランが求められる。

Pika 2.0との違い

Pika 2.0はコストパフォーマンスに優れ、月額$8から利用できる。効果音の自動付与機能を搭載しているが、映像と完全に同期した音声生成とは異なり、あくまで後処理ベースの付加機能だ。解像度は1080p、FPSは24に留まっている。

オープンソースである意味

LTX 2.3が完全オープンソースでリリースされたことは、動画生成AI市場に大きなインパクトを与えている。Sora、Runway、Pikaはいずれもクローズドモデルであり、ユーザーはAPI経由でしかモデルにアクセスできない。

オープンソースであることの利点は多い。

  1. カスタマイズ性: 特定のドメイン(医療映像、建築ビジュアライゼーション等)にファインチューニング可能
  2. コスト管理: 大量生成する場合、API従量課金よりも自社GPU運用のほうが安くなる
  3. プライバシー: 機密性の高いコンテンツを外部サーバーに送る必要がない
  4. 研究促進: 学術研究者が自由にモデルを分析・改良できる
  5. コミュニティ: LoRAアダプターやカスタムワークフローが急速に発展

ただし、オープンソースならではの課題もある。LTX 2.3の推論にはNVIDIA A100またはH100(80GB VRAM)が推奨されており、個人開発者がローカルで動かすにはハードウェアのハードルが高い。クラウドGPUレンタルを利用する場合、A100で1時間あたり$1〜2程度のコストがかかるため、少量の動画生成ならSoraやRunwayのサブスクリプションのほうが経済的なケースもある。

料金比較——自前運用 vs SaaS

実際のコストを比較すると、利用頻度によって最適な選択肢が変わる。

利用頻度LTX 2.3(A100レンタル)Sora(Plus)Runway Gen-4
月10本(10秒)約$5(約750円)$20(約3,000円)$12(約1,800円)
月50本(10秒)約$25(約3,750円)$20(約3,000円)※制限あり$28(約4,200円)
月200本(10秒)約$100(約15,000円)$200(約30,000円)$76(約11,400円)
月1000本(10秒)約$500(約75,000円)要エンタープライズ要エンタープライズ

月200本を超える大量生成では、LTX 2.3の自前運用がコスト面で有利になる。逆に月50本以下の小規模利用なら、SoraやRunwayのサブスクリプションのほうが手軽だ。

日本市場への影響

映像制作業界

日本の映像制作業界にとって、LTX 2.3のインパクトは大きい。特に以下の分野で活用が期待される。

  • 広告制作: テレビCMやWeb広告のプロトタイプ制作が劇的に高速化
  • アニメ制作: 背景映像や効果音の自動生成による制作コスト削減
  • ゲーム開発: カットシーンやPV制作のプリプロダクション効率化
  • 教育コンテンツ: 解説動画やeラーニング素材の自動生成

特に注目すべきは、音声同時生成によるローカライゼーションの可能性だ。将来的にテキストプロンプトを日本語で入力し、日本語ナレーション付きの動画を直接生成できるようになれば、翻訳・吹き替えのコストが大幅に削減される。

法的課題

一方で、日本では生成AIの学習データに関する著作権議論が活発化している。LTX 2.3の学習データの詳細は完全には公開されておらず、商用利用する際には著作権リスクの確認が不可欠だ。2024年に文化庁が公表した「AIと著作権に関する考え方について」では、AI生成物の著作物性は否定されていないが、学習データに著作物が含まれる場合の権利関係は依然として不明確な部分が多い。

導入のハードル

日本企業がLTX 2.3を導入する際の主な課題は、GPU環境の確保だ。NVIDIA A100/H100は国内のクラウドプロバイダー(さくらインターネット、GMOクラウド等)でも提供されているが、需要増加に伴い供給が逼迫している。AWS東京リージョンやGoogle Cloud東京リージョンでのGPUインスタンス利用も選択肢だが、データの海外転送に関する社内規定との整合性を確認する必要がある。

今後の展望

LTX 2.3の登場は、動画生成AI市場の方向性を示唆している。

短期的な動き(3-6ヶ月)

  • OpenAIがSoraに音声同時生成機能を追加する可能性
  • Runwayが独自の映像+音声統合モデルを発表する可能性
  • LTX 2.3のLoRAアダプターやカスタムモデルがコミュニティから続出

中期的なトレンド(6-12ヶ月)

  • 動画+音声+字幕の「トリモーダル」生成が標準化
  • 映像生成AIの品質が人間の制作物と見分けがつかないレベルに到達
  • 規制当局による生成動画のウォーターマーク義務化の議論が加速

長期的な影響(1-3年)

  • テレビCM・YouTubeコンテンツの制作コストが10分の1以下に
  • 個人クリエイターが映画品質の映像を制作可能に
  • 「映像制作」の定義自体が変わり、プロンプトエンジニアリングが新たなスキルとして確立

まとめ——次のアクションステップ

LTX 2.3は、動画生成AIの新しい時代を切り開くモデルだ。映像と音声の同時生成、4K/50FPS対応、そして完全オープンソースという3つの要素が揃ったモデルは他に存在しない。

具体的な次のステップとして、以下を推奨する。

  1. 試してみる: Lightricksの公式サイトまたはHugging Faceからモデルをダウンロードし、クラウドGPU(Google Colab Pro+やLambda Labs)で動作を確認する
  2. 自社ユースケースを検討する: 広告制作、プロトタイプ制作、教育コンテンツなど、自社の映像制作ワークフローでLTX 2.3がどこに適用できるかを洗い出す
  3. コスト試算を行う: 月間の動画生成本数を見積もり、SaaS型(Sora/Runway)と自前運用のどちらが経済的かを比較する
  4. 法務確認: 商用利用する場合は、生成物の著作権リスクと社内ポリシーとの整合性を法務部門と確認する
  5. コミュニティをフォローする: GitHubリポジトリやHugging Faceのディスカッションをウォッチし、ファインチューニング手法やLoRAアダプターの最新情報を追う

動画生成AIの進化速度を考えると、半年後にはさらに高性能なモデルが登場している可能性が高い。しかし、LTX 2.3が確立した「映像+音声の統合生成」というパラダイムは、今後の標準になるだろう。今のうちにこの技術に触れておくことが、競争優位の確保につながる。

この記事をシェア