AI19分で読める

LTX-2.3が4K動画+音声を同時生成——OSSで商用利用OKの衝撃

22Bパラメータ、ネイティブ4K出力、最大48FPS、最大20秒、映像と音声の同時生成、そしてApache 2.0ライセンス——イスラエルのクリエイティブAI企業Lightricksが公開した動画生成モデル「LTX-2.3」は、オープンソース動画AIの常識を塗り替えようとしている。

これまで4K品質の動画生成は、OpenAIのSoraやRunway Gen-4といったプロプライエタリモデルの独壇場だった。しかしLTX-2.3は、それらに匹敵する映像品質に加えて音声の同時生成まで実現し、しかもオープンソースで公開されている。商用利用の制限もほぼなく、年間売上1,000万ドル(約15億円)未満の企業であれば、追加ライセンスなしで自由に使える。

動画生成AIの「民主化」が、ついに本格的に始まった。

LTX-2.3とは何か

基本スペック

LTX-2.3は、Lightricksが開発したDiffusion Transformer(DiT)ベースの動画生成モデルだ。テキストプロンプトや参照画像から、4K解像度の動画と同期した音声を単一モデルで同時に生成できる点が最大の特徴だ。

項目詳細
パラメータ数約22B(映像ストリーム14B + 音声ストリーム5B + その他)
最大解像度4K(ネイティブ)
フレームレート24 FPS / 48 FPS
最大生成時間20秒
アスペクト比16:9(横長)/ 9:16(縦長ネイティブ対応)
音声出力ステレオ 24kHz 同期生成
ライセンスApache 2.0(年間売上$10M未満は無制限商用利用可)
モデル公開先Hugging Face
クラウドAPIfal.ai 等で提供

2つのモデルバリアント

LTX-2.3には2つのバリアントが用意されている。

1. フル精度版(bf16)

研究開発やファインチューニング向けの完全版。bf16(bfloat16)精度で全パラメータを保持しており、最高品質の出力が得られる。ローカル実行には約44GB以上のVRAM(NVIDIA GPU)が必要だ。

2. 8ステップ蒸留版

推論速度を最適化した軽量版。蒸留(distillation)技術により、わずか8ステップのデノイジングで高品質な動画を生成できる。メモリ消費も抑えられており、FP8量子化版を使えば約24GBのVRAMで動作する。プロダクション環境での利用に適している。

前バージョンからの3つの改良

LTX-2.3では、前バージョン(LTX-2.1)から3つのコアコンポーネントが刷新されている。

新VAE(Variational Autoencoder): 映像のエンコード・デコード品質が向上し、よりシャープで色彩豊かな4Kフレームを生成できるようになった。従来バージョンで見られたぼやけやノイズが大幅に低減されている。

4x大型化テキストコネクタ: プロンプトの意図を正確に理解するためのテキストコネクタが4倍に拡張された。これにより、「赤いドレスを着た女性が風の強い海岸を歩く」のような複雑なシーン指示でも、より忠実に映像化できるようになった。

改良HiFi-GAN ボコーダ: 音声生成の品質を担う HiFi-GAN ボコーダが改良され、よりクリーンで自然な音声出力が可能になった。特に唇の動きと音声の同期精度が向上している。

以下の図は、LTX-2.3の全体アーキテクチャを示しています。テキスト/画像入力がテキストコネクタを経由してDiffusion Transformerに渡され、映像と音声が同時に生成される流れがわかります。

LTX-2.3アーキテクチャ図。22B Diffusion Transformerが映像ストリーム(14B)と音声ストリーム(5B)を同時処理し、4K映像とステレオ音声を出力する

この図が示すように、LTX-2.3は入力から出力までを単一のDiffusion Transformerで処理する統合アーキテクチャを採用しています。映像と音声を別々のモデルで生成して後から合成するのではなく、同じモデル内で同時に生成するため、自然な同期が実現されています。

音声同時生成の仕組み

なぜ音声同時生成が画期的なのか

従来の動画生成AIでは、映像と音声は完全に別のパイプラインで処理されてきた。まず動画AIが映像を生成し、次に別の音声AIモデル(例えばElevenLabsやBarkなど)で音声を後付けする。この方法では、以下のような問題が生じやすい。

  • リップシンクのずれ: 人物の唇の動きと音声が合わない
  • 環境音の不一致: 映像には海辺のシーンなのに、音声にはそれが反映されない
  • タイミングの不整合: アクションと効果音のタイミングがずれる

LTX-2.3は、映像ストリーム(14B)と音声ストリーム(5B)をDiffusion Transformer内で並列に処理することで、これらの問題を根本的に解決している。

3つの音声同期レイヤー

LTX-2.3の音声同時生成は、3つのレイヤーで構成される。

1. リップシンク(唇同期)

人物が話している映像では、唇の動きと発話内容が自動的に同期する。テキストプロンプトで「女性がカメラに向かって挨拶する」と指示すれば、自然な口の動きと同期した音声が生成される。

2. 環境音

シーンに応じた環境音が自動的に付与される。森の中のシーンなら鳥のさえずりや風の音、都市の街角なら車のエンジン音や人々の喧騒が生成される。

3. BGM・効果音

シーンの雰囲気に合ったBGMや効果音も生成可能。アクションシーンにはテンポの速い音楽、静かな風景シーンにはアンビエントなサウンドスケープが自動的にマッチングされる。

ハードウェア要件

音声同時生成を含むフル機能を利用する場合のハードウェア要件は以下の通り。

構成必要VRAM推奨GPU
フル精度(bf16)4K約44GBNVIDIA A100 80GB / H100
FP8量子化版 4K約24GBNVIDIA RTX 4090 / A6000
クラウドAPI不要fal.ai等を利用

ローカルでの4K生成には依然として高性能GPUが必要だが、FP8量子化によりRTX 4090(24GB)でも動作可能になったことは大きな進歩だ。また、fal.aiなどのクラウドAPIを利用すれば、ローカルにGPUがなくてもLTX-2.3の全機能にアクセスできる。

動画生成AI 主要モデル比較

現在の動画生成AI市場で主要なモデルとLTX-2.3を比較してみよう。

項目LTX-2.3SoraRunway Gen-4Kling 3.0Pika
開発元LightricksOpenAIRunwayKuaishouPika Labs
パラメータ数22B非公開非公開非公開非公開
最大解像度4K1080p4K4K1080p
最大生成時間20秒60秒120秒10秒10秒
フレームレート24/48 FPS24 FPS24 FPS24/30 FPS24 FPS
音声同時生成ネイティブ対応別途生成限定対応別途生成限定対応
リップシンク自動同期別途別途別途別途
ライセンスApache 2.0プロプライエタリプロプライエタリプロプライエタリプロプライエタリ
ファインチューニング可能不可不可不可不可
料金無料(セルフホスト)$20/月〜$12/月〜$8/月〜$8/月〜
ベンチマーク順位OSS 1位上位上位Elo 1,244中位

以下の図は、主要モデルの解像度・音声対応・OSSライセンスの3軸で比較したものです。LTX-2.3がOSS度で圧倒的な優位にあることがわかります。

動画生成AI主要モデルの機能比較グラフ。LTX-2.3は解像度・音声対応・OSS度の全項目で高スコアを記録

この比較から明らかなように、LTX-2.3の最大の差別化ポイントは「プロプライエタリモデルに匹敵する品質をApache 2.0で提供する」ことだ。解像度やフレームレートでは他モデルとほぼ互角だが、オープンソースでの提供かつ音声同時生成のネイティブ対応は、LTX-2.3のみが実現している。

一方で、Artificial Analysisベンチマークではオープンソース動画モデルとして1位を獲得しているものの、Kling 3.0(Elo 1,244)などのトップクラスのプロプライエタリモデルにはまだ品質面で差がある。特に複雑な人体の動きや微細な表情の再現では、クローズドモデルに分がある場面もある。

OSSであることの意味

Apache 2.0ライセンスの自由度

LTX-2.3が採用するApache 2.0ライセンスは、オープンソースライセンスの中でも最も自由度が高いものの1つだ。具体的には以下が許可される。

  • 商用利用: 生成した動画を商用コンテンツとして販売・配信できる
  • 修正・再配布: モデルの重みを改変し、独自バージョンとして配布できる
  • ファインチューニング: 自社データでモデルを追加学習し、特定用途に最適化できる
  • SaaS提供: LTX-2.3をバックエンドに使ったSaaSサービスを構築・運営できる

ただし、年間売上が1,000万ドル(約15億円)を超える企業は、Lightricksとの直接ライセンス契約が必要になる。これはMetaのLlama 3と同様の「条件付きオープン」モデルであり、スタートアップや中小企業にとっては実質的に完全な自由を意味する。

ファインチューニングの可能性

Apache 2.0によるファインチューニングの自由は、以下のようなユースケースを可能にする。

業界特化モデルの構築: 不動産業界なら物件紹介動画に特化したファインチューニング、ファッション業界ならアパレルの着用動画に特化したモデルを構築できる。プロプライエタリモデルでは不可能な、深いカスタマイズだ。

ブランド専用モデル: 自社ブランドの映像スタイル(色調、カメラワーク、トーン)を学習させた専用モデルを作成できる。広告制作の内製化が飛躍的に進む。

データ主権の確保: モデルをオンプレミスで実行することで、入力データ(プロンプト)や生成物がクラウドに送信されない。医療・法律・防衛など、機密性の高い業界での活用が可能になる。

画像生成の世界では、Stable Diffusionがオープンソースとして公開されたことで、LoRAやControlNetなどのコミュニティ主導のイノベーションが爆発的に生まれた。LTX-2.3が動画生成においてその役割を果たす可能性は高い。

クローズドモデルとの棲み分け

とはいえ、Midjourneyのような高品質なクローズドモデルが不要になるわけではない。以下のような棲み分けが進むだろう。

用途推奨モデル理由
プロトタイプ・テストLTX-2.3(ローカル)コスト0、繰り返し試行可能
小規模商用コンテンツLTX-2.3(クラウドAPI)低コスト、十分な品質
業界特化モデル構築LTX-2.3(ファインチューニング)カスタマイズの自由度
最高品質の広告映像Sora / Runway Gen-4現時点での品質リード
高品質画像生成Midjourney静止画では依然トップクラス

日本のクリエイターへの影響

動画制作コストの激変

日本のクリエイターにとって、LTX-2.3の登場は「動画制作の民主化」そのものだ。

これまで、プロ品質の動画コンテンツを制作するには、高額な撮影機材、スタジオ、編集ソフトへの投資が不可欠だった。Soraなどのクラウドサービスを使う場合でも月額課金が発生する。しかしLTX-2.3は、RTX 4090(約30万円)とPCさえあれば、月額費用0円で4K動画を無限に生成できる。

具体的なコスト比較を見てみよう。

制作手法初期投資月額コスト4K動画20秒あたり
従来の撮影制作100万円〜カメラ保険等 5万円〜10万円〜(人件費含む)
Sora(ChatGPT Plus)0円約3,000円従量制(回数制限あり)
Runway Gen-40円約1,800円〜クレジット消費
LTX-2.3(ローカル)約30万円(GPU)電気代のみ実質0円
LTX-2.3(fal.ai API)0円従量課金数円〜数十円

YouTuber・TikTokクリエイターへのインパクト

日本のYouTubeやTikTokのクリエイターにとって、LTX-2.3は以下の点で特にインパクトが大きい。

ショート動画の量産: 9:16ネイティブ対応により、TikTokやYouTube Shortsに最適化された縦型動画を効率的に生成できる。プロンプトを変えるだけで大量のバリエーションを試行錯誤できるのは、AI動画ならではの強みだ。

音声付き動画の一括生成: 従来は映像を生成してから音声を別途追加する工程が必要だったが、LTX-2.3なら音声付き動画が一発で出力される。編集工数が大幅に削減される。

独自スタイルの確立: ファインチューニングにより、自分のチャンネル独自の映像スタイルを学習させたモデルを構築できる。これにより、AIを使いつつも「その人らしさ」を維持したコンテンツ制作が可能になる。

日本企業への示唆

日本企業にとっては、以下の戦略的な意味がある。

広告・マーケティング部門: プロモーション動画のプロトタイピングをLTX-2.3で内製化し、本制作のみ外部発注する「ハイブリッド制作」体制が現実的になる。

EC・Dコマース: 商品紹介動画を自動生成し、SKU単位で動画を量産する取り組みが加速する。アパレルなら着用動画、家電なら使い方デモなど、用途は広い。

教育・研修: 社内研修動画やeラーニングコンテンツの制作コストが大幅に低下する。音声同時生成により、ナレーション付きの教材動画を迅速に作成できる。

ただし、日本市場特有の注意点もある。LTX-2.3の学習データは主に英語圏のコンテンツに偏っているため、日本語テキストのプロンプトでどこまで意図通りの映像が生成されるかは、実際に試してみる必要がある。日本語音声の同時生成品質についても、英語に比べるとまだ改善の余地があると推測される。

今後の展望——動画生成AIの勢力図はどう変わるか

OSSコミュニティの加速

Stable DiffusionがComfyUIやAutomatic1111という巨大なエコシステムを生み出したように、LTX-2.3もコミュニティ主導の急速な発展が期待される。すでにHugging Faceでの公開直後から、LoRAアダプタの実験やComfyUI向けカスタムノードの開発が始まっている。

特に期待される拡張は以下の通り。

  • 長尺動画のリレー生成: 20秒制限を複数クリップのつなぎで克服する手法
  • コントロール系拡張: ControlNetのような姿勢制御・深度制御の統合
  • 日本語特化ファインチューニング: 日本のコンテンツデータで追加学習したバリアント
  • WebUI開発: ComfyUIやGradioベースの簡易利用ツール

プロプライエタリモデルへの圧力

LTX-2.3の登場は、Sora、Runway、Kling、Pikaといったクローズドサービスにとって大きなプレッシャーとなる。特に「基本品質はOSSで十分」という認識が広がれば、プロプライエタリモデルはより高い付加価値(より長い生成時間、より高度な制御性、エンタープライズサポートなど)で差別化する必要がある。

画像生成分野でStable Diffusionの登場がDALL-E 2やMidjourneyの価格競争を引き起こしたのと同じ構図が、動画生成でも起きる可能性が高い。

まとめ——今すぐ始めるための4ステップ

LTX-2.3は、4K動画+音声の同時生成をApache 2.0で提供する、文字通り「ゲームチェンジャー」だ。以下のステップで、今日からLTX-2.3を活用できる。

  1. まずはクラウドAPIで体験する: fal.aiなどのクラウドAPIでLTX-2.3を試用し、生成品質とプロンプトの勘所を掴む。ローカル環境の構築は後でいい。

  2. ユースケースを特定する: 自分のワークフローのどこにAI動画を組み込めるか検討する。プロトタイプ制作、SNS用ショート動画、商品紹介動画など、最もROIの高い用途を見極める。

  3. ローカル環境を構築する: 本格的に使うなら、RTX 4090以上のGPUを搭載したPCでローカル実行環境を構築する。FP8量子化版を使えば24GBのVRAMで動作する。Hugging Faceからモデルをダウンロードし、ComfyUI等のツールで利用開始できる。

  4. ファインチューニングに挑戦する: 自社データや独自スタイルでファインチューニングを行い、競合との差別化を図る。Apache 2.0ライセンスだからこそ可能な、OSSならではのアドバンテージを最大限に活かそう。

動画生成AIの世界は、画像生成が2022年に経験したのと同じ転換点を迎えている。LTX-2.3は、その転換の起点となるモデルだ。

この記事をシェア