AI18分で読める

LTX 2.3登場——Lightricksが4K AI動画生成をオープンソースで解放

イスラエル発のクリエイティブAIスタートアップLightricksが、動画生成モデルの最新版LTX 2.3を2026年3月にリリースした。最大解像度は4K(2160p)、生成速度はリアルタイムに近い水準、そしてモデル重みはApache 2.0ライセンスでオープンソース公開されている。クローズドモデルが主流の動画生成AI市場において、4Kクラスのオープンソースモデルが登場したインパクトは極めて大きい。

Runway Gen-4、OpenAI Sora、Pika 2.0といったクローズドの競合モデルが月額数十ドルからのサブスクリプションを課す中、LTX 2.3は手元のGPUがあれば無料で動かせる。本記事では、LTX 2.3の技術的な仕組みから、競合との詳細比較、クリエイティブ業界への影響、そして日本市場における可能性まで深く掘り下げる。

Lightricksとは何か

Lightricksは2013年にイスラエル・エルサレムで設立されたクリエイティブテクノロジー企業だ。共同創業者兼CEOのZeev Farbman氏はエルサレム・ヘブライ大学でコンピュータサイエンスの博士号を取得しており、画像処理とコンピュータビジョンの研究者でもある。

同社は当初、スマートフォン向け写真・動画編集アプリ「Facetune」で知名度を確立した。Facetuneは累計2億ダウンロードを超え、2017年にはApple App Storeの有料アプリランキングで世界1位を獲得している。その後、「Videoleap」(動画編集)、「Photoleap」(写真編集)などのアプリスイートを展開し、モバイルクリエイティブツールの分野で確固たるポジションを築いた。

資金調達面では、2019年のシリーズD(1億3,500万ドル)を皮切りに累計で約**3億5,000万ドル(約525億円)を調達。企業評価額は18億ドル(約2,700億円)**に達するユニコーン企業だ。Goldman Sachs、Insight Partners、Claltech等の大手VCが出資している。

2023年頃からAI領域へのシフトを本格化し、LTXシリーズ(Lightricks Text-to-X)として生成AIモデルの開発を開始した。LTX 1.0で静止画生成、LTX 2.0で動画生成に進出し、今回のLTX 2.3で4K対応とリアルタイム生成を実現した。

LTX 2.3の技術的な仕組み

LTX 2.3が他の動画生成モデルと一線を画す技術的特徴を解説する。

STDiT(Spatio-Temporal Diffusion Transformer)アーキテクチャ

LTX 2.3の根幹を成すのが、**STDiT(Spatio-Temporal Diffusion Transformer)**と呼ばれる独自アーキテクチャだ。これは拡散モデル(Diffusion Model)とTransformerを融合し、さらに時空間アテンション機構を組み込んだものだ。

従来のDiT(Diffusion Transformer)系モデルでは、空間方向(画像の縦横)と時間方向(フレーム間の連続性)のアテンションを別々に計算する「分離型アプローチ」が一般的だった。これに対しSTDiTは、空間と時間の両方向のアテンションを統一的に処理する。この設計により、フレーム間の一貫性が飛躍的に向上し、動きのある被写体でも形状の崩れやちらつきが大幅に抑制される。

超高速な推論パイプライン

LTX 2.3の最も衝撃的な特徴は、その生成速度だ。720p解像度であればリアルタイムよりも速い速度で動画を生成できる。具体的には、5秒間の720p動画をNVIDIA H100 GPU 1枚で約2秒で生成する。4K解像度の場合でも、30秒のクリップを数十秒で出力できる。

この高速化を支えるのが、「潜在空間の効率的な圧縮」技術だ。LTX 2.3では、動画のフレームをピクセル空間からはるかに小さな潜在空間に圧縮し、その潜在空間上でDiffusion処理を行う。圧縮率は空間方向に8倍、時間方向に4倍で、計算量を大幅に削減しつつ品質を維持している。

4K超解像モジュール

4K出力は2段階のプロセスで実現される。まず720pの「ベース動画」を生成し、次に専用の超解像モジュールで4K(2160p)にアップスケールする。この超解像モジュールもDiffusionベースで、単純な補間ではなくディテールを生成的に補完する。毛髪の一本一本や布のテクスチャなど、微細な表現が4K解像度でも破綻しない。

オープンソースとしての公開形態

LTX 2.3のモデル重みはHugging Face上でApache 2.0ライセンスにより公開されている。商用利用も自由であり、ファインチューニングも可能だ。以下が公開されているアセットの概要だ。

  • モデル重み: ベースモデル(約13Bパラメータ)+ 超解像モジュール
  • 推論コード: PyTorchベース、ComfyUI用ノードも提供
  • 学習済みLoRA: スタイルバリエーション(アニメ風、シネマティック等)
  • APIサービス: Lightricks自身が提供するクラウドAPI(有料)

以下の図は、LTX 2.3を含む主要AI動画生成モデルの性能を比較したものだ。

AI動画生成モデルの性能比較表。LTX 2.3は4K解像度・リアルタイム級速度・オープンソース公開の3点で際立つ

この比較から明らかなように、LTX 2.3は解像度・速度・公開形態の3軸すべてで独自のポジションを確立している。

競合との詳細比較

2026年3月現在、AI動画生成市場は急速に成熟しつつある。主要プレイヤーとLTX 2.3を多角的に比較する。

項目LTX 2.3Runway Gen-4OpenAI SoraPika 2.0Kling 2.0
最大解像度4K (2160p)4K (2160p)1080p1080p1080p
最大生成尺約30秒最大2分最大1分最大30秒最大2分
生成速度リアルタイム級数分/クリップ数分/クリップ数分/クリップ数分/クリップ
物理演算限定的あり(高品質)限定的なしなし
入力形式テキスト/画像テキスト/画像/動画テキスト/画像テキスト/画像テキスト/画像
公開形態オープンソースクローズドクローズドクローズドクローズド
月額料金無料(ローカル)$96〜(約14,400円)$20〜(約3,000円)$10〜(約1,500円)$8〜(約1,200円)
ファインチューニング可能不可不可不可不可

Runway Gen-4との比較

Runway Gen-4は同じ4K解像度を持ち、物理シミュレーション統合で映像品質は最高水準だ。しかし月額$96からという価格は個人クリエイターにはハードルが高い。LTX 2.3はオープンソースであるため、NVIDIA RTX 4090などのコンシューマGPUがあればローカルで無料実行できる。ただし、物理的リアリズムの面ではGen-4に軍配が上がる。

OpenAI Soraとの比較

SoraはChatGPT Plusの$20プランに含まれるためアクセスしやすいが、解像度は1080p止まりで、4K出力はできない。一方、Soraはプロンプト理解力に優れ、複雑なシーン指示を的確に反映する強みがある。LTX 2.3はプロンプト追従性ではSoraにやや劣るが、解像度と速度で大きく上回る。

Pika・Klingとの比較

Pika 2.0はスタイリッシュなエフェクトと使いやすいUIが特徴だが、解像度・尺ともにLTX 2.3には及ばない。中国・快手(Kuaishou)のKling 2.0は最大2分の長尺生成が可能で価格も$8からと安いが、品質面ではLTX 2.3の4K出力と比べると差がある。

AI動画生成市場の急成長

AI動画生成市場は、生成AI全体の中でも最も急成長しているセグメントの一つだ。

以下の図は、市場規模の推移と今後の予測を示している。

AI動画生成市場の成長予測。2024年の29億ドルから2030年には485億ドルへ、CAGR約60%の急成長が見込まれる

この図が示すとおり、2024年時点で約29億ドルだった市場は、2026年には約131億ドル(約1兆9,650億円)に拡大し、2030年には485億ドル(約7兆2,750億円)に到達する見通しだ。CAGR(年平均成長率)は約60%という驚異的なペースであり、クラウドコンピューティング市場の初期成長期に匹敵する。

成長を牽引する3つの要因

1. コンテンツ需要の爆発

TikTok、YouTube Shorts、Instagram Reelsなど短尺動画プラットフォームの成長に伴い、動画コンテンツへの需要は指数関数的に増大している。2026年時点で、インターネットトラフィック全体の**82%**が動画コンテンツだ。企業のマーケティング動画、Eコマースの商品紹介動画、教育コンテンツなど、あらゆる領域で動画制作の需要が高まっている。

2. 制作コストの劇的な低下

従来、30秒のプロフェッショナル品質の動画を制作するには、撮影機材、スタジオ、編集者、CG制作者を含めて50万〜200万円のコストがかかっていた。AI動画生成ツールを使えば、同等品質の動画をテキストプロンプトから数分で、数百円のコストで生成できる。LTX 2.3のようなオープンソースモデルなら、GPUの電気代のみだ。

3. モデル性能の急速な向上

2023年のStable Video Diffusion(解像度576p、最大4秒)から、わずか3年でLTX 2.3(4K、最大30秒)やRunway Gen-4(4K、最大2分)まで進化した。解像度は約4倍、尺は約30倍になった計算だ。このペースが続けば、2028年頃には8K解像度で10分以上の動画がリアルタイム生成されるようになる可能性もある。

クリエイティブツールとしての可能性

LTX 2.3がオープンソースであることは、クリエイティブワークフローに大きな変革をもたらす。

映像制作のプリビジュアライゼーション

映画やCMの制作現場では、本撮影前にシーンのイメージを視覚化する「プリビズ(プリビジュアライゼーション)」工程がある。従来は3DCGソフトウェアで数日かけて作成していたが、LTX 2.3を使えばテキスト指示から4K品質のプリビズ映像を数分で生成できる。監督やクライアントへのプレゼンテーションが劇的にスピードアップする。

Eコマースの商品動画

アパレルや家電メーカーがECサイトに掲載する商品紹介動画も、LTX 2.3の有力なユースケースだ。商品写真1枚から、さまざまなアングルで商品を映した動画を自動生成できる。ファインチューニングにより、ブランド固有のビジュアルスタイルを学習させることも可能だ。

ゲーム・メタバースの動的コンテンツ

リアルタイム生成が可能なLTX 2.3は、ゲームやメタバース空間における動的な背景映像やカットシーンの生成にも応用できる。プレイヤーの行動に応じてリアルタイムにシネマティクスを生成する、まったく新しいゲーム体験の実現が視野に入る。

教育・研修コンテンツ

企業研修や教育機関向けの映像教材も大きな市場だ。テキストのカリキュラムから映像教材を自動生成し、多言語対応も容易に行える。とりわけ、医療や工学などの分野では、実写が困難なシミュレーション映像をAIで生成できる利点が大きい。

ディープフェイクリスクと倫理的課題

4Kクラスの高品質動画をオープンソースで誰でも生成できるようになることは、ディープフェイクのリスクを飛躍的に高める。

現在の脅威レベル

2026年時点で、AI生成動画を悪用したディープフェイク事案は世界中で急増している。特に以下の3分野でリスクが顕在化している。

  1. 政治的ディスインフォメーション: 政治家の偽造映像を用いた選挙介入や世論操作
  2. 金融詐欺: 経営者の偽造映像によるビデオ通話詐欺(いわゆるCEO詐欺)
  3. ハラスメント: 個人のプライバシーを侵害する偽造ポルノ映像

Lightricksの対応策

Lightricksは、LTX 2.3で生成されたすべての動画に**C2PA(Coalition for Content Provenance and Authenticity)**準拠のメタデータを埋め込む技術を実装している。これにより、動画がAI生成であることを後から検証可能だ。また、モデルのライセンス規約で、ディープフェイクや非同意ポルノへの利用を明示的に禁止している。

しかし、オープンソースモデルである以上、ライセンス違反の抑止には技術的な限界がある。ここに、オープンソースAIの根本的なジレンマが存在する。イノベーションの促進とリスクの抑制をどうバランスさせるかは、AI業界全体の課題だ。

日本市場への影響と可能性

日本のコンテンツ制作業界への恩恵

日本は世界有数のコンテンツ大国であり、アニメ・ゲーム・広告映像の制作技術は世界トップクラスだ。しかし、少子高齢化による人手不足は深刻で、映像制作現場のアニメーターやCGクリエイターの確保は年々困難になっている。

LTX 2.3のようなAI動画生成ツールは、この人材不足を補完する有力な選択肢だ。特にオープンソースである点は、日本企業にとって大きなアドバンテージになる。自社データでファインチューニングして独自のスタイルを反映できるため、「日本のアニメ風」「ジブリ調」「90年代ゲーム風」など、日本独自のビジュアルスタイルに特化したモデルを構築できる。

日本語対応の課題

現時点でLTX 2.3の学習データは主に英語圏のコンテンツが中心であり、日本語テキストプロンプトへの対応は限定的だ。「桜の花びらが舞う京都の街並み」といった日本語固有の表現を正確に反映するには、日本語テキストエンコーダーの追加学習や、日本のビジュアルコンテンツを含むデータセットでのファインチューニングが必要になる。

ここに日本のAIスタートアップや研究機関にとってのビジネスチャンスがある。LTX 2.3をベースに日本語特化の動画生成モデルを構築し、SaaS形式で提供すれば、日本のクリエイター市場を大きく取れる可能性がある。

法規制の動向

日本では2023年6月に改正著作権法が施行され、AI学習における著作物の利用について一定のルールが整備された。しかし、AI生成コンテンツの著作権帰属や、ディープフェイク規制については法整備が追いついていない。2026年3月時点では、経済産業省と文化庁が共同で「生成AIガイドライン」の改訂を進めており、動画生成AIに関する規定の追加が議論されている段階だ。

企業がLTX 2.3を商用利用する際は、生成物の著作権処理、肖像権への配慮、そしてC2PA準拠のメタデータ管理を自社で整備しておくことが推奨される。

まとめ——LTX 2.3がもたらす動画生成の民主化

LTX 2.3は、4K解像度・リアルタイム級速度・オープンソースという3つの特徴を兼ね備えた、2026年3月時点で最も注目すべき動画生成モデルだ。クローズドモデルが支配する動画生成AI市場に風穴を開け、スタートアップから大企業まであらゆるプレイヤーが高品質な動画生成技術にアクセスできる環境を作り出した。

一方で、生成品質の向上はディープフェイクリスクの増大と表裏一体であり、技術的な安全策と法的な枠組みの整備が急務だ。特にオープンソースモデルの悪用防止は、コミュニティ全体で取り組むべき課題となる。

今すぐ取るべきアクションステップは以下の3つだ。

  1. Hugging FaceでLTX 2.3を試す: モデル重みをダウンロードし、ComfyUIで試用してみよう。NVIDIA RTX 3090以上のGPUがあれば720pのリアルタイム生成が体験できる。クラウドGPU(Lambda Cloud、RunPod等)を使えば初期投資なしで4K生成も可能だ
  2. 自社ユースケースでファインチューニングを検討する: Eコマースの商品動画、マーケティング素材、教育コンテンツなど、繰り返し生成するタイプのコンテンツがあれば、LoRAファインチューニングでスタイルを固定化すると効率が劇的に上がる
  3. ディープフェイク対策のガバナンスを整備する: 自社が生成したAI動画にはC2PAメタデータを必ず付与し、社内ガイドラインでAI動画生成の利用範囲を明確にしておこう。法規制が追いつく前にプロアクティブに対応することが、レピュテーションリスクの回避に直結する

この記事をシェア