Stable Diffusion 4登場——画像生成AI三国志の勢力図が変わる

Stability AIがStable Diffusion 4（SD4）をリリースし、画像生成AI市場が再び大きく動いた。SD4は前世代のSDXLからアーキテクチャを完全刷新し、DiT（Diffusion Transformer）ベースの新設計を採用。プロンプト理解力、画質、一貫性のすべてで大幅な進化を遂げた。

リリースと同時にMidjourney v7、DALL-E 4（OpenAI）との三つ巴の競争が激化。SD4は唯一のオープンソースモデルとして、ローカル実行・カスタマイズ・商用利用の自由度で差別化を図っている。画像生成AI市場は2026年に**$3.2B（約4,800億円）**規模に達すると予測されており、クリエイティブ産業への影響は計り知れない。

SD4の技術的特徴

以下の図は、SD4の技術アーキテクチャを示しています。

SD4のアーキテクチャ図。DiT（Diffusion Transformer）ベースで、テキストエンコーダ（T5-XXL + CLIP）→ノイズ除去プロセス→高解像度出力のフロー

DiT（Diffusion Transformer）アーキテクチャ

SD4はU-NetベースだったSD1/SD2/SDXLとは根本的に異なるDiTアーキテクチャを採用した。Transformerベースの設計により、以下のメリットが得られる。

スケーラビリティ: パラメータ数に比例して性能が向上。SD4は8Bパラメータ
テキスト理解力: 長い複雑なプロンプトも正確に解釈。「赤い帽子をかぶった猫が青い椅子の上で本を読んでいる」のような複合的な指示にも対応
構図制御: 空間的な配置の指定精度が向上。「左上に太陽、右下に人物」が正確に反映
一貫性: 同一キャラクターの複数画像生成が改善（キャラクター一貫性スコア87%）

主要スペック

項目	SD4	SDXL	SD 3.5
アーキテクチャ	DiT	U-Net	MMDiT
パラメータ数	8B	2.6B	2.5B
ベース解像度	1024x1024	1024x1024	1024x1024
最大解像度	4096x4096	2048x2048	2048x2048
テキストエンコーダ	T5-XXL + CLIP-L	CLIP-L + OpenCLIP-G	T5 + CLIP
生成速度 (H100)	約4秒/枚	約6秒/枚	約5秒/枚
VRAM要件	12GB (FP16)	8GB (FP16)	10GB (FP16)
ライセンス	Stability Community	CreativeML Open RAIL	Stability Community

三大モデル徹底比較

評価項目	SD4	Midjourney v7	DALL-E 4
画質（主観評価）	9.0/10	9.5/10	9.2/10
プロンプト忠実度	9.3/10	8.8/10	9.1/10
テキスト描画精度	8.5/10	8.0/10	9.0/10
人体の正確性	8.7/10	9.2/10	8.9/10
スタイル多様性	9.5/10	9.3/10	8.5/10
生成速度	4秒	2秒	8秒
ローカル実行	可能	不可	不可
カスタムモデル	LoRA/Fine-tune	Style Reference	不可
月額料金	無料（OSS）	$30〜	$20〜
商用利用	制限なし	プラン次第	利用規約制限
API	あり	あり	あり

SD4の最大の強みは「オープンソースである」こと。ローカル実行、LoRAによるカスタマイズ、商用利用が自由にできる唯一の主要モデルだ。一方、純粋な画質ではMidjourney v7が依然としてトップを走っている。

料金比較

サービス	無料枠	個人向けプラン	プロ向けプラン	エンタープライズ
SD4（セルフホスト）	無制限	電気代のみ	電気代のみ	GPU費用のみ
SD4（API via Stability）	25クレジット/日	$10/月 (1,000枚)	$50/月 (10,000枚)	カスタム
Midjourney	なし	$10/月 (200枚)	$30/月 (無制限)	$60/月
DALL-E 4	なし	$20/月 (ChatGPT内)	$0.04/枚 (API)	カスタム

日本円換算（1ドル=150円）では、Midjourney Proが月額約4,500円、DALL-E 4がChatGPT Plus経由で月額約3,000円。SD4のセルフホスト（RTX 4090のPC）は初期費用約30万円だが、ランニングコストは電気代のみで月間数百円程度。月500枚以上生成するなら1年でセルフホストが元を取れる計算だ。

クリエイティブ産業への影響

イラスト・デザイン業界

画像生成AIの進化により、イラスト・デザイン業界は大きな転換点を迎えている。

ポジティブな影響:

コンセプトアート制作の効率化（スケッチ段階の工数削減）
個人クリエイターの表現力拡大
小規模スタジオの制作能力向上

ネガティブな影響:

ストック素材市場の縮小（生成AIで代替）
「アートの価値」に関する哲学的議論
著作権問題の複雑化

広告・マーケティング業界

広告制作における画像生成AIの利用は急速に拡大している。A/Bテスト用のクリエイティブを短時間で大量生成し、パフォーマンスを測定するワークフローが一般化。広告代理店のクリエイティブ部門では制作コストが平均40%削減されたとの調査もある。

著作権と倫理

SD4のトレーニングデータに関する著作権訴訟は現在進行中だ。Getty ImagesがStability AIを提訴した訴訟は2025年に一部和解したものの、「AIモデルのトレーニングにおける著作物の使用」に関する法的枠組みは依然として不明確。EUのAI Act（2025年施行）では、AIモデルのトレーニングに使用したデータの開示義務が課されている。

LoRAとカスタマイズのエコシステム

以下の図は、SD4のカスタマイズエコシステムを示しています。

SD4のカスタマイズエコシステム図。ベースモデル→LoRA（スタイル・キャラクター・コンセプト）→ControlNet（ポーズ・深度・エッジ）→最終出力

SD4のオープンソース性を活かした**LoRA（Low-Rank Adaptation）**エコシステムが活発だ。

Civitai: LoRAモデルの最大コミュニティ。SD4対応LoRAが数万件公開
スタイルLoRA: 特定の画風（アニメ、油絵、写真リアル等）を学習
キャラクターLoRA: 特定キャラクターの一貫した生成
コンセプトLoRA: 特定の服装、建物、乗り物等のスタイル

LoRAのトレーニングは**RTX 4060（8GB VRAM）**でも可能で、20〜50枚の参照画像から30分程度で完了する。

日本ではどうなるか

日本のAIイラスト文化

日本は世界でも有数のAIイラスト活用国だ。pixivやX（旧Twitter）にはSD系の生成画像が大量に投稿されており、SD4のリリースは日本のクリエイティブコミュニティに大きなインパクトを与える。

著作権法上の位置づけ

日本の著作権法30条の4は「情報解析のための著作物の利用」を広く認めており、AIトレーニングへの著作物利用は原則として合法と解釈されている。ただし、2025年に文化審議会が「AI生成物の著作権ガイドライン」を改訂し、「特定の作家のスタイルを意図的に模倣する」LoRAの商用利用については慎重な判断が必要とされた。

日本語プロンプトの精度

SD4はT5-XXLテキストエンコーダを採用しており、日本語プロンプトへの対応は前世代から大幅に改善された。ただし、「桜吹雪の中を歩く着物姿の女性」のような日本文化に特有の概念は、英語プロンプトの方が精度が高い傾向がある。日本語→英語の自動翻訳プラグインを併用するのが現時点でのベストプラクティスだ。

ビジネス活用の拡大

日本企業でもマーケティング素材の生成にSD4を活用する動きが広がっている。特にECサイトの商品画像バリエーション生成、SNS投稿用のクリエイティブ制作、プレゼン資料のビジュアル作成で導入が進んでいる。

まとめ

SD4は画像生成AIの「民主化」をさらに推し進めるモデルだ。オープンソースであること、ローカル実行可能であること、カスタマイズの自由度が高いことは、クローズドソースのMidjourneyやDALL-Eにはない独自の価値だ。

具体的なアクションステップ

ローカル環境を構築する: NVIDIA RTX 4060以上のGPU搭載PCがあれば、ComfyUIまたはAutomatic1111でSD4をローカル実行可能。まずは無料で試してみる
Midjourneyとの使い分けを確立する: 最高画質が必要な最終成果物はMidjourney、アイデア出し・バリエーション生成・LoRAカスタマイズはSD4と使い分ける
LoRAトレーニングに挑戦する: 自社ブランドのビジュアルスタイルをLoRAで学習させ、ブランド一貫性のある画像を大量生成する仕組みを構築
著作権ガイドラインを確認する: 商用利用の場合、Stability Communityライセンスの条件と、文化審議会のAI生成物ガイドラインを確認。法務部門との事前協議を推奨
API利用も検討する: ローカル環境の構築が難しい場合、Stability AIのAPIは1,000枚/$10から利用可能。まずはAPIで効果を検証してからローカル環境に投資する