Stable Diffusionガイド：論文読みリンク集

Stable Diffusion周りの論文解説記事です。

画像生成周り

Stable Diffusion

みんな大好きStable Diffusionモデル。Text Encoder, UNet, VAEを組み合わせたモデルになっています。

Stable Diffusion 3

Stable Diffusionモデルを最新技術にアップデートしたものです。UNetではなくMMDiTというTransformerベースのモデルに変更するとともに、ノイズスケジュールを最適化する、TextEncoderを3つに増やすなど少しTweakが入っています。

Stable Diffusion 3論文読み：ついにUNetを卒業したようです

blog.otama-playground.com

LoRA

みんな大好きLoRA。モデルの拡張パーツともいえるもので、少しパラメータを増やすだけでモデルの追加学習が行えます。（元々は言語モデル用に提案されたもの）

LoRA（Low-Rank Adaptation）とは？大規模モデルを低コストでファインチューニングする手法とメリット

blog.otama-playground.com

ControlNet

ControlNetは、画像に映る人物の姿勢を制御するためのモデル拡張です。UNetを2重にして片方に姿勢データを学習させるようにしています。

Stable Diffusionモデルで姿勢を学習・制御するControlNetの基礎

blog.otama-playground.com

Textual Inversion

UNetではなくText Encoderをいじる手法です。本体であるUNetの外側をいじるため、比較的効果は弱めですが、パラメータを増やす必要がない、学習もUNetをいじるより容易といった利点があります。

Textual Inversionのわかりやすい解説：Stable Diffusionの制御手法

blog.otama-playground.com

IPAdapter

Text Encoderと並列にImage Encoderを用意し、画像プロンプトを受け取れるようにする手法です。

IPAdapterの簡単解説：画像をプロンプトとして使用できる！？【Stable Diffusion】

blog.otama-playground.com

動画生成周り

AnimateDiff

Stable Diffusionに時間軸の学習ができるように層を追加したモデルです。

AnimateDiff: Stable Diffusionを拡張した軽量動画生成モデルの仕組み

blog.otama-playground.com

RIFE

中間フレームを生成し、動画のフレームレートを向上させる技術です。

動画のフレームレートを上げる技術：RIFEとそのアーキテクチャ

blog.otama-playground.com

Stream Diffusion

パイプライン処理やその他高速化のためのテクニックを導入し、超高速に画像生成を行えるようにしたモデルです。RTX 4090で最大91.07fpsとのこと。

Stream Diffusion: リアルタイムな動画生成を可能にする新技術

blog.otama-playground.com

Stable Diffusionガイド：論文読みリンク集

画像生成周り

Stable Diffusion

Stable Diffusion 3

LoRA

ControlNet

Textual Inversion

IPAdapter

動画生成周り

AnimateDiff

RIFE

Stream Diffusion

関連記事

動画のフレームレートを上げる技術：RIFEとそのアーキテクチャ

Stable Diffusion 3論文読み：ついにUNetを卒業したようです

Stream Diffusion: リアルタイムな動画生成を可能にする新技術

IPAdapterの簡単解説：画像をプロンプトとして使用できる！？【Stable Diffusion】

AnimateDiff: Stable Diffusionを拡張した軽量動画生成モデルの仕組み

Stable Diffusionモデルで姿勢を学習・制御するControlNetの基礎

Textual Inversionのわかりやすい解説：Stable Diffusionの制御手法

LoRA（Low-Rank Adaptation）とは？大規模モデルを低コストでファインチューニングする手法とメリット

【Stable Diffusion】画像生成モデルの仕組みを理解する

CodexとTemporalで自動リファクタリングを回し放題にする話