VAE(変分オートエンコーダ)
Variational Autoencoder
確率分布を使って画像などを生成する深層生成モデル。拡散モデルと組み合わせて使われることも多い。
VAE(変分オートエンコーダ)とは
VAE(Variational Autoencoder)は、データを圧縮して潜在空間に写し、そこから元のデータを復元する仕組みを学習する生成モデルです。圧縮(エンコード)と復元(デコード)の2段構成で、途中の潜在空間を使って新しいデータを生成できます。
GAN・拡散モデルとの違い
- GAN: 2つのネットワークを競わせる。鮮明だが学習が不安定なことも
- VAE: 確率分布を学習。安定して学習できるが、GANほどシャープでないことがある
- 拡散モデル: ノイズ除去を学習。現在の主流
それぞれ得意分野が違い、Stable Diffusion のようなモデルは、内部で VAE と拡散モデルを組み合わせて使っています。
現在の位置づけ
単独で画像生成の主役として使われることは減りましたが、拡散モデルの前処理・潜在空間の扱いで今も重要な役割を担っています。実務で直接触ることは稀ですが、画像生成AIの仕組みを理解する文脈でよく出てくる用語です。
