Srovnání starších generativních modelů

Generativní modely prošly od roku 2010 bouřlivým vývojem. Zatímco první modely měly problém vygenerovat čitelný obličej, dnešní systémy vytvářejí fotorealistické snímky k nerozeznání od reality. Tato stránka porovnává hlavní architektury před érou difúzních modelů.

1. Základní přehled architektur

Před nástupem Stable Diffusion a Midjourney dominovaly poli tři hlavní přístupy:

Typ modelu	Princip	Hlavní charakteristika
RBM (Restricted Boltzmann Machines)	Energie/Pravděpodobnost	Jeden z prvních modelů, dnes se již téměř nepoužívá.
VAE (Variational Autoencoders)	Komprese a Latentní prostor	Stabilní učení, ale výsledky bývají rozmazané.
GAN (Generative Adversarial Networks)	Souboj dvou sítí	Extrémní ostrost, ale velmi těžké na trénování.

2. Detailní srovnání

VAE: Král matematické čistoty

Vznikly jako rozšíření klasických autoenkodérů. Jejich hlavní silou je schopnost strukturovat latentní prostor.

Proč je používat: Skvělé pro interpolaci (plynulý přechod mezi dvěma obrázky) a pro detekci anomálií.
Proč jsou „staré“: Nedokážou zachytit jemné detaily (textury kůže, vlasy), protože matematicky optimalizují průměrnou chybu, což vede k „rozmazání“.

GAN: Mistr vizuálního detailu

GANy byly mezi lety 2014 a 2020 absolutní špičkou.

Proč byly revoluční: Protože Diskriminátor (policista) nutil Generátora (padělatele) k dokonalosti. Pokud byl obrázek rozmazaný, Diskriminátor ho okamžitě odmítl.
Slabiny: Často trpěly tzv. Mode Collapse (model se naučil generovat jeden perfektní obličej a ten opakoval stále dokola) a byly extrémně citlivé na nastavení učícího tempa.

3. Srovnávací tabulka vlastností

Tato tabulka pomáhá při rozhodování, který model zvolit pro konkrétní projekt:

Vlastnost	VAE	GAN	RBM
Stabilita tréninku	Vysoká	Velmi nízká	Střední
Rychlost generování	Velmi vysoká	Vysoká	Nízká
Kvalita detailů	Nízká (blur)	Velmi vysoká	Velmi nízká
Interpretovatelnost	Dobrá	Špatná	Dobrá
Vhodné pro	Kompresi, chemii	Umění, Deepfakes	Starší systémy

4. Proč je nahradily difúzní modely?

Ačkoliv byly GANy vizuálně skvělé, difúzní modely (jako Stable Diffusion) zvítězily ze dvou důvodů:

1. **Distribuce dat:** Difúzní modely lépe pokrývají celou rozmanitost trénovacích dat (nemají Mode Collapse).
2. **Podmiňování textem:** Spojení textového popisu s obrazem (Text-to-Image) funguje u difúzních modelů mnohem stabilněji než u GANů.

[Image showing evolution of generated faces from 2014 to 2024]

5. Související témata

Tagy: ai ml gan vae rbm historie deep_learning