Uživatelské nástroje

Nástroje pro tento web


it:ai:gan_vs_vae

Srovnání starších generativních modelů

Generativní modely prošly od roku 2010 bouřlivým vývojem. Zatímco první modely měly problém vygenerovat čitelný obličej, dnešní systémy vytvářejí fotorealistické snímky k nerozeznání od reality. Tato stránka porovnává hlavní architektury před érou difúzních modelů.

1. Základní přehled architektur

Před nástupem Stable Diffusion a Midjourney dominovaly poli tři hlavní přístupy:

Typ modelu Princip Hlavní charakteristika
RBM (Restricted Boltzmann Machines) Energie/Pravděpodobnost Jeden z prvních modelů, dnes se již téměř nepoužívá.
VAE (Variational Autoencoders) Komprese a Latentní prostor Stabilní učení, ale výsledky bývají rozmazané.
GAN (Generative Adversarial Networks) Souboj dvou sítí Extrémní ostrost, ale velmi těžké na trénování.

2. Detailní srovnání

VAE: Král matematické čistoty

Vznikly jako rozšíření klasických autoenkodérů. Jejich hlavní silou je schopnost strukturovat latentní prostor.

  • Proč je používat: Skvělé pro interpolaci (plynulý přechod mezi dvěma obrázky) a pro detekci anomálií.
  • Proč jsou „staré“: Nedokážou zachytit jemné detaily (textury kůže, vlasy), protože matematicky optimalizují průměrnou chybu, což vede k „rozmazání“.

GAN: Mistr vizuálního detailu

GANy byly mezi lety 2014 a 2020 absolutní špičkou.

  • Proč byly revoluční: Protože Diskriminátor (policista) nutil Generátora (padělatele) k dokonalosti. Pokud byl obrázek rozmazaný, Diskriminátor ho okamžitě odmítl.
  • Slabiny: Často trpěly tzv. Mode Collapse (model se naučil generovat jeden perfektní obličej a ten opakoval stále dokola) a byly extrémně citlivé na nastavení učícího tempa.

3. Srovnávací tabulka vlastností

Tato tabulka pomáhá při rozhodování, který model zvolit pro konkrétní projekt:

Vlastnost VAE GAN RBM
Stabilita tréninku Vysoká Velmi nízká Střední
Rychlost generování Velmi vysoká Vysoká Nízká
Kvalita detailů Nízká (blur) Velmi vysoká Velmi nízká
Interpretovatelnost Dobrá Špatná Dobrá
Vhodné pro Kompresi, chemii Umění, Deepfakes Starší systémy

4. Proč je nahradily difúzní modely?

Ačkoliv byly GANy vizuálně skvělé, difúzní modely (jako Stable Diffusion) zvítězily ze dvou důvodů:

1. **Distribuce dat:** Difúzní modely lépe pokrývají celou rozmanitost trénovacích dat (nemají Mode Collapse).
2. **Podmiňování textem:** Spojení textového popisu s obrazem (Text-to-Image) funguje u difúzních modelů mnohem stabilněji než u GANů.

[Image showing evolution of generated faces from 2014 to 2024]

5. Související témata

it/ai/gan_vs_vae.txt · Poslední úprava: autor: admin