Generativní modely: GAN vs VAE

Generativní modely jsou třídou modelů strojového učení, které se nesnaží data pouze klasifikovat (např. „toto je pes“), ale snaží se naučit základní distribuci dat tak, aby dokázaly generovat nové vzorky, které vypadají jako ty původní.

Dvěma nejvýznamnějšími architekturami v této oblasti jsou VAE (Variational Autoencoders) a GAN (Generative Adversarial Networks).

1. VAE (Variational Autoencoders)

VAE vycházejí z klasických autoenkodérů, ale přidávají do latentního prostoru (bottlenecku) pravděpodobnostní prvek.

Princip: Místo toho, aby enkodér namapoval vstup na jeden pevný bod, namapuje jej na pravděpodobnostní rozdělení (střední hodnotu a rozptyl).
Generování: Nová data vznikají tak, že náhodně vybereme bod z tohoto rozdělení a dekodér jej „přeloží“ do podoby obrázku či zvuku.
Výhoda: Latentní prostor je spojitý a organizovaný. Můžete v něm „cestovat“ a plynule měnit vlastnosti (např. postupně přidávat úsměv na tváři).
Nevýhoda: Výstupy bývají často mírně rozmazané (blurry).

2. GAN (Generative Adversarial Networks)

GAN, které představil Ian Goodfellow v roce 2014, fungují na principu souboje dvou neuronových sítí.

Architektura GAN:

Generátor: Snaží se vytvořit falešný vzorek (např. obrázek obličeje) z náhodného šumu. Jeho cílem je oklamat Diskriminátor.
Diskriminátor: Funguje jako „policista“ nebo „znalec“. Dostává střídavě pravé obrázky z databáze a falešné obrázky od Generátoru. Jeho úkolem je poznat, co je pravé a co podvrh.

Proces učení (Minimax game):

Během tréninku se obě sítě neustále zlepšují. Generátor se učí vytvářet stále realističtější falzifikáty, zatímco Diskriminátor se učí lépe odhalovat i drobné chyby. Nakonec je Generátor tak dobrý, že Diskriminátor již nedokáže rozdíl poznat.

3. Srovnání GAN vs. VAE

Vlastnost	VAE	GAN
Princip	Statistická rekonstrukce	Souboj dvou sítí (Hra s nulovým součtem)
Kvalita výstupu	Často rozmazané	Velmi ostré a realistické
Stabilita učení	Stabilní, snadno se trénuje	Nestabilní, citlivé na nastavení parametrů
Latentní prostor	Spojitý, snadno interpretovatelný	Často nekonzistentní a těžko ovladatelný
Využití	Komprese, augmentace dat, anomálie	Deepfakes, generování umění, super-rozlišení

[Image comparison of images generated by VAE vs GAN showing blurriness vs sharpness]

4. Praktické aplikace

Deepfakes: Výměna obličejů ve videu (primárně GAN).
Image-to-Image translation: Převod satelitních snímků na mapy nebo černobílých fotek na barevné.
Zvýšení rozlišení (Super-Resolution): Rekonstrukce detailů v nekvalitních fotografiích.
Generování molekul: Návrh nových léků s požadovanými vlastnostmi (často VAE).

5. Co přišlo po nich?

Dnes jsou GAN i VAE doplňovány nebo nahrazovány Difúzními modely (Diffusion Models), které stojí za nástroji jako DALL-E, Midjourney nebo Stable Diffusion. Ty fungují na principu postupného odstraňování šumu z obrazu.

Související články:

Tagy: ai neural_networks gan vae generative_models deep_learning