Difúzní modely (Stable Diffusion)

Difúzní modely jsou třídou generativních modelů, které se staly standardem pro generování obrazu po roce 2021. Na rozdíl od GAN nebo VAE nepracují s přímým soubojem sítí, ale využívají proces postupného přidávání a následného odstraňování šumu.

Stojí za populárními nástroji jako Stable Diffusion, Midjourney, DALL-E 3 nebo Imagen.

1. Princip fungování: Destrukce a rekonstrukce

Proces fungování difúzních modelů se dělí na dvě fáze:

A. Dopředná difúze (Forward Diffusion)

Model vezme čistý obrázek a postupně k němu přidává náhodný šum (Gaussovský šum), dokud se obrázek nestane naprosto nečitelným „zrněním“. Tento proces je fixní a slouží k přípravě dat pro trénink.

B. Zpětná difúze (Reverse Diffusion)

Toto je fáze, kde probíhá učení. Neuronová síť (obvykle architektura U-Net) se učí odhadnout, kolik šumu bylo v daném kroku přidáno, a snaží se jej odstranit.

Cílem je „vyčistit“ šum tak, aby se postupně objevil smysluplný obraz.
Při generování pak modelu stačí dát čistý náhodný šum a on z něj „vysochá“ nový obrázek.

[Image showing the process from clear image to noise and back to generated image]

2. Stable Diffusion a Latentní difúze

Hlavním problémem původních difúzních modelů byla extrémní náročnost na výpočetní výkon (pracovaly s každým pixelem). Stable Diffusion (vyvinutý Stability AI a LMU Munich) tento problém vyřešil pomocí Latentní difúze.

Latentní prostor: Místo aby model pracoval s pixely (např. 512×512), pracuje s komprimovanou reprezentací v tzv. latentním prostoru (podobně jako autoenkodéry).
Efektivita: Díky tomu lze Stable Diffusion spustit i na běžných domácích grafických kartách (GPU).

3. Text-to-Image (Spojení s textem)

Aby model věděl, co má generovat (např. „kočka v klobouku“), využívá mechanismus Conditioning (podmiňování).

1. **Textový enkodér (CLIP):** Převede textový popis (prompt) na číselný vektor.
2. **Cross-Attention:** Tento vektor je předán difúznímu modelu během procesu odšumování. Model pak při každém kroku čištění "kontroluje", zda to, co vytváří, odpovídá zadanému textu.

4. Hlavní výhody a využití

Výhoda	Popis
Kvalita a detaily	Dokáží generovat mnohem realističtější detaily než GAN.
Kontrola (ControlNet)	Možnost přesně řídit kompozici, pózu postav nebo hloubku ostrosti.
Inpainting / Outpainting	Schopnost dokreslit chybějící části obrázku nebo jej rozšířit do stran.
Open Source	Na rozdíl od DALL-E je Stable Diffusion otevřený kód, což vedlo k obrovskému rozvoji komunity.

5. Etika a právo

Difúzní modely vyvolaly velké debaty ohledně:

Trénovací data: Modely byly trénovány na miliardách obrázků z internetu, často bez souhlasu autorů.
Deepfakes: Snadná tvorba fotorealistických podvrhů známých osobností.
Autorská práva: Kdo vlastní obrázek vygenerovaný AI?

Související články:

Tagy: ai generative_models stable_diffusion deep_learning nlp