====== Difuzní modely (Diffusion Models) ======

**Difuzní model** je typ generativního modelu, který vytváří nová data (nejčastěji obrázky) pomocí procesu postupného odstraňování šumu. Princip je inspirován termodynamikou – konkrétně šířením (difuzí) plynu. Model se učí, jak z čistého obrazu udělat chaos a, co je nejdůležitější, jak tento proces obrátit.

===== 1. Jak to funguje: Od chaosu k řádu =====

Proces funguje ve dvou hlavních fázích:

==== A. Dopředná difuze (Forward Diffusion) ====
Do čistého trénovacího obrázku se postupně v mnoha krocích přidává náhodný šum (Gaussovský šum), dokud se obrázek nezmění v naprostý chaos, kde není poznat původní obsah.


==== B. Zpětná difuze (Reverse Diffusion) ====
Toto je fáze, kde probíhá "kouzlo". Neuronová síť (obvykle architektury **U-Net**) se učí předpovídat, kolik šumu bylo v daném kroku přidáno, a tento šum odečíst. 
  * Při generování pak model začne s **čistým náhodným šumem**.
  * Krok za krokem šum odstraňuje a postupně "vyřezává" z chaosu konkrétní tvary a detaily.


===== 2. Text-to-Image: Jak AI rozumí zadání? =====

Aby model věděl, co má z šumu vytvořit (např. "kočku na měsíci"), používá se mechanismus **Conditioning** (podmiňování):
  1. Textový prompt je převeden na číselný vektor pomocí modelu **CLIP** (od OpenAI).
  2. Tento vektor je "vstříknut" do procesu zpětné difuze pomocí mechanismu [[it_encyklopedie:attention_mechanism|Attention]].
  3. Model pak při odstraňování šumu preferuje ty tvary, které statisticky odpovídají vašemu popisu.

===== 3. Latentní difuze (Stable Diffusion) =====

Generování obrázků ve vysokém rozlišení je výpočetně extrémně drahé. Model **Stable Diffusion** přinesl revoluci tím, že difuzní proces neprovádí přímo na pixelech, ale v tzv. **latentním prostoru** (komprimované verzi obrázku vytvořené pomocí [[it_encyklopedie:autoencoder|autoencoderu]]).
  * Výpočty probíhají na malé "mapě" ($64 \times 64$ místo $512 \times 512$).
  * Až finální výsledek je dekodérem zvětšen do plného rozlišení.
  * To umožnilo spouštět tyto modely i na běžných domácích grafických kartách.


===== 4. Srovnání s ostatními modely =====

^ Vlastnost ^ GAN ^ Difuzní modely ^
| **Kvalita obrazu** | Velmi vysoká, ale někdy trpí artefakty. | Špičková, velmi detailní a realistická. |
| **Diverzita** | Nízká (často generuje podobné věci). | Vysoká (dokáže pokrýt celý rozsah dat). |
| **Rychlost** | Velmi rychlé (jeden průchod sítí). | Pomalejší (vyžaduje desítky kroků čištění). |
| **Stabilita učení** | Špatná (sítě se mohou zhroutit). | Výborná (trénování je velmi stabilní). |

===== 5. Využití v praxi =====

  * **Generování obrazu:** Tvorba grafiky, konceptů pro hry a filmy.
  * **Inpainting & Outpainting:** Oprava chybějících částí fotky nebo "dokreslení" krajiny za okraj původního snímku.
  * **Image-to-Image:** Převod skici na realistickou fotografii.
  * **Video a Audio:** Nejnovější modely (např. Sora nebo Stable Audio) aplikují stejný princip difuze na časovou osu videa nebo zvukové vlny.

> **Zajímavost:** Proces difuze je v podstatě jako pozorování mraků. Vidíte náhodné tvary, ale vaše mysl (v tomto případě neuronová síť podpořená textovým zadáním) v nich začne hledat a zvýrazňovat známé objekty, dokud se tam skutečně neobjeví.

[[it_encyklopedie:ai_rozcestnik|Zpět na AI rozcestník]]