====== Trénovací data (Training Data) ======

**Trénovací data** jsou souborem informací (texty, obrázky, tabulky, zvuky), které se používají k učení algoritmu [[it_encyklopedie:machine_learning|strojového učení]]. Model v těchto datech hledá vzorce, vztahy a statistické souvislosti, které mu následně umožňují činit předpovědi nebo rozhodnutí u dat, která nikdy dříve neviděl.

Většina moderních systémů AI vyžaduje obrovské objemy dat (tzv. Big Data), aby dosáhla vysoké přesnosti.

===== 1. Rozdělení dat při vývoji =====

Při tvorbě modelu se celkový dataset obvykle rozděluje do tří částí, aby se předešlo [[it_encyklopedie:bias|přetrénování]] (overfittingu):


  * **Trénovací sada (Training set):** Největší část dat (obvykle 70–80 %), na které se model přímo učí a upravuje své vnitřní váhy.
  * **Validační sada (Validation set):** Slouží k ladění parametrů modelu během učení. Pomáhá vývojáři určit, kdy je model hotov.
  * **Testovací sada (Test set):** Skupina dat, která nebyla při trénování použita. Slouží k finálnímu, nestrannému ověření přesnosti modelu.

===== 2. Strukturovaná vs. Nestrukturovaná data =====

^ Typ dat ^ Popis ^ Příklad ^
| **Strukturovaná** | Data s pevným formátem, uložená v tabulkách nebo databázích. | Historie transakcí v bance, teplotní čidla. |
| **Nestrukturovaná** | Data bez jasného formátu, která tvoří většinu dnešního internetu. | Fotografie, videa, e-maily, hlasové zprávy. |


===== 3. Labeling (Anotace dat) =====

U **učení s učitelem** (supervised learning) musí být data "označkovaná" (labeled). To znamená, že ke každému vstupu musí existovat správná odpověď.
  * **Příklad:** Fotografie musí mít popisek "kočka", "auto" nebo "chodec".
  * Anotace je často nejdražší a nejpomalejší částí vývoje AI, protože ji často musí provádět lidé (anotátoři).

===== 4. Kvalita vs. Kvantita =====

Pro úspěšné trénování jsou klíčové tyto vlastnosti dat:
  * **Reprezentativnost:** Data musí pokrývat všechny situace, které mohou v reálném světě nastat (např. samořiditelné auto musí vidět fotky silnice ve dne, v noci, v dešti i v mlze).
  * **Čistota:** Data by neměla obsahovat příliš mnoho chyb, duplicit nebo irelevantních informací (šumu).
  * **Vyváženost:** Pokud bude v datech 99 % obrázků psů a 1 % koček, model se naučí každé zvíře označit jako psa.

===== 5. Syntetická data =====

V poslední době se stále častěji využívají **syntetická data** – data vytvořená jinou umělou inteligencí nebo počítačovou simulací. Používají se tam, kde jsou reálná data vzácná (např. havárie letadel), příliš drahá na pořízení nebo citlivá z hlediska soukromí (lékařské záznamy).


> **Etická poznámka:** Pokud trénovací data obsahují historické předsudky (např. diskriminaci při schvalování úvěrů), model tyto předsudky převezme a bude je automaticky opakovat. Tento jev se nazývá [[it_encyklopedie:bias|algoritmická předpojatost]].

[[it_encyklopedie:ai_rozcestnik|Zpět na AI rozcestník]]