Obsah

Trénovací data (Training Data)

Trénovací data jsou souborem informací (texty, obrázky, tabulky, zvuky), které se používají k učení algoritmu strojového učení. Model v těchto datech hledá vzorce, vztahy a statistické souvislosti, které mu následně umožňují činit předpovědi nebo rozhodnutí u dat, která nikdy dříve neviděl.

Většina moderních systémů AI vyžaduje obrovské objemy dat (tzv. Big Data), aby dosáhla vysoké přesnosti.

1. Rozdělení dat při vývoji

Při tvorbě modelu se celkový dataset obvykle rozděluje do tří částí, aby se předešlo přetrénování (overfittingu):

2. Strukturovaná vs. Nestrukturovaná data

Typ dat Popis Příklad
Strukturovaná Data s pevným formátem, uložená v tabulkách nebo databázích. Historie transakcí v bance, teplotní čidla.
Nestrukturovaná Data bez jasného formátu, která tvoří většinu dnešního internetu. Fotografie, videa, e-maily, hlasové zprávy.

3. Labeling (Anotace dat)

U učení s učitelem (supervised learning) musí být data „označkovaná“ (labeled). To znamená, že ke každému vstupu musí existovat správná odpověď.

4. Kvalita vs. Kvantita

Pro úspěšné trénování jsou klíčové tyto vlastnosti dat:

5. Syntetická data

V poslední době se stále častěji využívají syntetická data – data vytvořená jinou umělou inteligencí nebo počítačovou simulací. Používají se tam, kde jsou reálná data vzácná (např. havárie letadel), příliš drahá na pořízení nebo citlivá z hlediska soukromí (lékařské záznamy).

Etická poznámka: Pokud trénovací data obsahují historické předsudky (např. diskriminaci při schvalování úvěrů), model tyto předsudky převezme a bude je automaticky opakovat. Tento jev se nazývá algoritmická předpojatost.

Zpět na AI rozcestník