Trénovací data jsou souborem informací (texty, obrázky, tabulky, zvuky), které se používají k učení algoritmu strojového učení. Model v těchto datech hledá vzorce, vztahy a statistické souvislosti, které mu následně umožňují činit předpovědi nebo rozhodnutí u dat, která nikdy dříve neviděl.
Většina moderních systémů AI vyžaduje obrovské objemy dat (tzv. Big Data), aby dosáhla vysoké přesnosti.
Při tvorbě modelu se celkový dataset obvykle rozděluje do tří částí, aby se předešlo přetrénování (overfittingu):
| Typ dat | Popis | Příklad |
|---|---|---|
| Strukturovaná | Data s pevným formátem, uložená v tabulkách nebo databázích. | Historie transakcí v bance, teplotní čidla. |
| Nestrukturovaná | Data bez jasného formátu, která tvoří většinu dnešního internetu. | Fotografie, videa, e-maily, hlasové zprávy. |
U učení s učitelem (supervised learning) musí být data „označkovaná“ (labeled). To znamená, že ke každému vstupu musí existovat správná odpověď.
Pro úspěšné trénování jsou klíčové tyto vlastnosti dat:
V poslední době se stále častěji využívají syntetická data – data vytvořená jinou umělou inteligencí nebo počítačovou simulací. Používají se tam, kde jsou reálná data vzácná (např. havárie letadel), příliš drahá na pořízení nebo citlivá z hlediska soukromí (lékařské záznamy).
Etická poznámka: Pokud trénovací data obsahují historické předsudky (např. diskriminaci při schvalování úvěrů), model tyto předsudky převezme a bude je automaticky opakovat. Tento jev se nazývá algoritmická předpojatost.