====== Trénovací data (Training Data) ====== **Trénovací data** jsou souborem informací (texty, obrázky, tabulky, zvuky), které se používají k učení algoritmu [[it_encyklopedie:machine_learning|strojového učení]]. Model v těchto datech hledá vzorce, vztahy a statistické souvislosti, které mu následně umožňují činit předpovědi nebo rozhodnutí u dat, která nikdy dříve neviděl. Většina moderních systémů AI vyžaduje obrovské objemy dat (tzv. Big Data), aby dosáhla vysoké přesnosti. ===== 1. Rozdělení dat při vývoji ===== Při tvorbě modelu se celkový dataset obvykle rozděluje do tří částí, aby se předešlo [[it_encyklopedie:bias|přetrénování]] (overfittingu): * **Trénovací sada (Training set):** Největší část dat (obvykle 70–80 %), na které se model přímo učí a upravuje své vnitřní váhy. * **Validační sada (Validation set):** Slouží k ladění parametrů modelu během učení. Pomáhá vývojáři určit, kdy je model hotov. * **Testovací sada (Test set):** Skupina dat, která nebyla při trénování použita. Slouží k finálnímu, nestrannému ověření přesnosti modelu. ===== 2. Strukturovaná vs. Nestrukturovaná data ===== ^ Typ dat ^ Popis ^ Příklad ^ | **Strukturovaná** | Data s pevným formátem, uložená v tabulkách nebo databázích. | Historie transakcí v bance, teplotní čidla. | | **Nestrukturovaná** | Data bez jasného formátu, která tvoří většinu dnešního internetu. | Fotografie, videa, e-maily, hlasové zprávy. | ===== 3. Labeling (Anotace dat) ===== U **učení s učitelem** (supervised learning) musí být data "označkovaná" (labeled). To znamená, že ke každému vstupu musí existovat správná odpověď. * **Příklad:** Fotografie musí mít popisek "kočka", "auto" nebo "chodec". * Anotace je často nejdražší a nejpomalejší částí vývoje AI, protože ji často musí provádět lidé (anotátoři). ===== 4. Kvalita vs. Kvantita ===== Pro úspěšné trénování jsou klíčové tyto vlastnosti dat: * **Reprezentativnost:** Data musí pokrývat všechny situace, které mohou v reálném světě nastat (např. samořiditelné auto musí vidět fotky silnice ve dne, v noci, v dešti i v mlze). * **Čistota:** Data by neměla obsahovat příliš mnoho chyb, duplicit nebo irelevantních informací (šumu). * **Vyváženost:** Pokud bude v datech 99 % obrázků psů a 1 % koček, model se naučí každé zvíře označit jako psa. ===== 5. Syntetická data ===== V poslední době se stále častěji využívají **syntetická data** – data vytvořená jinou umělou inteligencí nebo počítačovou simulací. Používají se tam, kde jsou reálná data vzácná (např. havárie letadel), příliš drahá na pořízení nebo citlivá z hlediska soukromí (lékařské záznamy). > **Etická poznámka:** Pokud trénovací data obsahují historické předsudky (např. diskriminaci při schvalování úvěrů), model tyto předsudky převezme a bude je automaticky opakovat. Tento jev se nazývá [[it_encyklopedie:bias|algoritmická předpojatost]]. [[it_encyklopedie:ai_rozcestnik|Zpět na AI rozcestník]]