Obsah
Metriky vzdálenosti v Machine Learningu
Metriky vzdálenosti jsou matematické funkce, které definují „blízkost“ mezi dvěma datovými body v n-rozměrném prostoru. Volba správné metriky zásadně ovlivňuje výkon algoritmů strojového učení, zejména u učení bez učitele.
1. Euklidovská vzdálenost (Euclidean Distance)
Nejpoužívanější metrika, známá z geometrie jako „vzdálenost vzdušnou čarou“. Je to délka úsečky spojující dva body.
Vzorec: $$d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$$
- Vhodná pro: Spojitá numerická data (např. souřadnice, teplota).
- Nevýhoda: Je velmi citlivá na měřítko (jednotky) a na odlehlé hodnoty (outliers). Vyžaduje předchozí normalizaci dat.
2. Manhattanská vzdálenost (Manhattan / Taxicab Distance)
Měří vzdálenost jako součet absolutních rozdílů jejich souřadnic. Název je odvozen od mřížovitého půdorysu ulic v Manhattanu, kde se nelze pohybovat šikmo skrz bloky domů.
Vzorec: $$d(x, y) = \sum_{i=1}^{n} |x_i - y_i|$$
- Vhodná pro: Diskrétní data nebo v situacích, kdy máme vysoký počet dimenzí. Je méně citlivá na odlehlé hodnoty než Euklidovská vzdálenost.
3. Kosinová podobnost (Cosine Similarity)
Měří úhel mezi dvěma vektory. Nezajímá ji velikost (délka) vektorů, ale pouze jejich směr.
Vzorec: $$\cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}$$
- Vhodná pro: Textovou analýzu (NLP). Například dva dokumenty mohou mít různou délku (velikost vektoru), ale pokud používají podobná slova, jejich směr (úhel) bude podobný.
4. Hammingova vzdálenost (Hamming Distance)
Používá se pro porovnání dvou řetězců stejné délky. Počítá počet pozic, na kterých se odpovídající symboly liší.
- Příklad: Vzdálenost mezi „1011101“ a „1010101“ je 1.
- Vhodná pro: Kategorické proměnné (po One-Hot kódování), analýzu genů nebo detekci chyb v přenosu dat.
5. Minkowského vzdálenost (Minkowski Distance)
Zobecněná forma Euklidovské a Manhattanské vzdálenosti.
Vzorec: $$d(x, y) = \left( \sum_{i=1}^{n} |x_i - y_i|^p \right)^{1/p}$$
- Pokud $p=1$, jde o Manhattanskou vzdálenost.
- Pokud $p=2$, jde o Euklidovskou vzdálenost.
Srovnávací tabulka
| Metrika | Typ dat | Citlivost na outliers | Hlavní využití |
|---|---|---|---|
| Euklidovská | Numerická | Vysoká | Obecné ML, shlukování |
| Manhattanská | Numerická / Celočíselná | Nízká | k-NN, vysokodimenzionální data |
| Kosinová | Text (Vektory) | Nízká | NLP, doporučovací systémy |
| Hammingova | Kategorická / Binární | Nulová | Porovnávání řetězců, genetika |
Důležité upozornění: Normalizace
Většina metrik vzdálenosti vyžaduje, aby data byla ve stejném měřítku. Pokud má jedna vlastnost rozsah 0-1 (např. pravděpodobnost) a druhá 0-1000 (např. cena), bude vlastnost s větším rozsahem dominovat výpočtu vzdálenosti. Před výpočtem vždy použijte Min-Max Scaling nebo Standardizaci.
Tagy: ml matematika statistika distance_metrics clustering
