Metriky vzdálenosti jsou matematické funkce, které definují „blízkost“ mezi dvěma datovými body v n-rozměrném prostoru. Volba správné metriky zásadně ovlivňuje výkon algoritmů strojového učení, zejména u učení bez učitele.
Nejpoužívanější metrika, známá z geometrie jako „vzdálenost vzdušnou čarou“. Je to délka úsečky spojující dva body.
Vzorec: $$d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$$
Měří vzdálenost jako součet absolutních rozdílů jejich souřadnic. Název je odvozen od mřížovitého půdorysu ulic v Manhattanu, kde se nelze pohybovat šikmo skrz bloky domů.
Vzorec: $$d(x, y) = \sum_{i=1}^{n} |x_i - y_i|$$
Měří úhel mezi dvěma vektory. Nezajímá ji velikost (délka) vektorů, ale pouze jejich směr.
Vzorec: $$\cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}$$
Používá se pro porovnání dvou řetězců stejné délky. Počítá počet pozic, na kterých se odpovídající symboly liší.
Zobecněná forma Euklidovské a Manhattanské vzdálenosti.
Vzorec: $$d(x, y) = \left( \sum_{i=1}^{n} |x_i - y_i|^p \right)^{1/p}$$
| Metrika | Typ dat | Citlivost na outliers | Hlavní využití |
|---|---|---|---|
| Euklidovská | Numerická | Vysoká | Obecné ML, shlukování |
| Manhattanská | Numerická / Celočíselná | Nízká | k-NN, vysokodimenzionální data |
| Kosinová | Text (Vektory) | Nízká | NLP, doporučovací systémy |
| Hammingova | Kategorická / Binární | Nulová | Porovnávání řetězců, genetika |
Většina metrik vzdálenosti vyžaduje, aby data byla ve stejném měřítku. Pokud má jedna vlastnost rozsah 0-1 (např. pravděpodobnost) a druhá 0-1000 (např. cena), bude vlastnost s větším rozsahem dominovat výpočtu vzdálenosti. Před výpočtem vždy použijte Min-Max Scaling nebo Standardizaci.
Tagy: ml matematika statistika distance_metrics clustering