Obsah

Metriky vzdálenosti v Machine Learningu

Metriky vzdálenosti jsou matematické funkce, které definují „blízkost“ mezi dvěma datovými body v n-rozměrném prostoru. Volba správné metriky zásadně ovlivňuje výkon algoritmů strojového učení, zejména u učení bez učitele.

1. Euklidovská vzdálenost (Euclidean Distance)

Nejpoužívanější metrika, známá z geometrie jako „vzdálenost vzdušnou čarou“. Je to délka úsečky spojující dva body.

Vzorec: $$d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$$

2. Manhattanská vzdálenost (Manhattan / Taxicab Distance)

Měří vzdálenost jako součet absolutních rozdílů jejich souřadnic. Název je odvozen od mřížovitého půdorysu ulic v Manhattanu, kde se nelze pohybovat šikmo skrz bloky domů.

Vzorec: $$d(x, y) = \sum_{i=1}^{n} |x_i - y_i|$$

3. Kosinová podobnost (Cosine Similarity)

Měří úhel mezi dvěma vektory. Nezajímá ji velikost (délka) vektorů, ale pouze jejich směr.

Vzorec: $$\cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}$$

4. Hammingova vzdálenost (Hamming Distance)

Používá se pro porovnání dvou řetězců stejné délky. Počítá počet pozic, na kterých se odpovídající symboly liší.

5. Minkowského vzdálenost (Minkowski Distance)

Zobecněná forma Euklidovské a Manhattanské vzdálenosti.

Vzorec: $$d(x, y) = \left( \sum_{i=1}^{n} |x_i - y_i|^p \right)^{1/p}$$

Srovnávací tabulka

Metrika Typ dat Citlivost na outliers Hlavní využití
Euklidovská Numerická Vysoká Obecné ML, shlukování
Manhattanská Numerická / Celočíselná Nízká k-NN, vysokodimenzionální data
Kosinová Text (Vektory) Nízká NLP, doporučovací systémy
Hammingova Kategorická / Binární Nulová Porovnávání řetězců, genetika

Důležité upozornění: Normalizace

Většina metrik vzdálenosti vyžaduje, aby data byla ve stejném měřítku. Pokud má jedna vlastnost rozsah 0-1 (např. pravděpodobnost) a druhá 0-1000 (např. cena), bude vlastnost s větším rozsahem dominovat výpočtu vzdálenosti. Před výpočtem vždy použijte Min-Max Scaling nebo Standardizaci.

Tagy: ml matematika statistika distance_metrics clustering