Data Lake je rozsáhlé úložiště, které uchovává data v jejich nativním formátu (raw), dokud nejsou potřeba pro analýzu. Je postaveno na principu Schema-on-Read, což znamená, že struktura dat se definuje až ve chvíli, kdy je čteme, nikoliv při jejich ukládání.
Je to klíčová součást moderní MLOps infrastruktury a Big Data architektury, protože umožňuje levně ukládat petabajty informací bez nutnosti okamžitého čištění.
Moderní data lake se obvykle dělí do logických zón (často nazývaných Medallion Architecture):
Tyto dva koncepty se často pletou, ale slouží k odlišným účelům:
| Vlastnost | Data Lake | Data Warehouse |
|---|---|---|
| Data | Strukturovaná, polostrukturovaná i nestrukturovaná. | Pouze vysoce strukturovaná (tabulky). |
| Předpis (Schema) | Schema-on-Read (při čtení). | Schema-on-Write (při zápisu). |
| Uživatelé | Datoví vědci, ML inženýři. | Business analytici, manažeři. |
| Cena | Nízká (levné cloudové úložiště). | Vyšší (optimalizováno pro výkon). |
| Hlavní účel | Experimentování, trénování AI. | BI, reportování, historické přehledy. |
Data lake obvykle běží na distribuovaných systémech:
Výhody:
Rizika (Data Swamp): Bez správného katalogování, správy metadat a řízení přístupů se data lake může změnit v Data Swamp (datovou bažinu) – místo, kde sice data jsou, ale nikdo je neumí najít, pochopit nebo ověřit jejich kvalitu.
Dnes se tyto světy propojují do konceptu Data Lakehouse (např. Databricks nebo Snowflake). Ten kombinuje levné úložiště a flexibilitu jezera s výkonem a správou transakcí (ACID), kterou známe z datových skladů.
Příklad z praxe: E-shop ukládá do Data Lake všechna kliknutí uživatelů na webu (miliardy řádků měsíčně). Datoví vědci z těchto surových dat následně trénují doporučovací systém, zatímco vyčištěná data o nákupech posílají do Data Warehouse pro měsíční přehled tržeb.