Obsah

Data Lake (Datové jezero)

Data Lake je rozsáhlé úložiště, které uchovává data v jejich nativním formátu (raw), dokud nejsou potřeba pro analýzu. Je postaveno na principu Schema-on-Read, což znamená, že struktura dat se definuje až ve chvíli, kdy je čteme, nikoliv při jejich ukládání.

Je to klíčová součást moderní MLOps infrastruktury a Big Data architektury, protože umožňuje levně ukládat petabajty informací bez nutnosti okamžitého čištění.

1. Architektura: Od surových dat k informacím

Moderní data lake se obvykle dělí do logických zón (často nazývaných Medallion Architecture):

2. Data Lake vs. Data Warehouse

Tyto dva koncepty se často pletou, ale slouží k odlišným účelům:

Vlastnost Data Lake Data Warehouse
Data Strukturovaná, polostrukturovaná i nestrukturovaná. Pouze vysoce strukturovaná (tabulky).
Předpis (Schema) Schema-on-Read (při čtení). Schema-on-Write (při zápisu).
Uživatelé Datoví vědci, ML inženýři. Business analytici, manažeři.
Cena Nízká (levné cloudové úložiště). Vyšší (optimalizováno pro výkon).
Hlavní účel Experimentování, trénování AI. BI, reportování, historické přehledy.

3. Technologie pro Data Lake

Data lake obvykle běží na distribuovaných systémech:

4. Hlavní výhody a rizika

Výhody:

Rizika (Data Swamp): Bez správného katalogování, správy metadat a řízení přístupů se data lake může změnit v Data Swamp (datovou bažinu) – místo, kde sice data jsou, ale nikdo je neumí najít, pochopit nebo ověřit jejich kvalitu.

5. Budoucnost: Data Lakehouse

Dnes se tyto světy propojují do konceptu Data Lakehouse (např. Databricks nebo Snowflake). Ten kombinuje levné úložiště a flexibilitu jezera s výkonem a správou transakcí (ACID), kterou známe z datových skladů.

Příklad z praxe: E-shop ukládá do Data Lake všechna kliknutí uživatelů na webu (miliardy řádků měsíčně). Datoví vědci z těchto surových dat následně trénují doporučovací systém, zatímco vyčištěná data o nákupech posílají do Data Warehouse pro měsíční přehled tržeb.

Zpět na Data a Databáze