Data Lake

Waarde halen uit verschillende typen data.

Betere en snellere besluiten

Een data lake is een gecentraliseerde opslagplaats die opslag van zowel gestructureerde en ongestructureerde gegevens op elke schaal mogelijk maakt. Gegevens kunnen worden opgeslagen in hun oorspronkelijke formaat, zonder ze eerst te moeten structureren.

Een data lake kan gestructureerde gegevens uit relationele databases (rijen en kolommen) bevatten, als ook semi-gestructureerde gegevens (CSV, logboeken, XML, JSON), ongestructureerde gegevens (e-mails, documenten, pdf's) en binaire gegevens (afbeeldingen, audio, video. Het kan "on premises" (binnen de datacenters van een organisatie) of "in de cloud" worden ingericht.

De mogelijkheid om in minder tijd meer gegevens uit meerdere bronnen te gebruiken, en de mogelijkheid om gebruikers in staat te stellen samen te werken om gegevens op verschillende manieren te analyseren, leidt tot betere en snellere besluitvorming.


Orbit Images Data Maturity SVG B_Data lake
spacers

Data lake versus data warehouse

Een data warehouse is een database die geoptimaliseerd is om relationele gegevens te analyseren die afkomstig zijn van operationele bedrijfsapplicaties. De structuur van de data, en het schema worden vooraf gedefinieerd om het data warehouse te optimaliseren voor snelle rapportage en analyse.

Een data lake is anders, omdat het relationele gegevens van bedrijfsapplicaties én niet-relationele gegevens van mobiele apps, IoT-apparaten en sociale media combineert.

De gegevens worden in hun oorspronkelijke formaat, zonder een structuur of schema te definiëren, opgeslagen. Men weet immers van tevoren niet welke eventueel toekomstige vragen beantwoord zouden moeten worden. 

Veel organisaties zien de voordelen van data lakes, en breiden hun traditionele data warehouse met data lake functionaliteit uit, om door de toepassing van data science nieuwe informatiemodellen te kunnen ontdekken.

Orbit Images Data Maturity SVG B_Data Warehouse vs Data Lake
spacers

Voorkom een data moeras

De belangrijkste uitdaging met betrekking tot een data lake architectuur ligt in het feit dat er ruwe data wordt opgeslagen, zonder enig overzicht met betrekking tot de inhoud. Aangezien data scientists per use case (query on the fly) bepalen welke data zij nodig hebben, moet een data lake specifieke mechanismen hebben om data te kunnen catalogiseren en te beveiligen.

Zonder deze elementen kunnen gegevens niet worden gevonden, of kunnen ze niet worden vertrouwd, wat resulteert in een 'gegevensmoeras'. Om aan de behoeften van een breder publiek te voldoen, moeten data lakes beschikken over goed beheer, semantische consistentie en een goede toegangscontrole.

data_swamp_v2