De 5 eigenschappen die een Data Lake moet hebben om bedrijfswaarde te kunnen leveren

blog-header

De sterk in opmars zijnde Data Lakes worden meestal gedefinieerd als grote opslagplaatsen van gegevens, opgeslagen in hun oorspronkelijke formaat en gehost op standaard hardware. Hun aantrekkingskracht ten opzichte van traditionele Datawarehouses ligt in het vermogen om snel grote hoeveelheden ongefilterde data te verzamelen en goedkoop op te slaan. De uitdaging ligt echter in het kunnen harmoniseren van alle data en deze beschikbaar stellen aan zakelijke gebruikers. Dit proces is arbeidsintensief en vereist geschoolde Data Science en IT-personeel.

Hieronder volgen 5 belangrijke factoren die essentieel zijn om een Data Lake project daadwerkelijk toegankelijk en bruikbaar te maken voor zakelijke gebruikers:

1. Standaard voor transformeren en harmoniseren van data

Er moet een standaard manier zijn om bedrijfsdata te transformeren en te harmoniseren, ongeacht de bron (gestructureerd of ongestructureerd) of afkomst (binnen of buiten de onderneming). Een voorbeeld hiervan is het op basis van een semantisch model omzetten van gegevens van alle formaten, gestructureerd en ongestructureerd, in een zogenaamd RDF/XML-formaat. De onderliggende schaalbare servers passen zich daarbij automatisch aan de hoeveelheid binnenkomende data.

2. Uniforme standaard voor zinvolle beschrijving van termen

Een semantisch datamodel kan eenvoudig de "betekenis" van gegevens in een data lake vastleggen en leveren met alle inherente relaties en attributen. De gegevens worden precies opgeslagen op de manier waarop ze zijn gemodelleerd, en op de wijze waarop zakelijke gebruikers denken, waardoor er relatief makkelijk vragen kunnen worden gesteld en nieuwe hypothesen onderzocht. In de datawarehouse wereld zou een dergelijk model worden vertaald naar een relationeel logisch model met indexen om sets van bekende of verwachte vragen te optimaliseren. Het bevragen van een dergelijk model vereist vertaling naar SQL queries, hetgeen voor veel zakelijke gebruikers een brug te ver is.

3. Selfservice mogelijkheden

Er moeten selfservice-mogelijkheden bestaan voor zakelijke gebruikers om naar voor hen relevante data sets te kunnen zoeken, ze te kunnen combineren en er in te kunnen browsen. Zakelijke gebruikers moeten zelf visualisatie-dashboards kunnen configureren voor het verkrijgen waardevolle inzichten uit data analyse.

4. Ad-hoc data discovery en analytics

Er moeten goede tools zijn voor voor ad-hoc data discovery en analytics. Een state of the art query-engine moet zakelijke gebruikers in staat stellen om snel en zonder support van IT, antwoorden te krijgen op gestelde vragen, zelfs als deze van tevoren niet voorzien waren

5. Data kwaliteit, governance en security.

“Gedemocratiseerde” big data, het in staat stellen van meerdere gebruikers om gegevens te kunnen ontdekken en analyseren, vereist een zorgvuldig programma van flexibiliteit en hergebruik van data, gecombineerd met een goede controle om databeveiliging, data lineage en data context te kunnen waarborgen.

Er komen in toenemende mate slimme tools beschikbaar die het mogelijk maken om diverse data, gestructureerd en ongestructureerd, op big data-schaal semantisch te koppelen, analyseren en beheren en beschikbaar te maken voor selfserviceconsumptie door zakelijke gebruikers.

Meer weten?

Wil je meer weten over de waarde die Data Science je bedrijf kan bieden? Download dan de klantcase, en lees hoe Agentschap Telecom Data Science technieken inzet om de hoge directe herstelkosten van graafschade te reduceren.

CTA Klantcase Agentschap Telecom