Data engineering

Het creëren van interfaces en mechanismen voor de stroom van en toegang tot informatie.

Gegevens omzetten naar een bruikbaar formaat voor analyse

Het succes van een data scientist hangt af van de kwaliteit van de data waartoe hij toegang heeft. De meeste bedrijven slaan hun gegevens op in allerlei verschillende formaten en data stores. Hier is een belangrijke rol weggelegd  voor de data engineers. Zij bouwen pijplijnen die die data omzetten in formaten die datawetenschappers kunnen gebruiken.

Data engineers zijn net zo belangrijk als data scientists, maar zijn doorgaans minder zichtbaar omdat ze verder van het analyse-eindproduct verwijderd zijn.

Data engineer
spacers

Data infrastructuur

Data scientists houden zich bezig met geavanceerde wiskunde en statistische analyse op basis de data-infrastructuur die wordt gebouwd en onderhouden door de data-ingenieurs, maar zij zijn niet verantwoordelijk voor het bouwen en onderhouden van die infrastructuur.

In plaats daarvan zijn het interne klanten die trends en relaties proberen te identificeren, waarvoor ze een verscheidenheid aan geavanceerde machines en methoden nodig hebben om data te kunnen raadplegen.

data scientist vs data engineer
spacers

De loodgieters van data science

Data engineers daarentegen richten zich op de toepassingen en het oogsten van (big) data. Hun rol omvat niet zozeer het uitvoeren van veel analyses of het maken experimentele ontwerpen. In plaats daarvan zijn zij met de praktische invulling bezig, zij creëren interfaces en mechanismen voor de stroom van, en de toegang tot informatie, met een focus op het verzamelen, beheren, analyseren en visualiseren van gegevens en het ontwikkelen van batch- en real-time analytische oplossingen.

Data engineers zijn de loodgieters van data science. Data scientists zijn van hen afhankelijk om hun werk goed te kunnen doen.

dat pipeline