Het succes van een data scientist hangt af van de kwaliteit van de data waartoe hij toegang heeft. De meeste bedrijven slaan hun gegevens op in allerlei verschillende formaten en data stores. Hier is een belangrijke rol weggelegd voor de data engineers. Zij bouwen pijplijnen die die data omzetten in formaten die datawetenschappers kunnen gebruiken.
Data engineers zijn net zo belangrijk als data scientists, maar zijn doorgaans minder zichtbaar omdat ze verder van het analyse-eindproduct verwijderd zijn.
Data scientists houden zich bezig met geavanceerde wiskunde en statistische analyse op basis de data-infrastructuur die wordt gebouwd en onderhouden door de data-ingenieurs, maar zij zijn niet verantwoordelijk voor het bouwen en onderhouden van die infrastructuur.
In plaats daarvan zijn het interne klanten die trends en relaties proberen te identificeren, waarvoor ze een verscheidenheid aan geavanceerde machines en methoden nodig hebben om data te kunnen raadplegen.
Data engineers daarentegen richten zich op de toepassingen en het oogsten van (big) data. Hun rol omvat niet zozeer het uitvoeren van veel analyses of het maken experimentele ontwerpen. In plaats daarvan zijn zij met de praktische invulling bezig, zij creëren interfaces en mechanismen voor de stroom van, en de toegang tot informatie, met een focus op het verzamelen, beheren, analyseren en visualiseren van gegevens en het ontwikkelen van batch- en real-time analytische oplossingen.
Data engineers zijn de loodgieters van data science. Data scientists zijn van hen afhankelijk om hun werk goed te kunnen doen.