Der Sturm gewinnt Spiele, die Abwehr Meisterschaften: Eine der berühmtesten Fußball-Weisheiten ist der Ausgangspunkt, um der Bedeutung des Data Engineers auf den Grund zu gehen. Natürlich stehen im Analytik-Kontext strategische Informationen statt Meisterschaften im Fokus, aber der Weg zum Erfolg basiert in beiden Fällen auf einer starken Teamleistung und einer guten Taktik.
Der Data Engineer legt den Grundstein
Vergleichbar mit dem Hype um virtuose Offensivspieler im Fußball, lag im Umfeld von Künstlicher Intelligenz und Big Data der Fokus der Unternehmen lange Zeit fast ausschließlich auf den Data Scientists. Mit einem umfangreichen Skill- und Toolset sowie kreativen Analyseansätzen gelingt es den Datenanalysten, Optimierungspotenziale zu identifizieren und Wettbewerbsvorteile zu generieren. Die entscheidende Grundlage dafür: das Datenmanagement. Genau hier – im richtigen Spielaufbau – liegt eines der Hauptbetätigungsfelder eines Data Engineers.
Der Herr des Data Warehouse
Wenn Daten das Öl des 21. Jahrhunderts sind, dann ist es dem Data Engineer vorbehalten, die wertvollen Datenquellen zu erschließen und den Datenfluss in die richtigen Bahnen zu lenken. Daten zusammenführen, speichern, aufbereiten, anreichern und bereitstellen: Im besten Fall gelingt dem Data Engineer die perfekte Vorlage für den Data Scientist, die dieser dann aufnehmen und mit seinem Analytik-Know-how verwandeln kann.
Dieser Bereich alleine unterstreicht schon die besondere Rolle des Data Engineers, aber seine Aufgaben gehen noch deutlich darüber hinaus. Denn – um den Fußballvergleich zu erweitern – der Data Engineer ist nicht nur Spieler, sondern gleichzeitig auch noch Trainer und Platzwart in einer Person. Er ist der Herr der IT -Infrastruktur. Abgestimmt auf die Anforderungen aus Data Science und Fachabteilung, muss er von der Auswahl und Anbindung skalierbarer Data-Warehouse-Architekturen über die Implementierung von ETL-Prozessen bis zur Entwicklung eigener Softwarekomponenten das passende Umfeld für die Data Scientists schaffen. Da sowohl Betrieb und Support der dann vorhandenen Hardware- und Software-Architektur, als auch die Einhaltung der Vorgaben zum Datenschutz beim Data Engineer liegen können, sind die Grenzen zum Tätigkeitsfeld eines IT-Administrators häufig fließend.
Nicht verwunderlich also, dass der akademische Background der Data Engineers häufig im Bereich der klassischen Informatik oder der Softwareentwicklung liegt. Mittlerweile tragen auch deutsche Universitäten der starken Nachfrage nach Dateningenieuren Rechnung und bieten dedizierte Studiengänge zum Data Engineering an.
Das Toolset
Die Arbeit in einem sehr breiten Aufgabenfeld bedingt den Umgang mit einem komplexen Toolset:
- Datenbankmanagementsysteme wie MySQL, Microsoft SQL, Cassandra, mongoDB, Teradata oder NoSQL
- Programmiersprachen wie R, Python, Java, JavaScript, C# oder C++
- Big-Data-Frameworks wie Hadoop, Spark oder Storm
Jedes Data-Science-Projekt hat seine individuellen Anforderungen im Hinblick auf die richtige IT-Infrastruktur. Die Herausforderung für den Data Engineer liegt darin, für jedes Projekt ein performantes Environment zu identifizieren und produktiv zum Einsatz zu bringen.
Das Prinzip „Garbage In, Garbage Out“
Genau wie im Fußball ein Stürmer auf passgenaue Anspiele angewiesen ist, ist auch der Data Scientist abhängig von einer guten Datenbasis. Auch das beste Analysemodell liefert nur dann Ergebnisse von strategischem Wert, wenn im Vorfeld die Datenqualität stimmt. Die erfolgreiche Realisierung eines Analyseprojekts steht oder fällt also mit der Vorarbeit des Data Engineers. Das macht ihn unverzichtbar und in Kombination mit seinem kongenialen Partner – dem Data Scientist – für Unternehmen in Zeiten der Digitalisierung so wertvoll.