Dateninfrastruktur: Aufbau einer zentralisierten Entwicklungsumgebung für verteilte Data Science Initiativen bei Covestro

Vorteil

Schaffung einer reproduzierbaren, zentralisierten Entwicklungsumgebung für R und Python.

Herausforderung

Dezentrale Data Science Initiativen in einem international agierenden Konzern ohne gemeinsame standardisierte Entwicklungsumgebung.

Toolset

RStudio Produkte, Kubernetes, IAM, Terraform, Ansible


Herausforderung

Der führende deutsche Polymer Werkstoffhersteller Covestro treibt die Digitalisierung und damit verbunden zahlreiche Initiativen im Bereich Data Science und KI voran. Um diese weiter voranzutreiben, fehlte eine gemeinsame standardisierte Entwicklungsumgebung. Bei einem international agierenden Konzern wie Covestro wird das Thema Data Science dezentral in unterschiedlichen Bereichen und Teams vorangetrieben.

Dies erschwert die Entwicklungsarbeit und führt zu einem hohen Verwaltungsaufwand sowie zu Compliance-Problemen. Außerdem stellten unterschiedliche Umgebungen die Data Scientists vor Herausforderungen, da interne Kompatibilitäten der Entwicklungsprodukte nicht gewährleistet werden konnten.

Ziel

Covestro möchte ihren Data Scientists eine zentralisierte Entwicklungsumgebung für R und Python-Entwicklungen bereitstellen, um deren Verwaltungsaufwände zu reduzieren und die produktive Arbeit zu fördern. Weiterhin soll die neue Analyse-Infrastruktur skalierbar und reproduzierbar sein.

Lösung

eoda begleitet Covestro im Rahmen des eoda | analytic infrastructure consultings von der Skizzierung der Architektur (siehe unten), über die Implementierung bis hin zum laufenden Betrieb der Analyseumgebung.

Im Zentrum der Infrastruktur stehen als ausgewählte Tools RStudio-Produkte. Dazu gehören RStudio Workbench für die Entwicklung, RStudio Connect für das Teilen und Bereitstellen von Applikationen und RStudio Package Manager für die Paketverwaltung. Des Weiteren wird ein Kubernetes-Backend zum Auslagern der Rechenprozesse verwendet, um eine horizontale Skalierung gewährleisten zu können. Die neue Analyseumgebung integriert sich in die bestehende AWS Infrastruktur bei Covestro.

Außerdem bilden die vorhandenen Management-Tools, wie bspw. das Identity Access Management (IAM), weiterhin eine zentrale Verwaltungsinstanz im Unternehmen, ohne dass dabei die neue Umgebung hohe Mehraufwände generiert. Im Rahmen der geforderten Reproduzierbarkeit, wurde die Verskriptung der Infrastruktur mit Terraform und Ansible umgesetzt. Dieser Infrastructure-as-Code-Ansatz sorgt dafür, dass das Aufsetzen sowie die Konfiguration der Umgebung nachvollziehbar und schnell umsetzbar ist.

Ergebnis

Mit Hilfe von eoda wurde eine reproduzierbare, zentralisierte Entwicklungsumgebung für R und Python geschaffen. Neben der einfacheren Erfüllung der Compliance-Richtlinien, sorgt die zentrale Analyseumgebung für effizientere Zusammenarbeit im Kontext des dezentralen Arbeitsmodells von Covestro.

Bildquelle: Covestro AG

Wir implementieren auch Ihre Data-Science-Infrastruktur

    Wir freuen uns auf Ihre Nachricht!