Im ersten Teil des Artikels wurde die Ausgangsfrage für das Retail-Analyseprojekt definiert und das Wissen der Fachabteilung in das Projekt inkludiert. Der Data Scientist hat alle relevanten Daten identifiziert und die Datenbanken kennengelernt. Damit das Data-Science-Projekt ein Erfolg wird, ist das Setup einer gut durchdachten Infrastruktur essentiell – dazu steht der Data Scientist im engen Austausch mit dem Data Engineer und dem Solution Architect. Anschließend setzt sich der Data Scientist genau mit den Daten auseinander und konnte bereits wichtige Erkenntnisse, beispielsweise über die Relevanz der Parkplatzgröße, gewinnen. Weiter geht’s:
Identifizierung einer Analysestrategie
Die Zielsetzung ist klar definiert, die Daten sind erschlossen, es beginnt die Identifikation einer geeigneten Analysestrategie. In einer Team-Disziplin wie Data Science, die von der Kombination unterschiedlicher Erfahrungen und Fähigkeiten lebt, entsteht die Analysestrategie in der Regel im Rahmen eines Brainstormings über Vorgehensweisen und Methoden. Im konkreten Analyse-Case und bei den gegebenen Anforderungen fällt die Wahl auf ein Data-Mining-Verfahren: Random Forest. Dieses eignet sich besonders gut, da es geringe Anforderungen an die Input-Variablen hat und dabei gleichzeitig Rückschlüsse auf die wichtigsten Einflussgrößen zulässt.
Datenmanagement
Der Data Scientist bereitet die Daten weiter auf und bringt sie für die Analyse entsprechend in Form. In der Regel entfällt auf diesen Schritt ein signifikanter Teil der Arbeit des Data Scientists. Selten liegen alle Daten im geeigneten Format vor oder lassen sich ohne Mühen miteinander verknüpfen. Und in Abhängigkeit von der Analysestrategie können nochmal besondere Schritte der Datenaufbereitung erforderlich sein, denn jedes Data Mining Verfahren hat besondere Anforderungen an die eingehenden Merkmale.
Modellierung
Sind die Daten vorbereitet, folgt der Einsatz der vorab identifizierten Analyseverfahren. Auf Basis der Rahmenbedingungen, der möglichen Standorte und der von bestehenden Märkten bekannten Einflussfaktoren können per Random Forest die Umsätze der geplanten Filiale prognostiziert werden. Der Data Scientist trainiert das Modell anhand einer Stichprobe der vorhandenen Daten und kann damit aufzeigen, wie sich die Markteigenschaften auf den Umsatz auswirken. Wichtig für aufschlussreiche Ergebnisse: Es sollten nur Informationen einbezogen werden, die auch vor einer geplanten Filialeröffnung bekannt sind.
Evaluation der Modellgüte
Nach der Erstellung und der Lernphase des Prognosemodells wird die Modellgüte eingeschätzt. Dafür wird das Modell für die Prognose des Umsatzes eines zufällig ausgewählten Testsets (etwa 30% der Gesamtfilialen) eingesetzt. Diese Filialen waren nicht Teil des Trainingsdatensatzes. Die Diskrepanz zwischen Prognose und tatsächlich generiertem Umsatz (RMSE: Root-mean-square-error ist hier eine mögliche Benchmark) gibt Aufschluss über die Verlässlichkeit der Prognose und liefert dem Data Scientist Ansatzpunkte um das Modell weiter zu verfeinern, Vorverarbeitungen vorzunehmen oder Variablen herauszunehmen. Gibt auch die Fachabteilung das Prognosemodell frei, erfolgt die Modellübergabe.
Dokumentation / Berichtlegung
Damit die Fachabteilung das Modell optimal nutzen kann, erstellt der Data Scientist einen Bericht in dem er idealerweise den Einfluss einzelner Variablen auf die Zielgröße darstellt und das Vorgehen im Rahmen des Projekts nochmal erklärt. Dieser Bericht hat auch Elemente einer Projekt-Retrospektiv: Verbesserungsmöglichkeiten der Modellgüte – beispielsweise durch die Einbeziehung bislang unberücksichtigter Variablen – sind ein Anknüpfungspunkt bei der Beurteilung des Projekts. Modell, Bericht und das dokumentierte Analyseskript werden in einem Workshop an die Fachabteilung übergeben.
Dieses Data-Science-Projekt umfasst von der Zielsetzung bis zur finalen Übergabe 30 Werktage. Der Umfang von Analyseprojekten kann abhängig von der individuellen Fragestellung und den gegebenen Anforderungen stark variieren. Projektschritte und die Aufteilung der Aufwände folgen aber in der Regel dem hier skizziertem Ablauf.
Abschließend kann die Operationalisierung der Analysen erfolgen:
Produktiv setzen: Die Modelle in die Praxis überführen
Um aus einem einmaligen Projekt einen nachhaltigen Business Case zu entwickeln, gilt es das Analyseskript in die produktiven Unternehmensprozesse zu implementieren. Dies geschieht typischerweise durch die Integration des Skripts in eine Anwendung mit benutzerfreundlichem Webinterface, welches für Fachanwender optimal nutzbar ist und mit dem zukünftig auch weitere Standortentscheidungen maßgeblich unterstützt werden können.
Kontinuierliche Evaluation
Damit das Analysemodell stets den optimalen Output und damit eine belastbare Entscheidungsgrundlage liefert, muss es kontinuierlich evaluiert werden. Relevante Parameter können sich zum Beispiel durch neue Filialgründungen oder Entwicklungen im Kundenverhalten verändern – dies gilt es anzupassen, um die Modellgüte immer weiter zu optimieren.
Hier entlang.