Welche Defizite gibt es in der Lehre und wie vermittelt man in Zukunft Data Science und Statistik – diesen spannenden Fragen hat sich Deborah Nolan in ihrer Keynote am vierten und damit letzten Tag der useR! 2016 gewidmet.
Deborah Nolan: Statistical Thinking in a Data Science Course
Deborah Nolan von der University of California hat zunächst den Begriff „Data Science“ definiert:
Die Gewinnung, Aufbereitung und vollständige Analyse von Daten inklusive der Kommunikation der aus der Analyse abgeleiteten Ergebnisse.
Neben statistischen Fähigkeiten sind dafür auch Kompetenzen aus dem Bereich Softwareentwicklung notwendig. Beim heutigen Stand der Lehre von statistischen Verfahren stellt sie folgende Kritikpunkte fest:
- In vielen Statistik-Kursen wird genau eine Methode mit einem gut aufbereitetem Datensatz vorgestellt. Nolan verwendet mit „Daten in Dosen“ eine treffende Metapher: Öffnen – aufwärmen – servieren.
- Explorative Datenanalyse hat nur einen geringen Stellenwert und geht selten über Balken-, Säulen- und Kreisdiagramme hinaus. Moderne Verfahren der explorativen Analyse, die dazu dienen ein tiefes Verständnis für die Daten und die dahinterliegenden Zusammenhänge zu gewinnen, sind dagegen unterrepräsentiert.
- Code wird – wenn überhaupt – als Schritt für Schritt Anweisung präsentiert. Es geht nur darum, mit minimalem Programmieraufwand den Computer dazu zu bringen, eine Analyse auszuführen. Ein grundlegendes Verständnis für die verwendete Sprache wird zumeist nicht vermittelt.
- Die Normalverteilung ist die Grundlage für alles. Fast alle Testverfahren, die in der Statistikausbildung gelehrt werden, basieren auf Normalverteilung.
Ihre Vorschläge zur Verbesserung der Situation in der Lehre orientieren sich an den zuvor genannten Kritikpunkten:
- Es sollten analytische Fragestellungen mit offenem Analyseausgang behandelt werden.
- Der gesamte Data Science Stack sollte behandelt werden: Von der Datengewinnung, über die Aufbereitung und Transformation der Daten bis zur Analyse.
- Moderne computergestützte explorative Verfahren sollten mehr Gewicht bekommen.
- Die statistische Theorie sollte von der Theorie der Normalverteilung befreit werden. Permutationstest oder Bootstrap bieten sich beispielsweise als Alternativen an. Mit diesen Verfahren kann das Verständnis für statistische Signifikanz veranschaulicht und gleichzeitig die Fähigkeit zur Programmierung von Statistiksoftware vermittelt werden.
- Die computergestützte Analyse sollte rechenintensive Verfahren einbeziehen: Simulationsverfahren, Monte-Carlo, Klassifikations- und Regressionsbäume und darauf basierende Verfahren (Random Forest, Boosting). Daneben müssen auch Technologien gelehrt werden: Datenbanken (SQL), Speicherformate wie XML und JSON, Verfahren zur Verarbeitung von Textdaten sowie Versionsverwaltung mit GIT und andere Shell Tools. Auch unterschiedliche Datenformate sollten angesprochen werden, nicht nur „saubere“ data.frames.
Nolans Analysen und ihre Verbesserungsvorschläge decken sich mit unseren Erfahrungen aus der Praxis. Zwar bezieht sich ihre Analyse auf die Situation in den USA, die Statistikausbildung in Deutschland sieht jedoch bis auf wenige Ausnahmen nicht besser aus. Insbesondere wenn Statistik als Teilbereich einer Ausbildung in einer Fachdisziplin gelehrt wird. Mit unserem Angebot von Data Science Praktika hoffen wir als eoda zumindest einen kleinen Beitrag zur Verbesserung der Ausbildungssituation in Deutschland leisten zu können.
Hier entlang.