Den dritten Tag der useR! Conference 2016, den Hadley Wickham mit seinem Beitrag eröffnet hatte, rundete Daniela Witten mit ihrer Keynote ab.
Daniela Witten: Flexible and Interpretable Regression Using Convex Penalties
Gut geeignet für Prognosen oder leicht zu interpretieren: Diesen beiden Eigenschaften lassen sich viele Data Mining Modelle zuordnen. Neuronale Netze sind zum Beispiel selbst unter Einbeziehung nicht-linearer unabhängiger Variablen für Prognosen geeignet, Regressionsmodelle oder Klassifikations- und Regressionsmodelle hingegen sehr gut zu interpretieren.
Daniela Witten von der University of Washington hat ihre Keynote genutzt, um zwei Modelle vorzustellen, die beide Eigenschaften miteinander verbinden:
- CRISP (Convex regression with interpretable sharp partitions)
- FLAM (Fused Lasso Additive Model)
Ziel ihrer Forschung war es, einen nicht-parametrischen Ansatz zu finden, der gute Modellperformance aufweist und dabei die Interpretierbarkeit von Regressionsmodellen zulässt.
Witten hat Ihren mathematisch geprägten Vortrag mit einem anschaulichem Beispiel verdeutlicht: Dem Welt-Zufriedenheitsindex (World Happiness Index). In einer weltweiten Befragung wird die Zufriedenheit in (fast) allen Ländern der Erde gemessen. Als Kovariaten stehen unter anderem das Bruttoinlandsprodukt, die Lebenserwartung bei der Geburt und die Anzahl der wissenschaftlichen Artikel zur Verfügung.
In einem ersten Ansatz hat sie versucht die Zufriedenheit mit einer Spline-Regression zu erklären. Witten hat in ihrem Modell zwei Kovariaten verwendet: Die Lebenserwartung und die Anzahl der wissenschaftlichen Publikationen. Für die Lebenserwartung konnte kein klarer Zusammenhang gefunden werden, die Anzahl der wissenschaftlichen Publikationen korrelierte negativ mit der Zufriedenheit, d.h. je mehr Publikationen in einem Land veröffentlicht wurden, desto unglücklicher die Bevölkerung. Ein Zusammenhang, der sich als Artefakt herausstellt, also eine bedingte Verfälschung des Messergebnisses der Befragung.
Nachdem Sie CRISP und FLAM mathematisch detailliert dargelegt und die Modelleigenschaften im Vergleich zu Klassifikationsbäumen und Thin Plate Splines (TPS) veranschaulicht hat, wurden die Beispieldaten mit CRISP und FLAM erneut analysiert. Nun zeigt sich: Ab einer Lebenserwartung von 75 Jahren steigt die Zufriedenheit deutlich. Und die Anzahl der wissenschaftlichen Veröffentlichungen steht in keinem Zusammenhang mit der Zufriedenheit.
Zusammenfassend lässt sich sagen, dass CRISP und FLAM interessante Ansätze sind, wenn es darum geht gut interpretierbare Modelle mit einem nicht-parametrischen Ansatz zu entwickeln, ohne dabei an Modellperformance zu verlieren.
Den würdigen Ausklang eines ereignisreichen Konferenztages bildete das Conference Dinner auf einer Yacht in der Bucht von San Francisco.