Der Tutorial-Tuesday ist traditionell ein gelungener Einstieg in die useR! Konferenz – dies bestätigte sich auch in diesem Jahr. Das Data-Science-Team von eoda hat die unterschiedlichsten Tutorials besucht und gibt einen Überblick.

Impression aus der Wild Gallery – dem Veranstaltungsort der useR!2017 in Brüssel.

Dirk Eddelbuettel | Rcpp: From Simple Examples to Machine Learning

Unleash the Power with R and C++: Geschriebene Routinen in C++ können einen Performance Boost von bis zu 750 Prozent nach sich ziehen – dies fanden die Teilnehmer in dem Tutorial von Dirk Eddelbuettel heraus.

Die Optimierung kann von einem linearen Modell über eine Clusterlösung bis hin zu einem Algorithmus für maschinelles Lernen angewendet werden. Die C++ Schnittstelle Rcpp kann in R effektiv verwendet werden, dafür zeigte Dirk Eddelbuettel vielseitige und differenzierte Beispiele. Die Lösung profitiert von einem starken Dualismus von R und C++.

Bernd Bischl, Heidi Seibold, Joaquin Vanschoren | OpenML: Connecting R to the Machine Learning Platform OpenML

Kollaboratives Arbeiten ist ein wichtiges Thema im Bereich Data Science. Umso besser, dass OpenML als Machine Learning Plattform genau dieses unterstützt. Nutzer können Datensätze herunterladen und die Community bekommt dann die Möglichkeit, entweder eigene Algorithmen zu schreiben oder bestehende Algorithmen zu verbessern.

Der einzelne User kann Tasks definieren („learning“, „classification“ …), auf deren Basis die Algorithmen dann von weiteren Usern entwickelt werden können. Die Plattform liefert diverse Benchmarks für die Einschätzung der Performance der gerechneten Modelle, die auch visualisiert dargestellt werden können.

Zusätzlich können die jeweiligen Jobs, Tasks und Flows über ihre ID’s abgerufen werden – der User bekommt dadurch einen Überblick über die ausgeführten Analysen. Meta-Variablen können bei der weiteren Analyse helfen.

Im Mittelpunkt des eoda Standes auf der useR!2017: Das große Data-Science-Wimmelbild.

Charlotte Wickham | Solving iteration Problems with purrr

Charlotte Wickham präsentierte in “Solving iteration Problems with purrr” das R-Paket ihres Bruders Hadley Wickham, nicht nur einfach mit einer repräsentativen Datenbasis, sondern auch mit einem spannenden Beispiel und gab die Einführung mithilfe von Star Wars-Daten.

Dabei stellte sie fest: Iterationsprobleme sind allgegenwärtig, weshalb eine Operation auf viele Elemente nicht nur sinnvoll scheint, sondern sie es auch definitiv ist. purrr bietet dazu ein benutzerfreundliches Interface zur Programmierung von Iterationen. Der größte Vorteil ist hier die konsistente und vorhersehbare Dateneingabe und -ausgabe.

Die Slides dieses Vortrags finden Sie hier.

Taylor Arnold, Lauren Tilton | Introduction to Natural Language Processing with R

Texte als Datenquelle stellen Data Scientists nicht selten vor eine größere Herausforderung. Das nimmt Taylor Arnold von der University of Richmond zum Anlass, in seinem Vortrag „Introduction to Natural Language Processing with R“ Tools und Ansätze vorzustellen, die die Analyse der Texte erleichtern.

Der Dozent selbst ist Autor des R-Pakets „cleanNLP“, ein Paket, welches Konzepte aus dem tidyverse heranzieht und auf Python- und Java-Bibliotheken zugreifen kann. „Das macht das Paket spannend für alle, die tagtäglich Texte analysieren müssen“, weiß Data Scientist Erik Barzagar-Nazari. Ein Highlight des Tutorials: Die Klassifizierung von Sätzen der ehemaligen US-Präsidenten Bush und Obama.

Hana Ševčíková | Introduction to parallel computing in R

Hana Ševčíková (University of Washington) gibt mit ihrem Tutorium “Introduction to parallel computing in R” einen Überblick über die verschiedenen Frameworks zur Parallelisierung mit R. Mit dabei: snow, parallel und foreach.

Hana Ševčíková (University of Washington) während ihres Tutorials zum Thema “Introduction to parallel computing in R”.

Sie verglich die Frameworks nicht nur an Hand von bloßen Benchmarks, sondern zog auch Aspekte wie die Reproduzierbarkeit der Ergebnisse in Betracht. Und stellte mit snowFT und doRNG Lösungen zur Erstellung von Zufallszahlen in einer parallelisierten Umgebung vor.

Für Interessierte sind die Kursmaterialien des Tutorials hier verfügbar.

Die Bilder vom Tutorial-Tuesday finden Sie hier:

Hier entlang.