In der letzten Woche endete die useR! Konferenz in Coventry. Rund 450 Teilnehmer aus aller Welt diskutierten über neue Pakete und Anwendungsfälle von und mit R. Dabei sind drei große Themenstränge in vielen Vorträgen und Diskussionen hervorgetreten:
- Big Data Analyse
- Disziplinäre Heterogenität
- Interaktive Grafiken
Big Data
Das Schlagwort „Big Data“ schwappt seit einiger Zeit aus Amerika in den deutschsprachigen Diskurs über. So war es auch auf der diesjährigen useR! Konferenz präsent, zum einen in eigenen Vorträgen, zum Teil als Aspekt spezieller Analyseverfahren – z.B. im Bereich Gendatensequenzierung oder Portfoliooptimierung. Bereits im Eröffnungsvortrag zur Entwicklung von R kündigte Brian Ripley an, dass in der nächsten Version die Verwendung von Multi-Prozessoren deutlich einfacher werden wird. Besonders hervorzuheben ist an dieser Stelle der Beitrag von Lee E. Edlefsen von Revolution Analytics. In seinem invited talk hat Edlefsen das RevoScaleR Paket vorgestellt, dass Performanceprobleme löst und Analysen in mehrfacher Hinsicht skalierbar macht: Von kleinen zu riesigen Datensätzen, von einem zu mehreren Prozessorkernen, von einem physikalischen Rechner bis hin zu Clustern. Am Thema big data Analyse zeigt sich paradigmatisch die rasende Entwicklungsgeschwindigkeit von R. Noch vor kurzem war die Bearbeitung von großen Datenmengen das zentrale Argument gegen R. Heute ist das Problem so gut wie gelöst. Mit dem 64-bit Release R 2.11 ist der adressierbare Hauptspeicher von bis zu 4 GB auf 8 TB(!) gestiegen. Die Einführung des Byte-Compilers in R 2.13 erhöht die Bearbeitungsgeschwindigkeit und die oben erwähnten Entwicklungen werden die Performance weiter verbessern. Revolution Analytics hat in diesem Zusammenhang ein interessantes Benchmark veröffentlicht. Dabei wurde die Performance eines SAS-setups mit dem von R unter Revolution R Enterprise 5.0 beta verglichen. Für die Lösung einer logistischen Regression mit einer Milliarde Fällen brauchten beide Programme knapp 80 Sekunden. Die R basierte Lösung war sogar etwas schneller. Auf der Kostenseite waren die Unterschiede gravierender: Das SAS-System kostete laut Revolution Analytics rund 1 Million Dollar, das auf R basierende Setup schlug mit 5.000 Dollar zu Buche und war damit um den Faktor 200 günstiger.
Disziplinäre Heterogenität
Die Konferenz führte Wissenschaftler und Entwickler zusammen, die sich auf höchstem Niveau mit R beschäftigen. Gleichzeitig waren die inhaltlichen Felder sehr unterschiedlich. Sie reichten von „echter“ Statistik über Sozialforschung, Ökonomie, Medizin bis hin zu Bioinformatik. R als einheitliche Analysesprache in heterogenen Anwendungsfeldern ermöglicht inter- und crossdisziplinäre Entwicklungen. So wurde beispielsweise die Verwendung von Techniken der Gendatensequenzierung im Bereich Portfolio-optimierung diskutiert. Die Entwicklung steht diesbezüglich noch am Anfang. Das Potential ist aber bereits zu erkennen. Konferenzen wie useR! leisten ihren Beitrag, den Tellerrand zu erweitern und gemeinsame Projekte anzustoßen.
Interaktive Grafiken
Grafiken waren schon immer eine der großen Stärken von R. Bisher beschränkten sich R im Wesentlichen auf statische Grafiken. Auf der useR!2011 wurden diverse Pakete zum Thema interaktive Grafiken vorgestellt. So zum Bespiel eine R Schnittstelle zu Processing (Arbeitstitel Rocessing, noch nicht auf CRAN), die Pakete gridSVG, mit denen sich interaktive SVG Grafiken erstellen lassen sowie RnavGraph zur interaktiven Navigation durch große mehrdimensionale Grafiken. Das unbestrittene Highlight der useR! war ein Beitrag ebenfalls aus dem Bereich interaktive Grafiken: Simon Urbaneks Schlussvortrag „R Graphics supercharged“. Urbanek stellt darin das Paket iX (iPlots eXtreme) – Codename Acinonyx – vor und schlug damit gleichzeitig die den Brücke zum Thema „big data“. Denn sein Paket ermöglicht die interaktive graphische Analyse von sehr großen Datenmengen. Die Ausgangsüberlegung ist, dass große Datenmengen neue Visualisierungsansätze erfordern. Klassische Visualisierungstechniken sind dazu nicht prädestiniert, weil sie in der Regel von überschaubaren Datensätzen ausgeht. Die Ansätze zur interaktiven Visualisierung sind allesamt sehr vielversprechend und erweitern das Anwendungsspektrum erheblich. Gerade für methodische Laien sind Grafiken die erste Wahl, um sich in komplexen Datenstrukturen zu orientieren.
Fazit
Die useR! Konferenz war insgesamt gesehen eine rundum gelungene Veranstaltung. Neben den fachlichen Aspekten erfüllt sie zudem eine wichtige Funktion, indem sie die inhaltlich heterogene Community zusammenführt und die gemeinsame Mission in den Vordergrund stellt. Es war faszinierend zu sehen, wie in allen Anwendungsfelder neue und verbesserte R Paketen entstehen und die ohnehin hohe Qualität weiter steigt. Auf die zukünftige Entwicklung darf man gespannt sein.