Der führende Anbieter von professioneller Software für die freie Statistik-Programmiersprache R, Revolution Analytics, hat eine neue Version von Revolution R Enterprise entwickelt. Nach Abschluss der laufenden Testphase ist der offizielle Release Termin für den 22. April festgesetzt.
Die Version unterstützt Open Source R 2.15.3. Somit können Revolution R Enterprise Anwender von den umfangreichen Neuerungen von Version R 2.15 profitieren und abhängige Pakete in der neuesten Version nutzen.
Zudem beinhaltet Revolution R Enterprise 6.2 unter anderem zahlreiche Verbesserungen des ScaleR Package für High-Performance Analysen:
High Speed Teradata Connector
Zur Nutzung des Teradata Parallel Transport Programms entworfen, bietet dieser Anschluss dem Nutzer einen wesentlich schnelleren Weg, Daten aus einer Teradata-Datenbank in ein analytisches Projekt einzubinden. Ein Leistungsvergleich hat gezeigt, dass Datentransfers über diesen Connector fünf- bis siebenmal schneller ablaufen können als über eine ODBC-Verbindung.
Parallel Random Number Generation
Dieses Feature soll besonders Monte-Carlo-Simulationen unterstützen. Mit Revolution R Enterprise 6 kann nun parallelisiert Zufallszahlen erzeugt werden. Die neuen Funktionen rxRngNewStream, rxRngGetStream, rxRngSetStream, und rxRngDelStream bieten eine R Schnittstelle zu den parallelen Zufallsgeneratoren, die mit den Intel MKL-Bibliotheken geliefert werden. Dadurch können Zufallszahlen erzeugt werden, zum Beispiel für Verteilungsberechnungen wie sie RevoScaleR’s rxExec ausführt. Diese Möglichkeit ist eine notwendige Grundlage für Random Forests-Verfahren, welche Revolution Analytics für das Release der Enterprise Version 7.0 eingeplant hat.
Fast Fixed Format Text Data Source
Revolution Analytics ist auf den Wunsch zahlreicher User eingegangen und hat eine schnellere Möglichkeit zum Import und zur Analyse von fixen Formatdateien für die Nutzung der rxImport Funktion geschaffen.
By-Group Summary Statistics
Häufig entsteht bei Analysen der Bedarf nach einem „roll up“ der Daten, zum Beispiel nach einer Bündelung von Transaktionsdaten auf der Kundenebene. Die Funktionen rxCube und rxSummary geben dem Anwender nun mehr Kontrolle über den Output und schreiben zusammenfassende Daten direkt in eine leistungsfähige XDF-Datei für weitergehende Analysen um.
Stepwise Linear Regression für „Big-Data“-Modelle
Die Implementierung dieser neuen Funktionen bietet durch automatisierte Variablenselektion gerade bei einer Vielzahl an erzeugten Modellen einen wesentlichen Zeitvorsprung im Vergleich zu traditionellen Modell-Anpassungstechniken. Die Version 6.2 unterstützt in diesem Bereich der linearen Regression die Methoden Vorwärts-, und Rückwärtsselektion und auch die bidirektionale Suche. Individuell auf den Benutzer abgestimmt stehen die Selektionskriterien AIC, BIC und Mallows’Cp zur Verfügung. Im Laufe des Jahres sollen mit der Version 7.0 auch noch die Möglichkeiten der logistischen Regression ausgebaut werden.
Zudem wurden viele weitere vorhandene Funktionen optimiert:
So nutzen die Funktionen Sort, Merge und Split jetzt besser den verfügbaren Speicher. Aus Performance-Gründen ebenfalls als positiv zu bewerten ist, das die rxSplit-Funktion nun standardmäßige XDF-Dateien erstellt.
Neben den Performance-Verbesserungen liefert Revolution R Enterprise 6.2 neue Möglichkeiten für die Entwicklung von Web-Anwendungen mittels DeployR. Zu den Updates gehören unter anderen neue Möglichkeiten zur Script- und Repository-Verwaltung.
Ausblick auf Revolution R Enterprise Release 7
Das Release der Version 6.2 steht kurz bevor, doch natürlich beschäftigen sich die Entwickler von Revolution Analytics auch jetzt schon mit weiteren Verbesserungen für die Zukunft.
Konkret soll es um das für Ende des Jahres geplante Erscheinen von Revolution R Enterprise 7 gehen. Neben den bereits angedeuteten Funktionen soll eine der wichtigsten Optimierungen die Unterstützung für Predictive Analytics in Hadoop betreffen. Anwender müssen heute noch oft Daten aus Hadoop-Systemen extrahieren und an den Server zur Berechnung verschieben.
Revolution R Enterprise wird eine Schnittstelle bereitstellen, Open-Source rmr project, welche einen direkten Zugriff auf die verteilten Daten mit R ermöglicht. In Verbindung mit ScaleR auf Hadoop können dann große Datenmengen auf verteilten Hadoop-Daten hoch performant analysiert werden und für Predicitive Modelling verwendet werden. Durch das Wegfallen der Daten-Extrahierung wird ein ganzer Prozessschritt eingespart. Weitere, noch geheim gehaltene Neuerungen werden im Laufe des Jahres bekannt gegeben.
Hier entlang.