Schlagworte wie Big Data oder Data Mining erfahren zur Zeit eine besondere Aufmerksamkeit. Sie sind Ausdruck des Trends, Daten als wertvollen Rohstoff zu begreifen. IT-Systeme in Unternehmen produzieren jeden Tag riesige Datenmengen. Praktisch alle Unternehmensteile wie Einkauf, Produktion, Administration und Verkauf werden nahezu vollständig in IT-Systemen abgebildet. Auch im privaten, im wissenschaftlichen, oder öffentlichen Umfeld steigt die Bedeutung großer Datenbestände. Welche Potenziale verbergen sich jedoch in der Analyse der Daten und wie lässt die Wertschöpfung effizient bewerkstelligen?
Über R
Die Statistiksoftware R ist nach Norman Nie, dem Gründer und langjährigen CEO von SPSS, die zur Zeit mächtigste Programmiersprache zur Analyse und Visualisierung von Daten – sie ist frei erhältlich und gewinnt gerade massiv Zuspruch. In den USA ist der Absatz mit Fachbüchern zu R in Q4 2012 um 127% gestiegen. Nahezu alle IT-Anbieter im Umfeld von Big Data wie IBM, Oracle oder SAP öffnen Ihre Systeme für R. Die „Linux-Geschichte“ wiederholt sich aktuell im Markt für Analysesoftware. Die Qualität und den Innovationsgrad, den die zumeist wissenschaftliche R-Community heute an den Tag legt, ist unvergleichlich in der jüngeren IT-Geschichte. Profitieren werden davon nicht nur Wissenschaft oder die großen Unternehmen. Selbst mit geringem Budget lässt sich mit R der Mehrwert schaffen, der in den Datenbergen steckt.
Die Bedeutung des Produktionsfaktors Daten nimmt zu
Kürzere Produktlebenszyklen, Individualisierung, Gesetzgebung sowie die fortschreitende Digitalisierung in allen Bereichen erhöhen stetig die Menge der vorhandenen Daten. Gleichzeitig versprechen die großen Datenmengen und statistische Analysen valide Ergebnisse und hohen Nutzen für unternehmerische Entscheidungen. Je mehr diese Datenmenge als Nutzenfaktor in den Fokus von Entscheidern rückt, desto dringender stellt sich die Frage, wie aus dem Produktionsfaktor Daten intelligente Entscheidungen abgeleitet werden können.
Komplexes Anforderungsset an statistische Software
Mit einem Blick auf die Vielzahl der statistischen Methoden, Kennwerte und Analyseprozesse, der gleichzeitigen Vielfalt an Datenstrukturen und den Branchen- und abteilungsspezifischen Fragestellungen sind die Bedürfnisse an die eingesetzte Software immens. Beispielhafte und typische Anwendungen statistischer Mustererkennung sind das Aufsuchen homogener Kundengruppen im Handel, Ursachen für den Ausfall von Maschinen oder das Optimieren von Produktionsprozessen.
Wie wird das Wetter, wie entwickeln sich Börsenkurse oder wie entwickelt sich der Umsatz sind typische Fragestellungen aus dem Bereich Vorhersage. Data Mining ist das Schlagwort für ein Verfahrensset, das beispiellose Möglichkeiten bietet, Erkenntnisse aus der großen Datenmenge zu gewinnen. Für diese großen Aufgabengebiete existiert eine Vielzahl von statistischen und mathematischen Methoden wie Clusteranalysen, Faktorenanalysen, Zeitreihenanalysen etc. Diese Methodengruppen in sich haben wiederrum diverse unterschiedliche Verfahren. Mit Hilfe fachgerechter Kombination der verschiedenen Methoden, den richtigen Daten und einer geeigneten Software lassen sich beliebig kreative Fragestellungen lösen. Ob Mustererkennung, Vorhersage oder Data Mining – um die Möglichkeiten von Daten effizient zu nutzen, muss das eingesetzte Analysetool jedoch zunächst in der Lage sein, sich in die spezifischen Anforderungen unternehmerischer Prozesse zu integrieren. Kompatibilität zu anderer Software, Datentypen und Programmiersprachen sind für einen reibungslosen und flexiblen Analyseprozess ohne Medienbrüche unabdingbar. Neben diesen technischen Standards sind Analysefähigkeit und Methodenrepertoire entscheidende Kriterien für den Einsatz der Softwarelösung. Weitere Aspekte im Rahmen der Entscheidung für eine Software sind Punkte wie Investitionssicherheit oder das Kosten- Nutzenverhältnis.
R ist leistungsstarkes Universalwerkzeug
Die Software und Programmiersprache R setzt im Bereich der statistischen Datenanalyse neue Maßstäbe.
R wurde 1993 an der Universität von Auckland in Neuseeland entwickelt und steht für einen völlig neuartigen Ansatz, mit Daten aller Art umzugehen. In der Basisversion bietet R eine Vielzahl von statistischen Methoden wie lineare und nichtlineare Modellierung, klassische statistische Testverfahren, Zeitreihenanalyse, Clusteranalysen etc. und Werkzeuge zur grafischen Visualisierung. Als GNU-Projekt, das heißt als freie Software unter offener Lizenzordnung, wird die R von einer interdisziplinären vorwiegend wissenschaftlichen Community weiterentwickelt. Die Community hat mittlerweile mehr als 4.000 Pakete entwickelt, die für nahezu alle Fragen der Datenanalyse eine Lösung bieten. Die Pakete erlauben die Auswertung von Markforschungsdaten, Finanzdaten, Audio-Files, MRT-Bildern, Social-Media Daten, Gendaten, oder Grafiken. R findet Anwendung in allen Bereichen empirischer Wissenschaft, wobei sich die verschiedenen Disziplinen gegenseitig befruchten. Verfahren der Mustererkennung, die ursprünglich in der Genforschung entwickelt wurden finden heute beispielsweise Verwendung bei Finanzdienstleistern.
Aus der Wissenschaft in die Wirtschaft
Aus historischen Gründen hat R traditionell viele Anwender im wissenschaftlichen Umfeld. In den letzten Jahren haben jedoch auch die Anwender in Unternehmen die Vorzüge der freien Sprache R entdeckt. Finanzinstitute betreiben Risikomanagement mit R, Pharmaunternehmen entwickeln Medikamente mit Hilfe von R, Airlines analysieren die Kundenstimmung auf Twitter mit R und bei Salzgitter Mannesmann werden Prozesse in der Stahlherstellung mit R optimiert. Mit R lassen sich sowohl ad hoc kleinere Analysen durchführen, wie auch komplette Analyse- und Reporting-Prozesse abbilden.
Die Vorteile von R
R unterscheidet sich in einigen Punkten von den alternativen Anwendungen zur Datenanalyse. Die Summe der Eigenschaften macht R einzigartig und besonders. Ein genaueres Hinschauen lohnt sich vor allem bei den folgenden Aspekten:
- Investitionssicherheit: Das Engagement der wissenschaftlichen Community in Verbindung mit dem zunehmenden Interesse großer Unternehmen für R bestätigt den enormen Wirkungsgrad, mit dem sich die Software in den letzten Jahren unter Datenanalysten etabliert hat. Es ist eine äußerst positive Entwicklung der Marktakzeptanz zu erwarten.
- Qualität: Die wesentliche Weiterentwicklung von R findet im Bereich der Wissenschaft statt. Zwei Drittel der Kernentwickler sind Professoren; alle sind professionell im Bereich Datenanalyse an Universitäten oder in Unternehmen tätig. R bietet höchste Zuverlässigkeit und verwendet statistische Verfahren am Puls der Zeit.
- Fachkräfte: An deutschen Universitäten setzen bereits über 20 Prozent der Statistikkurse auf R. Open-Source-Initiativen – wie auch Linux – sind im akademischen Umfeld sehr beliebt. Somit entlassen Universitäten einen stetig wachsenden Strom von R-Experten.
- Funktionsumfang: Der Funktionsumfang, den R heute schon (ohne zusätzliche Investitionen) bietet, ist enorm. Für die Zukunft erscheint es unwahrscheinlich, dass Unternehmen tragfähige Geschäftsmodelle finden werden, mit der sie eine vergleichbare Innovationskraft hervorbringen wie die R-Community.
- Flexibilität: R-Experten können mit dem gleichen Code, den gleichen Tools und dem gleichen Know-how sowohl Big Data als auch kleinere Studien analysieren, Text-Mining wie auch Regressionsanalysen durchführen.
- R ist plattformunabhängig.
- Lizenzkosten: R ist Open Source, es fallen keine Lizenzkosten an.
R im Unternehmensumfeld und Zusammenspiel mit anderer Software
Die Relevanz und Reichweite von R lassen sich dadurch ableiten, wie sich große Anbieter positionieren. Die jüngsten Entwicklungen um R zeigen, dass nahezu alle wichtigen Player, die im Umfeld Big Data, Data Mining oder Business Intelligence unterwegs sind, R für sich entdeckt haben. Exemplarisch seien hier IBM Netezza, Oracle R Enterprise, SAP HANA, SAS oder Jaspersoft genannt.
Mit Revolution Analytics gibt es auch eine Art „Red Hat“, einen kommerziellen Entwickler und Serviceleister, für R. Revolution Analytics ist der führende Anbieter für kommerzielle Software und Services basierend auf dem Open Source Projekt R. Das Unternehmen erweitert R um Aspekte hohe Leistungsfähigkeit, Produktivität und Verfügbarkeit. Das Kernprodukt Revolution R Enterprise erfüllt die Anforderungen der großen Unternehmen aus den Bereichen Finanzdienstleistungen, Biowissenschaften, Handel, Industrie und Medien an eine Software zur Datenanalyse.
R als Universallösung für die Datenanalyse
Gestartet als ein Projekt einer kleinen Gruppe Wissenschaftler hat sich R längst zur Lösung für unternehmenskritische Anwendungen in vielen Bereichen etabliert – wenn auch vor allem in Europa noch versteckt. Mit Hilfe von R und innovativen Analysespezialisten werden bereits heute Bausparverträge gerechnet, Stahl produziert oder Getränke in der Lebensmittelindustrie wetter- und saisonabhängig abgefüllt. Und auf der diesjährigen internationalen useR-Koferenz hat ein Verteter der U.S. Food and Drug Administration dargelegt, dass R auch für klinische Studien zugelassen ist.
Die schnell zunehmende Entwickler- und Nutzergemeinde aus den Universitäten sorgt für weitere Innovation, Verbreitung sowie qualifizierte Spezialisten. Mittel- und langfristig wird R die übergreifende Sprache – die Lingua Franca – für analytische Anwendungen und das wichtigste Hilfsmittel wenn es daran geht, aus Big Data Wissen zu entlocken und Nutzen aus den Daten zu generieren.
Hier entlang.