Um Daten Wissen zu entlocken, erfolgen in der Regel immer drei Schritte:
- Daten aufbereiten
- Daten analysieren
- Ergebnisse visualisieren
Dabei kann die Reihenfolge auch anders herum sein, wie bei der grafischen Datenanalyse. Medienbrüche zwischen diesen drei Prozessschritten sorgen regelmäßig für Fehler und zusätzliche Aufwände. Vor diesem Hintergrund liegt ein großer Vorteil von R in den schier unendlichen Möglichkeiten zur Datenvisualisierung als Ergänzung zur Datenaufbereitung und Analyse.
Die Möglichkeiten zur Visualisierung von Analyseergebnissen übertreffen alle bekannten Werkzeuge zur Datenanalyse bei Weitem. Aufgrund der Tatsache, dass sich jedes Objekt – letztendlich jeder Pixel – einer Grafik direkt mit den Analyseergebnissen verbinden lässt, sind die einzigen Restriktionen zur Visualisierung von Daten die Kreativität und das Know-how des Anwenders. Werden alle drei Schritte in R abgewickelt, lassen sich einfach Workflows für wiederkehrende Visualisierungen bspw. für Reporting erstellen.
Das Prinzip „Schlankes Kernsystem R“ + spezialisierte Pakete funktioniert auch für die Grafikerstellung sehr gut. Auch hier entwickeln Spezialisten in ihrem Fach die Software (weiter). Zu erwähnen sind dabei vor allem die beiden Pakete ggplot2 oder lattice.
An dieser Stelle sollen exemplarisch drei verschiedene Diagrammarten dargestellt werden, die gerne genutzt werden, sich aber mit den üblichen Standardprogrammen nur sehr mühsam erzeugen lassen.
Profilliniendiagramm
Ein Profilliniendiagramm bzw. Polaritätendiagramm ist eine besondere Form eines Liniendiagramms bei dem die Linie(n) vertikal statt horizontal verlaufen. In der Marktforschung und der Psychologie sind solche Grafiken weit verbreitet. Sie eignen sich besonders für die differenzierte Darstellung von Produkten oder Marken hinsichtlich verschiedener Merkmale oder Eigenschaften, aber auch für die Abbildung von Kompetenzprofilen.
In R lässt kann eine solche Grafik mit Hilfe weniger Zeilen Code erstellt werden.
1
2
3
4
5
6
7
8
|
###############################################################################################################
# Profilliniendiagramm.
# Jede Profillinie wird per Koordinaten gezeichnet, d.h. jeder Mittelwert wird mit dazugehörigem y-Wert angebeben
# xlim und ylim geben die Größe der Grafik vor bzw. das Koordinatensystem
plot(x = c(1:1), type=„n“, ylim=c(1,10),xlim=c(1,5), frame.plot=F, xlab=„“, ylab=„“, yaxt=„n“, xaxt=„n“, main=„Bewertung der Marken XYZ hinsichtlich folgender Merkmale“, fg=„blue“)
# Einzeichnen der horizontalen und vertikalen Hilfslinien, vorher festlegen der Range von x und y
y
|
Wasserfalldiagramm
Ein Wasserfalldiagramm ist eine Abwandlung eines gestapelten Säulendiagramms. Wasserfalldiagramme bieten sich besonders an, um relative Veränderungen oder aufeinander aufbauende Prozesse anschaulich darzustellen.
In R funktioniert diese Darstellungsweise indem die Koordinaten der Säulen, die gezeichnet werden sollen, vorgegeben werden.
Die unten stehende Grafik zeigt die Entwicklung der Tagesgeldverzinsung nach Jahren. Die Säulen zeigen die Differenz des Mittelwertes der jährlichen Verzinsung im Vergleich zum Mittelwert des Vorjahres. Eine rote Säule zeigt eine negative Veränderung an, eine grüne eine positive.
1
2
3
4
5
6
7
8
9
10
11
12
|
# Waterfallchart by eoda
# Einbinden der notwendigen Pakete
library(ggplot2)
# Historische Tagesgeld-Zinsen von der Budensbank einlesen
Tagesgeld = read.csv(„http://www.bundesbank.de/statistik/statistik_zeitreihen_download.php?func=directcsv&from=&until=&filename=bbk_SU0101&csvformat=de&euro=mixed&tr=SU0101“, sep = „;“, head=TRUE)
# Rohdaten aufbereiten
Tagesgeld0, „Plus“, „Minus“)
Agg[1,8]
|
Heatmap
Eine besondere Darstellungsweise, die in der letzten Zeit sehr populär geworden ist (beispielsweise über die Visualisierung von Fußballern und deren Laufwegen), sind sogenannte Heatmaps.
Heatmaps eignen sich besonders, um mehrdimensionale Daten übersichtlich darzustellen. In R lassen sich solche Grafiken mit Hilfe von ggplot2 einfach erstellen.
Die Beispielgrafik unten zeigt die relative Entwicklung des DAX Kurses im Jahr 2009. Auf der X-Achse sind die Kalenderwochen angeordnet und auf der Y-Achse findet man die Wochentage, an denen die DAX-Papiere gehandelt wurden. Je kräftiger ein Feld grün gefärbt ist, desto höher ist der prozentuale Gewinn des DAX-Kurses im Vergleich zum Vortag. Analog dazu verhält sich die Rotfärbung eines Feldes in Bezug auf den prozentualen Verlust.
Hier entlang.