Die Clusteranalyse ist ein Verfahren zur Identifizierung von Gruppenstrukturen in multivariaten Daten. Hierbei werden die Daten so unterteilt, dass ähnliche Objekte einer Gruppe zugeordnet werden, während die Gruppen sich untereinander möglichst stark unterscheiden. Man spricht dabei von interner Homogenität und externer Heterogenität der Datenpunkte. Folgerichtig steht der englische Begriff „Cluster“ auch für Haufen oder Ansammlung.
Die Clusteranalyse in der Praxis: Das Ende der diffusen Masse
Ein beliebtes Einsatzszenario der Clusteranalyse ist die Kundensegmentierung. Durch das Clustering der Kunden haben Unternehmen die Möglichkeit, eine diffuse Masse in kompakte Segmente mit ähnlichen Bedürfnissen zu unterteilen. Die Clusteranalyse ist dadurch der Garant für ein präzises Marktverständnis, für die Kenntnis der Kundenanforderungen und damit verbunden für eine optimale Ansprache in Marketing und Vertrieb – zugeschnitten auf die entsprechende Zielgruppe.
Ursprünglich stammt das Verfahren übrigens aus der Biologie, wo ein Clustering der Lebewesen verwandte Arten detektiert hat. Auch in den Sozialwissenschaften erfreut sich das Verfahren besonderer Beliebtheit. Die Einsatzszenarien sind also vielfältig und reichen vom gewerblichen, über den gesellschafts- bis zum naturwissenschaftlichen Kontext.
Eine Frage der richtigen Entscheidung: Ähnlichkeitsmaße und der richtige Algorithmus
Wenn es um die Umsetzung von Clusteranalysen geht, sind zwei Entscheidungen ganz wesentlich:
- Die Wahl des Ähnlichkeitsmaßes der Objekte
- Die Wahl des Gruppierungsalgorithmus
Das Ähnlichkeitsmaß bestimmt die Distanzen zwischen den einzelnen Objekten. Es stehen verschiedene Maße zur Verfügung, manche beziehen sich beispielsweise auf das Skalenniveau der Variablen.
Bei der Wahl des Gruppierungsverfahrens bieten sich verschiedene Optionen. Die zwei häufigsten Verfahren sind die hierarchische Methode und die partitionierende Methode. Beim hierarchischen Verfahren verändert sich die Anzahl der Cluster. Bei diesem Verfahren kann die Anzahl der Cluster im Laufe des Rechenprozesses entweder steigen (divisiv) oder fallen (agglomerativ). Im Vergleich dazu benötigt die partitionierende Methode eine vorgegebene Anzahl an Clustern und sortiert die Objekte solange den einzelnen Clustern zu, bis die Varianz innerhalb der einzelnen Gruppen minimal ist. Dieses Verfahren eignet sich, wenn inhaltlich die Anzahl der Cluster festgelegt ist – man also zum Beispiel im Vorfeld schon weiß, wie viele Kundensegmente man bilden möchte.
Eines ist allen zur Verfügung stehenden Verfahren gemein: Am Ende der Clusteranalyse steht die Interpretation. Dann gilt es die Charakteristika der Cluster zu finden und diese richtig einzuschätzen, um den größtmöglichen Erkenntnisgewinn zu erhalten.