Was ist ein Bias?

Wenn ein Data Scientist von Bias spricht, dann ist dabei beispielsweise die Rede von einer natürlichen Varianz bei Messwerten oder eine Verzerrung von Datenquellen. Kurzum: Bias beschreiben systematische Abweichungen von Messwerten. Nicht immer haben verschiedene Bias denselben Ursprung: Manche Bias beziehen sich auf Unschärfen der Schätztheorie, andere Bias formulieren Ungenauigkeiten der Stichprobe und wieder andere sind rein psychologischer Natur – etwa dann, wenn Ergebnisse nicht der eigenen Meinung entsprechen und daher unterbewusst als nicht plausibel wahrgenommen werden. Wie das in der Realität aussieht?

Temperatur als Schätzwert

Möchte man mit drei verschiedenen Zimmerthermometern die Temperatur eines Raumes messen, können anhand von unkontrollierbaren Schwankungen verschiedene Temperaturangaben gemacht werden. Strömende Zugluft von Türen und Fenstern, Sonneneinstrahlungen oder die Abwärme von Elektrogeräten sind hier mögliche Gründe für unterschiedliche Messergebnisse.

Stichproben und Meinungen beeinflussen das Ergebnis

Auf der Messe VeggieWorld findet eine Umfrage zum Thema „das Leibgericht der Deutschen“ statt. Das Ergebnis: Die beliebteste Leibspeise der Deutschen ist vegetarisch. Doch ist das Ergebnis wirklich so überraschend? Der Teufel steckt in der Stichpobe: Im Rahmen der vegetarischen Messe kann nämlich davon ausgegangen werden, dass hier keine valide Stichprobenauswahl widergespiegelt wird.

Ein weiteres Beispiel: Bei einem Machine-Learning-Use-Case lernt der Algorithmus auf Basis der ihm zur Verfügung gestellten Daten. Bilden diese Daten nur eine selektierte Realität ab, lernt der Algorithmus die Vorurteile mit. Stellen wir uns vor, der trainierte Algorithmus soll anhand von Bildern automatisch erkennen, welches Geschlecht die abgebildete Person hat. Füttert man den Algorithmus vorab mit Bildern, auf denen Frauen in der Küche zu sehen sind, wird er denken, dass sämtliche Personen in Küchen weiblich sind. Stimmt natürlich nicht.

Diese Verzerrung von Datenquellen nennt sich Selection-Bias. Eine weitere Variante von Verzerrungen stellen Confirmation-Bias dar. Sie beschreiben die Neigung, Daten so auszuwählen, dass diese die eigene Überzeugung eher unterstützen als diese in Frage zu stellen.