Aufgepasst! Der Konsum von Margarine beeinflusst Scheidungsraten

Data Scientists von eoda decken auf: Mit einem erhöhten Konsum von Margarine steigen die Scheidungsraten im amerikanischen Bundesstaat Maine. Es liegt also ein Zusammenhang zwischen diesen Variablen vor – eine Korrelation.

Eine Korrelation bezeichnet einen mehr oder minder intensiven Zusammenhang zweier Merkmale. Der errechnete Korrelationskoeffizient r (zwischen 0 und 1) sagt aus, wie gut eine Variable die Veränderung einer anderen Variable wiedergibt, also ob ein Zusammenhang zwischen beiden Variablen besteht.

Je nach konkreter Fragestellung werden die Werte des Korrelationskoeffizienten unterschiedlich bewertet. In den Sozialwissenschaften wird die Stärke des Zusammenhangs meist nach Cohen bestimmt, wobei ein hoher Wert ab r=0.5 angenommen wird. Nachtigall & Wirtz gehen erst ab dem Wert r=0.9 von einem hohen Zusammenhang aus.

Besteht also eine Korrelation zwischen zwei Variablen, wie zum Beispiel Margarinen-Konsum und Scheidungsraten (r=0.99), bedeutet das, dass die hohe Ausprägung des einen Merkmals mit der hohen Ausprägung des anderen Merkmals einhergeht. Um einer Scheidung entgegenzuwirken, sollten die Bürger von Maine also weniger Margarine konsumieren. Logisch, oder?

April, April! Die Bürger von Maine können beruhigt sein und so viel Margarine konsumieren, wie sie möchten – zumindest einen Effekt auf Scheidungsraten wird es dadurch nicht geben.

Denn in der obigen Schlussfolgerung hat sich ein Deutungsfehler eingeschlichen: Ist ein hoher Zusammenhang zwischen zwei Merkmalen immer auf einen kausalen Schluss zurückzuführen?

Um dieser Frage auf den Grund zu gehen, haben wir die Korrelation zwischen Margarine und Scheidungsraten in Maine analysiert und grafisch dargestellt.

Was verbindet den Konsum von Margarine mit Scheidungsraten in Maine?

Ausgangspunkt für diese Analyse bietet der „divorce_margarine“-Datensatz aus dem „dslabs“-Paket, welcher die Scheidungsrate in Maine und die Margarinen-Verkaufszahlen der Jahre 2000 bis 2009 gegenüberstellt. Es ist zu erkennen, dass beide Kurven einen ähnlichen Verlauf aufweisen.

In der nachfolgenden Darstellung werden dieselben Merkmale auf zwei verschiedenen Skalen in einer Grafik dargestellt. Dadurch werden verblüffend ähnliche Kurvenverläufe konstruiert. Diese Vorgehensweise sollte nicht verwendet werden, da so der Beobachtende leicht getäuscht werden kann.

In diesem Beispiel handelt es sich um eine Scheinkorrelation („spurious correlation“). Diese bezeichnet eine Korrelation zweier Größen, der keine Kausalität zu Grunde liegt. Was verursacht dann den Zusammenhang zwischen Margarinen-Konsum und Scheidungen? In diesem Fall handelt es sich wohl um einen Zufall.

Leistung und Grenzen von Korrelationen

Eine auf Korrelation basierte Aussage ist jedoch keineswegs Unsinn – auf die Interpretation kommt es an. Eine Korrelation sagt aus, dass Merkmale in einer Beziehung zueinander stehen. Wenn diese Merkmale sich zusätzlich gegenseitig bedingen, bieten sie eine potentielle Vorhersagekraft.

Ein Beispiel von einer Korrelation mit kausaler Herleitung ist der festgestellte Zusammenhang zwischen dem Absatz von Bier und Windeln zu bestimmten Zeiten in dem Kaufhaus Wal-Mart. Dieses Phänomen wird durch eine Drittvariable begründet: das Einkaufsverhalten von Männern zwischen 30 und 40 Jahren. Nachdem das Bier an den Wochenenden neben den Windeln platziert worden ist, erreichte der Supermarkt eine massiv erhöhte Umsatzleistung.

Ein weiteres Beispiel für eine Korrelation, hervorgerufen durch eine Drittvariable, bietet der Zusammenhang zwischen Eisverbrauch und Sonnenbrandhäufigkeit. Auch hier beeinflussen sich die Variablen nicht gegenseitig. Was sie gemeinsam haben, ist dieselbe Ursache: der Temperaturanstieg im Sommer.

„Want to live longer, even if you’re poor? Then move to a big city in California“ – oder anders ausgedrückt: ein paar weitere Beispiele

Im Internet stößt man auf weitere interessante Zusammenhänge zwischen Variablen: der Pro-Kopf Konsum von Mozzarella hat Auswirkungen auf die Anzahl der Auszeichnungen des Doktoranden/innen-Titels im Bereich der Ingenieurswissenschaften (r=0.96) und der Hähnchenverzehr beeinflusst US Öl-Importe (r=0.90). Die wohl bekannteste und kurioseste Verbindung besteht zwischen dem Ertrinken durch einen Poolunfall und Filmen, in denen Nicolas Cage auftaucht (r=0.67).

 

 

Die oben aufgeführten Korrelationen wurden von Tyler Vigen erstellt, um aufzuzeigen, welche Erkenntnisse man ziehen könnte, wenn man zwei Statistiken miteinander verbindet, ohne sie inhaltlich zu interpretieren. Auch hier werden beide Achsen in einer Grafik dargestellt.

Nichtsdestotrotz, kann es vorkommen, dass sich ähnliche Denkfehler ihren Weg in die Massenmedien bahnen. Die Schlagzeile Want to live longer, even if you’re poor? Then move to a big city in California” ist ein Beispiel dafür, wie Erkenntnisse aus einer Studie fehlinterpretiert werden können. Dabei untersucht die Originalstudie den Zusammenhang zwischen Einkommen und Lebenserwartung, um auf die Verteilung dieser Faktoren in den US-Staaten aufmerksam zu machen.

Spurious correlation: eine Scheininterpretation

Handelt es sich nicht um offensichtliche Scheinkorrelationen, kann man in Versuchung kommen, auf Grund eines hohen Zusammenhangs der Daten von einer Kausalität auszugehen. Anstelle von Scheinkorrelation könnte man auch von Scheininterpretation sprechen, da die dargestellten Zusammenhänge statistisch tatsächlich existieren, diese sich jedoch nicht gegenseitig beeinflussen.

Das Phänomen der Scheinkorrelationen ist allseits bekannt. Dennoch trifft man im Alltag immer wieder auf Situationen, in denen Statistiken fehlinterpretiert werden. Zum einen können Drittvariablen den Zusammenhang zwischen zwei Faktoren beeinflussen. Das kann auch zu sonderbaren Ergebnissen führen, welche gerne von Medien aufgegriffen werden. Zum anderen können statistische Zusammenhänge gefunden werden, solange genügend Sachverhalte gegeneinander abgetragen werden.

Um zu vermeiden, falsche Schlüsse aus der Analyse von Daten zu ziehen, sollte man nicht nur anhand des Korrelationskoeffizienten interpretieren, sondern inhaltlich kritisch bleiben – ganz nach der Devise: Korrelation ist nicht gleich Kausalität.

Wir wünschen einen schönen 1. April!


eoda GmbH - Beitrag vom 01.04.2018

Als Data Science Spezialisten sind wir Ihr Ansprechpartner im Umfeld von Big Data, Machine Learning und Künstlicher Intelligenz. Wir unterstützen Sie ganzheitlich – von der Identifikation des richtigen Anwendungsfalls über die Datenanalyse und Interpretation der Ergebnisse bis hin zur Implementierung der entwickelten Lösung in Ihr Produktivsystem.

Abonnieren Sie unseren Datenanalyse-Blog