Scheinkorrelation

Scheinkorrelation Definition

Von einer Scheinkorrelation spricht man, wenn zwischen zwei Variablen eine Korrelation / ein Zusammenhang vorliegt (z. B. in einem Streudiagramm ersichtlich oder auch mittels Korrelationskoeffizient berechnet), in Wirklichkeit aber entweder eine dritte Variable dahintersteckt, die für die beiden untersuchten Variablen ursächlich ist oder es sich um eine zufälligerweise übereinstimmende Entwicklung handelt.

Es besteht somit kein Kausalzusammenhang zwischen den beiden korrelierten Variablen und man spricht in dem Fall von einer Scheinkorrelation, wobei sich das "Schein" auf den Anschein eines Kausalzusammenhangs bezieht (während die Korrelation ja tatsächlich vorhanden ist).

Beispiel

Wenn es heiß ist (Variable 1: Temperatur), steigen die Umsätze von Eisdielen (Variable 2: Umsätze), aber es nehmen auch Kreislaufprobleme zu (Variable 3: Anzahl der in Krankenhäuser eingelieferten Patienten mit Kreislaufproblemen).

Zwischen den Umsätzen von Eisdielen und Kreislaufproblemen lässt sich zwar eine Korrelation – eine gleichläufige, mit der Temperatur zunehmende Entwicklung – feststellen, die dafür ursächliche Größe ist aber die Temperatur bzw. Hitze.

In dem Fall würde wahrscheinlich niemand auf die Idee kommen, eine These wie "Erhöhter Eiskonsum führt zu Kreislaufproblemen" aufzustellen, in anderen Fällen ist die Gefahr aber vorhanden, aus Korrelationen falsche Schlüsse zu ziehen.

Je mehr Variablen erfasst und auf Zusammenhänge untersucht werden, desto eher wird man einen Zusammenhang finden, der auf einer dritten Einflussgröße wie der Hitze oben beruht oder auch einfach zufällig ist.

Angenommen, man interessiert sich für die Anzahl der Hochzeiten in einem Monat. Man könnte für diese Variable z. B. einen Zusammenhang mit den Jahreszeiten untersuchen und feststellen (im Sommer wird mehr geheiratet als im Winter, da es schönere Feste im Freien gibt), man könnte aber auch Zusammenhänge untersuchen mit z. B. dem Aktienindex, der Anzahl der Tore in der Bundesliga etc. (noch einige weitere absurde Beispiele) und je mehr man untersucht, umso größer ist die Wahrscheinlichkeit, dass sich irgendwann zwei Variablen finden, die sich in die gleiche Richtung bewegen.

Fazit: Eine Korrelation kann der Computer aus Daten finden bzw. berechnen – der Mensch (Forscher, Statistiker etc.) muss darüber nachdenken, ob ein Zusammenhang wirklich kausal sein kann.

Alternative Begriffe: Spurious Correlation, zufällige Korrelation.