Korrelationskoeffizient Pearson

Pearson-Korrelationskoeffizient Definition

Der Pearson-Korrelationskoeffizient dient der Messung eines Zusammenhangs zweier Variablen; er basiert auf 2 Voraussetzungen:

  • es handelt sich um 2 metrische Merkmale / Variablen;
  • es wird ein (zumindest näherungsweise) linearer Zusammenhang zwischen den beiden Variablen unterstellt (liegt ein nichtlinearer Zusammenhang vor – zum Beispiel ein quadratischer oder exponentieller Zusammenhang – funktioniert der Pearson-Korrelationskoeffizient nicht sinnvoll; in dem Fall wäre der Spearman-Korrelationskoeffizient eine Alternative).

Alternative Begriffe: Bravais-Pearson-Korrelationskoeffizient, lineare Korrelation, Produkt-Moment-Korrelation.

Beispiel

Beispiel: Pearson-Korrelationskoeffizienten berechnen

In Fortführung des Beispiels zur Kovarianz: Die Kovarianz wird durch das Produkt der beiden Standardabweichungen geteilt, um den Pearson-Korrelationskoeffizienten zu erhalten.

Als Formel:

$$r_{xy} = \frac{Cov(x,y)} {\sigma_x \cdot \sigma_y}$$

Schritt 1: Kovarianz berechnen

Die 3 Milchbauern Anton, Bernd und Claus hatten im Beispiel zur Kovarianz folgende Anzahl von Kühen und folgende tägliche Milchmengen.

Daten
Anton Bernd Claus
Anzahl der Milchkühe 1 2 3
Tägliche Milchproduktion (Liter) 30 60 90
Abweichung der Anzahl der Kühe vom Durchschnitt -1 0 1
Abweichung der Milchproduktion vom Durchschnitt -30 0 30
Produkt der Abweichungen 30 0 30

Das arithmetische Mittel der Anzahl der Kühe war (1 + 2 + 3) / 3 = 2 und das arithmetische Mittel der Milchleistung war (30 + 60 + 90 Liter) / 3 = 60 Liter.

Die Frage war: Gibt es einen Zusammenhang zwischen der Anzahl der Kühe und der Milchproduktion? (der – lineare – Zusammenhang ist hier natürlich sehr offensichtlich)

Die 3 Abweichungsprodukte werden aufaddiert: 30 + 0 + 30 = 60; anschließend durch die Anzahl der Merkmalsträger (3 Milchbauern) geteilt: 60 / 3 = 20.

Die Kovarianz ist also 20.

Schritt 2: Standardabweichungen berechnen

Es werden zunächst die jeweilige Varianz als mittlere quadratische Abweichung vom Mittelwert und die Standardabweichung als Quadratwurzel der Varianz ermittelt:

  • für die Anzahl der Kühe: Varianz = [ (1 -2) 2 + (2 - 2) 2 + (3 - 2) 2 ] / 3 = (1 + 0 + 1) / 3 = 2/3. Die Standardabweichung als Quadratwurzel der Varianz ist dann 0,8165 (auf 4 Nachkommastellen gerundet);
  • für die Milchleistung: Varianz = [ (30 - 60) 2 + (60 - 60) 2 + (90 -60) 2 ] / 3 = (900 + 0 + 900) / 3 = 1.800 / 3 = 600. Die Standardabweichung als Quadratwurzel der Varianz ist 24,495 (auf 3 Nachkommastellen gerundet).

Schritt 3: Pearson-Korrelationskoeffizienten berechnen

Nun wird die Kovarianz von 20 durch das Produkt aus 0,8165 und 24,495 geteilt:

$$r_{xy} = \frac{20}{0,8165 \cdot 24,495} = \frac{20}{20} = 1$$

Positive Korrelation

Mittels der Teilung durch das Produkt aus den Standardabweichungen erfolgt eine Normierung und das Ergebnis ist aussagekräftig: die Korrelationswerte liegen durch die Standardisierung im Bereich -1 bis 1 und die 1 bedeutet eine positive und äußerst hohe (perfekte) lineare Korrelation (in einem Streudiagramm lägen die 3 Daten auf einer Geraden).

Keine Korrelation

Ein Pearson-Korrelationskoeffizient von 0 würde bedeuten, dass es keinen linearen Zusammenhang zwischen den beiden Merkmalen gibt (es könnte aber ein anderer, nicht-linearer Zusammenhang bestehen).

Negative Korrelation

Ein Pearson-Korrelationskoeffizient von -1 würde bedeutet, dass sich die beiden Merkmale vollkommen gegensätzlich entwickeln (negative Korrelation bzw. inverse Korrelation).