Korrelationskoeffizient Pearson

Pearson-Korrelationskoeffizient Definition

Der Pearson-Korrelationskoeffizient dient der Messung eines Zusammenhangs zweier Variablen; er basiert auf 2 Voraussetzungen:

  • es handelt sich um 2 metrische Merkmale / Variablen;
  • es wird ein (zumindest näherungsweise) linearer Zusammenhang zwischen den beiden Variablen unterstellt (liegt ein nichtlinearer Zusammenhang vor – z.B. eine quadratischer oder exponentieller Zusammenhang – funktioniert der Pearson-Korrelationskoeffizient nicht sinnvoll; in dem Fall wäre der Spearman-Korrelationskoeffizient eine Alternative).

Alternative Begriffe: Bravais-Pearson-Korrelationskoeffizient, lineare Korrelation, Produkt-Moment-Korrelation.

Beispiel

Beispiel: Pearson-Korrelationskoeffizienten berechnen

In Fortführung des Beispiels zur Kovarianz: Die Kovarianz wird durch das Produkt der beiden Standardabweichungen geteilt, um den Pearson-Korrelationskoeffizienten zu erhalten.

Als Formel:

$$r_{xy} = \frac{Cov(x,y)} {\sigma_x \cdot \sigma_y}$$

Es werden zunächst die jeweilige Varianz als mittlere quadratische Abweichung vom Mittelwert und die Standardabweichung als Quadratwurzel der Varianz ermittelt:

  • für die Anzahl der Kühe: Varianz = [ (1 -2) 2 + (2 - 2) 2 + (3 - 2) 2 ] / 3 = (1 + 0 + 1) / 3 = 2/3. Die Standardabweichung als Quadratwurzel der Varianz ist dann 0,8165 (auf 4 Nachkommastellen gerundet);
  • für die Milchleistung: Varianz = [ (30 - 60) 2 + (60 - 60) 2 + (90 -60) 2 ] / 3 = (900 + 0 + 900) / 3 = 1.800 / 3 = 600. Die Standardabweichung als Quadratwurzel der Varianz ist 24,495 (auf 3 Nachkommastellen gerundet).

Nun wird die Kovarianz von 20 durch das Produkt aus 0,8165 und 24,495 geteilt:

$$r_{xy} = \frac{20}{0,8165 \cdot 24,495} = \frac{20}{20} = 1$$

Positive Korrelation

Mittels der Teilung durch das Produkt aus den Standardabweichungen erfolgt eine Normierung und das Ergebnis ist aussagekräftig: die Korrelationswerte liegen durch die Standardisierung im Bereich -1 bis 1 und die 1 bedeutet eine positive und äußerst hohe (perfekte) lineare Korrelation (in einem Streudiagramm lägen die 3 Daten auf einer Geraden).

Keine Korrelation

Ein Pearson-Korrelationskoeffizient von 0 würde bedeuten, dass es keinen linearen Zusammenhang zwischen den beiden Merkmalen gibt (es könnte aber ein anderer, nicht-linearer Zusammenhang bestehen).

Negative Korrelation

Ein Pearson-Korrelationskoeffizient von -1 würde bedeutet, dass sich die beiden Merkmale vollkommen gegensätzlich entwickeln (negative Korrelation bzw. inverse Korrelation).