Korrelationskoeffizient Pearson
Pearson-Korrelationskoeffizient Definition
Der Pearson-Korrelationskoeffizient dient der Messung eines Zusammenhangs zweier Variablen; er basiert auf 2 Voraussetzungen:
- es handelt sich um 2 metrische Merkmale / Variablen;
- es wird ein (zumindest näherungsweise) linearer Zusammenhang zwischen den beiden Variablen unterstellt (liegt ein nichtlinearer Zusammenhang vor – zum Beispiel ein quadratischer oder exponentieller Zusammenhang – funktioniert der Pearson-Korrelationskoeffizient nicht sinnvoll; in dem Fall wäre der Spearman-Korrelationskoeffizient eine Alternative).
Alternative Begriffe: Bravais-Pearson-Korrelationskoeffizient, lineare Korrelation, Produkt-Moment-Korrelation.
Beispiel
Beispiel: Pearson-Korrelationskoeffizienten berechnen
In Fortführung des Beispiels zur Kovarianz: Die Kovarianz wird durch das Produkt der beiden Standardabweichungen geteilt, um den Pearson-Korrelationskoeffizienten zu erhalten.
Als Formel:
$$r_{xy} = \frac{Cov(x,y)} {\sigma_x \cdot \sigma_y}$$
Schritt 1: Kovarianz berechnen
Die 3 Milchbauern Anton, Bernd und Claus hatten im Beispiel zur Kovarianz folgende Anzahl von Kühen und folgende tägliche Milchmengen.
Anton | Bernd | Claus | |
---|---|---|---|
Anzahl der Milchkühe | 1 | 2 | 3 |
Tägliche Milchproduktion (Liter) | 30 | 60 | 90 |
Abweichung der Anzahl der Kühe vom Durchschnitt | -1 | 0 | 1 |
Abweichung der Milchproduktion vom Durchschnitt | -30 | 0 | 30 |
Produkt der Abweichungen | 30 | 0 | 30 |
Das arithmetische Mittel der Anzahl der Kühe war (1 + 2 + 3) / 3 = 2 und das arithmetische Mittel der Milchleistung war (30 + 60 + 90 Liter) / 3 = 60 Liter.
Die Frage war: Gibt es einen Zusammenhang zwischen der Anzahl der Kühe und der Milchproduktion? (der – lineare – Zusammenhang ist hier natürlich sehr offensichtlich)
Die 3 Abweichungsprodukte werden aufaddiert: 30 + 0 + 30 = 60; anschließend durch die Anzahl der Merkmalsträger (3 Milchbauern) geteilt: 60 / 3 = 20.
Die Kovarianz ist also 20.
Schritt 2: Standardabweichungen berechnen
Es werden zunächst die jeweilige Varianz als mittlere quadratische Abweichung vom Mittelwert und die Standardabweichung als Quadratwurzel der Varianz ermittelt:
- für die Anzahl der Kühe: Varianz = [ (1 -2) 2 + (2 - 2) 2 + (3 - 2) 2 ] / 3 = (1 + 0 + 1) / 3 = 2/3. Die Standardabweichung als Quadratwurzel der Varianz ist dann 0,8165 (auf 4 Nachkommastellen gerundet);
- für die Milchleistung: Varianz = [ (30 - 60) 2 + (60 - 60) 2 + (90 -60) 2 ] / 3 = (900 + 0 + 900) / 3 = 1.800 / 3 = 600. Die Standardabweichung als Quadratwurzel der Varianz ist 24,495 (auf 3 Nachkommastellen gerundet).
Schritt 3: Pearson-Korrelationskoeffizienten berechnen
Nun wird die Kovarianz von 20 durch das Produkt aus 0,8165 und 24,495 geteilt:
$$r_{xy} = \frac{20}{0,8165 \cdot 24,495} = \frac{20}{20} = 1$$
Positive Korrelation
Mittels der Teilung durch das Produkt aus den Standardabweichungen erfolgt eine Normierung und das Ergebnis ist aussagekräftig: die Korrelationswerte liegen durch die Standardisierung im Bereich -1 bis 1 und die 1 bedeutet eine positive und äußerst hohe (perfekte) lineare Korrelation (in einem Streudiagramm lägen die 3 Daten auf einer Geraden).
Keine Korrelation
Ein Pearson-Korrelationskoeffizient von 0 würde bedeuten, dass es keinen linearen Zusammenhang zwischen den beiden Merkmalen gibt (es könnte aber ein anderer, nicht-linearer Zusammenhang bestehen).
Negative Korrelation
Ein Pearson-Korrelationskoeffizient von -1 würde bedeutet, dass sich die beiden Merkmale vollkommen gegensätzlich entwickeln (negative Korrelation bzw. inverse Korrelation).