Phi-Koeffizient

Phi-Koeffizient Definition

Der Phi-Koeffizient ist ein Zusammenhangsmaß für nominalskalierte Merkmale und kann nur im Falle einer Vierfeldertafel (2 × 2 - Tabelle) angewandt werden.

Der Phi-Koeffizient ist eine Normierung des Chi-Quadrat, deshalb bewegt sich Phi im Bereich zwischen 0 (keine Korrelation) und 1 (perfekte Korrelation).

Formel

Phi-Koeffizient = Wurzel aus (Chi-Quadrat / Anzahl der Merkmalsträger)

In Worten: man berechnet Chi-Quadrat und teilt dieses durch die Anzahl der Merkmalsträger; anschließend zieht man aus dem Ergebnis die Wurzel.

Beispiel

Beispiel: Phi-Koeffizienten berechnen

In Fortführung des Beispiels zu Chi-Quadrat, bei dem ein Chi-Quadrat von 1,875 ermittelt wurde, mit Anzahl der Merkmalsträger = 30 Schüler. Hier noch einmal mit den Zwischenschritten 1 bis 3:

Es wurden die Häufigkeiten für 2 nominalskalierte Merkmale – Geschlecht (Merkmal 1) und Mitgliedschaft in einem Sportverein (Merkmal 2) – für die Schüler einer Klasse dargestellt und gefragt, inwiefern zwischen Geschlecht und Mitgliedschaft in einem Sportverein ein Zusammenhang besteht (Fragestellung zum Beispiel: sind Jungen häufiger in einem Sportverein?)

Die Vierfeldertafel war:

Vierfeldertafel mit absoluten Häufigkeiten
Mädchen Jungen Gesamt
im Sportverein 9 9 18
nicht im Sportverein 9 3 12
Gesamt 18 12 30

Schritt 1: relative Häufigkeiten berechnen

Um die Stärke des Zusammenhangs mit Chi-Quadrat zu messen, stellt man zunächst eine Tabelle mit den relativen Häufigkeiten auf (man kann aber auch mit absoluten Häufigkeiten rechnen):

Vierfeldertafel mit relativen Häufigkeiten
Mädchen Jungen Gesamt
im Sportverein 0,3 0,3 0,6
nicht im Sportverein 0,3 0,1 0,4
Gesamt 0,6 0,4 1,0

Zum Beispiel ergibt sich der Wert von 0,3 in der Tabellenzelle Mädchen/im Sportverein daraus, dass 9 von 30 Schülern Mädchen und in einem Sportverein sind, also 9/30 = 0,3; unter "Gesamt" sind jeweils die Randhäufigkeiten eingetragen, die in Summe immer 1 bzw. 100 % ergeben.

Schritt 2: Vierfeldertafel bei Unabhängigkeit berechnen

Anschließend berechnet man, wie die Verteilung sein müsste, wenn es keinen Zusammenhang zwischen den Merkmalen Geschlecht und Mitgliedschaft in einem Sportverein gibt, die sogenannte Indifferenztabelle:

Indifferenztabelle
Mädchen Jungen Gesamt
im Sportverein 0,36 0,24 0,6
nicht im Sportverein 0,24 0,16 0,4
Gesamt 0,6 0,4 1,0

Der Wert von 0,36 in der Tabellenzelle Mädchen/im Sportverein ergibt sich etwa daraus, dass die beiden Randhäufigkeiten für die Tabellenzelle multipliziert wurden: 0,6 × 0,6 = 0,36.

Schritt 3: Chi-Quadrat berechnen

Nun werden die Differenzen zwischen den tatsächlichen und den "theoretischen" (das heißt bei Unabhängigkeit gegebenen) relativen Häufigkeiten gebildet, diese Differenzen quadriert und durch die theoretischen Häufigkeiten geteilt, diese Ergebnisse aufsummiert und – da wir mit relativen Häufigkeiten gerechnet haben – mit der Anzahl der Merkmalsträger (hier: 30 Schüler) multipliziert.

Chi-Quadrat χ2 = 30 × { [ (0,3 - 0,36) 2 / 0,36 ] + [ (0,3 - 0,24) 2 / 0,24 ] + [ (0,3 - 0,24) 2 / 0,24 ] + [ (0,1 - 0,16) 2 / 0,16 ] }

= 30 × { [ 0,01 ] + [ 0,015 ] + [ 0,015 ] + [ 0,0225 ] }

= 30 × 0,0625 = 1,875.

Schritt 4: Phi berechnen

Phi = √(1,875 / 30) = √0,0625 = 0,25.

Schritt 5: Phi interpretieren

Das ist eine geringe Korrelation (bei 0 wäre gar keine Korrelation). Der Zusammenhang zwischen den Merkmalen Geschlecht und Mitgliedschaft in einem Sportverein ist also wenig ausgeprägt.

Anwendung

Das Ergebnis hier ist dasselbe wie bei Cramers V; der Phi-Koeffizient ist eine vereinfachte Berechnung nur für den Fall von 2 × 2 - Tabellen, ansonsten (zum Beispiel bei einer 2 × 3 - Tabelle) muss statt dem Phi-Koeffizienten Cramers V angewandt werden.