Chi-Quadrat

Chi-Quadrat Definition

Chi-Quadrat2) ist ein Korrelationsmaß für nominalskalierte Merkmale, dient also dazu, zu messen, ob zwischen derartigen Merkmalen ein Zusammenhang besteht bzw. wie stark der Zusammenhang ist.

Der unterste Wert für Chi-Quadrat ist 0, nach oben ist Chi-Quadrat jedoch unbegrenzt; da das Ergebnis der Chi-Quadrat-Berechnung deshalb schwer interpretierbar ist, werden oft normierte Zusammenhangsmaße wie Cramers V oder der Phi-Koeffizient verwendet, die aus Chi-Quadrat abgeleitet werden.

Alternative Begriffe: Chi-Quadrat-Koeffizient, Chi-Quadrat-Wert.

Beispiel

Beispiel: Chi-Quadrat berechnen

Fortführung des Beispiels zur Vierfeldertafel, bei der die Häufigkeiten für 2 nominalskalierte Merkmale – Geschlecht (Merkmal 1) und Mitgliedschaft in einem Sportverein (Merkmal 2) – für die Schüler einer Klasse dargestellt wurden.

Inwiefern besteht nun zwischen Geschlecht und Mitgliedschaft in einem Sportverein ein Zusammenhang (Fragestellung z.B: sind Jungen häufiger in einem Sportverein?)

Die Vierfeldertafel sei hier nochmals dargestellt:

Vierfeldertafel mit absoluten Häufigkeiten
Mädchen Jungen Gesamt
im Sportverein 9 9 18
nicht im Sportverein 9 3 12
Gesamt 18 12 30

Man sieht hier schnell, dass Jungen tendenziell häufiger in einem Sportverein sind.

Schritt 1: relative Häufigkeiten berechnen

Um die Stärke des Zusammenhangs mit Chi-Quadrat zu messen, stellt man zunächst eine Tabelle mit den relativen Häufigkeiten auf (man kann aber auch mit absoluten Häufigkeiten rechnen):

Vierfeldertafel mit relativen Häufigkeiten
Mädchen Jungen Gesamt
im Sportverein 0,3 0,3 0,6
nicht im Sportverein 0,3 0,1 0,4
Gesamt 0,6 0,4 1,0

Z.B. ergibt sich der Wert von 0,3 in der Tabellenzelle Mädchen/im Sportverein daraus, dass 9 von 30 Schülern Mädchen und in einem Sportverein sind, also 9/30 = 0,3; unter "Gesamt" sind jeweils die sog. Randhäufigkeiten eingetragen, die in Summe immer 1 bzw. 100 % ergeben.

Schritt 2: Vierfeldertafel bei Unabhängigkeit berechnen

Anschließend berechnet man, wie die Verteilung sein müsste, wenn es keinen Zusammenhang zwischen den Merkmalen Geschlecht und Mitgliedschaft in einem Sportverein gibt:

Vierfeldertafel für den Fall, dass kein Zusammenhang besteht (Indifferenztabelle)
Mädchen Jungen Gesamt
im Sportverein 0,36 0,24 0,6
nicht im Sportverein 0,24 0,16 0,4
Gesamt 0,6 0,4 1,0

Der Wert von 0,36 in der Tabellenzelle Mädchen/im Sportverein ergibt sich z.B. daraus, dass die beiden Randhäufigkeiten für die Tabellenzelle multipliziert wurden: 0,6 × 0,6 = 0,36.

Schritt 3: Chi-Quadrat berechnen

Nun werden die Differenzen zwischen den tatsächlichen und den "theoretischen" (d.h. bei Unabhängigkeit gegebenen) relativen Häufigkeiten gebildet, diese Differenzen quadriert und durch die theoretischen Häufigkeiten geteilt, diese Ergebnisse aufsummiert und mit der Anzahl der Merkmalsträger (hier: 30 Schüler) multipliziert.

Chi-Quadrat χ2 = 30 × { [ (0,3 - 0,36) 2 / 0,36 ] + [ (0,3 - 0,24) 2 / 0,24 ] + [ (0,3 - 0,24) 2 / 0,24 ] + [ (0,1 - 0,16) 2 / 0,16 ] }

= 30 × { [ 0,01 ] + [ 0,015 ] + [ 0,015 ] + [ 0,0225 ] }

= 30 × 0,0625 = 1,875.

Hinweis

Wenn man mit absoluten Häufigkeiten (hier: Schüleranzahl) anstelle der relativen Häufigkeiten rechnet, entfällt die Multiplikation mit der Anzahl der Merkmalsträger.