Chi-Quadrat
Chi-Quadrat Definition
Chi-Quadrat (χ2) ist ein Korrelationsmaß für nominalskalierte Merkmale, dient also dazu, zu messen, ob zwischen derartigen Merkmalen ein Zusammenhang besteht bzw. wie stark der Zusammenhang ist.
Der unterste Wert für Chi-Quadrat ist 0, nach oben ist Chi-Quadrat jedoch unbegrenzt; da das Ergebnis der Chi-Quadrat-Berechnung deshalb schwer interpretierbar ist, werden oft normierte Zusammenhangsmaße wie Cramers V oder der Phi-Koeffizient verwendet, die aus Chi-Quadrat abgeleitet werden.
Alternative Begriffe: Chi-Quadrat-Koeffizient, Chi-Quadrat-Wert.
Beispiel
Beispiel: Chi-Quadrat berechnen
Fortführung des Beispiels zur Vierfeldertafel, bei der die Häufigkeiten für 2 nominalskalierte Merkmale – Geschlecht (Merkmal 1) und Mitgliedschaft in einem Sportverein (Merkmal 2) – für die Schüler einer Klasse dargestellt wurden.
Inwiefern besteht nun zwischen Geschlecht und Mitgliedschaft in einem Sportverein ein Zusammenhang (Fragestellung z.B: sind Jungen häufiger in einem Sportverein?)
Die Vierfeldertafel sei hier nochmals dargestellt:
Mädchen | Jungen | Gesamt | |
---|---|---|---|
im Sportverein | 9 | 9 | 18 |
nicht im Sportverein | 9 | 3 | 12 |
Gesamt | 18 | 12 | 30 |
Man sieht hier schnell, dass Jungen tendenziell häufiger in einem Sportverein sind.
Schritt 1: relative Häufigkeiten berechnen
Um die Stärke des Zusammenhangs mit Chi-Quadrat zu messen, stellt man zunächst eine Tabelle mit den relativen Häufigkeiten auf (man kann aber auch mit absoluten Häufigkeiten rechnen):
Mädchen | Jungen | Gesamt | |
---|---|---|---|
im Sportverein | 0,3 | 0,3 | 0,6 |
nicht im Sportverein | 0,3 | 0,1 | 0,4 |
Gesamt | 0,6 | 0,4 | 1,0 |
Z.B. ergibt sich der Wert von 0,3 in der Tabellenzelle Mädchen/im Sportverein daraus, dass 9 von 30 Schülern Mädchen und in einem Sportverein sind, also 9/30 = 0,3; unter "Gesamt" sind jeweils die sog. Randhäufigkeiten eingetragen, die in Summe immer 1 bzw. 100 % ergeben.
Schritt 2: Vierfeldertafel bei Unabhängigkeit berechnen
Anschließend berechnet man, wie die Verteilung sein müsste, wenn es keinen Zusammenhang zwischen den Merkmalen Geschlecht und Mitgliedschaft in einem Sportverein gibt:
Mädchen | Jungen | Gesamt | |
---|---|---|---|
im Sportverein | 0,36 | 0,24 | 0,6 |
nicht im Sportverein | 0,24 | 0,16 | 0,4 |
Gesamt | 0,6 | 0,4 | 1,0 |
Der Wert von 0,36 in der Tabellenzelle Mädchen/im Sportverein ergibt sich z.B. daraus, dass die beiden Randhäufigkeiten für die Tabellenzelle multipliziert wurden: 0,6 × 0,6 = 0,36.
Schritt 3: Chi-Quadrat berechnen
Nun werden die Differenzen zwischen den tatsächlichen und den "theoretischen" (d.h. bei Unabhängigkeit gegebenen) relativen Häufigkeiten gebildet, diese Differenzen quadriert und durch die theoretischen Häufigkeiten geteilt, diese Ergebnisse aufsummiert und mit der Anzahl der Merkmalsträger (hier: 30 Schüler) multipliziert.
Chi-Quadrat χ2 = 30 × { [ (0,3 - 0,36) 2 / 0,36 ] + [ (0,3 - 0,24) 2 / 0,24 ] + [ (0,3 - 0,24) 2 / 0,24 ] + [ (0,1 - 0,16) 2 / 0,16 ] }
= 30 × { [ 0,01 ] + [ 0,015 ] + [ 0,015 ] + [ 0,0225 ] }
= 30 × 0,0625 = 1,875.
Hinweis
Wenn man mit absoluten Häufigkeiten (hier: Schüleranzahl) anstelle der relativen Häufigkeiten rechnet, entfällt die Multiplikation mit der Anzahl der Merkmalsträger.