Wilcoxon-Rangsummentest

Wilcoxon-Rangsummentest Definition

Mit dem Wilcoxon-Rangsummentest kann überprüft werden, ob sich die Werte zweier unabhängiger Stichproben bzw. Gruppen (z.B. Männer als Gruppe A und Frauen als Gruppe B oder eine Gruppe A mit Medikamentenbehandlung und eine Gruppe B ohne Medikamentenbehandlung) bzgl. des Medians unterscheiden.

Der Wilcoxon-Rangsummentest als einer der nichtparametrischen Tests wird u.a. verwendet, wenn

  • 2 unabhängige Stichproben untersucht werden sollen (bei nur einer Stichprobe oder 2 abhängigen Stichproben kann der Wilcoxon-Vorzeichen-Rang-Test angewandt werden),
  • die Daten der Stichprobe nicht normalverteilt sind, aber von einer gleichen Verteilungsform ausgegangen wird, die sich nur bzgl. der örtlichen "Verankerung" unterscheidet und nur ein geringer Stichprobenumfang vorliegt.

Beispiel

Beispiel: Wilcoxon-Rangsummentest

Es werden die Körpergewichte von je 5 zufällig ausgewählten Frauen (Gruppe 1) und Männern (Gruppe 2) erfasst:

  • Frauen: 50 kg, 55 kg, 60 kg, 70 kg, 80 kg;
  • Männer: 60 kg, 75 kg, 80 kg, 90 kg, 100 kg.

Es soll mit dem Wilcoxon-Rangsummentest getestet werden, ob das mittlere Körpergewicht bei den Frauen und Männern unterschiedlich ist — und wir vermuten, dass es bei Männern höher ist (einseitiger Test).

Hypothesen aufstellen

Nullhypothese H0: die beiden Grundgesamtheiten sind identisch verteilt.

Alternativhypothese H1: die beiden Grundgesamtheiten sind nicht identisch verteilt, d.h. die Verteilung der Körpergewichte der Männer liegt rechts neben der Verteilung der Frauen (da hier ein einseitiger Test vorgenommen werden soll).

Signifikanzniveau festlegen

Das Signifikanzniveau sei 0,05.

Ränge vergeben

Der kleinste der Werte (aller Werte, d.h. der Frauen und Männer) erhält den Rang 1, der nächstkleinste den Rang 2 etc.

Gibt es 2 oder mehr identische Werte, erhalten alle denselben Rang, der als Durchschnitt der eigentlich zu vergebenden Ränge berechnet wird. Gibt es z.B. wie im Beispiel zwei Werte 60 kg, die eigentlich die Ränge 3 und 4 einnehmen würden, erhalten beide den Rang 3,5.

Daten für Wilcoxon-Rangsummentest (F für Frauen, M für Männer)
kg Rang F oder M
50 1 F
55 2 F
60 3,5 F
60 3,5 M
70 5 F
75 6 M
80 7,5 F
80 7,5 M
90 9 M
100 10 M

Ränge für Frauen und Männer aufaddieren (Rangsummen)

  • Frauen: 1 + 2 + 3,5 + 5 + 7,5 = 19;
  • Männer: 3,5 + 6 + 7,5 + 9 + 10 = 36.
Kontrolle

Die Summe der Ränge muss 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 = 55 sein. Das stimmt hier: 19 + 36 = 55.

Mittleren Rang für die beiden Stichproben berechnen

Der mittlere Rang berechnet sich mit folgender Formel, mit N1 für den Stichprobenumfang der 1. Gruppe (Frauen) und N für die Summe der Stichprobenumfänge:

N1 × (N + 1) / 2 = 5 × ( 10 + 1) / 2 = (5 × 11) / 2 = 55 / 2 = 27,5.

Wenn Frauen und Männer im Mittel gleiche Körpergewichte hätten, würde man als Rangsumme 27,5 für beide Gruppen erwarten.

Teststatistik bestimmen

Als Teststatistik dient die Rangsumme der ersten Gruppe (Frauen): 19. Sie liegt um einiges unter dem mittleren Rang von 27,5, was darauf hindeutet, dass Frauen weniger wiegen.

Testentscheidung treffen

Möglichkeit 1: p-Wert berechnen

Der p-Wert, der mit einem Statistikprogramm berechnet werden kann, gibt in dem Fall die Wahrscheinlichkeit an, dass die Teststatistik einen Wert von höchstens 19 annimmt, wenn die Nullhypothese stimmt (es also keine Unterschiede bzgl. der Gewichtsverteilung geben würde).

Lässt man den Wilcoxon-Rangsummentest mit den Beispieldaten in einem Statistikprogramm laufen, erhält man unter anderem den (ungefähren) p-Wert, hier: 0,04635. Da der p-Wert unter dem Signifikanzniveau von 0,05 liegt, kann die Nullhypothese (es gibt keinen Unterschied zwischen den Gruppen) verworfen bzw. die Alternativhypothese (es gibt einen Unterschied zwischen den Gruppen, Männer wiegen mehr) angenommen werden.

Möglichkeit 2: kritische Werte aus Tabelle ablesen

Alternativ kann aus statistischen Tabellen für den Wilcoxon-Rangsummentest der kritische Wert abgelesen werden. Für einen einseitigen Test zum Signifikanzniveau von 0,05 bei Stichprobenumfängen von jeweils 5 ist der kritische Wert 19.

Da die Teststatistik mit 19 <= dem kritischen Wert von 19 ist, wird die Nullhypothese abgelehnt.

Die Teststatistik liegt hier auf dem Grenzwert und auch der p-Wert zeigt, dass die Entscheidung nur knapp so ausfällt.