Boxplot

Boxplot Definition

Boxplots (deutsch: Kastengrafik) stellen die sogenannte Fünf-Punkte-Zusammenfassung – die 5 Kennwerte einer (sortierten) Verteilung – grafisch dar:

  • Minimum (der kleinste Wert)
  • 1. Quartil (grenzt das untere Viertel der Daten ab)
  • Median (der Wert, der in der Mitte der Datenreihe liegt)
  • 3. Quartil (grenzt die unteren drei Viertel der Daten vom obersten Viertel ab)
  • Maximum (der größte Wert).

Damit lassen sich Mittelwerte und Streuung verschiedener Datensätze in einem ersten Überblick vergleichen.

Boxplots sind vor allem geeignet, um Daten / Verteilungen grafisch gegenüberzustellen und zu vergleichen, etwa Männer und Frauen, Gesundheitswerte vor und nach einer medizinischen Behandlung und so weiter.

Alternative Begriffe: Boxplot-Diagramm, Box-Whisker-Plot.

Beispiel: Boxplot erstellen und interpretieren

Der Boxplot soll für die Daten aus dem Beispiel zum Quartil dargestellt werden: in einem Ort gibt es 10 Kinder im Alter von 1, 3, 5, 7, 8, 9, 11, 12, 14 und 16 Jahren.

Dabei ist 1 das Minimum, 5 das 1. bzw. untere Quartil, 8,5 der Median, 12 das 3. bzw. obere Quartil und 16 das Maximum.

Boxplot erstellen

Der Boxplot ist horizontal dargestellt (auch vertikal wäre möglich):

Boxplot

Beim Median (8,5) wird ein senkrechter Strich gezogen.

Ebenso beim Minimum (1) und Maximum (16) der Datenreihe sowie beim unteren (5) und oberen Quartil (12).

Damit hat man in Summe 5 senkrechte Striche, die die Daten in 4 Abschnitte unterteilen.

Die senkrechten Striche des unteren und oberen Quartils werden durch horizontale Linien verbunden.

Daraus entsteht eine Box und die Breite der Box ist der Interquartilsabstand.

Zudem wird der senkrechte Strich des unteren Quartils in der Mitte mit dem Minimum (ebenfalls in der Mitte) verbunden und der senkrechte Strich des oberen Quartils in der Mitte mit dem Maximum (ebenfalls in der Mitte).

Das sind die sogenannten "Antennen" bzw. "Whisker" (Schnurrhaare; deshalb auch: Box-Whisker-Plot); sie zeigen die unteren und oberen 25 % der Daten an, während der Kasten die mittleren 50 % der Daten abbildet.

Boxplot interpretieren

Der Boxplot zeigt, dass die Daten (Alter) zwischen 1 und 16 liegen und relativ symmetrisch verteilt sind.

Es gibt keine Ausreißer, welche die Antennen außerhalb des Kastens in die Länge ziehen würden.

Modifizierter Boxplot

Manchmal wird der Boxplot dahingehend angepasst, dass Ausreißer in den Daten nicht in den Boxplot einbezogen werden (jedoch separat gekennzeichnet, das heißt nicht versteckt werden).

Als Grenzen des Boxplots (teilweise als "Zäune" bezeichnet) dienen zum Beispiel 1,5 Interquartilsabstände vom 1. Quartil nach unten und vom 3. Quartil nach oben.

In dem Beispiel oben wäre der Interquartilsabstand 12 - 5 = 7 und die obere Grenze wäre dann 12 + 1,5 × 7 = 12 + 10,5 = 22,5 (analog für die untere Grenze: 5 - 1,5 × 7, was hier einen negativen Wert ergeben würde).

In dem Beispiel gibt es aber keine Ausreißer, so dass ein modifizierter Boxplot hier überflüssig ist.