Boxplot

Boxplot Definition

Boxplots (deutsch: Kastengrafik) stellen die sog. Fünf-Punkte-Zusammenfassung – die 5 Kennwerte einer (sortierten) Verteilung – grafisch dar:

  • Minimum (der kleinste Wert)
  • 1. Quartil (grenzt das untere Viertel der Daten ab)
  • Median (der Wert, der in der Mitte der Datenreihe liegt)
  • 3. Quartil (grenzt die unteren drei Viertel der Daten vom obersten Viertel ab)
  • Maximum (der größte Wert).

Damit lassen sich Mittelwerte und Streuung verschiedener Datensätze in einem ersten Überblick vergleichen.

Beim Median wird ein senkrechter Strich gezogen. Ebenso beim Minimum und Maximum der Datenreihe sowie beim unteren und oberen Quartil. Damit hat man in Summe 5 senkrechte Striche, die die Daten in 4 Abschnitte unterteilen.

Die senkrechten Striche des unteren und oberen Quartils werden durch horizontale Linien verbunden. Daraus entsteht eine Box und die Breite der Box ist der Interquartilsabstand.

Zudem wird der senkrechte Strich des unteren Quartils in der Mitte mit dem Minimum (ebenfalls in der Mitte) verbunden und der senkrechte Strich des oberen Quartils in der Mitte mit dem Maximum (ebenfalls in der Mitte).

Boxplots sind v. a. geeignet, um Daten / Verteilungen grafisch gegenüberzustellen und zu vergleichen, z. B. Männer und Frauen, Gesundheitswerte vor und nach einer medizinischen Behandlung etc.

Alternative Begriffe: Boxplot-Diagramm, Box-Whisker-Plot.

Beispiel

Beispiel: Boxplot darstellen

Der Boxplot soll für die Daten aus dem Beispiel zum Quartil dargestellt werden: in einem Ort gibt es 10 Kinder im Alter von 1, 3, 5, 7, 8, 9, 11, 12, 14 und 16 Jahren.

Der Boxplot ist horizontal dargestellt (auch vertikal wäre möglich):

Boxplot

Dabei ist 1 das Minimum, 5 das 1. bzw. untere Quartil, 8,5 der Median, 12 das 3. bzw. obere Quartil und 16 das Maximum.

Boxplot Interpretation

Der Boxplot zeigt, dass die Daten (Alter) zwischen 1 und 16 liegen und relativ symmetrisch verteilt sind.

Modifizierter Boxplot

Manchmal wird der Boxplot dahingehend angepasst, dass Ausreißer in den Daten nicht in den Boxplot einbezogen werden (jedoch separat gekennzeichnet, d. h. nicht versteckt werden).

Als Grenzen des Boxplots (teilweise als "Zäune" bezeichnet) dienen z. B. 1,5 Interquartilsabstände vom 1. Quartil nach unten und vom 3. Quartil nach oben.

In dem Beispiel oben wäre der Interquartilsabstand 12 - 5 = 7 und die obere Grenze wäre dann 12 + 1,5 × 7 = 12 + 10,5 = 22,5 (analog für die untere Grenze: 5 - 1,5 × 7, was hier einen negativen Wert ergeben würde). In dem Beispiel gibt es aber keine Ausreißer, so dass ein modifizierter Boxplot hier überflüssig ist.