Empirische Verteilungsfunktion

Empirische Verteilungsfunktion Definition

Die empirische Verteilungsfunktion F(x) gibt den kumulierten Anteil an, mit der ein Merkmal eine Ausprägung bzw. einen Wert <= x annimmt.

Diese kumulierte absolute oder relative Häufigkeit kann eventuell bereits der Häufigkeitstabelle entnommen werden.

Typische Fragestellungen wären:

Wie viele Arbeitnehmer eines Unternehmens sind maximal 30 Jahre alt? (für ein metrisches Merkmal wie das Alter).
Wie viele Mensa-Besucher bewerten das Essen zumindest mit "gut"? (bei einer Ordinalskala zum Beispiel mit den Werten "sehr gut", "gut", "geht so" und "schlecht").

Die Aufstellung einer empirischen Verteilungsfunktion setzt zumindest ordinalskalierte Daten voraus (nominalskalierte Merkmalsausprägungen wie "blond" und "rot" für die Haarfarbe können nicht sinnvoll kumuliert / aufaddiert werden).

Empirisch bedeutet: man hat eine tatsächliche Erhebung oder Stichprobe – es handelt sich nicht um eine theoretische Verteilung.

Beispiel für eine empirische Verteilungsfunktion

Beispiel: Empirische Verteilung für Alter

In einem Ort gibt es 10 Kinder im Alter von 3, 5, 5, 7, 7, 8, 9, 9, 9 und 14 Jahren.

Die empirische Verteilungsfunktion für das Merkmal Alter wäre dann:

F(x)

= 0,0 für x < 3 (das heißt es gibt keine Kinder unter 3 Jahren)

= 0,1 für 3 <= x < 5

= 0,3 für 5 <= x < 7

= 0,5 für 7 <= x < 8

= 0,6 für 8 <= x < 9

= 0,9 für 9 <= x < 14

= 1,0 für 14 <= x.

Hier sind die kumulierten relativen Häufigkeiten angegeben, also beispielsweise: ein Anteil von 0,3 (3 von 10) bzw. 30 % der Kinder sind 5 Jahre oder jünger. Das ist eher üblich.

Alternativ werden aber teilweise auch die absoluten Häufigkeiten angegeben, also: 3 Kinder sind 5 Jahre oder jünger.

Mathematisch handelt es sich bei dieser Verteilungsfunktion auf Basis der diskreten Variablen Lebensalter um eine Treppenfunktion: die relativen Häufigkeiten erhöhen sich sprunghaft, zum Beispiel von 0,1 auf 0,3 und dann weiter auf 0,5 und so weiter.

Wäre die Fragestellung "Wie viele Kinder sind bis zu 12 Jahre alt?", könnte man die Antwort für x = 12 in der vorletzten Zeile der Verteilungsfunktion (0,9 für 9 <= x < 14) ablesen: 0,9 bzw. 90 % (9 der 10 Kinder).

Empirische Verteilungsfunktion zeichnen

Die Verteilungsfunktion als Grafik:

Empirische-Verteilungsfunktion