Empirische Verteilungsfunktion

Empirische Verteilungsfunktion Definition

Die empirische Verteilungsfunktion – z.B. F(x) – gibt den kumulierten Anteil an, mit der ein Merkmal eine Ausprägung bzw. einen Wert <= x annimmt. Diese kumulierte absolute oder relative Häufigkeit kann ggfs. bereits der Häufigkeitstabelle entnommen werden.

Typische Fragestellungen wären:

  • Wie viele Arbeitnehmer eines Unternehmens sind maximal 30 Jahre alt? (für ein metrisches Merkmal wie das Alter).
  • Wie viele Mensabesucher bewerten das Essen zumindest mit "gut"? (bei einer Ordinalskala z.B. mit den Werten "sehr gut", "gut", "geht so" und "schlecht").

Die Aufstellung einer empirischen Verteilungsfunktion setzt zumindest ordinalskalierte Daten voraus (nominalskalierte Merkmalsausprägungen wie "blond" und "rot" für die Haarfarbe können nicht sinnvoll kumuliert / aufaddiert werden).

Beispiel für eine empirische Verteilungsfunktion

In einem Ort gibt es 10 Kinder im Alter von 3, 5, 5, 7, 7, 8, 9, 9, 9 und 14 Jahren. Die empirische Verteilungsfunktion für das Merkmal Alter wäre dann:

F(x)

= 0,0 für x < 3 (d.h. es gibt keine Kinder unter 3 Jahren)

= 0,1 für 3 <= x < 5

= 0,3 für 5 <= x < 7

= 0,5 für 7 <= x < 8

= 0,6 für 8 <= x < 9

= 0,9 für 9 <= x < 14

= 1,0 für 14 <= x.

Hier sind die kumulierten relativen Häufigkeiten angegeben, alternativ werden teilweise auch die absoluten Häufigkeiten angegeben.

Mathematisch handelt es sich bei dieser Verteilungsfunktion auf Basis der diskreten Variablen Lebensalter um eine Treppenfunktion: die relativen Häufigkeiten erhöhen sich sprunghaft, z.B. von 0,1 auf 0,3 und dann weiter auf 0,5 etc.

Wäre die Fragestellung "Wie viele Kinder sind bis zu 12 Jahre alt?", könnte man die Antwort für x = 12 in der vorletzten Zeile der Verteilungsfunktion (0,9 für 9 <= x < 14) ablesen: 0,9 bzw. 90 % (9 der 10 Kinder).

Die Verteilungsfunktion als Grafik:

Empirische-Verteilungsfunktion