Entropie

Entropie Definition

Die (statistische) Entropie als Streuungsmaß der Statistik kann auf nominalskalierte Daten angewendet werden, da sie nicht auf die Merkmalsausprägungen selbst, sondern nur auf die relativen Häufigkeiten der Merkmalsausprägungen zurückgreift.

Üblicherweise wird die Entropie in eine normierte Entropie überführt, die nur Werte zwischen 0 und 1 annehmen kann. Werte nahe bei 1 stehen dann für eine breite Streuung bzw. Verteilung der Daten, bei einer normierten Entropie von 1 sind die Daten gleichverteilt.

Beispiel

Beispiel: (Normierte) Entropie berechnen

Es liegen (vgl. die Beispieldaten zum Modalwert) die folgenden 3 nominalskalierten Merkmalsausprägungen mit ihren jeweiligen absoluten und relativen Häufigkeiten vor:

Daten zur Berechnung der Entropie
Qualifikation Absolute Häufigkeit Relative Häufigkeit
Abgeschlossene Ausbildung 30 0,3
Meistertitel 10 0,1
Hochschulabschluss 60 0,6

Es haben 30 von 100 Mitarbeitern eine abgeschlossene Ausbildung; das entspricht einem Anteil bzw. einer relativen Häufigkeit von 0,3 (bzw. 30 %), u.s.w.

Entropie berechnen

Die Formel für die Entropie lautet:

∑ [f(i) × log2(1/f(i))] bzw.

- ∑ [f(i) × log2f(i)]

Die Summe läuft über i = 1 bis n mit n als Anzahl der Merkmalsausprägungen. Dabei ist f(i) die relative Häufigkeit der Merkmalsausprägung i, und log2 ist der Logarithmus zur Basis 2; dieser kann mit dem Taschenrechner berechnet werden, z.B. log2 0,1 = ln 0,1 / ln 2 = -3,3219. Dabei ist ln der natürliche Logarithmus (Taste: LN).

Bei Verwendung der 2. Version der Formel ergibt sich für die Beispieldaten:

Entropie = - (0,3 × log2 0,3 + 0,1 × log2 0,1 + 0,6 × log2 0,6)

= - (0,3 × -1,7370 + 0,1 × -3,3219 + 0,6 × -0,7370)

= - (- 0,5211 - 0,33219 - 0,4422) = 1,29549.

Normierte Entropie berechnen

Teilt man den berechneten Entropiewert durch den log2 n (mit n für die Anzahl der unterschiedlichen Merkmalsausprägungen, hier 3), erhält man die normierte Entropie.

Normierte Entropie = Entropie / log2 3 = 1,29549 / 1,5850 = 0,8173.