Entropie
Entropie Definition
Die (statistische) Entropie als Streuungsmaß der Statistik kann auf nominalskalierte Daten angewendet werden, da sie nicht auf die Merkmalsausprägungen selbst, sondern nur auf die relativen Häufigkeiten der Merkmalsausprägungen zurückgreift.
Üblicherweise wird die Entropie in eine normierte Entropie überführt, die nur Werte zwischen 0 und 1 annehmen kann. Werte nahe bei 1 stehen dann für eine breite Streuung bzw. Verteilung der Daten, bei einer normierten Entropie von 1 sind die Daten gleichverteilt.
Beispiel
Beispiel: (Normierte) Entropie berechnen
Es liegen (vgl. die Beispieldaten zum Modalwert) die folgenden 3 nominalskalierten Merkmalsausprägungen mit ihren jeweiligen absoluten und relativen Häufigkeiten vor:
Qualifikation | Absolute Häufigkeit | Relative Häufigkeit |
---|---|---|
Abgeschlossene Ausbildung | 30 | 0,3 |
Meistertitel | 10 | 0,1 |
Hochschulabschluss | 60 | 0,6 |
Es haben 30 von 100 Mitarbeitern eine abgeschlossene Ausbildung; das entspricht einem Anteil bzw. einer relativen Häufigkeit von 0,3 (bzw. 30 %), u.s.w.
Entropie berechnen
Die Formel für die Entropie lautet:
∑ [f(i) × log2(1/f(i))] bzw.
- ∑ [f(i) × log2f(i)]
Die Summe läuft über i = 1 bis n mit n als Anzahl der Merkmalsausprägungen. Dabei ist f(i) die relative Häufigkeit der Merkmalsausprägung i, und log2 ist der Logarithmus zur Basis 2; dieser kann mit dem Taschenrechner berechnet werden, z.B. log2 0,1 = ln 0,1 / ln 2 = -3,3219. Dabei ist ln der natürliche Logarithmus (Taste: LN).
Bei Verwendung der 2. Version der Formel ergibt sich für die Beispieldaten:
Entropie = - (0,3 × log2 0,3 + 0,1 × log2 0,1 + 0,6 × log2 0,6)
= - (0,3 × -1,7370 + 0,1 × -3,3219 + 0,6 × -0,7370)
= - (- 0,5211 - 0,33219 - 0,4422) = 1,29549.
Normierte Entropie berechnen
Teilt man den berechneten Entropiewert durch den log2 n (mit n für die Anzahl der unterschiedlichen Merkmalsausprägungen, hier 3), erhält man die normierte Entropie.
Normierte Entropie = Entropie / log2 3 = 1,29549 / 1,5850 = 0,8173.