Varianz
Varianz Definition
Die Varianz σ2 (Sigma Quadrat) ist ein Streuungsparameter, der darstellt, inwieweit die Werte um den arithmetischen Mittelwert streuen.
Sie misst die mittlere quadratische Abweichung vom arithmetischen Mittelwert.
Kurzbeispiel: Die drei Daten 1, 5 und 9 haben ebenso wie die drei Daten 3, 5 und 7 den Mittelwert bzw. Durchschnitt 5; die ersten Daten streuen aber mehr um den Mittelwert, die Varianz ist deshalb höher als bei den zweiten Daten.
Beispiel
Beispiel: Varianz berechnen
Auf Basis der Beispieldaten zum Median: Eine Familie hat 5 Kinder im Alter von 1, 3, 5, 9 und 12 Jahren.
Der arithmetische Mittelwert, der in einem ersten Schritt berechnet werden muss, ist (1 + 3 + 5 + 9 + 12)/5 = 6.
Die Varianz-Formel ist: σ2 = ((1-6)2 + (3-6)2 + (5-6)2 + (9-6)2 + (12-6)2)/5 = (25 + 9 + 1 + 9 + 36) / 5 = 80/5 = 16.
In der Varianz-Formel werden die Abweichungen aller Werte (hier: Alter) vom arithmetischen Mittelwert (hier: durchschnittliches Alter) quadriert, aufsummiert und anschließend durch die Anzahl der Merkmalsträger (hier: Anzahl der Kinder) geteilt.
Allgemeine Formel
Als allgemeine Formel: ∑ [xi - ∅]2 / n mit xi für die Messwerte von i = 1 bis n und n = Anzahl der Merkmalsträger / Messwerte.
Alternative Formel
Alternative Formel: σ2 = (12 + 32 + 52 + 92 + 122)/5 - 62 = (1 + 9 + 25 + 81 + 144) / 5 - 36 = 260/5 - 36 = 52 - 36 = 16.
Hier werden also die einzelnen Werte quadriert, aufsummiert und die Summe durch die Anzahl der Werte geteilt und es wird der quadrierte Mittelwert abgezogen; das ist einfacher zu rechnen, da nicht die einzelnen Differenzen berechnet werden müssen.
Varianz interpretieren
Die Varianz ist in gewisser Weise wenig aussagekräftig, da hier letztlich Jahre bzw. Differenzen zwischen Jahren quadriert werden.
Die Varianz im Beispiel ist schwer interpretierbar: eine Varianz von 16 bei Daten, die nur von 1 bis 12 (Jahren) reichen.
Aus der Varianz lässt sich aber einfach die aussagekräftigere Standardabweichung als Wurzel aus der Varianz berechnen; diese wäre hier als Wurzel aus 16 = 4 und lässt sich schon eher im Hinblick auf die Daten einordnen und interpretieren.
Die Varianz hat zudem den Nachteil, dass sie empfindlich gegenüber Ausreißern ist (da die Abstände quadriert werden).
Hätte die Familie noch ein 6. Kind im Alter von 24 Jahren (die Liste wäre dann: 1, 3, 5, 9, 12, 24), ist das arithmetische Mittel (1 + 3 + 5 + 9 + 12 + 24) / 6 = 54 / 6 = 9.
Die Varianz ist ((1-9)2 + (3-9)2) + (5-9)2 + (9-9)2 + (12-9)2 + (24-9)2)/6 = (64 + 36 + 16 + 0 + 9 + 225) / 6 = 350 / 6 = 58,33 (nahezu das Vierfache der obigen Varianz von 16).
Die Varianz wurde im Beispiel für einen aktuellen Ist-Zustand berechnet; sie kann aber auch für Daten im Zeitablauf (zum Beispiel jährliche oder monatliche Absatzmengen oder Umsätze) berechnet werden und ist dann ein Maß für die jährlichen bzw. monatlichen Schwankungen.
Stichprobenvarianz (Empirische Varianz)
In dem obigen Beispiel sind wir von einer Vollerhebung ausgegangen (alle Kinder der Familie wurden erfasst).
Handelt es sich jedoch um eine Stichprobe (also um eine Auswahl aus einer Grundgesamtheit), wird nicht durch die Anzahl der Erfassten (im obigen Beispiel: 5), sondern durch die Stichprobenanzahl minus 1 geteilt.
Die empirische Stichprobenvarianz wird zur Abgrenzung von der obigen Varianz der Grundgesamtheit mit s2 abgekürzt und wäre dann in dem obigen ersten Beispiel s2 = 80/(5-1) = 80 / 4 = 20.
Varianz als Risikomaß
Die Varianz als eine Möglichkeit, die Streuung zu messen und anzugeben, stellt auch ein Risikomaß dar und wird beispielsweise in der Wertpapieranalyse eingesetzt.
Man könnte zum Beispiel für die jährlichen Börsenkursänderungen einer Aktie die durchschnittliche Kursänderung pro Jahr für die letzten 10 Jahre berechnen und anschließend die Varianz (oder die Standardabweichung); je höher die Varianz (oder Standardabweichung), umso mehr schwankt der Aktienkurs (was mit Risiken für den Anleger verbunden ist).
Varianz-Rechenregeln
Summe
Summe
Die Varianz der Summe zweier Zufallsvariablen X und Y ist:
Var (X + Y) = Var(X) + Var (Y) + 2 Cov (X, Y)
Sind die beiden Zufallsvariablen stochastisch unabhängig, ist die Kovarianz Cov (X, Y) = 0 und der Term reduziert sich auf:
Var (X + Y) = Var(X) + Var (Y)