Bei Varianz durch n-1 dividieren?
In meinem Mathbuch wird die Summe der der quadrierten Abweichungen vom Mittelwert nicht mal 1/n gerechnet, sondern mal 1/n-1. Warum? Verfälscht dies nicht das Ergebnis??
3 Antworten
Die Stichprobenvarianz ist ein erwartungstreuer Schätzer für die Varianz, d.h.Man setzt voraus, dass die Xᵢ unabhängig und identisch verteilt sind. Insbesondere gilt aufgrund der Voraussetzungen dann E(Xᵢ Xⱼ) = (E(Xᵢ))² = (E(X))², wenn i ≠ j und E(Xᵢ Xⱼ) = E(Xᵢ²) = E(X²), wenn i = j. Man kann dann etwas aufwendig nachrechnen, dass der Erwartungswert der Stichprobenvarianz gleich der Varianz ist.
Es läuft darauf hinaus, dass bei der inneren Summe n - 1 mal der Fall i ≠ j vorliegt. Daher kommt "n - 1". So kann man genau begründen, dass man nicht nur willkürlich durch n - 1 teilt. Man könnte ja z.B. auch durch n - 1/2 teilen.
Wenn man das ausrechnet, wird es wegen der Summen ziemlich schnell unübersichtlich. Man könnte es versuchen. Wichtig ist das Resultat, dass diese Stichprobenvarianz so erwartungstreu ist. Wenn man durch n teilen würde, würde man im Durchschnitt die Varianz um den Faktor n/(n - 1) falsch schätzen.
Eine Begründung ist auch, dass man die Werte schon benutzt hat, um den Mittelwert auszurechnen. Wenn man sich nur für die relative Lage zueinander interessiert hat man praktisch nur n - 1 Werte. Deutlicher würde man es sehen, wenn man den ersten Wert x₁ angeben würde und für die restlichen nur die Differenz zu x₁. Die Varianz ändert sich nicht, wenn man nur x₁ verschiebt und die Differenzen gleich ließe. Die Varianz hängt tatsächlich nur von den n - 1 Differenzen ab. Wenn Du x₁, x₁ + d₂, x₁ + d₃, ... xₙ + dₙ statt x₁, x₂, x₃, ... xₙ schreiben würdest, sollte bei den Abweichungsquadraten das x₁ wegfallen. Durch (aufwendiges) Nachrechnen sieht man, dass wenn man die Summe der Abweichungsquadrate vom Mittelwert durch n - 1 teilt, man tatsächlich einen erwartungstreuen Schätzer für die Varianz hat.
Es liegt daran, dass bei der Varianz nicht der Tatsächliche Mittelwert der Population benutzt wird, sondern nur den Mittelwert der Stichprobe, welcher nur ein Schätzer vom tatsächlichen Mittelwert ist.
Daraus Folgt, dass du einen Systematischen Fehler erhälst, wenn du einfach nur durch n teilst. Das bedeutet, dass wenn du den Erwartungswert von der geschätzten Varianz bestimmst (also die mit 1/n), wirst du nicht die tatsächliche Varianz erhalten, sondern einen Wert, der etwas Größer ist.
Wenn du stattdessen durch 1/(n-1) teilst, ist der Erwartungswert der geschätzten Varianz stattdessen gleich der tatsächlichen Varianz. Der Schätzer ist somit Erwartungstreu (bzw unbiased). Das ist eine Eigenschaft, die man bei der Statistik gerne haben möchte.
Wenn du mehr dazu lesen möchtest, solltest du nach dem Stichwort "Bessel's Correction" suchen
Wenn man die Varianz einer Grundgesamtheit berechnet, dividiert man durch n.
Wenn man die Varianz einer Stichprobe (als Schätzung für jene der Grundgesamtheit) berechnet, dividiert man durch (n-1). Damit "verfälscht" man gewissermaßen absichtlich das Ergebnis und macht die Varianz etwas größer - um der Tatsache Rechnung zu tragen, dass man eben nur eine Stichprobe hat.
Wow, danke für die ausführliche Antwort! Muss es als Anfängerin auf diesem Gebiet allerdings erst noch ein bisschen verdauen ;-)