Schließende Statistik

Grundlagen der schließenden Statistik

Mit den Methoden der schließenden Statistik lassen sich Aussagen über eine Grundgesamtheit treffen die in den meisten Fällen nicht bekannt ist. In der Regele sind nur Stichproben bekannt und von diesen soll auf eine Gesamtheit geschlossen werden.

Um Aussagen treffen zu können wird eine Zufallsvariable XX definiert, die ein Merkmal (Körpergröße, Gewicht, Handynutzung oder sonstiges) beschreibt. Dieser Zufallsvariable wird weiter eine Verteilung zugewiesen, die häufig von dem Erwartungswert und der Varianz abhängt.

Diese Größen sind nicht bekannt und müssen mit der Hilfe von Stichproben bestimmt werden. Daher ist es hilfreich sich eine Gegenüberstellung der Verteilungsgrößen und der Stichprobe anzuschauen.

VerteilungStichprobe
Zufallsvariable XX (zum Durchzählen XiX_i ii-ter Zufallswert)Messwert, Wert xx (zum Durchzählen xix_i ii-ter Wert)
Anzahl der möglichen Werte: nnAnzahl der Werte in der Stichprobe: nn
Wahrscheinlichkeit einer Zufallsvariablen: P(X)P(X)(eventuell) relative Häufigkeit ein Wertes in der Stichprobe
Erwartungswert: E(X)=i=1nP(Xi)XiE(X)=\sum_{i=1}^n P(X_i)\cdot X_i, wird als Zahlenwert zur Verteilung mit μ\mu bezeichnetMittelwert: xˉ=1ni=1nxi\bar x = \frac{1}{n} \sum_{i=1}^n x_i
Varianz: Var(X)=E[(XE[X])2]Var(X)=E[(X-E[X])^2] =E[X2]E[X]2=σ2=E[X^2]-E[X]^2=\sigma^2Empirische Varianz: s2=1ni=1n(xixˉ)2s^2={1 \over n } \sum_{i=1}^n (x_i-\bar x)^2
Standartabweichung: SD(X)=Std(X)=Var(X)SD(X)=Std(X)=\sqrt{Var(X)}Empirische Standartabweichung: s(X)=s2s(X)=\sqrt{s^2}
Schätzer für die Varianz bei bekanntem Erwartungswert μ\mu: s^μ2=1ni=1n(xiμ)2\hat s_\mu^2=\frac{1}{n} \sum_{i=1}^n ( x_i - \mu )^2
Schätzer für die Varianz bei unbekanntem Erwartungswert: s^2=1n1i=1n(xixˉ)2\hat s^2=\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar x)^2

Beispiel beim Würfeln

VerteilungStichprobe
Zufallsvariable XX, die Zahl, die gewürfelt wird.x1=5x_1=5, x2=3x_2=3, x3=4x_3=4, x4=1x_4=1, x5=3x_5=3, x6=2x_6=2, x7=6x_7=6, x8=5x_8=5, x9=3x_9=3 und x10=2x_10=2
Anzahl der möglichen Werte: n=6n=6Anzahl der Werte in der Stichprobe: n=10n=10
Wahrscheinlichkeit einer Zufallsvariablen: P(X)=16P(X)={1 \over 6}(eventuell) relative Häufigkeit ein Wertes in der Stichprobe (s.o.)
Erwartungswert: E(X)=161+162+163E(X)={1 \over 6}\cdot 1+{1 \over 6}\cdot 2+{1 \over 6}\cdot 3 +164+165+166=3,5+{1 \over 6}\cdot 4+{1 \over 6}\cdot 5+{1 \over 6}\cdot 6 = 3,5, wird als Zahlenwert zur Verteilung mit μ\mu bezeichnetMittelwert: xˉ=110(5+3+4+1+3+\bar x = {1 \over 10} (5+3+4+1+3+ 2+6+5+3+2)=3,42+6+5+3+2)=3,4
Varianz: Var(X)2,92Var(X)\approx 2,92Empirische Varianz: s2=2,24s^2=2,24
Standartabweichung: SD(X)=Std(X)1,7SD(X)=Std(X)\approx 1,7Empirische Standartabweichung: s(X)1,5s(X)\approx 1,5
Schätzer für die Varianz bei bekanntem Erwartungswert μ=3,5\mu=3,5: s^μ2=1,55\hat s_\mu^2=1,55
Schätzer für die Varianz bei unbekanntem Erwartungswert: s^2=2,48\hat s^2=2,48

Verschiebungssatz

Der Verschiebungssatz vereinfacht das Rechnen mit Summen von quadratischen Abweichungen. Er lässt sich auf Varianz und Standartabweichung übertragen.

i=1n(xixˉ)2=i=1n(xi2)nxˉ2\sum_{i=1}^n (x_i-\bar x)^2 = \sum_{i=1}^n (x_i^2) -n \cdot\bar x^2

Beweis

Es gilt mit der 2. binomischen Formel:

i=1n(xixˉ)2=i=1n(xi22xixˉ+xˉ2)\sum_{i=1}^n (x_i-\bar x)^2 = \sum_{i=1}^n (x_i^2 -2 \cdot x_i \bar x + \bar x^2)

Die Summen dürfen in der Reihenfolge vertauscht werden, somit kann auch die große Summe von allen Teilsummen einzeln gebildet werden:

=i=1n(xi2)i=1n(2xixˉ)+i=1n(xˉ2)=\sum_{i=1}^n (x_i^2) - \sum_{i=1}^n (2 \cdot x_i \bar x) + \sum_{i=1}^n (\bar x^2)

Als nächstes kann man in der mittleren Summe die gleichen Faktoren xˉ\bar x und 22 ausklammern:

=i=1n(xi2)2xˉi=1n(xi)+i=1n(xˉ2)=\sum_{i=1}^n (x_i^2) - 2\bar x\cdot \sum_{i=1}^n (x_i ) + \sum_{i=1}^n (\bar x^2)

Jetzt nutzt man aus, dass $sum_{i=1}^n (x_i )=ncdot ar x$ und $sum_{i=1}^n (ar x^2) = ncdot ar x^2$ ist:

=i=1n(xi2)2xˉnxˉ+nxˉ2 =\sum_{i=1}^n (x_i^2) - 2\bar x\cdot n\cdot \bar x+ n\cdot \bar x^2

Zuletzt lassen sich die letzten beiden Teile zusammenfassen:

=i=1n(xi2)nxˉ2=\sum_{i=1}^n (x_i^2) - n\cdot \bar x^2

Erwartungswerte von statistischen Größen

Im allgemeinen sollten die Methoden zur Untersuchung von Stichproben sinnvolle Werte für die Gesamtheit beschreiben und nicht nur den Datensatz/die Stichprobe beschreiben. Hierzu bestimmt man die Erwartung für die Berechnungen auf der Stichprobe.

Wenn eine Formel bzw. eine statistische Größe in der Erwartung den richtigen Wert liefert, spricht man von Erwartungswerttreue. Dies ist ein theoretisches Konzept, welches einiges nützliches an Informationen über die statistischen Größen liefert.

Mittelwert

Der Erwartungswert des Mittelwerts (arith. Mittel) für eine Verteilung mit gegebenen Erwartungswert μ\mu und Varianz σ2\sigma^2 ist: E(Xˉ)=E(1ni=1nXi)E(\bar X) = E\left(\frac{1}{n} \sum_{i=1}^n X_i\right)

=1nE(i=1nXi) = \frac{1}{n} E\left( \sum_{i=1}^n X_i\right)

=1ni=1nE(Xi) = \frac{1}{n} \sum_{i=1}^n E(X_i)

=1ni=1nμ = \frac{1}{n} \sum_{i=1}^n \mu

=1nnμ = \frac{1}{n} n\cdot \mu

=μ = \mu

Im wesentlichen wurde genutzt, dass der Erwartungswert linear ist und somit mit allen linearen Operationen vertauscht werden kann (linear: Multiplikation mit einer Konstanten und Addition).

Es hat sich gezeigt, dass der Mittelwert im besten Fall den Erwartungswert einer Verteilung wiedergibt. Diese Aussage ist universell, da keine Einschränkungen gesetzt wurden.

Als nächstes kann noch die Varianz des Mittelwerts bestimmt werden:

Var(Xˉ)=Var(1ni=1nXi) Var(\bar X) = Var\left(\frac{1}{n} \sum_{i=1}^n X_i\right)

=E((1ni=1nXi)(1ni=1nXi))E(1ni=1nXi)2 = E\left( \left(\frac{1}{n}\sum_{i=1}^n X_i\right) \cdot \left(\frac{1}{n}\sum_{i=1}^n X_i\right) \right)-E\left(\frac{1}{n}\sum_{i=1}^n X_i\right)^2

=E(1n1n(i=1nXi)(i=1nXi))(1n)2E(i=1nXi)2= E\left( \frac{1}{n}\cdot \frac{1}{n}\cdot \left(\sum_{i=1}^n X_i\right) \cdot \left(\sum_{i=1}^n X_i\right) \right)-\left(\frac{1}{n}\right)^2\cdot E\left( \sum_{i=1}^n X_i\right)^2

=(1n)2[E((i=1nXi)(i=1nXi))E(i=1nXi)2] = \left(\frac{1}{n}\right)^2\cdot \left[ E\left(\left(\sum_{i=1}^n X_i\right) \cdot \left(\sum_{i=1}^n X_i\right) \right)- E\left( \sum_{i=1}^n X_i\right)^2\right]

=(1n)2Var(i=1nXi)= \left(\frac{1}{n}\right)^2\cdot Var\left( \sum_{i=1}^n X_i \right)

Bis hierhin wurde gezeigt wie sich ein Faktor auf die Varianz Auswirkt. Im folgenden müsste gezeigt werden, dass die Kovarianz für unabhängige Zufallsvariablen 00 ist. Hierauf wird hier verzichtet und angenommen, dass Var(X1++Xn)Var(X_1+\dots+X_n) =Var(X1)++Var(Xn)=Var(X_1)+\dots+Var(X_n) ist. In diesem Fall ist die Varianz einer Zufallsvariablen bekannt und es ergibt sich:

=(1n)2(i=1nVar(Xi))= \left(\frac{1}{n}\right)^2\cdot \left( \sum_{i=1}^n Var(X_i) \right)

=(1n)2i=1nσ2= \left(\frac{1}{n}\right)^2\cdot \sum_{i=1}^n \sigma^2

=(1n)2nσ2= \left(\frac{1}{n}\right)^2\cdot n \cdot \sigma^2

=σ2n= \frac{\sigma^2}{n}

Dies bedeutet die Varianz nimmt ab, je mehr Werte man in seiner Stichprobe hat.

Empirische Standartabweichung

Ähnlich wie beim Mittelwert soll hier der Erwartungswert bestimmt werden. Es gelten die gleichen Annahmen. Um es etwas einfacher zu haben, berechnen wir den Erwartungswert für i=1n(XiXˉ)2\sum_{i=1}^n(X_i-\bar X)^2 und nutzen zuerst den Verschiebungssatz:

E[i=1n(XiXˉ)2]=E[i=1nXi2nXˉ2] E\left[\sum_{i=1}^n(X_i-\bar X)^2\right]= E\left[\sum_{i=1}^n X_i^2 - n \cdot \bar X^2\right]

Wie bereit besprochen dürfen Erwartungswert und Summen Vertauscht werden:

=i=1nE(Xi2)nE(Xˉ2) = \sum_{i=1}^n E(X_i^2) - n \cdot E(\bar X^2)

Der Trick ist es jetzt die Formel für die Varianz umzustellen:

Var(X)=E[X2]E[X]2E[X2]=Var(X)+E[X]2=σ2+μ2 Var(X)=E[X^2]-E[X]^2 \Leftrightarrow E[X^2]=Var(X)+E[X]^2=\sigma^2+\mu^2

Dies ist auch möglich für den Mittelwert (Achtung, die Varianz ist eine andere):

Var(Xˉ)=E[Xˉ2]E[Xˉ]2E[Xˉ2]=Var(Xˉ)+E[Xˉ]2=σ2n+μ2Var(\bar X)=E[\bar X^2]-E[\bar X]^2 \Leftrightarrow E[\bar X^2]=Var(\bar X)+E[\bar X]^2={\sigma^2 \over n} +\mu^2

Diese beiden Lösungen können nun wieder eingesetzt werden:

=i=1nE(Xi2)nE(Xˉ2)=i=1n(σ2+μ2)n(σ2n+μ2) = \sum_{i=1}^n E(X_i^2) - n \cdot E(\bar X^2)=\sum_{i=1}^n \left(\sigma^2+\mu^2\right) - n \cdot \left({\sigma^2 \over n} +\mu^2\right)

=n(σ2+μ2)n(σ2n+μ2) =n\cdot \left(\sigma^2+\mu^2\right) - n \cdot \left({\sigma^2 \over n} +\mu^2\right)

=nσ2+nμ2σ2nμ2 =n\cdot \sigma^2+n\cdot\mu^2 - \sigma^2 - n \cdot \mu^2

=nσ2σ2=n\cdot \sigma^2 - \sigma^2

=(n1)σ2 =(n-1)\cdot \sigma^2

Das Ergebnis ist um den Faktor (n1)(n-1) zu groß, also sollte der Ansatz durch diesen Wert geteilt werden:

s^2=1n1i=1n(XiXˉ)2\hat s^2 = {1\over n-1}\sum_{i=1}^n(X_i-\bar X)^2

Achtung: Dies gilt nur, falls der Erwartungswert unbekannt ist.

Literatur:

  1. Krengel U. Einführung in die Wahrscheinlichkeitstheorie und Statistik. Vieweg Verlag, Wiesbaden, 2003
  2. Camps U, Cramer E. Grundlagen der Wahrscheinlichkeitsrechnung und Statistik. Springer Verlag, Berlin Heidelberg, 2007
  3. Genschel U, Becker C. Schließende Statistik - Grundlegende Methoden. Springer Verlag, Berlin Heidelberg, 2005