\[ n = Anzahl\ der\ Elemente\ in\ der\ Stichprobe \]
\[ N = Größe\ der\ Grundgesamtheit \]
Subskripte (Sprich z.B.: x Index i) bezeichnen die konkrete Merkmalsausprägung eines Merkmals X beim i-ten Meßwert/Beobachtungswert.
\[ x_{i} = Wert\ der\ Variablen\ x\ bei\ der\ i-ten\ Messung \]
\[ i,j,m,n := gebräuchliche\ Variablennamen\ für\ Laufindizes \]
Großbuchstaben (zum Beispiel X oder Y) bezeichnen oftmals Zufallsvariable, und bezeichnen bestimmte Größen, die vom Zufall (und nur vom Zufall) abhängen. Sie lassen sich Formal als Funktion ausdrücken. Kleinbuchstaben (x, y) beziehen sich hingegen in aller Regel auf konkrete Meßreihen, also empirische Realisationen von Zufallsvariablen.
\[ X = Zufallsvariable bzw. die zu erklärende (theoretische) Variable \]
\[ x = Messungen \]
(ggf. auch in Form eines Vektors)
\[ x=(x_{1}; x_{2}; x_{3} \dots x_{n}) \]
In der Inferenzstatistik wird versucht, auf unbekannte Parameter zu schließen (schätzen), die informativ sind für die Verteilung der Grundgesamtheit. Solche Parameter werden in der Regel mit griechischen Buchstaben bezeichnet \( \mu \) für den Mittelwert und \( \sigma^2 \) für die Varianz sind Beispiele. Allgemein schreibt man \( \theta \) wenn man einen beliebigen, unbekannten Parameter sucht.
\[ \theta = Gesuchter\ unbekannter\ Parameter \]
\[ \mu = E(X);\ Erwartungswert\ der\ Zufallvariablen\ X\ (i.d.R.\ Verteilungsmittelwert) \]
\[ \sigma = Streuungsparameter\ einer\ normalverteilten\ Zufallsvariablen \]
(Aber: nicht alle griechischen Buchstaben bezeichnen automatisch einen Parameter!)
Der Überstrich \( \overline{x} \) bezeichnet den Mittelwert einer Reihe von Messwerten bzw. einer Stichprobe.
\[ \overline{x} = arithmetisches\ Mittel\ einer\ Messreihe \]
Das Dach über einem Buchstaben bedeutet, dass man versucht, einen gesuchten Wert aus der Stichprobe zu schätzen bzw. einen theoretischen, aber unbekannten Wert durch Berechnung aus empirischen Daten anzupassen.
So gilt z.B.
\[ E(X) = \mu \sim \hat{\overline{x}} = \overline{x} \]
(Sprich: der Erwartungswert einer Zufallsvariablen ist der Gesuchte Parameter \( \mu \) und kann durch den Mittelwert geschätzt werden.)
Da der eigentliche Parameter unbekannt ist, wird versucht, geeignete Schätzfunktionen zu ermitteln, welche den wahren Wert des unbekannten Parameter beschreiben. So gilt das berechnete arithmetische Mittel \( \overline{x} \) als geeigneter Schätzer für den Mittelwert \( \mu \).
Beispiel:
\[ \hat{y} = \beta x + \alpha \]
Errechnete/angepasste Werte für y in einer Regressionsgleichung.
\[ h_i := Häufigkeit\ eines\ Merkmals i \] Der Index kann dabei alle Merkmalsausprägungen einer kategorialen/qualitativen Variable annehmen, z.B. \( h_{Studi} \) für die Häufigkeit von Studierende.
\[ k := Anzahl\ der\ Klassen \] Wichtig, wenn eine metrische Variable durch Variablentransformation in eine kategoriale Variable überführt wird, z.B. Einkommensklassen.
\[ \widetilde{x} := Median \]
\[ p, \pi := rel.\ Häufigkeit/Anteil \]
Das arithmetische Mittel berechnet man aus der Summe der Messwerte geteilt durch die Anzahl der Messwerte.
\[ \mu=\overline{x}=\frac{1}{N}\underset{i=1}{\overset{N}{\sum}}x_{i} \]
\[ \sigma^2=var(x)=\frac{1}{N}\underset{i=1}{\overset{N}{\sum}}(x_{i}-\overline{x})^2 \]
\[ \sigma=sd(x)=\sqrt{\frac{1}{N}\underset{i=1}{\overset{N}{\sum}}(x_{i}-\overline{x}})^2 \]
Der Stichprobenmittelwert ist ein geeigneter (effizienter!) Schätzer des “wahren” Mittelwerts:
\[ \mu=\hat{\overline{x}}=\frac{1}{n}\underset{i=1}{\overset{n}{\sum}}x_{i} \]
Die Stichprobenvarianz ist kein effizenter Schätzer für die Gesamtvarianz, daher muss sie angepasst werden:
\[ \sigma^2=var(x)=\frac{1}{n-1}\underset{i=1}{\overset{n}{\sum}}(x_{i}-\overline{x}) \]
Achtung: Varianz einer Verteilung ist nicht gleich dem Stichprobenfehler (der auch Standardfehler bezeichnet wird, s.u. z-Test!)
\[ \overline{x}=\frac{1}{n}\underset{i=1}{\overset{n}{\sum}}x_{i} \]
Streuungsparameter einer Verteilung (hier als Stichprobenvarianz, da wir in der Regel selten Vollerhebungen haben)
\[ s^2=var(x)=\frac{1}{n-1}\underset{i=1}{\overset{n}{\sum}}(x_{i}-\overline{x})^2 \]
Kovarianz bedeutet die Streuung einr Variablen in Abhängigkeit von einer anderen.
Die Varianz ist ein spezieller Fall der Kovarianz (die Kovarianz einer Variablen mit sich selbst)
\[ cov(x,y) =\frac{1}{n-1}\underset{i=1}{\overset{n}{\sum}}(x_{i}-\overline{x})(y_{i}-\overline{y}) \]
(Wie bei der Varianz kann man zwischen Stichprobenkovarianz und Kovarianz unterscheiden. Der Term der Kovarianz ist \( \frac{1}{N} \) wird bei der Stichprobenkovarianz aufgrund der mathematischen Eigenschaften zu \( \frac{1}{n-1} \))
Der Korrelationskoeffizient erlaubt eine genormte Messung des Zusammenhangs zweier Variablen. Er kann nur Werte zwischen -1 und +1 annehmen. Negative Werte bedeuten einen negativen Zusammenhang, positive Werte bedeuten einen positiven Zusammenhang. Werte nahe Null deuten darauf hin, dass zwei Variablen nicht (linear) miteinander zusammenhängen.
\[ r = \frac{cov(x, y)}{s_{x}s_{y}} \]
Regressionsgleichungen geben das Maß an, in dem eine oder mehrere (unabhängige) Variablen x den Wert einer (abhängigen) Variablen y beeinflussen. Mit der Gleichung versucht man einen angepassten Wert der Variablen y zu errechnen, wenn der Wert für die Variable(n) x bekannt ist.
\[ f(x) \sim \hat{y} = \beta x + \alpha \]
\[ f(x) = y = \beta x + \alpha + \epsilon \]
\[ \alpha = (unbekannter)\ Parameter\ für\ den\ Achsenabschnitt \]
\[ \beta = (unbekannter)\ Parameter\ für\ die\ Steigung \]
\[ \epsilon = Fehlerterm/Residuen \]
\( \epsilon \) wird bei der Schreibweise der Geradengleichung oftmals nicht explizit aufgeführt.
Allgemein:
\[ y \sim x \] Sprich: y steht in stochastischem Zusammenhang zur Variablen x
Gängige Regressionsschätzungen ermitteln die Parameter nach der Methode der Kleinsten Quadrate (Kleinste Quadrate Schätzer, KQS) oder auf englisch: Ordinary least squares (OLS)
\[ \hat{\beta} = b = \frac{cov(x,y)}{s_{x}^2} \]
\[ \hat{\alpha} = a = \overline{y} - b \overline{x} \]
Die Schätzung eines Erwartungswertes aus einer Stichprobe ist selbst wiederum fehleranfällig. Um zu Entscheiden, ob ein ermittelter Wert einem bestimmten (zuvor in einer Hypothese festgelegten) Wert entspricht, müssen Hypothesen aufgestellt und danach getestet werden.
Bei einseitigen Hypothesen wird getestet, ob ein ermittelter Wert entweder größer oder kleiner ist als der Hypothese aufgestellt. Die Nullhypothese bezeichnet dabei die Hypothese, die zurückgewiesen werden soll. Wird sie zurückgewiesen, kann man sich zu 95 %, 99 % … (je nach gefordertem Signifikanzniveau) sicher sein, dass die Hypothese zurückgewiesen wird.
\[ H_0: x \leq \mu_0; H_1: x> \mu_0 \]
Sprich: Nullhypothese: x ist kleiner oder gleich dem für die Nullhypothese vermutete Mittelwert. Alternativhypothese: x ist tatsächlich größer als der für die Nullhypothese vermutete Mittelwert.
Und: Die Nullhypothese soll aus Sicherheitsgründen erst dann zurückgewiesen werden, wenn der ermittelte Wert deutlich größer ist, als angenommen. (Wie “deutlich”, wird durch z-Test ermittelt.)
oder
\[ H_0: x \geq \mu_0; H_1: x< \mu_0 \]
Sprich: Nullhypothese: x ist größer oder gleich dem für die Nullhypothese vermutete Mittelwert. Alternativhypothese: x ist tatsächlich kleiner als der für die Nullhypothese vermutete Mittelwer.
Und: Die Nullhypothese soll aus Sicherheitsgründen erst dann zurückgewiesen werden, wenn der ermittelte Wert deutlich kleiner ist, als angenommen. (Wie “deutlich”, wird durch z-Test ermittelt.)
\[ H_0: x = \mu_0; H_1: x \neq \mu_0 \]
Sprich: Nullyhpothese: x entspricht dem vermuteten Mittelwert, Alternativhypothese: x entspricht dem Wert nicht.
Und: Die Nullhypothese soll aus Sicherheitsgründen erst dann zurückgewiesen werden, wenn der ermittelte Wert deutlich vom angenommenen Wert abweicht. (Wie “deutlich”, wird durch z-Test ermittelt.)
Hinter dem z-Test eines Anteilswertes steht das Gedankenexperiment, dass der Anteilswert in beliebig oft wiederholten Versuchen ermittelt wird. Der ermittelte Anteilswert schwankt dann bei jedem Versuch um den wahren Wert. Der Test wird unter der Annahme durchgeführt, was wäre, wenn die Nullhypothese stimmte. Daher wird für die Berechnung des Standardfehlers/Stichprobenfehlers der in der Hypothese verwendete Anteilswert \( \mu_0 \) verwendet.
\[ z = \frac{p-\mu_{p}}{\sigma_{p}} \]
Sprich: Die Statistik \( z \) setzt sich zusammen aus dem Messwert \( p \) weniger den hypothetischen Wert geteilt durch den Stichprobenfehler.
\[ \mu_p=\mu_0 \]
\[ \sigma_p=\sigma_{\mu_0}=\sqrt{\frac{\mu_p(1-\mu_p)}{n}} \]
Werte die Vorhanden sein müssen: Hypothetischer Wert \( \mu_0=\mu_p \), gemessener Wert \( p \) (manchmal auch mit \( \pi \) bezeichnet) und \( n \).
Für Stichproben mit einer Größe von n>30 kann ein z-Test angewendet werden.
Hinter dem z-Test eines Mittelwertes steht das Gedankenexperiment, dass der Stichprobenmittelwert in beliebig oft wiederholten Versuchen errechnet wird. Der ermittelte Mittelwert schwankt dann bei jedem Versuch um den wahren Wert. Dieses Schwanken ist von der Varianz der Grundgesamtheit und der Stichprobengröße abhängig (Stichprobenfehler). Der Test wird unter der Annahme durchgeführt, was wäre, wenn die Nullhypothese stimmte. Daher wird für den Standardfehler/Stichprobenfehler der angenommene Wert und die aus der Stichprobe ermittelte Varianz verwendet.
\[ z = \frac{\overline{x}-\mu_{x}}{\hat{\sigma}_{x}} \]
\[ \hat{\sigma}_{x}=\frac{\hat{\sigma}}{\sqrt{n}}=\frac{s}{\sqrt{n}} \]
Sprich: der geschätzte Standardfehler von Stichprobe x ist die geschätzte Varianz der Grundgesamtheit geteilt durch die Quadratwurzel der Stichprobengröße bzw. die Stichprobenvarianz geteilt durch die Wurzel der Stichprobengröße.
Werte die Vorhanden sein müssen: Hypothetischer Wert \( \mu_0=\mu_x \), gemessener Wert \( \overline{x} \) und \( n \).
Die Entscheidung für oder gegen die Hypothese erfolgt durch Vergleich mit den entsprechenden Schwellwerten. Diese ergeben sich aus der Verteilungsfunktion der Normalverteilung. Sie werden ggf. durch den vorgegebenen Signifikanzwert ermittelt.
Beim zweiseitigen Hypothesentest liegt der Wert für einen \( \alpha \)-Fehler von 0,05 (bzw. 5 %) resp. für ein Signifikanzniveau von 95 % bei ungefähr +/- 1,96.