Glossar

Stichprobengröße:

\[ n = Anzahl\ der\ Elemente\ in\ der\ Stichprobe \]

Grundgesamtheit:

\[ N = Größe\ der\ Grundgesamtheit \]

Subskripte/Indizierung

Subskripte (Sprich z.B.: x Index i) bezeichnen die konkrete Merkmalsausprägung eines Merkmals X beim i-ten Meßwert/Beobachtungswert.

\[ x_{i} = Wert\ der\ Variablen\ x\ bei\ der\ i-ten\ Messung \]

\[ i,j,m,n := gebräuchliche\ Variablennamen\ für\ Laufindizes \]

Groß- und Kleinbuchstaben

Großbuchstaben (zum Beispiel X oder Y) bezeichnen oftmals Zufallsvariable, und bezeichnen bestimmte Größen, die vom Zufall (und nur vom Zufall) abhängen. Sie lassen sich Formal als Funktion ausdrücken. Kleinbuchstaben (x, y) beziehen sich hingegen in aller Regel auf konkrete Meßreihen, also empirische Realisationen von Zufallsvariablen.

\[ X = Zufallsvariable bzw. die zu erklärende (theoretische) Variable \]
\[ x = Messungen \]
(ggf. auch in Form eines Vektors)

\[ x=(x_{1}; x_{2}; x_{3} \dots x_{n}) \]

Griechische Buchstaben/Parameter

In der Inferenzstatistik wird versucht, auf unbekannte Parameter zu schließen (schätzen), die informativ sind für die Verteilung der Grundgesamtheit. Solche Parameter werden in der Regel mit griechischen Buchstaben bezeichnet \( \mu \) für den Mittelwert und \( \sigma^2 \) für die Varianz sind Beispiele. Allgemein schreibt man \( \theta \) wenn man einen beliebigen, unbekannten Parameter sucht.

\[ \theta = Gesuchter\ unbekannter\ Parameter \]
\[ \mu = E(X);\ Erwartungswert\ der\ Zufallvariablen\ X\ (i.d.R.\ Verteilungsmittelwert) \]
\[ \sigma = Streuungsparameter\ einer\ normalverteilten\ Zufallsvariablen \]

(Aber: nicht alle griechischen Buchstaben bezeichnen automatisch einen Parameter!)

Buchstaben mit Überstrich

Der Überstrich \( \overline{x} \) bezeichnet den Mittelwert einer Reihe von Messwerten bzw. einer Stichprobe.

\[ \overline{x} = arithmetisches\ Mittel\ einer\ Messreihe \]

Buchstaben mit Dach und Schätzer/Schätzwerte

Das Dach über einem Buchstaben bedeutet, dass man versucht, einen gesuchten Wert aus der Stichprobe zu schätzen bzw. einen theoretischen, aber unbekannten Wert durch Berechnung aus empirischen Daten anzupassen.

So gilt z.B.
\[ E(X) = \mu \sim \hat{\overline{x}} = \overline{x} \]
(Sprich: der Erwartungswert einer Zufallsvariablen ist der Gesuchte Parameter \( \mu \) und kann durch den Mittelwert geschätzt werden.)

Da der eigentliche Parameter unbekannt ist, wird versucht, geeignete Schätzfunktionen zu ermitteln, welche den wahren Wert des unbekannten Parameter beschreiben. So gilt das berechnete arithmetische Mittel \( \overline{x} \) als geeigneter Schätzer für den Mittelwert \( \mu \).

Beispiel:

\[ \hat{y} = \beta x + \alpha \]
Errechnete/angepasste Werte für y in einer Regressionsgleichung.

Weitere Notationen:

\[ h_i := Häufigkeit\ eines\ Merkmals i \] Der Index kann dabei alle Merkmalsausprägungen einer kategorialen/qualitativen Variable annehmen, z.B. \( h_{Studi} \) für die Häufigkeit von Studierende.
\[ k := Anzahl\ der\ Klassen \] Wichtig, wenn eine metrische Variable durch Variablentransformation in eine kategoriale Variable überführt wird, z.B. Einkommensklassen.
\[ \widetilde{x} := Median \]
\[ p, \pi := rel.\ Häufigkeit/Anteil \]

Arithmetisches Mittel einer Grundgesamtheit (bzw. bei rein deskriptiver Statistik)

Das arithmetische Mittel berechnet man aus der Summe der Messwerte geteilt durch die Anzahl der Messwerte.

\[ \mu=\overline{x}=\frac{1}{N}\underset{i=1}{\overset{N}{\sum}}x_{i} \]

Varianz (einer Grundgesamtheit bzw. bei rein deskriptiver Statistik)

\[ \sigma^2=var(x)=\frac{1}{N}\underset{i=1}{\overset{N}{\sum}}(x_{i}-\overline{x})^2 \]

Standardabweichung (einer Grundgesamtheit bzw. bei ren deskriptiver Statistik)

\[ \sigma=sd(x)=\sqrt{\frac{1}{N}\underset{i=1}{\overset{N}{\sum}}(x_{i}-\overline{x}})^2 \]

Schätzung der Varianz einer Grundgesamtheit über eine Stichprobe

Der Stichprobenmittelwert ist ein geeigneter (effizienter!) Schätzer des “wahren” Mittelwerts:

\[ \mu=\hat{\overline{x}}=\frac{1}{n}\underset{i=1}{\overset{n}{\sum}}x_{i} \]

Die Stichprobenvarianz ist kein effizenter Schätzer für die Gesamtvarianz, daher muss sie angepasst werden:

\[ \sigma^2=var(x)=\frac{1}{n-1}\underset{i=1}{\overset{n}{\sum}}(x_{i}-\overline{x}) \]

Achtung: Varianz einer Verteilung ist nicht gleich dem Stichprobenfehler (der auch Standardfehler bezeichnet wird, s.u. z-Test!)

Formeln

Mittelwert:

\[ \overline{x}=\frac{1}{n}\underset{i=1}{\overset{n}{\sum}}x_{i} \]

Varianz

Streuungsparameter einer Verteilung (hier als Stichprobenvarianz, da wir in der Regel selten Vollerhebungen haben)

\[ s^2=var(x)=\frac{1}{n-1}\underset{i=1}{\overset{n}{\sum}}(x_{i}-\overline{x})^2 \]

Kovarianz

Kovarianz bedeutet die Streuung einr Variablen in Abhängigkeit von einer anderen.
Die Varianz ist ein spezieller Fall der Kovarianz (die Kovarianz einer Variablen mit sich selbst)

\[ cov(x,y) =\frac{1}{n-1}\underset{i=1}{\overset{n}{\sum}}(x_{i}-\overline{x})(y_{i}-\overline{y}) \]

(Wie bei der Varianz kann man zwischen Stichprobenkovarianz und Kovarianz unterscheiden. Der Term der Kovarianz ist \( \frac{1}{N} \) wird bei der Stichprobenkovarianz aufgrund der mathematischen Eigenschaften zu \( \frac{1}{n-1} \))

Korrelationskoeffizient nach Karl Pearson

Der Korrelationskoeffizient erlaubt eine genormte Messung des Zusammenhangs zweier Variablen. Er kann nur Werte zwischen -1 und +1 annehmen. Negative Werte bedeuten einen negativen Zusammenhang, positive Werte bedeuten einen positiven Zusammenhang. Werte nahe Null deuten darauf hin, dass zwei Variablen nicht (linear) miteinander zusammenhängen.

\[ r = \frac{cov(x, y)}{s_{x}s_{y}} \]

Regressionsgleichung

Allgemeine Gleichung

Regressionsgleichungen geben das Maß an, in dem eine oder mehrere (unabhängige) Variablen x den Wert einer (abhängigen) Variablen y beeinflussen. Mit der Gleichung versucht man einen angepassten Wert der Variablen y zu errechnen, wenn der Wert für die Variable(n) x bekannt ist.

\[ f(x) \sim \hat{y} = \beta x + \alpha \]
\[ f(x) = y = \beta x + \alpha + \epsilon \]

\[ \alpha = (unbekannter)\ Parameter\ für\ den\ Achsenabschnitt \]
\[ \beta = (unbekannter)\ Parameter\ für\ die\ Steigung \]
\[ \epsilon = Fehlerterm/Residuen \]
\( \epsilon \) wird bei der Schreibweise der Geradengleichung oftmals nicht explizit aufgeführt.

Allgemein:

\[ y \sim x \] Sprich: y steht in stochastischem Zusammenhang zur Variablen x

Berechnung der Regressionsparameter nach der kleinsten Quadrate Methode

Gängige Regressionsschätzungen ermitteln die Parameter nach der Methode der Kleinsten Quadrate (Kleinste Quadrate Schätzer, KQS) oder auf englisch: Ordinary least squares (OLS)
\[ \hat{\beta} = b = \frac{cov(x,y)}{s_{x}^2} \]
\[ \hat{\alpha} = a = \overline{y} - b \overline{x} \]

z-Test

Die Schätzung eines Erwartungswertes aus einer Stichprobe ist selbst wiederum fehleranfällig. Um zu Entscheiden, ob ein ermittelter Wert einem bestimmten (zuvor in einer Hypothese festgelegten) Wert entspricht, müssen Hypothesen aufgestellt und danach getestet werden.

Einseitige und zweiseitige Hypothesen

Bei einseitigen Hypothesen wird getestet, ob ein ermittelter Wert entweder größer oder kleiner ist als der Hypothese aufgestellt. Die Nullhypothese bezeichnet dabei die Hypothese, die zurückgewiesen werden soll. Wird sie zurückgewiesen, kann man sich zu 95 %, 99 % … (je nach gefordertem Signifikanzniveau) sicher sein, dass die Hypothese zurückgewiesen wird.

Einseitige Hypothese

\[ H_0: x \leq \mu_0; H_1: x> \mu_0 \]

Sprich: Nullhypothese: x ist kleiner oder gleich dem für die Nullhypothese vermutete Mittelwert. Alternativhypothese: x ist tatsächlich größer als der für die Nullhypothese vermutete Mittelwert.

Und: Die Nullhypothese soll aus Sicherheitsgründen erst dann zurückgewiesen werden, wenn der ermittelte Wert deutlich größer ist, als angenommen. (Wie “deutlich”, wird durch z-Test ermittelt.)

oder

\[ H_0: x \geq \mu_0; H_1: x< \mu_0 \]

Sprich: Nullhypothese: x ist größer oder gleich dem für die Nullhypothese vermutete Mittelwert. Alternativhypothese: x ist tatsächlich kleiner als der für die Nullhypothese vermutete Mittelwer.

Und: Die Nullhypothese soll aus Sicherheitsgründen erst dann zurückgewiesen werden, wenn der ermittelte Wert deutlich kleiner ist, als angenommen. (Wie “deutlich”, wird durch z-Test ermittelt.)

Zweiseitige Hypothese

\[ H_0: x = \mu_0; H_1: x \neq \mu_0 \]

Sprich: Nullyhpothese: x entspricht dem vermuteten Mittelwert, Alternativhypothese: x entspricht dem Wert nicht.

Und: Die Nullhypothese soll aus Sicherheitsgründen erst dann zurückgewiesen werden, wenn der ermittelte Wert deutlich vom angenommenen Wert abweicht. (Wie “deutlich”, wird durch z-Test ermittelt.)

z-Test eines Anteilswertes

Hinter dem z-Test eines Anteilswertes steht das Gedankenexperiment, dass der Anteilswert in beliebig oft wiederholten Versuchen ermittelt wird. Der ermittelte Anteilswert schwankt dann bei jedem Versuch um den wahren Wert. Der Test wird unter der Annahme durchgeführt, was wäre, wenn die Nullhypothese stimmte. Daher wird für die Berechnung des Standardfehlers/Stichprobenfehlers der in der Hypothese verwendete Anteilswert \( \mu_0 \) verwendet.

\[ z = \frac{p-\mu_{p}}{\sigma_{p}} \]

Sprich: Die Statistik \( z \) setzt sich zusammen aus dem Messwert \( p \) weniger den hypothetischen Wert geteilt durch den Stichprobenfehler.

\[ \mu_p=\mu_0 \]
\[ \sigma_p=\sigma_{\mu_0}=\sqrt{\frac{\mu_p(1-\mu_p)}{n}} \]

Werte die Vorhanden sein müssen: Hypothetischer Wert \( \mu_0=\mu_p \), gemessener Wert \( p \) (manchmal auch mit \( \pi \) bezeichnet) und \( n \).

z-Test eines Mittelwerts

Für Stichproben mit einer Größe von n>30 kann ein z-Test angewendet werden.
Hinter dem z-Test eines Mittelwertes steht das Gedankenexperiment, dass der Stichprobenmittelwert in beliebig oft wiederholten Versuchen errechnet wird. Der ermittelte Mittelwert schwankt dann bei jedem Versuch um den wahren Wert. Dieses Schwanken ist von der Varianz der Grundgesamtheit und der Stichprobengröße abhängig (Stichprobenfehler). Der Test wird unter der Annahme durchgeführt, was wäre, wenn die Nullhypothese stimmte. Daher wird für den Standardfehler/Stichprobenfehler der angenommene Wert und die aus der Stichprobe ermittelte Varianz verwendet.

\[ z = \frac{\overline{x}-\mu_{x}}{\hat{\sigma}_{x}} \]

\[ \hat{\sigma}_{x}=\frac{\hat{\sigma}}{\sqrt{n}}=\frac{s}{\sqrt{n}} \]

Sprich: der geschätzte Standardfehler von Stichprobe x ist die geschätzte Varianz der Grundgesamtheit geteilt durch die Quadratwurzel der Stichprobengröße bzw. die Stichprobenvarianz geteilt durch die Wurzel der Stichprobengröße.

Werte die Vorhanden sein müssen: Hypothetischer Wert \( \mu_0=\mu_x \), gemessener Wert \( \overline{x} \) und \( n \).

Entscheidung für oder gegen die Hypothese

Die Entscheidung für oder gegen die Hypothese erfolgt durch Vergleich mit den entsprechenden Schwellwerten. Diese ergeben sich aus der Verteilungsfunktion der Normalverteilung. Sie werden ggf. durch den vorgegebenen Signifikanzwert ermittelt.

Beim zweiseitigen Hypothesentest liegt der Wert für einen \( \alpha \)-Fehler von 0,05 (bzw. 5 %) resp. für ein Signifikanzniveau von 95 % bei ungefähr +/- 1,96.