Zur Reduktion der Schwellung nach Knieoperationen werden häufig Quarkwickel eingesetzt. In einer (fiktiven) Multizenterstudie wurden insgesamt 30 Stichproben mit je 30 Patient*innen untersucht. Dabei wurde der Knieumfang direkt nach einem Knieprotheseneinsatz und drei Tage später gemessen. In der Grafik unten ist für jede dieser Stichproben die mittlere Umfangsreduktion (in cm) und das entsprechende 95% Vertrauensintervall (auch Konfidenzintervall, kurz CI) dargestellt.
<- 7
mu <- 3
sigma
<- vector()
m <- vector()
s <- vector()
ll <- vector()
ul
for(i in 1:30){
set.seed(100-i)
<- rnorm(30, mu, sigma)
x <- mean(x)
m[i] <- sd(x)
s[i] <- t.test(x)
t <- t$conf.int[1]
ll[i] <- t$conf.int[2]
ul[i]
}
<- data.frame(Studie = 1:30, m, s, ll, ul)
df
library(ggplot2)
ggplot(df, aes(x = Studie, y = m)) + geom_point() +
geom_errorbar(aes(ymin = ll, ymax = ul), width = 1) +
geom_hline(yintercept = 7, col = "red") +
labs(y = "Umfangreduktion nach 3 Tagen [cm]", title = "95% CIs von 30 Studien mit n = 30")
Alle 30 CIs schliessen den wahren Populationsmittelwert mit ein. Man sieht dies daran, dass alle CIs die rote Linie schneiden.
= 7.4
mean = 2.9
s = 30
n = s/sqrt(n)
se = 1.96 # siehe z-Tabelle
qz = 2.0452 # siehe t-Tabelle
qt
= mean - qz * se
ll_z = mean - qt * se ll_t
Mit der z-Verteilung liegt die untere Grenze bei 6.3622483 und mit der t-Verteilung (df = n-1) liegt diese bei 6.3171379.
= 5.9
mean = 3.1
s = 30
n = s/sqrt(n)
se = 1.96 # siehe z-Tabelle
qz = 2.0452 # siehe t-Tabelle
qt
= mean + qz * se
ul_z = mean + qt * se ul_t
Mit der z-Verteilung liegt die obere Grenze bei 7.0093208 und mit der t-Verteilung (df = n-1) liegt diese bei 7.0575422.
= 5.9
mean = 3.1
s = 30
n = s/sqrt(n)
se = 2.5758 # siehe z-Tabelle
qz = 2.7563 # siehe t-Tabelle
qt
= mean + qz * se
ul_z = mean + qt * se ul_t
Mit der z-Verteilung liegt die obere Grenze des 99% CIs bei 7.3578512 und mit der t-Verteilung (df = n-1) liegt diese bei 7.4600106.
Ein 95% CI sagt aus, dass von 100, auf die gleiche Art untersuchten Stichproben, 95% den wahren Populationsmittelwert miteinschliessen. Somit verfehlen ihn 5%. Also \(40*0.05 = 2\), \(100*0.05 = 5\) und \(120*0.05 = 6\).
Die Stichproben haben unterschiedliche Standardabweichungen. Nebst der Stichprobengrösse hat nur noch die Standardabweichung einen Einfluss auf den Standardfehler. Je grösser der Standardfehler, desto breiter das CI.
Die Stichproben werden zufällig gewählt und unterliegen daher zufälligen Schwankungen. In der Realität ist keine Stichprobe genau gleich wie eine andere. Dies führt dazu, dass sich die Mittelwerte zwischen den Stichproben unterscheiden. Man sagt dem “Stichprobenvariation” (engl. sampling variation). Dies hat zur Folge, dass nicht alle Stichprobenmittelwerte dem wahren Populationsmittelwert entsprechen. Gewisse Stichprobenmittelwerte weichen stark, andere weniger stark vom wahren Populationsmittelwert ab. Man sagt dem “Stichprobenfehler” (engl. sampling error). In der Statistik können wir also nie beurteilen, ob ein gefundener Effekt wahr oder nicht wahr ist. Wie können lediglich Bereiche schätzen, in welchen wir die Wahrheit erwarten.
Durch die Erhöhung des Stichprobenumfangs n. Da der Standardfehler \(se\) insbesondere vom Stichprobenumfang abhängig ist, verkleinert sich das CI proportional zu \(\sqrt{n}\). Wenn ich beispielsweise den Stichprobenumfang vervierfache, dann halbiert sich der Standardfehler und somit wird ein CI halb so breit.
95% CIs von Mittelwerten sind symmetrisch. Somit muss der Mittelwert bei 6.8 ligen. Der Standardfehler ist somit \(1/qt\), also \(1/2.0452 = 0.4889\). Um die Standardabweichung zu erhalten, multipliziert man diesen Wert mit \(\sqrt{n}\), also \(0.4889*\sqrt{30} = 2.6778\)