a)
Lad vore nul hypotese \(H_0\) være givet ved:
Derved må vores alternative hypotese \(H_a\) være :
Hvis vi benytter et signifikans niveau på \(\alpha = 5 \%\), kan vi teste \(H_0\) ved at udregne en t-test størrelse og en tilhørende p-værdi.
Idet vi antager at \[x_1,..,x_9 \sim N(\mu_x, \sigma_x^2)\] og \[y_1,....,y_9 \sim N(\mu_y, \sigma_y^2)\],
må vi fra regnereler i Normalfordelinger have at : \[D = X - Y \sim N(\mu_x - \mu_y, \sigma_x^2 + \sigma_y^2)\]. Med Andre ord må en differens af to normalfordelinger igen være normalfordelt.
For fremtidige formål bruger vi notationen \(D \sim N(\mu_d, \sigma_d^2)\).
Vi opstiller og udregner´passende t-test størrelse for at teste \(H_0\):
\[T_{obs} = \frac{\mu_d - \mu_0}{\frac{\sigma_d}{\sqrt{n}} } \sim T(n-1)\] , hvor \(\mu_0\) (antages til at være 0) er middelværdien under \(H_0\) , \(\sigma_d = \sqrt{\sigma_d^2}\) er standardafvigelsen, og \(n\) angier antallet af observationer i data. Idet vores observationer antages uafhængige og normalfordelte er \(T_{obs}\) bedst apporksimeret med en \(T\) fordelig med \(n-1\) firhedsgrader.
Vi udregner estimater for middelværdi og varians vha standardformlerne:
\(\mu_d = \bar{d} = \frac{1}{9} \sum_{i=1}^9d_i\), \(\sigma_d^2= \frac{1}{9-1} \sum_{i=1}^9(d_i - \bar{d})^2\)
Indlæs data og udregn estimater vha mean og sd formlerne i R
df = data.frame(d = c(2.4, -0.3, 0.1, -2.1, 2.1, -0.9, -3.2, 0.6, -0.7))
cat("Middelværdi estimat : ", mean(df$d))
## Middelværdi estimat : -0.2222222
cat("\n\n")
cat("Varians estimat", var(df$d))
## Varians estimat 3.266944
Vi indsætter størrelserne i \(T_{obs}\) og regner: \[T_{obs} = \frac{-0.2222222}{\frac{\sqrt{3.266 }}{\sqrt{9}}} = -0.3688399\]
Som under \(H_0\) er \(T\) fordelt med 8 frihedsgrader.
# Vi gemmer T_obs i r
t_obs = mean(df$d)/(sqrt(var(df$d))/sqrt(9))
b)
Vi udregner p-værdien som \[p = P(|T| \geq T_{obs})\]
I R bruger vi pt funktionen, som er fordelingsfunktionen i t fordelingen (husk fordelingsfunktion er pr def givet ved \(P(T \leq x)\))
2*pt(-abs(t_obs),df=8)
## [1] 0.7218175
c)
Vi Husker formel for \(95 \%\) konfidensinterval : \(\mu_d \pm t_{0.975} \cdot sd(\mu_d)\). Vi har udregnet alle størrelserne og sætter ind.
mean(df$d) + c(-1,1)*qt(0.975,df = 8)*(sqrt(var(df$d))/sqrt(9))
## [1] -1.611566 1.167121
Alternativt kan vi bruge confint og lm funktionerne i R
confint(lm(d ~ 1, data = df))
## 2.5 % 97.5 %
## (Intercept) -1.611566 1.167121
d)
Den statistike model er givet ved: \[D ~ N(\mu_d, \sigma_d^2)\], hvor den estimerede model er givet ved \[D \sim N(\mu_d = -0.22, \sigma_d^2 = 0.363)\]:
Der må antages at være uafhængighed mellem differencerne \(d_1,...,d_9\), idet zebrarene antages at være uafhængige af hinanden. Der må uderligere antages uafhængighed mellem \(x_1,..,x_9\) og \(y_1,...,y_9\) indbyrdes, men ikke på tværs (\(x_i\) og \(y_i\) for \(i = 1,..,9\) er ikke uafhængige). Dette må være rimeligt idet vi kigger på den samme zebra før og efter bedøvelse. Fordelingerne for \(X\) og \(Y\) samt deres paramtere er beskrevet i a)
Teststørrelsen \(T_{obs} = -0.369\) må under \(h_0\) antages at være T-fordelt med 8 frihedsgrader
Det kritiske område på et \(5 \%\) signifikansniveau må være \(97.5 \%\) fraktilen og \(2.5 \%\) fraktilen i \(T_{8}\) (T fordelingen med 8 frihedsgrader):
Vi bruger fraktilfunktionen for t fordelingen i R qt til at finde det kritiske område
qt(c(.025, .975), df = 8)
## [1] -2.306004 2.306004
Intervallet er symmetrisk idet T fordelingen ligner standardnormalfordelingen.
Konklusion af analyse : På et \(5 \%\) signifikansniveau, fejler vi at forkaste \(H_0\). Med andre ord taler data ikke i mod \(H_0\), som siger at der ingen forskel er på androgen-niveauet i blodet før og efter bedøvelse med succinylcholin. ”