Leksjon 8

Hypotesetesting 2

Gjennom hele leksjonen benyttes det et signifikansnivå på 5% (\(\alpha=0.05\))
Vi starter med blanke aRk:

rm(list=ls())

Eksempel: Å finne interpolert varians
t-test på gjennomsnitt i to-grupper

x <- c(8,5,7,6,9,7)
y <- c(2,6,4,7,6)

gjennomsnitt

mean(x)
[1] 7
mean(y)
[1] 5

varians

var(x)
[1] 2
var(y)
[1] 4

antall observasjoner

n1 <- length(x)
n2 <- length(y)

interpolert varians

((n1-1)*var(x)+(n2-1)*var(y))/(n1+n2-2)
[1] 2.888889

standardfeil

sqrt(((n1-1)*var(x)+(n2-1)*var(y))/(n1+n2-2))
[1] 1.699673

t-testen for H0: gjennomsnitt til x = gjennomsnitt til y

t.test(x,y, var.equal = TRUE)

    Two Sample t-test

data:  x and y
t = 1.9433, df = 9, p-value = 0.08387
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.3282194  4.3282194
sample estimates:
mean of x mean of y 
        7         5 

kritisk t-verdi

qt(0.975, df=length(x)+length(y)-2)
[1] 2.262157

la oss tegne denne t-testen

suppressPackageStartupMessages(library(HH))
NTplot(t.test(x,y, var.equal = TRUE))

Eksempel: Er den nye medisinen effektiv?

medisin <- c(8,4,6,-3,10,5,-1,2,9,7)
placebo <- c(2,3,-2,0,1,1,-1,3,0)

kritisk t-verdi

qt(0.95, df=length(medisin)+length(placebo)-2)
[1] 1.739607

t-test for likt gjennomsnitt i de to gruppene

t.test(medisin,placebo, alternative="greater", var.equal = TRUE)

    Two Sample t-test

data:  medisin and placebo
t = 2.5693, df = 17, p-value = 0.009951
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 1.266621      Inf
sample estimates:
mean of x mean of y 
4.7000000 0.7777778 

la oss tegne denne enhale t-testen

NTplot(t.test(medisin,placebo, alternative="greater", var.equal = TRUE))

Oppgave: Er det virkelig dyrere med HiFi-utstyr i Harstad?

tromso <- c(3840,4115,4190,3340,3565,3765,3890,3990)
harstad <- c(4040,4165,3915,3965,4090,3940,4065)

Paret t-test

#t.test(x,y, paired = TRUE)

Oppgave: Er det ulik slitasje på joggesko?

skoA <- c(1.72,1.43,1.09,1.21,1.37,0.98,1.45)
skoB <- c(1.48,1.11,1.15,1.19,1.22,1.10,1.12)

Kji-kvadrattest

Uavhengighetstest

tabell <- matrix(c(456,382,485,460,96,138), 3, 2, byrow=TRUE)
rownames(tabell) <- c("Sosialistisk","Borgerlig","Stemte ikke")
colnames(tabell) <- c("Menn","Kvinner")
tabell  
             Menn Kvinner
Sosialistisk  456     382
Borgerlig     485     460
Stemte ikke    96     138
# forventning til celle[1,1]
# prob(rekke) * prob(kolonne) * N
sum(tabell[1,])/sum(tabell)*sum(tabell[,1])/sum(tabell)*sum(tabell)
[1] 430.8409
chisq.test(tabell, correct=FALSE)

    Pearson's Chi-squared test

data:  tabell
X-squared = 13.134, df = 2, p-value = 0.001406
# lagrer kji-kvadrat testen
Xtest <- chisq.test(tabell, correct=FALSE)
Xtest

    Pearson's Chi-squared test

data:  tabell
X-squared = 13.134, df = 2, p-value = 0.001406
Xtest$expected 
                 Menn  Kvinner
Sosialistisk 430.8409 407.1591
Borgerlig    485.8528 459.1472
Stemte ikke  120.3064 113.6936
round(Xtest$residuals^2, 2)
             Menn Kvinner
Sosialistisk 1.47    1.55
Borgerlig    0.00    0.00
Stemte ikke  4.91    5.20
suppressPackageStartupMessages(library(mosaic))
plotDist("chisq", df=2)

kritisk kji-kvadrat verdi

qchisq(0.95, df=2)
[1] 5.991465

tegner vår kji-kvadrat test, p-verdi er det “grønne” arealet merket B

xpchisq(Xtest$statistic, df=2)

X-squared 
0.9985941 

Eksempel: Har stingsildfargen noe å si?

farge <- matrix(c(42,31,27), 1, 3, byrow=TRUE)
colnames(farge) <- c("Rød","Blå","Grønn")
rownames(farge) <- c("Antall")
farge
       Rød Blå Grønn
Antall  42  31    27

kji-kvadrat testen

chisq.test(farge, correct=FALSE)

    Chi-squared test for given probabilities

data:  farge
X-squared = 3.62, df = 2, p-value = 0.1637

kritisk kji-kvadrat verdi

qchisq(0.95, df=2)
[1] 5.991465

tegner vår chi-kvadrat test, p-verdi er det “grønne” arealet merket B

xpchisq(chisq.test(farge, correct=FALSE)$statistic, df=2)

X-squared 
0.8363459 

Eksempel: Har kjønnene ulik holdning til tv-program?

tvprogram <- matrix(c(120,300,350,230), 2, 2, byrow=TRUE)
colnames(tvprogram) <- c("Menn","Kvinner")
rownames(tvprogram) <- c("Liker","Liker ikke")
tvprogram
           Menn Kvinner
Liker       120     300
Liker ikke  350     230
# testen
chisq.test(tvprogram, correct=FALSE)

    Pearson's Chi-squared test

data:  tvprogram
X-squared = 98.726, df = 1, p-value < 2.2e-16

tegner vår chi-kvadrat test, p-verdi er det “grønne” arealet merket B

xpchisq(chisq.test(tvprogram, correct=FALSE)$statistic, df=1)

X-squared 
        1 

snarveien

chisq.test(matrix(c(120,300,350,230), 2, 2, byrow=TRUE), correct=FALSE)

    Pearson's Chi-squared test

data:  matrix(c(120, 300, 350, 230), 2, 2, byrow = TRUE)
X-squared = 98.726, df = 1, p-value < 2.2e-16

Oppgave studiefinansiering og eksamensresultat

#                     Gruppe A Gruppe B Gruppe C
# Bestod eksamen         100       50       40
# Strøk til eksamen       25       25       20