Gjennom hele leksjonen benyttes det et signifikansnivå på 5% (\(\alpha=0.05\))
Vi starter med blanke aRk:
rm(list=ls())
Eksempel: Å finne interpolert varians
t-test på gjennomsnitt i to-grupper
x <- c(8,5,7,6,9,7)
y <- c(2,6,4,7,6)
gjennomsnitt
mean(x)
[1] 7
mean(y)
[1] 5
varians
var(x)
[1] 2
var(y)
[1] 4
antall observasjoner
n1 <- length(x)
n2 <- length(y)
interpolert varians
((n1-1)*var(x)+(n2-1)*var(y))/(n1+n2-2)
[1] 2.888889
standardfeil
sqrt(((n1-1)*var(x)+(n2-1)*var(y))/(n1+n2-2))
[1] 1.699673
t-testen for H0: gjennomsnitt til x = gjennomsnitt til y
t.test(x,y, var.equal = TRUE)
Two Sample t-test
data: x and y
t = 1.9433, df = 9, p-value = 0.08387
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.3282194 4.3282194
sample estimates:
mean of x mean of y
7 5
kritisk t-verdi
qt(0.975, df=length(x)+length(y)-2)
[1] 2.262157
la oss tegne denne t-testen
suppressPackageStartupMessages(library(HH))
NTplot(t.test(x,y, var.equal = TRUE))
Eksempel: Er den nye medisinen effektiv?
medisin <- c(8,4,6,-3,10,5,-1,2,9,7)
placebo <- c(2,3,-2,0,1,1,-1,3,0)
kritisk t-verdi
qt(0.95, df=length(medisin)+length(placebo)-2)
[1] 1.739607
t-test for likt gjennomsnitt i de to gruppene
t.test(medisin,placebo, alternative="greater", var.equal = TRUE)
Two Sample t-test
data: medisin and placebo
t = 2.5693, df = 17, p-value = 0.009951
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
1.266621 Inf
sample estimates:
mean of x mean of y
4.7000000 0.7777778
la oss tegne denne enhale t-testen
NTplot(t.test(medisin,placebo, alternative="greater", var.equal = TRUE))
Oppgave: Er det virkelig dyrere med HiFi-utstyr i Harstad?
tromso <- c(3840,4115,4190,3340,3565,3765,3890,3990)
harstad <- c(4040,4165,3915,3965,4090,3940,4065)
Paret t-test
#t.test(x,y, paired = TRUE)
Oppgave: Er det ulik slitasje på joggesko?
skoA <- c(1.72,1.43,1.09,1.21,1.37,0.98,1.45)
skoB <- c(1.48,1.11,1.15,1.19,1.22,1.10,1.12)
tabell <- matrix(c(456,382,485,460,96,138), 3, 2, byrow=TRUE)
rownames(tabell) <- c("Sosialistisk","Borgerlig","Stemte ikke")
colnames(tabell) <- c("Menn","Kvinner")
tabell
Menn Kvinner
Sosialistisk 456 382
Borgerlig 485 460
Stemte ikke 96 138
# forventning til celle[1,1]
# prob(rekke) * prob(kolonne) * N
sum(tabell[1,])/sum(tabell)*sum(tabell[,1])/sum(tabell)*sum(tabell)
[1] 430.8409
chisq.test(tabell, correct=FALSE)
Pearson's Chi-squared test
data: tabell
X-squared = 13.134, df = 2, p-value = 0.001406
# lagrer kji-kvadrat testen
Xtest <- chisq.test(tabell, correct=FALSE)
Xtest
Pearson's Chi-squared test
data: tabell
X-squared = 13.134, df = 2, p-value = 0.001406
Xtest$expected
Menn Kvinner
Sosialistisk 430.8409 407.1591
Borgerlig 485.8528 459.1472
Stemte ikke 120.3064 113.6936
round(Xtest$residuals^2, 2)
Menn Kvinner
Sosialistisk 1.47 1.55
Borgerlig 0.00 0.00
Stemte ikke 4.91 5.20
suppressPackageStartupMessages(library(mosaic))
plotDist("chisq", df=2)
kritisk kji-kvadrat verdi
qchisq(0.95, df=2)
[1] 5.991465
tegner vår kji-kvadrat test, p-verdi er det “grønne” arealet merket B
xpchisq(Xtest$statistic, df=2)
X-squared
0.9985941
Eksempel: Har stingsildfargen noe å si?
farge <- matrix(c(42,31,27), 1, 3, byrow=TRUE)
colnames(farge) <- c("Rød","Blå","Grønn")
rownames(farge) <- c("Antall")
farge
Rød Blå Grønn
Antall 42 31 27
kji-kvadrat testen
chisq.test(farge, correct=FALSE)
Chi-squared test for given probabilities
data: farge
X-squared = 3.62, df = 2, p-value = 0.1637
kritisk kji-kvadrat verdi
qchisq(0.95, df=2)
[1] 5.991465
tegner vår chi-kvadrat test, p-verdi er det “grønne” arealet merket B
xpchisq(chisq.test(farge, correct=FALSE)$statistic, df=2)
X-squared
0.8363459
Eksempel: Har kjønnene ulik holdning til tv-program?
tvprogram <- matrix(c(120,300,350,230), 2, 2, byrow=TRUE)
colnames(tvprogram) <- c("Menn","Kvinner")
rownames(tvprogram) <- c("Liker","Liker ikke")
tvprogram
Menn Kvinner
Liker 120 300
Liker ikke 350 230
# testen
chisq.test(tvprogram, correct=FALSE)
Pearson's Chi-squared test
data: tvprogram
X-squared = 98.726, df = 1, p-value < 2.2e-16
tegner vår chi-kvadrat test, p-verdi er det “grønne” arealet merket B
xpchisq(chisq.test(tvprogram, correct=FALSE)$statistic, df=1)
X-squared
1
snarveien
chisq.test(matrix(c(120,300,350,230), 2, 2, byrow=TRUE), correct=FALSE)
Pearson's Chi-squared test
data: matrix(c(120, 300, 350, 230), 2, 2, byrow = TRUE)
X-squared = 98.726, df = 1, p-value < 2.2e-16
Oppgave studiefinansiering og eksamensresultat
# Gruppe A Gruppe B Gruppe C
# Bestod eksamen 100 50 40
# Strøk til eksamen 25 25 20