Cvičenie 6.1 Jednovýberový t-test
Zadanie: Spoločnosť tvrdí, že priemerný denný predaj ich produktu je 500 dolárov. Na overenie tohto tvrdenia ste zhromaždili náhodnú vzorku údajov o predaji za 30 dní. Chcete otestovať, či sa skutočný priemerný predaj líši od 500 USD. Otestujte na hladine významnosti 0.1 pomocou porovnania testovacej štatistiky s príslušným kvantilom a tiež pomocou testu implementovaného priamo v Rku.
Testujeme: H0:μ=500 proti H1:μ≠500
sales_data <- c(480, 505, 490, 520, 470, 485, 510, 495, 475, 530, 510, 495, 505, 515, 490, 500, 485, 520, 495, 475, 505, 495, 510, 485, 500, 490, 505, 495, 520, 480)
smean<- mean(sales_data) # aritm.priemer
mu0 <- 500 # testovaná hodnota
n <- 30 # počet pozorovaní
sigma<- sqrt(sum((sales_data-smean)^2)/(n-1)) # smerodajná odchýlka (nepoznáme použieme odhad)
z<- (smean-mu0)/(sigma/sqrt(n))
z # testovacia štatistika## [1] -0.7846185
alfa<- 0.1 # hladina významnosti
q<-qnorm(1-alfa/2) # kvantil normálneho normovaného rozdelenia
abs(z)<q # keďže platí, na hladine významnosti 0.1 H0 nemôžeme zamietnuť## [1] TRUE
## [1] 0.4326773
## [1] TRUE
##
## One Sample t-test
##
## data: sales_data
## t = -0.78462, df = 29, p-value = 0.439
## alternative hypothesis: true mean is not equal to 500
## 90 percent confidence interval:
## 493.1413 502.5253
## sample estimates:
## mean of x
## 497.8333
Znamená to, že priemerný denný predaj za uvažovaný mesiac nie je štatisticky významné rôzny na hladine významnosti 0.1.
plot(function(x) dnorm(x, mean=0, sd=1 ), from=-5, to=5)
abline(v=z,col="blue") #testovacia štatistika
abline(v=c(-q, q), col="red") #oblasť nezamietnutia H0Cvičenie 6.2 Jednovýberový jednostrannný t-test
Zadanie: Predpokladajme, že spoločnosť vyrábajúca nápoje tvrdí, že priemerný obsah cukru v ich nápoji je 15 gramov. Máte podozrenie, že skutočný priemerný obsah cukru je vyšší ako 15 gramov, preto to chcete otestovať jednostranným t-testom. Otestujte na hladine významnosti 0.01 pomocou výpočtu P hodnoty a tiež pomocou testu implementovaného priamo v Rku.
Testujeme: H0:μ=15 proti H1:μ>15
sugar_content <- c(14.8, 15.5, 15.2, 16.0, 15.7, 15.3, 15.6, 15.9, 16.2, 15.4)
smean <- mean(sugar_content) # aritm.priemer
mu0 <- 15 # testovaná hodnota
n <- 10 # počet pozorovaní
sigma<- sqrt(sum((sugar_content-smean)^2)/(n-1)) # smerodajná odchýlka (nepoznáme použieme odhad)
z<- (smean-mu0)/(sigma/sqrt(n))
z # testovacia štatistika## [1] 4.275487
alfa<- 0.01 # hladina významnosti
q<-qnorm(1-alfa) # kvantil normálneho normovaného rozdelenia
abs(z)<q # keďže platí, na hladine významnosti 0.01 H0 nemôžeme zamietnuť## [1] FALSE
## [1] 9.535978e-06
## [1] FALSE
##
## One Sample t-test
##
## data: sugar_content
## t = 4.2755, df = 9, p-value = 0.001032
## alternative hypothesis: true mean is greater than 15
## 99 percent confidence interval:
## 15.19045 Inf
## sample estimates:
## mean of x
## 15.56
Znamená to (p-hodnora < alpha), že priemerný obsah cukru v nápoji je štatisticky významné rôzny na hladine významnosti 0.01.
plot(function(x) dnorm(x, mean=0, sd=1 ), from=-5, to=5)
abline(v=z,col="blue") #testovacia štatistika
abline(v=c(q), col="red") # aj graficky vidíme, že testovacia štatistika leží v oblasti zamietnutiaCvičenie 6.3 Dvojvýberový t-test
Zadanie: Chcete porovnať priemerné skóre dvoch skupín študentov (skupiny A a skupiny B) v matematickom teste, aby ste zistili, či je medzi ich výkonom významný rozdiel. Otestujte na hladine významnosti 0.1 pomocou testu implementovaného priamo v Rku.
Testujeme: H0:mu1=mu2 H1:mu1≠mu2
group_A <- c(75, 80, 78, 90, 85, 88, 76, 92, 82, 87)
group_B <- c(82, 79, 91, 88, 95, 84, 89, 90, 86, 81)
alpha <- 0.1
t.test(group_A, group_B, paired = F, alternative = "two.side", conf.level = 1-alpha/2)##
## Welch Two Sample t-test
##
## data: group_A and group_B
## t = -1.2961, df = 17.47, p-value = 0.2118
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -8.398318 1.998318
## sample estimates:
## mean of x mean of y
## 83.3 86.5
Na zákalde p-hodnoty (p-hodnota > alpha) nulovú hypotézu nezamietame na hladine významnosti 0.1. Neexistuje teda štatisticky významný rozdiel medzi výsledkami dvoch skupín študentov na hladine významnosti 0.1.
Cvičenie 6.4 Párový t-test
Zadanie: Učiteľ chce vedieť, či nová vyučovacia metóda zlepšuje výsledky testov. Vzorka študentov absolvovala predbežný test, potom bola aplikovaná nová vyučovacia metóda a tí istí študenti absolvovali post-test. Cieľom je zistiť, či sa priemerné skóre testu po použití metódy zvýšilo. Otestujte na hladine významnosti 0.01 pomocou testu implementovaného priamo v Rku.
Testujeme: H0:mu1=mu2 H1:mu1< mu2
pre_test <- c(65, 70, 78, 74, 68, 72, 77, 80, 71, 75)
post_test <- c(70, 75, 82, 78, 73, 76, 80, 85, 75, 78)
alpha <- 0.01
t.test(pre_test, post_test, paired = T, alternative = "less", conf.level = 1-alpha) ##
## Paired t-test
##
## data: pre_test and post_test
## t = -16.837, df = 9, p-value = 2.06e-08
## alternative hypothesis: true mean difference is less than 0
## 99 percent confidence interval:
## -Inf -3.49621
## sample estimates:
## mean difference
## -4.2
Na zákalde p-hodnoty (p-hodnota < alpha) nulovú hypotézu zamietame na hladine významnosti 0.01. Existuje teda štatisticky významný rozdiel medzi výsledkami testov (výsledky sa zlepšili) na hladine významnosti 0.01.
Cvičenie 6.5 F-test
Zadanie: Chcete otestovať, či dva rôzne výrobné stroje vyrábajú položky s rovnakou variabilitou hmotnosti. Zhromažďujete vzorku hmotností položiek z oboch strojov a máte záujem skontrolovať, či sú rozdiely v hmotnosti medzi týmito dvoma strojmi rovnaké. Otestujte na hladine významnosti 0.05 pomocou testu implementovaného priamo v Rku.
Testujeme: H0:sigma1=sigma2 H1:sigma1<>sigma2
machine_A <- c(50.1, 49.8, 50.3, 49.9, 50.0, 50.2, 49.7, 50.1, 49.9, 50.3)
machine_B <- c(49.5, 50.4, 50.6, 49.8, 50.1, 49.9, 50.3, 49.7, 50.5, 49.6)
var.test(machine_A, machine_B, alternative = "two.sided")##
## F test to compare two variances
##
## data: machine_A and machine_B
## F = 0.27137, num df = 9, denom df = 9, p-value = 0.06532
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.06740385 1.09252406
## sample estimates:
## ratio of variances
## 0.2713675
Na základe p-hodnoty (P-hodnota = 0.065 > alpha = 0.05) nulovú hypotézu nezamietame na hladine významnosti 0.05. Teda rozdiely v hmotnosti medzi týmito dvoma strojmi sú rovnaké.