load("cv3.RData")
load("functions.RData")
Obrazok empirickej a hypotetickej distribucnej funkcie
plot(ecdf(miry$vaha), cex.points = 0.5, main = "Empirická distribučna funkcia vahy")
xpts = seq(0, 200, length = 500)
lines(xpts, pnorm(xpts, mean = 80, sd = 21))
Z obrazku je zrejme,ze vaha nema rozdelenie N(80,21).Hypotezu zamietame.
Kolmogorovuv Smirnuv test
ks.test(miry$vaha, "pnorm", mean = 80, sd = 21, exact = FALSE)
## Warning: ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: miry$vaha
## D = 0.0799, p-value = 0.003362
## alternative hypothesis: two-sided
Kolmogorov test opat potvrdzuje,ze vaha toto rozdelenie nema,p-hodnota vysla 0.003362.Na hladine alpha =0.05,zamietame hypotezu, že vaha má rozdelení N(80,21) s velkom rezervou.
plot(ecdf(miry$vaha), cex.points = 0.5, main = "Empirická distribuční funkce vahy")
xpts = seq(0, 200, length = 500)
lines(xpts, pgamma(xpts, rate = 0.16, shape = 13))
Z obrazku je zrejme,ze vaha toto rozdelenie nema.
Kolmogorovuv Smirnuv test
ks.test(miry$vaha, "pgamma", rate = 0.16, shape = 13, exact = FALSE)
## Warning: ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: miry$vaha
## D = 0.0622, p-value = 0.04181
## alternative hypothesis: two-sided
Kolmogorov test opat potvrdzuje,ze vaha toto rozdelenie nema,p-hodnota vysla 0.04181.Na hladine alpha =0.05,zamietame hypotezu, že vaha má rozdelení Gamma(0.16,13) tesne.
Celkovo
sign.test(miry$vyska, 167)
## n Y_n Test. statistika Krit. hodnota
## 500.00000 269.00000 1.69941 1.95996
## P-hodnota
## 0.08924
Test.statistika ma hodnotu 1.69941,takze nespada do kritickeho oboru,p-hodnota vysla 0.08924 je teda vacsia nez hladina alpha, Na hladině alpha =0.05, nemožeme zamietnut hypotézu, že medián výšky je 167 cm celkovo.
binom.test(sum(miry$vyska > 167), length(miry$vyska))
##
## Exact binomial test
##
## data: sum(miry$vyska > 167) and length(miry$vyska)
## number of successes = 269, number of trials = 500, p-value =
## 0.09789
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.4932 0.5824
## sample estimates:
## probability of success
## 0.538
p-hodnota je vacsia ako 0,538 preto hypotezu nezamietame.
Muzi
sign.test(miry$vyska[miry$pohl == "Male"], 167)
## n Y_n Test. statistika Krit. hodnota
## 271.00 218.00 10.02 1.96
## P-hodnota
## 0.00
Test.statistika ma hodnotu 10.02,je vyrazne velka,takze spada do kritickeho oboru,p-hodnota vysla 0.00 je teda mensia nez hladina alpha, Na hladině alpha =0.05 zamietame hypotezu,ze že medián výšky u muzov je 167 cm.
binom.test(sum(miry$vyska[miry$pohl == "Male"] > 167), length(miry$vyska[miry$pohl ==
"Male"]))
##
## Exact binomial test
##
## data: sum(miry$vyska[miry$pohl == "Male"] > 167) and length(miry$vyska[miry$pohl == "Male"])
## number of successes = 218, number of trials = 271, p-value <
## 2.2e-16
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.7521 0.8499
## sample estimates:
## probability of success
## 0.8044
p-hodnota je mensia ako 0.8044,hypotezu teda zamietam.
Zeny
sign.test(miry$vyska[miry$pohl == "Female"], 167)
## n Y_n Test. statistika Krit. hodnota
## 229.000 51.000 -8.392 1.960
## P-hodnota
## 0.000
Testova statistika v abs.hodnote je 8.392,teda spada do kritickeho oboru.P-hodnota je nulova,zamietame hypotezu s velkou rezervou.
binom.test(sum(miry$vyska[miry$pohl == "Female"] > 167), length(miry$vyska[miry$pohl ==
"Female"]))
##
## Exact binomial test
##
## data: sum(miry$vyska[miry$pohl == "Female"] > 167) and length(miry$vyska[miry$pohl == "Female"])
## number of successes = 51, number of trials = 229, p-value <
## 2.2e-16
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.1705 0.2822
## sample estimates:
## probability of success
## 0.2227
P-hodnota je mensia nez 0.2227,hypotezu zamietame.
mean(tlak$dia.tl.1)
## [1] 71.13
mean(tlak$dia.tl.2)
## [1] 69.5
Boxploty merania c.1 a merania c.2
boxplot(c(tlak$dia.tl.1, tlak$dia.tl.2) ~ rep(1:2, nrow(tlak)), main = "diastolický tlak",
names = c("1. meranie", "2. meranie"))
Z boxplotov nie su viditelne nejake vyrazne rozdiely v meraniach.
Histogram rozdielov merani
hist(tlak$dia.tl.1 - tlak$dia.tl.2, breaks = 24)
Z histogramu je lepsie vidiet rozdiely medzi datami,rozdiely dat su viac sustredene vpravo.
Parovy t- test
t.test(tlak$dia.tl.1, tlak$dia.tl.2, paired = TRUE)
##
## Paired t-test
##
## data: tlak$dia.tl.1 and tlak$dia.tl.2
## t = 9.754, df = 2308, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 1.306 1.963
## sample estimates:
## mean of the differences
## 1.634
Testova statistika nadobuda hodnotu 9.754,teda spada do kritickeho oboru,p-hodnota je vyrazne nizsia nez hladina alpha,teda hypotezu zamietame.
Parovy znamienkovy test
sign.test(tlak$dia.tl.1 - tlak$dia.tl.2, m0 = 0)
## n Y_n Test. statistika Krit. hodnota
## 2309.0000 1145.0000 -0.3954 1.9600
## P-hodnota
## 0.6925
Testova statistika nadobuda v abs.hodnote 0.3954,teda nespada do kritickeho oboru,p-hodnota je 0.6925,teda vacsia nez alpha,hypotezu nezamietame.
Parovy Wilcoxonov test
wilcox.test(tlak$dia.tl.1, tlak$dia.tl.2, paired = TRUE, correct = FALSE)
##
## Wilcoxon signed rank test
##
## data: tlak$dia.tl.1 and tlak$dia.tl.2
## V = 1185066, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
p-hodnota nadobuda velmi nizku hodnotu,hypotezu zamietame.
Zaver-porovnanie testov:
1.t-test vyzaduje normalitu dat,z histogramu je jasne,ze data tuto podmienku nesplnuju,preto sa nebudeme na tento test spoliehat.
2.znamienkovy test
Boxploty poctu partnerov pre ludi so stredoskolskym vzdelanim a vysokoskolskym vzdelanim
boxplot(sex$pocpart.rok[sex$vzdelani == "College"], sex$pocpart.rok[sex$vzdelani ==
"High school"])
Boxploty sa lisia len v odlahlych pozorovaniach je vidiet,ze u ludi so stredoskolskym vzdelanim je viac odlahlych pozorovani a su vzdialenejsie ako u ludi s vysokoskolskym.co sa prejavi na rozplyte a distribucnych funkciach poctu partnerov za posledny rok pre krajne hodnoty,je pst poctu partnerov vyssia pre ludi so stredoskolskym vzdelanim.
Deskriptivne statistiky
Priemer pre ludi so stredoskolskym vzdelanim
mean(sex$pocpart.rok[sex$vzdelani == "High school"])
## [1] 1.254
Priemer pre ludi s vysokoskolskym vzdelanim
mean(sex$pocpart.rok[sex$vzdelani == "College"])
## [1] 0.9838
Median pre ludi so stredoskolskym vzdelanim
median(sex$pocpart.rok[sex$vzdelani == "High school"])
## [1] 1
Median pre ludi s vysokoskolskym vzdelanim
median(sex$pocpart.rok[sex$vzdelani == "College"])
## [1] 1
Rozptyl pre ludi so stredoskolskym vzdelanim
var(sex$pocpart.rok[sex$vzdelani == "High school"])
## [1] 5.424
Rozptyl pre ludi s vysokoskolskym vzdelanim
var(sex$pocpart.rok[sex$vzdelani == "College"])
## [1] 1.702
plotmeans(pocpart.rok ~ vzdelani == "College", data = sex, xlab = "college",
ylab = "priemerny poc part za posledny rok")
plotmeans(pocpart.rok ~ vzdelani == "High school", data = sex, xlab = "high school",
ylab = "priemerny poc part za posledny rok")
Porovnanie empirickych distr.funkci poctu partnerov za rok pre ludi s vysokoskolskym a stredoskolskym vzdelanim
plot(ecdf(sex$pocpart.rok[sex$vzdelani == "College"]), col = "blue", cex.points = 0.5,
verticals = TRUE, main = "Dist.fcie Poctu partnerov za rok")
lines(ecdf(sex$pocpart.rok[sex$vzdelani == "High school"]), col = "red", cex.points = 0.5,
verticals = TRUE)
legend(40, 0.4, lty = 1, col = c("blue", "red"), legend = c("College", "High school"))
Hypoteza:testujeme ci sa distribucna fcia poctu partnerov za posledny rok u ludi s vysokoskolskym vzdelanim rovna distribucnej fcii poctu partnerov za posledny rok u ludi so stredoskolskym vzdelanim pre vsetky x
Alternativa:distribucie sa nerovnaju
Test.statistika = 0.0519
p-hodnota =0.1829
ks.test(sex$pocpart.rok[sex$vzdelani == "College"], sex$pocpart.rok[sex$vzdelani ==
"High school"])
## Warning: p-value will be approximate in the presence of ties
##
## Two-sample Kolmogorov-Smirnov test
##
## data: sex$pocpart.rok[sex$vzdelani == "College"] and sex$pocpart.rok[sex$vzdelani == "High school"]
## D = 0.0519, p-value = 0.1829
## alternative hypothesis: two-sided
p-hodnota je vacsia nez hladina alpha,hypotezu nezamietame.
Hypoteza:testujeme ci sa stredna hodnota poctu partnerov za posledny rok u ludi s vysokoskolskym vzdelanim lisi o konstantu od strednej hodnoty poctu partnerov za posledny rok u ludi so stredoskoskym vzdelanim,vyzadujeme normalitu dat a rovnake rozptyly.
Alternativa:stredne hodnoty sa nelisia o konstantu
Test.statistika=-3.147
p-hodnota=0.001679
t.test(sex$pocpart.rok[sex$vzdelani == "College"], sex$pocpart.rok[sex$vzdelani ==
"High school"], var.equal = TRUE)
##
## Two Sample t-test
##
## data: sex$pocpart.rok[sex$vzdelani == "College"] and sex$pocpart.rok[sex$vzdelani == "High school"]
## t = -3.147, df = 1816, p-value = 0.001679
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.4390 -0.1019
## sample estimates:
## mean of x mean of y
## 0.9838 1.2542
data nesplnaju predpokolady normality ani rovnosti rozptylov.Test.statistika spada do kritickeho oboru,p-hodnota je velmi nizka.
Hypoteza:testujeme ci sa stredna hodnota poctu partnerov za posledny rok u ludi s vysokoskolskym vzdelanim rovna strednej hodnote poctu partnerov za posledny rok u ludi so stredoskoskym vzdelanim,vyzadujeme konecnostdruhych momentov.
Alternativa:stredne hodnoty sa nerovnaju
Test.statistika=-2.906
P-hodnota=0.003731
t.test(sex$pocpart.rok[sex$vzdelani == "College"], sex$pocpart.rok[sex$vzdelani ==
"High school"])
##
## Welch Two Sample t-test
##
## data: sex$pocpart.rok[sex$vzdelani == "College"] and sex$pocpart.rok[sex$vzdelani == "High school"]
## t = -2.906, df = 1123, p-value = 0.003731
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.45305 -0.08786
## sample estimates:
## mean of x mean of y
## 0.9838 1.2542
test.statistika spada do kritic.oboru,p-hodnota je nizka,zamietame hypotezu