Samostatna praca cvic.3

Zuzana Duroskova

load("cv3.RData")
load("functions.RData")

ULOHA.C.1

1.Má hmotnost obyvatel USA (miry$vaha) normální rozdělení se střední hodnotou 80 a směrodatnou odchylkou 21?

Obrazok empirickej a hypotetickej distribucnej funkcie

plot(ecdf(miry$vaha), cex.points = 0.5, main = "Empirická distribučna funkcia vahy")
xpts = seq(0, 200, length = 500)
lines(xpts, pnorm(xpts, mean = 80, sd = 21))

plot of chunk unnamed-chunk-2

Z obrazku je zrejme,ze vaha nema rozdelenie N(80,21).Hypotezu zamietame.

Kolmogorovuv Smirnuv test

ks.test(miry$vaha, "pnorm", mean = 80, sd = 21, exact = FALSE)
## Warning: ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  miry$vaha
## D = 0.0799, p-value = 0.003362
## alternative hypothesis: two-sided

Kolmogorov test opat potvrdzuje,ze vaha toto rozdelenie nema,p-hodnota vysla 0.003362.Na hladine alpha =0.05,zamietame hypotezu, že vaha má rozdelení N(80,21) s velkom rezervou.

2.Má hmotnost obyvatel USA gama rozdělení s parametry a=0.16 a p=13 (hodnota této distribuční funkce v bodě x se počítá jako pgamma(x,rate=0.16,shape=13))?

plot(ecdf(miry$vaha), cex.points = 0.5, main = "Empirická distribuční funkce vahy")
xpts = seq(0, 200, length = 500)
lines(xpts, pgamma(xpts, rate = 0.16, shape = 13))

plot of chunk unnamed-chunk-4

Z obrazku je zrejme,ze vaha toto rozdelenie nema.

Kolmogorovuv Smirnuv test

ks.test(miry$vaha, "pgamma", rate = 0.16, shape = 13, exact = FALSE)
## Warning: ties should not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  miry$vaha
## D = 0.0622, p-value = 0.04181
## alternative hypothesis: two-sided

Kolmogorov test opat potvrdzuje,ze vaha toto rozdelenie nema,p-hodnota vysla 0.04181.Na hladine alpha =0.05,zamietame hypotezu, že vaha má rozdelení Gamma(0.16,13) tesne.

ULOHA C.2

Otestujte asymptotickým znaménkovým testem hypotézu, že medián výšky je 167 cm (celkově, mezi muži a mezi ženami). Interpretujte výsledky testů.

Celkovo

sign.test(miry$vyska, 167)
##                n              Y_n Test. statistika    Krit. hodnota 
##        500.00000        269.00000          1.69941          1.95996 
##        P-hodnota 
##          0.08924

Test.statistika ma hodnotu 1.69941,takze nespada do kritickeho oboru,p-hodnota vysla 0.08924 je teda vacsia nez hladina alpha, Na hladině alpha =0.05, nemožeme zamietnut hypotézu, že medián výšky je 167 cm celkovo.

binom.test(sum(miry$vyska > 167), length(miry$vyska))
## 
##  Exact binomial test
## 
## data:  sum(miry$vyska > 167) and length(miry$vyska)
## number of successes = 269, number of trials = 500, p-value =
## 0.09789
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.4932 0.5824
## sample estimates:
## probability of success 
##                  0.538

p-hodnota je vacsia ako 0,538 preto hypotezu nezamietame.

Muzi

sign.test(miry$vyska[miry$pohl == "Male"], 167)
##                n              Y_n Test. statistika    Krit. hodnota 
##           271.00           218.00            10.02             1.96 
##        P-hodnota 
##             0.00

Test.statistika ma hodnotu 10.02,je vyrazne velka,takze spada do kritickeho oboru,p-hodnota vysla 0.00 je teda mensia nez hladina alpha, Na hladině alpha =0.05 zamietame hypotezu,ze že medián výšky u muzov je 167 cm.

binom.test(sum(miry$vyska[miry$pohl == "Male"] > 167), length(miry$vyska[miry$pohl == 
    "Male"]))
## 
##  Exact binomial test
## 
## data:  sum(miry$vyska[miry$pohl == "Male"] > 167) and length(miry$vyska[miry$pohl == "Male"])
## number of successes = 218, number of trials = 271, p-value <
## 2.2e-16
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.7521 0.8499
## sample estimates:
## probability of success 
##                 0.8044

p-hodnota je mensia ako 0.8044,hypotezu teda zamietam.

Zeny

sign.test(miry$vyska[miry$pohl == "Female"], 167)
##                n              Y_n Test. statistika    Krit. hodnota 
##          229.000           51.000           -8.392            1.960 
##        P-hodnota 
##            0.000

Testova statistika v abs.hodnote je 8.392,teda spada do kritickeho oboru.P-hodnota je nulova,zamietame hypotezu s velkou rezervou.

binom.test(sum(miry$vyska[miry$pohl == "Female"] > 167), length(miry$vyska[miry$pohl == 
    "Female"]))
## 
##  Exact binomial test
## 
## data:  sum(miry$vyska[miry$pohl == "Female"] > 167) and length(miry$vyska[miry$pohl == "Female"])
## number of successes = 51, number of trials = 229, p-value <
## 2.2e-16
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.1705 0.2822
## sample estimates:
## probability of success 
##                 0.2227

P-hodnota je mensia nez 0.2227,hypotezu zamietame.

ULOHA C.3

Porovnejte střední hodnoty prvního a druhého měření diastolického tlaku v datovém souboru tlak. Použijte párový t-test, párový znaménkový test a párový Wilcoxonův test. Jejich výsledky porovnejte.

mean(tlak$dia.tl.1)
## [1] 71.13

mean(tlak$dia.tl.2)
## [1] 69.5

Boxploty merania c.1 a merania c.2

boxplot(c(tlak$dia.tl.1, tlak$dia.tl.2) ~ rep(1:2, nrow(tlak)), main = "diastolický tlak", 
    names = c("1. meranie", "2. meranie"))

plot of chunk unnamed-chunk-13

Z boxplotov nie su viditelne nejake vyrazne rozdiely v meraniach.

Histogram rozdielov merani

hist(tlak$dia.tl.1 - tlak$dia.tl.2, breaks = 24)

plot of chunk unnamed-chunk-14

Z histogramu je lepsie vidiet rozdiely medzi datami,rozdiely dat su viac sustredene vpravo.

Parovy t- test

t.test(tlak$dia.tl.1, tlak$dia.tl.2, paired = TRUE)
## 
##  Paired t-test
## 
## data:  tlak$dia.tl.1 and tlak$dia.tl.2
## t = 9.754, df = 2308, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  1.306 1.963
## sample estimates:
## mean of the differences 
##                   1.634

Testova statistika nadobuda hodnotu 9.754,teda spada do kritickeho oboru,p-hodnota je vyrazne nizsia nez hladina alpha,teda hypotezu zamietame.

Parovy znamienkovy test

sign.test(tlak$dia.tl.1 - tlak$dia.tl.2, m0 = 0)
##                n              Y_n Test. statistika    Krit. hodnota 
##        2309.0000        1145.0000          -0.3954           1.9600 
##        P-hodnota 
##           0.6925

Testova statistika nadobuda v abs.hodnote 0.3954,teda nespada do kritickeho oboru,p-hodnota je 0.6925,teda vacsia nez alpha,hypotezu nezamietame.

Parovy Wilcoxonov test

wilcox.test(tlak$dia.tl.1, tlak$dia.tl.2, paired = TRUE, correct = FALSE)
## 
##  Wilcoxon signed rank test
## 
## data:  tlak$dia.tl.1 and tlak$dia.tl.2
## V = 1185066, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0

p-hodnota nadobuda velmi nizku hodnotu,hypotezu zamietame.

Zaver-porovnanie testov:

1.t-test vyzaduje normalitu dat,z histogramu je jasne,ze data tuto podmienku nesplnuju,preto sa nebudeme na tento test spoliehat.

2.znamienkovy test

ULOHA C.4

Porovnejte počet partnerů za uplynulý rok (veličina pocpart.rok v datech sex) mezi lidmi se středoškolským (sex$vzdelani==“High school”) a vysokoškolským (sex$vzdelani==“College”) vzděláním. Spočítejte deskriptivní statistiky, namalujte obrázky a proveďte dvouvýběrový Kolmogorovův-Smirnovův test, dvouvýběrový t-test a Welchův z-test. Zapište, co je hypotéza, co je alternativa, uveďte testovou statistiku a p-hodnotu. Interpretujte výsledky testů.

Boxploty poctu partnerov pre ludi so stredoskolskym vzdelanim a vysokoskolskym vzdelanim

boxplot(sex$pocpart.rok[sex$vzdelani == "College"], sex$pocpart.rok[sex$vzdelani == 
    "High school"])

plot of chunk unnamed-chunk-18

Boxploty sa lisia len v odlahlych pozorovaniach je vidiet,ze u ludi so stredoskolskym vzdelanim je viac odlahlych pozorovani a su vzdialenejsie ako u ludi s vysokoskolskym.co sa prejavi na rozplyte a distribucnych funkciach poctu partnerov za posledny rok pre krajne hodnoty,je pst poctu partnerov vyssia pre ludi so stredoskolskym vzdelanim.

Deskriptivne statistiky

Priemer pre ludi so stredoskolskym vzdelanim

mean(sex$pocpart.rok[sex$vzdelani == "High school"])
## [1] 1.254

Priemer pre ludi s vysokoskolskym vzdelanim

mean(sex$pocpart.rok[sex$vzdelani == "College"])
## [1] 0.9838

Median pre ludi so stredoskolskym vzdelanim

median(sex$pocpart.rok[sex$vzdelani == "High school"])
## [1] 1

Median pre ludi s vysokoskolskym vzdelanim

median(sex$pocpart.rok[sex$vzdelani == "College"])
## [1] 1

Rozptyl pre ludi so stredoskolskym vzdelanim

var(sex$pocpart.rok[sex$vzdelani == "High school"])
## [1] 5.424

Rozptyl pre ludi s vysokoskolskym vzdelanim

var(sex$pocpart.rok[sex$vzdelani == "College"])
## [1] 1.702

plotmeans(pocpart.rok ~ vzdelani == "College", data = sex, xlab = "college", 
    ylab = "priemerny poc part za posledny rok")

plot of chunk unnamed-chunk-25

plotmeans(pocpart.rok ~ vzdelani == "High school", data = sex, xlab = "high school", 
    ylab = "priemerny poc part za posledny rok")

plot of chunk unnamed-chunk-26

Porovnanie empirickych distr.funkci poctu partnerov za rok pre ludi s vysokoskolskym a stredoskolskym vzdelanim

plot(ecdf(sex$pocpart.rok[sex$vzdelani == "College"]), col = "blue", cex.points = 0.5, 
    verticals = TRUE, main = "Dist.fcie Poctu partnerov za rok")
lines(ecdf(sex$pocpart.rok[sex$vzdelani == "High school"]), col = "red", cex.points = 0.5, 
    verticals = TRUE)
legend(40, 0.4, lty = 1, col = c("blue", "red"), legend = c("College", "High school"))

plot of chunk unnamed-chunk-27

Dvouvýběrový Kolmogorovův-Smirnovův test

Hypoteza:testujeme ci sa distribucna fcia poctu partnerov za posledny rok u ludi s vysokoskolskym vzdelanim rovna distribucnej fcii poctu partnerov za posledny rok u ludi so stredoskolskym vzdelanim pre vsetky x

Alternativa:distribucie sa nerovnaju

Test.statistika = 0.0519

p-hodnota =0.1829

ks.test(sex$pocpart.rok[sex$vzdelani == "College"], sex$pocpart.rok[sex$vzdelani == 
    "High school"])
## Warning: p-value will be approximate in the presence of ties
## 
##  Two-sample Kolmogorov-Smirnov test
## 
## data:  sex$pocpart.rok[sex$vzdelani == "College"] and sex$pocpart.rok[sex$vzdelani == "High school"]
## D = 0.0519, p-value = 0.1829
## alternative hypothesis: two-sided

p-hodnota je vacsia nez hladina alpha,hypotezu nezamietame.

Dvouvýběrový t-test

Hypoteza:testujeme ci sa stredna hodnota poctu partnerov za posledny rok u ludi s vysokoskolskym vzdelanim lisi o konstantu od strednej hodnoty poctu partnerov za posledny rok u ludi so stredoskoskym vzdelanim,vyzadujeme normalitu dat a rovnake rozptyly.

Alternativa:stredne hodnoty sa nelisia o konstantu

Test.statistika=-3.147

p-hodnota=0.001679

t.test(sex$pocpart.rok[sex$vzdelani == "College"], sex$pocpart.rok[sex$vzdelani == 
    "High school"], var.equal = TRUE)
## 
##  Two Sample t-test
## 
## data:  sex$pocpart.rok[sex$vzdelani == "College"] and sex$pocpart.rok[sex$vzdelani == "High school"]
## t = -3.147, df = 1816, p-value = 0.001679
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.4390 -0.1019
## sample estimates:
## mean of x mean of y 
##    0.9838    1.2542

data nesplnaju predpokolady normality ani rovnosti rozptylov.Test.statistika spada do kritickeho oboru,p-hodnota je velmi nizka.

Welchův z-test.

Hypoteza:testujeme ci sa stredna hodnota poctu partnerov za posledny rok u ludi s vysokoskolskym vzdelanim rovna strednej hodnote poctu partnerov za posledny rok u ludi so stredoskoskym vzdelanim,vyzadujeme konecnostdruhych momentov.

Alternativa:stredne hodnoty sa nerovnaju

Test.statistika=-2.906

P-hodnota=0.003731

t.test(sex$pocpart.rok[sex$vzdelani == "College"], sex$pocpart.rok[sex$vzdelani == 
    "High school"])
## 
##  Welch Two Sample t-test
## 
## data:  sex$pocpart.rok[sex$vzdelani == "College"] and sex$pocpart.rok[sex$vzdelani == "High school"]
## t = -2.906, df = 1123, p-value = 0.003731
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.45305 -0.08786
## sample estimates:
## mean of x mean of y 
##    0.9838    1.2542

test.statistika spada do kritic.oboru,p-hodnota je nizka,zamietame hypotezu