Cvičenie 8.1 Test zhody s normálnym rozdelením
Zadanie: Náhodným výberom, ktorý je daný v tabuľke
bola vybratá vzorka rozsahu n = 50. Overte na hladine významnosti 0.05,
či empirické rozdelenie početností zodpovedá normálnemu rozdeleniu.
Použite Kolmogorv-Smirnovov a Liliesfordov test. Svoje tvrdenie podporte
aj graficky – histogramom, boxplotom a Q-Q plotom.
Testujeme nulovú hypotézu: rozdelenie početností zodpovedá normálnemu
rozdeleniu.
zi<-c(6,8,10,12,14) #hodnota
ni<-c(6,11,19,9,5) #početnosť jednotlivých hodnôt
data1<-rep(zi,ni)
test1<-ks.test(data1, "pexp", 0.05) #Kolmogorv-Smirnovov test## Warning in ks.test.default(data1, "pexp", 0.05): ties should not be present for
## the Kolmogorov-Smirnov test
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: data1
## D = 0.49659, p-value = 3.904e-11
## alternative hypothesis: two-sided
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: data1
## D = 0.19203, p-value = 8.114e-05
Vidím že p-hodnora (0,000081) je mensia ako alfa (0,05), preto zamietam H0, teda emperické rozdelenie sa nerovná normálnemu.
Histogram:
hist(data1,
col="light blue",
border="black",
prob = TRUE,
xlab = "Hodnota",
ylab = "Hustota",
main = "Histogram vybratej vzorky")
lines(density(data1),
lwd = 2,
col = "dark blue")Boxplot:
boxplot(data1,
main = "Boxplot vybratej vzorky",
xlab = "",
ylab = "Hodnota",
col = "light blue",
border = "black")Q-Q plot:
Na zaklade Q-Q grafa (hodnoty neležia približne na priamke), predpokladáme že emperické rozdelenie sa nerovná normálnemu.
Cvičenie 8.2 Test zhody s diskrétnym rozdelením
Zadanie: V genetickom laboratóriu sa sledovalo 240
potomkov dvoch heterozygotov Aa, Aa. Potomkov typu AA bolo 58, potomkov
typu Aa bolo 111 a typu aa bolo 71. Podľa mendelovských zákonov sa
očakáva pomer rozdelenia početností 1:2:1. Na 5 percentnej hladine
významnosti treba posúdiť zhodu medzi empirickým a teoretickým
rozdelením početností. Použite chí kvadrát test dobrej zhody.
Testujeme nulovú hypotézu: empirické rozdelenie početností zodpovedá
teoretickému rozdeleniu.
## data2
## aa Aa AA
## 71 111 58
## [1] 0.25 0.50 0.25
##
## Chi-squared test for given probabilities
##
## data: table(data2)
## X-squared = 2.7583, df = 2, p-value = 0.2518
Vidím že p-hodnora (0,2518) je väčšie ako alfa (0,05), preto nezamietam H0, teda emperické rozdelenie sa rovná teoretickému.
Cvičenie 8.3 Dvojfaktorový test
Zadanie: Máme k dispozícii údaje o popolnatosti
vzoriek uhlia z dodávok dvoch banských závodov (v % popola). Pomocou
Kolmogorovovho-Smirnovho testu overte na hladine významnosti 0.05
hypotézu, že obidva výberové súbory pochádzajú z toho istého základného
súboru. Urobte pre oba súbory aj testy na odľahlé údaje
(outliers).
Testujeme nulovú hypotézu: obidva výberové súbory pochádzajú z toho
istého základného súboru.
x1<- c(5.2, 4.8, 1.9, 5.6, 5.5, 3.4, 5.3, 6.4, 3.5, 3.8)
x2<- c(4.8, 5.0, 5.7, 5.4, 5.5, 4.4, 4.2, 5.0, 5.3, 5.0)
ks.test(x1,x2)##
## Exact two-sample Kolmogorov-Smirnov test
##
## data: x1 and x2
## D = 0.4, p-value = 0.3708
## alternative hypothesis: two-sided
Vidím že p-hodnora (0,371) je väčšie ako alfa (0,05), preto nezamietam H0, teda obidva výberové súbory pochádzajú z toho istého základného súboru.
Urobim testy extremálnych hodnôt s predpokladom normality súboru. Testujeme: H0: min(X) (max(X)) nie je outlier; H1: je outlier
Grubbsov test
##
## Grubbs test for one outlier
##
## data: x1
## G = 1.95072, U = 0.53021, p-value = 0.1435
## alternative hypothesis: lowest value 1.9 is an outlier
##
## Grubbs test for one outlier
##
## data: x1
## G = 1.3744, U = 0.7668, p-value = 0.7872
## alternative hypothesis: highest value 6.4 is an outlier
##
## Grubbs test for one outlier
##
## data: x2
## G = 1.75152, U = 0.62125, p-value = 0.2911
## alternative hypothesis: lowest value 4.2 is an outlier
##
## Grubbs test for one outlier
##
## data: x2
## G = 1.4139, U = 0.7532, p-value = 0.7205
## alternative hypothesis: highest value 5.7 is an outlier
Na základe p-hodnôt vidíme (sú väčšie ako alfa = 0.05), že ani minimálna, ani maximálna hodnota zo súboru sa nepotvrdili ako extremálne.
Dixonov test (vhodné pre menší rozsah (3-30), opäť pre normálne rozdelený súbor):
##
## Dixon test for outliers
##
## data: x1
## Q = 0.40541, p-value = 0.2067
## alternative hypothesis: lowest value 1.9 is an outlier
##
## Dixon test for outliers
##
## data: x1
## Q = 0.26667, p-value = 0.5938
## alternative hypothesis: highest value 6.4 is an outlier
##
## Dixon test for outliers
##
## data: x2
## Q = 0.15385, p-value = 0.904
## alternative hypothesis: lowest value 4.2 is an outlier
##
## Dixon test for outliers
##
## data: x2
## Q = 0.15385, p-value = 0.904
## alternative hypothesis: highest value 5.7 is an outlier
Opäť vidíme, že na základe p-hodnôt vidíme (sú väčšie ako alfa = 0.05), že ani minimálna, ani maximálna hodnota zo súboru sa nepotvrdili ako extremálne.
Cvičenie 8.4 Zadanie A
Zadanie: V istom časovom období bolo zaznamenaných
391 dopravných nehôd, pričom v pondelok ich bolo 52, v utorok 43, v
stredu 54, vo štvrtok 45, v piatok 62, v sobotu 66 a v nedeľu 69. Treba
zistiť, či sa dopravné nehody vyskytujú pravidelne vo všetkých dňoch
týždňa alebo či sú v niektorých dňoch týždňa štatisticky významne
častejšie.
Testujeme nulovú hypotézu: empirické rozdelenie početností zodpovedá
teoretickému rozdeleniu.
Použijeme chí kvadrát test dobrej zhody. (Teoretické rozdelenie je
diskrétné rozdelenie)
data4 <- c(rep(1,52), rep(2,43), rep(3,54), rep(4,45), rep(5,62), rep(6,66), rep(7,59))
table(data4)## data4
## 1 2 3 4 5 6 7
## 52 43 54 45 62 66 59
## [1] 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571
##
## Chi-squared test for given probabilities
##
## data: table(data4)
## X-squared = 8.042, df = 6, p-value = 0.235
Vidím že p-hodnora (0,235) je väčšie ako alfa (0,05), preto nezamietam H0, teda emperické rozdelenie sa rovná teoretickému. (Štatisticky počet nehôd nezávisí od dňa v týždni)
Cvičenie 8.5 Zadanie B
Zadanie: Bolo vybraných 13 polí rovnakej kvality. Na
8 z nich sa skúšal nový spôsob hnojenia, na zvyšných 5 bol použitý
tradičný spôsob hnojenia. Výnosy pšenice v tonách na hektár boli pri
novom spôsobe hnojenia 5.7, 5.5, 4.3, 5.9, 5.2, 5.6, 5.8, 5.1 a pri
tradičnom spôsobe hnojenia 5, 4.5, 4.2, 5.4, 4.4. Treba zistiť, či nový
spôsob hnojenia má vplyv úrodu pšenice.
Testujeme nulovú hypotézu: obidva výberové súbory pochádzajú z toho
istého základného súboru (nový spôsob hnojenia má rovnaky vplyv ako
starý).
Použijeme dvojfaktorový test.
##
## Exact two-sample Kolmogorov-Smirnov test
##
## data: h1 and h2
## D = 0.675, p-value = 0.07925
## alternative hypothesis: two-sided
Vidím že p-hodnora (0,08) je trochu väčšie ako alfa (0,05), preto nezamietam H0, teda nový spôsob hnojenia má rovnaky vplyv na výnos ako starý.