Test zhody s normálnym rozdelením
Zadanie: Náhodným výberom, ktorý je daný v tabuľke bola vybratá vzorka rozsahu n = 50. Overte na hladine významnosti 0.05, či empirické rozdelenie početností zodpovedá normálnemu rozdeleniu. Použite Kolmogorv-Smirnovov a Liliesfordov test. Svoje tvrdenie podporte aj graficky – histogramom, boxplotom a Q-Q plotom. Testujeme nulovú hypotézu: rozdelenie početností zodpovedá normálnemu rozdeleniu.
library(nortest)
zi<-c(6,8,10,12,14) #hodnota
ni<-c(6,11,19,9,5) #početnosť jednotlivých hodnôt
data1<-rep(zi,ni)
mean_data <- mean(data1) # Priemer
sd_data <- sd(data1) # Štandardná odchýlka
# Testy
test1<-ks.test(data1, "pnorm", mean = mean_data, sd = sd_data) # Kolmogorov-Smirnov
## Warning in ks.test.default(data1, "pnorm", mean = mean_data, sd = sd_data): в
## тесте согласия Колмогорова не должно быть повторяющихся значений
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: data1
## D = 0.19203, p-value = 0.05007
## alternative hypothesis: two-sided
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: data1
## D = 0.19203, p-value = 8.114e-05
S testu vidím že p-hodnora (8.114e-05) je mensia ako alfa (0,05), preto zamietam H0, teda emperické rozdelenie sa nerovná normálnemu.
Histogram:
hist(data1,
col="light blue",
border="black",
prob = TRUE,
xlab = "Hodnota",
ylab = "Hustota",
main = "Histogram vybratej vzorky")
lines(density(data1),
lwd = 2,
col = "dark blue")
Boxplot:
boxplot(data1,
main = "Boxplot vybratej vzorky",
xlab = "",
ylab = "Hodnota",
col = "light blue",
border = "black")
Q-Q plot:
Na zaklade Q-Q grafa vidim, že hodnoty neležia približne na priamke,
predpokladáme že emperické rozdelenie sa nerovná normálnemu.
Test zhody s diskrétnym rozdelením
Zadanie: V genetickom laboratóriu sa sledovalo 240 potomkov dvoch heterozygotov Aa, Aa. Potomkov typu AA bolo 58, potomkov typu Aa bolo 111 a typu aa bolo 71. Podľa mendelovských zákonov sa očakáva pomer rozdelenia početností 1:2:1. Na 5 percentnej hladine významnosti treba posúdiť zhodu medzi empirickým a teoretickým rozdelením početností. Použite chí kvadrát test dobrej zhody. Testujeme nulovú hypotézu: empirické rozdelenie početností zodpovedá teoretickému rozdeleniu.
## data2
## aa Aa AA
## 71 111 58
## [1] 0.25 0.50 0.25
##
## Chi-squared test for given probabilities
##
## data: table(data2)
## X-squared = 2.7583, df = 2, p-value = 0.2518
Vidím že p-hodnora (0,2518) je väčšie ako alfa (0,05), preto nezamietam H0, teda emperické rozdelenie sa rovná teoretickému.
Dvojfaktorový test
Zadanie: Máme k dispozícii údaje o popolnatosti vzoriek uhlia z dodávok dvoch banských závodov (v % popola). Pomocou Kolmogorovovho-Smirnovho testu overte na hladine významnosti 0.05 hypotézu, že obidva výberové súbory pochádzajú z toho istého základného súboru. Urobte pre oba súbory aj testy na odľahlé údaje (outliers). Testujeme nulovú hypotézu: obidva výberové súbory pochádzajú z toho istého základného súboru.
x1 <- c(5.2, 4.8, 1.9, 5.6, 5.5, 3.4, 5.3, 6.4, 3.5, 3.8)
x2 <- c(4.8, 5.0, 5.7, 5.4, 5.5, 4.4, 4.2, 5.0, 5.3, 5.0)
ks.test(x1,x2)
##
## Exact two-sample Kolmogorov-Smirnov test
##
## data: x1 and x2
## D = 0.4, p-value = 0.3708
## alternative hypothesis: two-sided
Vidím že p-hodnora (0,371) je väčšie ako alfa (0,05), preto nezamietam H0, teda obidva výberové súbory pochádzajú z toho istého základného súboru.
Urobim testy extremálnych hodnôt s predpokladom normality súboru. Testujeme: H0: min(X) (max(X)) nie je outlier; H1: je outlier
Grubbsov test:
##
## Grubbs test for one outlier
##
## data: x1
## G = 1.95072, U = 0.53021, p-value = 0.1435
## alternative hypothesis: lowest value 1.9 is an outlier
##
## Grubbs test for one outlier
##
## data: x1
## G = 1.3744, U = 0.7668, p-value = 0.7872
## alternative hypothesis: highest value 6.4 is an outlier
##
## Grubbs test for one outlier
##
## data: x2
## G = 1.75152, U = 0.62125, p-value = 0.2911
## alternative hypothesis: lowest value 4.2 is an outlier
##
## Grubbs test for one outlier
##
## data: x2
## G = 1.4139, U = 0.7532, p-value = 0.7205
## alternative hypothesis: highest value 5.7 is an outlier
Na základe p-hodnôt vidíme (sú väčšie ako alfa = 0.05), že ani minimálna, ani maximálna hodnota zo súboru sa nepotvrdili ako extremálne.
Dixonov test (vhodné pre menší rozsah (3-30), opäť pre normálne rozdelený súbor):
##
## Dixon test for outliers
##
## data: x1
## Q = 0.40541, p-value = 0.2067
## alternative hypothesis: lowest value 1.9 is an outlier
##
## Dixon test for outliers
##
## data: x1
## Q = 0.26667, p-value = 0.5938
## alternative hypothesis: highest value 6.4 is an outlier
##
## Dixon test for outliers
##
## data: x2
## Q = 0.15385, p-value = 0.904
## alternative hypothesis: lowest value 4.2 is an outlier
##
## Dixon test for outliers
##
## data: x2
## Q = 0.15385, p-value = 0.904
## alternative hypothesis: highest value 5.7 is an outlier
Opäť vidíme, že na základe p-hodnôt vidíme (sú väčšie ako alfa = 0.05), že ani minimálna, ani maximálna hodnota zo súboru sa nepotvrdili ako extremálne.
Zadanie A
Zadanie: V istom časovom období bolo zaznamenaných 391 dopravných nehôd, pričom v pondelok ich bolo 52, v utorok 43, v stredu 54, vo štvrtok 45, v piatok 62, v sobotu 66 a v nedeľu 69. Treba zistiť, či sa dopravné nehody vyskytujú pravidelne vo všetkých dňoch týždňa alebo či sú v niektorých dňoch týždňa štatisticky významne častejšie. Testujeme nulovú hypotézu: empirické rozdelenie početností zodpovedá teoretickému rozdeleniu. Použijeme chí kvadrát test dobrej zhody. (Teoretické rozdelenie je diskrétné rozdelenie)
data4 <- c(rep(1,52), rep(2,43), rep(3,54), rep(4,45), rep(5,62), rep(6,66), rep(7,59))
table(data4)
## data4
## 1 2 3 4 5 6 7
## 52 43 54 45 62 66 59
## [1] 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571
##
## Chi-squared test for given probabilities
##
## data: table(data4)
## X-squared = 8.042, df = 6, p-value = 0.235
Vidím že p-hodnora (0,235) je väčšie ako alfa (0,05), preto nezamietam H0, teda emperické rozdelenie sa rovná teoretickému. (Štatisticky počet nehôd nezávisí od dňa v týždni)
Zadanie B
Zadanie: Bolo vybraných 13 polí rovnakej kvality. Na 8 z nich sa skúšal nový spôsob hnojenia, na zvyšných 5 bol použitý tradičný spôsob hnojenia. Výnosy pšenice v tonách na hektár boli pri novom spôsobe hnojenia 5.7, 5.5, 4.3, 5.9, 5.2, 5.6, 5.8, 5.1 a pri tradičnom spôsobe hnojenia 5, 4.5, 4.2, 5.4, 4.4. Treba zistiť, či nový spôsob hnojenia má vplyv úrodu pšenice. Testujeme nulovú hypotézu: obidva výberové súbory pochádzajú z toho istého základného súboru (nový spôsob hnojenia má rovnaky vplyv ako starý). Použijeme dvojfaktorový test.
##
## Exact two-sample Kolmogorov-Smirnov test
##
## data: h1 and h2
## D = 0.675, p-value = 0.07925
## alternative hypothesis: two-sided
Vidím že p-hodnora (0,08) je trochu väčšie ako alfa (0,05), preto nezamietam H0, teda nový spôsob hnojenia má rovnaky vplyv na výnos ako starý.