Test zhody s normálnym rozdelením

Zadanie: Náhodným výberom, ktorý je daný v tabuľke bola vybratá vzorka rozsahu n = 50. Overte na hladine významnosti 0.05, či empirické rozdelenie početností zodpovedá normálnemu rozdeleniu. Použite Kolmogorv-Smirnovov a Liliesfordov test. Svoje tvrdenie podporte aj graficky – histogramom, boxplotom a Q-Q plotom. Testujeme nulovú hypotézu: rozdelenie početností zodpovedá normálnemu rozdeleniu.

library(nortest)
zi<-c(6,8,10,12,14) #hodnota 
ni<-c(6,11,19,9,5) #početnosť jednotlivých hodnôt 
data1<-rep(zi,ni) 


mean_data <- mean(data1) # Priemer
sd_data <- sd(data1) # Štandardná odchýlka

# Testy
test1<-ks.test(data1, "pnorm", mean = mean_data, sd = sd_data) # Kolmogorov-Smirnov
## Warning in ks.test.default(data1, "pnorm", mean = mean_data, sd = sd_data): в
## тесте согласия Колмогорова не должно быть повторяющихся значений
test1
## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  data1
## D = 0.19203, p-value = 0.05007
## alternative hypothesis: two-sided
test2<-lillie.test(data1) # Lillieforsov test
test2
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  data1
## D = 0.19203, p-value = 8.114e-05

S testu vidím že p-hodnora (8.114e-05) je mensia ako alfa (0,05), preto zamietam H0, teda emperické rozdelenie sa nerovná normálnemu.

Histogram:

hist(data1, 
     col="light blue", 
     border="black",
     prob = TRUE, 
     xlab = "Hodnota",
     ylab = "Hustota",
     main = "Histogram vybratej vzorky")
lines(density(data1), 
      lwd = 2, 
      col = "dark blue")

Boxplot:

boxplot(data1, 
        main = "Boxplot vybratej vzorky",
        xlab = "",
        ylab = "Hodnota",
        col = "light blue",
        border = "black")

Q-Q plot:

qqnorm(data1,pch=1)
qqline(data1, col = "blue", lwd = 2)

Na zaklade Q-Q grafa vidim, že hodnoty neležia približne na priamke, predpokladáme že emperické rozdelenie sa nerovná normálnemu.

Test zhody s diskrétnym rozdelením

Zadanie: V genetickom laboratóriu sa sledovalo 240 potomkov dvoch heterozygotov Aa, Aa. Potomkov typu AA bolo 58, potomkov typu Aa bolo 111 a typu aa bolo 71. Podľa mendelovských zákonov sa očakáva pomer rozdelenia početností 1:2:1. Na 5 percentnej hladine významnosti treba posúdiť zhodu medzi empirickým a teoretickým rozdelením početností. Použite chí kvadrát test dobrej zhody. Testujeme nulovú hypotézu: empirické rozdelenie početností zodpovedá teoretickému rozdeleniu.

data2 <- c(rep("AA",58), rep("Aa",111), rep("aa",71))
table(data2)
## data2
##  aa  Aa  AA 
##  71 111  58
prob <- c(1/4, 1/2, 1/4)
prob
## [1] 0.25 0.50 0.25
chisq.test(table(data2), p=prob)
## 
##  Chi-squared test for given probabilities
## 
## data:  table(data2)
## X-squared = 2.7583, df = 2, p-value = 0.2518

Vidím že p-hodnora (0,2518) je väčšie ako alfa (0,05), preto nezamietam H0, teda emperické rozdelenie sa rovná teoretickému.

Dvojfaktorový test

Zadanie: Máme k dispozícii údaje o popolnatosti vzoriek uhlia z dodávok dvoch banských závodov (v % popola). Pomocou Kolmogorovovho-Smirnovho testu overte na hladine významnosti 0.05 hypotézu, že obidva výberové súbory pochádzajú z toho istého základného súboru. Urobte pre oba súbory aj testy na odľahlé údaje (outliers). Testujeme nulovú hypotézu: obidva výberové súbory pochádzajú z toho istého základného súboru.

x1 <- c(5.2, 4.8, 1.9, 5.6, 5.5, 3.4, 5.3, 6.4, 3.5, 3.8) 
x2 <- c(4.8, 5.0, 5.7, 5.4, 5.5, 4.4, 4.2, 5.0, 5.3, 5.0) 

ks.test(x1,x2)
## 
##  Exact two-sample Kolmogorov-Smirnov test
## 
## data:  x1 and x2
## D = 0.4, p-value = 0.3708
## alternative hypothesis: two-sided

Vidím že p-hodnora (0,371) je väčšie ako alfa (0,05), preto nezamietam H0, teda obidva výberové súbory pochádzajú z toho istého základného súboru.

Urobim testy extremálnych hodnôt s predpokladom normality súboru. Testujeme: H0: min(X) (max(X)) nie je outlier; H1: je outlier

Grubbsov test:

library(outliers)
grubbs.test(x1) # test pre maximálnu hodnotu 1. zavodu.
## 
##  Grubbs test for one outlier
## 
## data:  x1
## G = 1.95072, U = 0.53021, p-value = 0.1435
## alternative hypothesis: lowest value 1.9 is an outlier
grubbs.test(x1, opposite = T) # test pre minimálnu hodnotu 1. zavodu.
## 
##  Grubbs test for one outlier
## 
## data:  x1
## G = 1.3744, U = 0.7668, p-value = 0.7872
## alternative hypothesis: highest value 6.4 is an outlier
grubbs.test(x2) # test pre maximálnu hodnotu 2. zavodu. 
## 
##  Grubbs test for one outlier
## 
## data:  x2
## G = 1.75152, U = 0.62125, p-value = 0.2911
## alternative hypothesis: lowest value 4.2 is an outlier
grubbs.test(x2, opposite = T) # test pre minimálnu hodnotu 2. zavodu. 
## 
##  Grubbs test for one outlier
## 
## data:  x2
## G = 1.4139, U = 0.7532, p-value = 0.7205
## alternative hypothesis: highest value 5.7 is an outlier

Na základe p-hodnôt vidíme (sú väčšie ako alfa = 0.05), že ani minimálna, ani maximálna hodnota zo súboru sa nepotvrdili ako extremálne.

Dixonov test (vhodné pre menší rozsah (3-30), opäť pre normálne rozdelený súbor):

dixon.test(x1) # test pre maximálnu hodnotu 1. zavodu.
## 
##  Dixon test for outliers
## 
## data:  x1
## Q = 0.40541, p-value = 0.2067
## alternative hypothesis: lowest value 1.9 is an outlier
dixon.test(x1,opposite = T) # test pre minimálnu hodnotu 1. zavodu.
## 
##  Dixon test for outliers
## 
## data:  x1
## Q = 0.26667, p-value = 0.5938
## alternative hypothesis: highest value 6.4 is an outlier
dixon.test(x2) # test pre maximálnu hodnotu 2. zavodu. 
## 
##  Dixon test for outliers
## 
## data:  x2
## Q = 0.15385, p-value = 0.904
## alternative hypothesis: lowest value 4.2 is an outlier
dixon.test(x2,opposite = T) # test pre minimálnu hodnotu 2. zavodu.
## 
##  Dixon test for outliers
## 
## data:  x2
## Q = 0.15385, p-value = 0.904
## alternative hypothesis: highest value 5.7 is an outlier

Opäť vidíme, že na základe p-hodnôt vidíme (sú väčšie ako alfa = 0.05), že ani minimálna, ani maximálna hodnota zo súboru sa nepotvrdili ako extremálne.

Zadanie A

Zadanie: V istom časovom období bolo zaznamenaných 391 dopravných nehôd, pričom v pondelok ich bolo 52, v utorok 43, v stredu 54, vo štvrtok 45, v piatok 62, v sobotu 66 a v nedeľu 69. Treba zistiť, či sa dopravné nehody vyskytujú pravidelne vo všetkých dňoch týždňa alebo či sú v niektorých dňoch týždňa štatisticky významne častejšie. Testujeme nulovú hypotézu: empirické rozdelenie početností zodpovedá teoretickému rozdeleniu. Použijeme chí kvadrát test dobrej zhody. (Teoretické rozdelenie je diskrétné rozdelenie)

data4 <- c(rep(1,52), rep(2,43), rep(3,54), rep(4,45), rep(5,62), rep(6,66), rep(7,59))
table(data4)
## data4
##  1  2  3  4  5  6  7 
## 52 43 54 45 62 66 59
prob <- rep(1/7,7)
prob
## [1] 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571 0.1428571
chisq.test(table(data4), p=prob)
## 
##  Chi-squared test for given probabilities
## 
## data:  table(data4)
## X-squared = 8.042, df = 6, p-value = 0.235

Vidím že p-hodnora (0,235) je väčšie ako alfa (0,05), preto nezamietam H0, teda emperické rozdelenie sa rovná teoretickému. (Štatisticky počet nehôd nezávisí od dňa v týždni)

Zadanie B

Zadanie: Bolo vybraných 13 polí rovnakej kvality. Na 8 z nich sa skúšal nový spôsob hnojenia, na zvyšných 5 bol použitý tradičný spôsob hnojenia. Výnosy pšenice v tonách na hektár boli pri novom spôsobe hnojenia 5.7, 5.5, 4.3, 5.9, 5.2, 5.6, 5.8, 5.1 a pri tradičnom spôsobe hnojenia 5, 4.5, 4.2, 5.4, 4.4. Treba zistiť, či nový spôsob hnojenia má vplyv úrodu pšenice. Testujeme nulovú hypotézu: obidva výberové súbory pochádzajú z toho istého základného súboru (nový spôsob hnojenia má rovnaky vplyv ako starý). Použijeme dvojfaktorový test.

h1<- c(5.7, 5.5, 4.3, 5.9, 5.2, 5.6, 5.8, 5.1) 
h2<- c(5, 4.5, 4.2, 5.4, 4.4) 

ks.test(h1,h2)
## 
##  Exact two-sample Kolmogorov-Smirnov test
## 
## data:  h1 and h2
## D = 0.675, p-value = 0.07925
## alternative hypothesis: two-sided

Vidím že p-hodnora (0,08) je trochu väčšie ako alfa (0,05), preto nezamietam H0, teda nový spôsob hnojenia má rovnaky vplyv na výnos ako starý.