Dáta predstavujú výsledky skúšky. Skúšajúci určil dolnú hranicu 9 bodov na získanie známky, teda známky E. Predpokladáme, že počet bodov zo skúšky je normálne rozdelená NP. Na hladine významnosti α=0.05 testujte, či bola táto hranica splniteľná pre väčšinu študentov. Ak nie, koľko bodov by ste určili, aby skúšku na prvom termíne spravilo aspoň 65% študentov? Testujte aj hypotézu, že rozptyl počtu bodov je 3.
Pozorovaný háhodná premenná X-výsledky skúšky. Budeme pozorovať hypotézu pre strednú hodnotu. Overujeme, či je strednou hodnotou 9 bodov. Toto tvrdenie je nulová hypotéza, ktorej platnosť overujeme. Alternatívnu hypotézu si bolíme ako jednostrannú čiže, či je hranica splnená pre väčšinu študentov.Hypotézu testujeme na hladine významnosti 0.05.
\[H_0:\mu = 9 \] \[H_1:\mu > 9 \]
library(readxl)
data1 <- read_excel("C:/Users/Simi/Desktop/R_zadanie/Kópia - Data_param_testy.xlsx", sheet = 1)
dat1 <- data1$Body
library(ggplot2)
df<-data.frame(dat1)
ggplot(data = df,aes(x="", y=dat1)) +
geom_boxplot(fill="#4472c4", outlier.colour = "red")+labs(x="",y="Body",title="Boxplot pre vysledky skúšky")+
theme(plot.title = element_text(hjust=0.5))+
geom_hline(aes(yintercept=mean(dat1)),colour="#ff9999")+
geom_hline(aes(yintercept=9),colour="cyan")
Z boxplotu vidíme, že odhad strednej hodnoty je skoro taký istý ako testovacia hodnota 9.Otestujeme, či ide o štatisticky významný rozdiel.
smean <- mean(dat1)
mu0 <- 9
sigma <- 3
n <- length(dat1)
alfa <- 0.05
(T <- (smean - mu0) / sigma*sqrt(n))
## [1] -1.424131
Testovaciu štatistiku porovnáme s kvantilom normálenho normovaného rozdelenia.\(H_0\) zamietame,ak T>q.Overujeme, či testovacia štatistika padla do oboru zamietnutia \(H_0\) alebo nie.
(q<-qnorm(1-alfa))
## [1] 1.644854
abs(T) > q
## [1] FALSE
Keďže neplatí T>q , \(H_0\) nezamietame na hladine významnosti 0.05 a zamietame alternatívnu hypotézu.Na základe testu vieme povedať, že výsledky skúšky nie sú štatisticky významne horšie ako sa očakávalo.
plot (function(data1) dnorm(data1,mean=0,sd=1), from = -7, to = 7 )
abline(v=T,col="blue") #testovacia štatistika
abline(v=q,col="red") #oblasť nezamietnutia
# hodnoty sa nachádzaju v rámci oboru nezamietnutia -> nezamietame nulovú hytotézu
pt(T,df=n-1)<alfa #aj na základe p-honoty sme dostali rovnaký záver
## [1] FALSE
Ak by sme nepoznali rozptyl pouzijeme t-test.Aj na základe neho by sme nulovú hypotézu zamietli.
t.test(dat1, mu=9, alternative = "g")
##
## One Sample t-test
##
## data: dat1
## t = -0.80502, df = 299, p-value = 0.7893
## alternative hypothesis: true mean is greater than 9
## 95 percent confidence interval:
## 8.247765 Inf
## sample estimates:
## mean of x
## 8.753333
Dáta predstavujú počet bodov tých študentov, ktorí neuspeli na skúške ani na tretíkrát (maximum zo všetkých termínov, na ktorých sa zúčastnili- stĺpec “standard”). Predmet teda preniesli do ďalšieho ročníka. Znovu absolvovali predmet a na konci skúškového obdobia im boli evidované body v stĺpci “prenos”. Nastala nejaká štatisticky významná zmena u týchto študentov? Ide o štatisticky významné o zlepšenie? Testujte na hladine významnosti α=0.1, pričom predpokladáme, že ide o normálne rozdelenú NP.
Pozorujeme náhodnú premennú X-núspech na skúške na dvoch výberoch,ktoré spolu súvisia tvoria pár (1.vyber: počet bodov študentov ktorí neuspeli na skúške, a počet bodov tých ktorí skúšku prenašali).Použijeme párový t-test.
data2 <- read_excel("C:/Users/Simi/Desktop/R_zadanie/Kópia - Data_param_testy.xlsx", sheet = 2)
standart <- data2$standard
prenos <- data2$prenos
df <- data.frame(body = c(standart,prenos),
skuska = rep(c("standart","prenos"), c(length(standart),length(prenos))))
ggplot(df,aes(x=skuska,y=body))+
geom_boxplot(fill=c("#4472c4","#FF6666"))+
geom_hline(aes(yintercept=mean(standart)), colour="#F0E130")+
geom_hline(aes(yintercept=mean(prenos)), colour="#F4C2C2")
Na boxplotoch môžme porovnať body zo skúšky na tretí krát a znovu absolvovanej skúšky v nasledujúcom semestri. Stredné hodnoty spolu s mediánmi sú rôzne, či je tento rozdiel štatisticky významný určíme testom.
Ešte pred testovním stredných hodnôt musíme overiť či sa disperzie týchto súborov rovnajú alebo nie. \[H_0:\sigma_x = \sigma_y \] \[H_1:\sigma_x \not= \sigma_y \]
var.test(standart,prenos,alternative = "two.sided")
##
## F test to compare two variances
##
## data: standart and prenos
## F = 0.13652, num df = 139, denom df = 139, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.0977672 0.1906219
## sample estimates:
## ratio of variances
## 0.1365158
Na základe p-hodnoty zamietame nulovú hypotézu a príjmame alternatívnu hypotézu o nerovnosti rozptylov.
Zistujeme či medzi obdobiami nastala štatisticky významná zmena v zlepšení studentov. Preto volíme alternatívnu hypotézu v takomto tvare.
\[H_0:\mu_x = \mu_y \] \[H_1:\mu_x < \mu_y \]
t.test(standart, prenos, paired=T,alternative = "l",var.equal = F,conf.level = 0.1)
##
## Paired t-test
##
## data: standart and prenos
## t = -9.4933, df = 139, p-value < 2.2e-16
## alternative hypothesis: true difference in means is less than 0
## 10 percent confidence interval:
## -Inf -3.4637
## sample estimates:
## mean of the differences
## -3.05
Na základe p-hodnoty, ktorá je oveľa nižšia ako hladina významnosti, Nulovú hypotézu o tom ako sa nemenil výsledok študentov zamietam na hladine významnosti 0.01. Rozdiel v bodoch na skuškach je štatisticky významný. Študenti sa po prenesení skúšky zlepšili.
V 3. hárku sú porovnané výsledky vlaňajších a tohtoročných študentov. Existuje štatisticky významný rozdiel medzi dvoma ročníkmi v počte bodov? Ak áno, ktorý ročník zvládol predmet lepšie? Opäť predpokladáme normalitu.
Náhodná premenná X-výsledky študentov. Premennú pozorujeme na dvoch nezávislých výberoch(vlaňajší a tohtoročný študenti).Preto použijeme dvojvýberovy t-test. Zistujeme či je medzi nimi štatisticky významný rozdiel.Overujeme či sú výsledky študentov vzhľadom na ročník rôzne.Preto si zvolíme alternatívnu hypotézu ako nerovnosť spredných hodnôt.
data3 <- read_excel("C:/Users/Simi/Desktop/R_zadanie/Kópia - Data_param_testy.xlsx", sheet = 3)
minuly <- data3$Minuly[1:234]
aktualny <- data3$Aktualny
df<-data.frame(Body=c(minuly,aktualny),
Rocniky= rep(c("minuly","aktualny"),c(length(minuly),length(aktualny))))
ggplot(df, aes(x=Rocniky, y=Body)) +
geom_boxplot(fill=c("#4472c4", "#FF6666"))+
geom_hline(aes(yintercept=mean(minuly)), colour="#872657")+
geom_hline(aes(yintercept=mean(aktualny)), colour="#FFA812")
Podľa krabicového grafu aktuálny ročník má lepšie výsledky ako minulý, či je tento rozdiel štatisticky významný musíme otestovať. Pri dvojvýberovom t-teste rozlišujeme dve verzie testu, podľa toho či je rozptyl výberov zhodný alebo rôzny. Preto ako prvé treba testovať rovnosť rozptylov F-testom. \[H_0:\sigma^2_x = \sigma^2_y \] \[H_1:\sigma^2_x \not= \sigma^2_y\]
var.test(minuly,aktualny, alternative = "two.sided")
##
## F test to compare two variances
##
## data: minuly and aktualny
## F = 0.28281, num df = 233, denom df = 299, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.2222643 0.3611776
## sample estimates:
## ratio of variances
## 0.2828076
Kedže hodnota p-testu je menšia ako 0.05 nulovú hypotézu o rovnosti rozptylu musíme zamietnuť a použijeme dvojvýberový t-test s nerovnosťou rozptylov.Porovnávame stredné hodnoty a ako alternatívnu hypotézu porovnávame či minulý ročník dosahoval horšie výsledky ako aktuálny ročník. \[H_0:\mu_x = \mu_y \] \[H_1:\mu_x < \mu_y \]
t.test(minuly,aktualny,alternative = "l", paired = F,var.equal=F)
##
## Welch Two Sample t-test
##
## data: minuly and aktualny
## t = -11.426, df = 475, p-value < 2.2e-16
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf -3.497199
## sample estimates:
## mean of x mean of y
## 4.666667 8.753333
Na záklede p-hodnoty, nulovú hypotézu o rovnosti stredných hodnôt o výsledkoch študentov zamietame na hladine významnosti =0.05 a z toho vyplíva že rozdiel vo výsledkoch tohtoročných a vlaňajších študentov je štatisticky významný a teda vysledky študentov v aktuálnom ročniku majú štatisticky významne lepšie výsledky.
V botanickom výskume pozorovali veľkosť oblastí výskytu určitej invazívnej rastliny v rámci Devínskej Kobyly. Očakávali, že priemerná rozloha takejto oblasti je 3,5 m^2. Predpokladáme, že poznáme smerodajnú odchýlku, ktorá má hodnotu 0.5 m^2 a predpokladáme aj normalitu. Na hladine významnosti 0.01 overte, či je predpoklad botanikov správny.
Pozorovaná náhodná premenná X-veĺkosť oblasti. Budeme pozorovať hypotézu pre strednú hodnotu. Nulová hypotéza bude skúmať, či je stredná hodnota rozlohy je 3.5m^2. Alternatívna hypotéza bude obojstranná, kedže chceme testovať či mali botanicky správny predpoklad.Hypotézu testujeme na hladine významnosti 0.01, čiže 1% pravdepodobnosť chyby testovania.Keďže poznáme smerodajnú odchylku, použijeme z-test. \[H_0:\mu = 3.5 m^2 \] \[H_1:\mu \not= 3.5 m^2 \]
data4 <- read_excel("C:/Users/Simi/Desktop/R_zadanie/Kópia - Data_param_testy.xlsx", sheet = 4)
dat4 <- data4$Rozloha
mu0 <- 3.5
mu <- mean(dat4)
df<-data.frame(dat4)
ggplot(data = df, aes(x = "", y =dat4)) +
geom_boxplot(fill="#4472c4", outlier.colour = "red")+labs(x="", y="Rozloha", title = "Boxplot rozlohy veľkostí výskytu invazívnej rastliny")+
theme(plot.title = element_text(hjust=0.5))+
geom_hline(aes(yintercept=mu), colour="#ff9999")+
geom_hline(aes(yintercept=mu0), colour="#e60000")
Z boxplotu vidíme, že odhad strednej hodnoty je menší ako testovaná hodnota 3.5 m^2.
sigma <- 0.5
alfa <- 0.01
n <- length(dat4)
(z<- (mu-mu0)/ sigma * sqrt(n))
## [1] -9.359615
q <- (1-alfa/2)
Testovaciu štatistiku porovnávame s kvantilom. Nulovú hypotézu nezamietame ak platí abs(z)<qnorm(1-/2)
abs(z)<q
## [1] FALSE
keďže abs(z)<q neplatí, \(H_0\) zamietam na hladine významnosti 0.01
p<-2*pnorm(z) #cez p-hodnotu
p>alfa #vyšlo nám to isté
## [1] FALSE
Znamená to,ťe predpoklad botanikov o priemernej rozlohe veĺkosti oblasti bol správny a teda priemerný hodnota rozlohy je 3.5m^2.
plot(function(x) dnorm(x, mean=0, sd=1 ), from=-10, to=10)
abline(v=z,col="blue") #testovacia štatistika
abline(v=c(-q, q), col="red") #oblasť nezamietnutia nulovej hypotézy
Dve pobočky istej kaviarne v Bratislave, denne zaznamenali celkové množstvo zrnkovej kávy v kg, z ktorej za posledný mesiac pripravili zákazníkom kávu. Majiteľovi sa zdá, že pobočke 1 sa darí viac. Je to naozaj tak? Overte na hladine významnosti α=0.05. Predpokladáme, že množstvo spotrebovanej kávy pochádza z normálneho rozdelenia.
Náhodná premenná X-množstvo zrnkvej kávy v kilogramoch za posledný mesiac. Pozorujeme ju na dvoch nezávislých výberoch(pobočka 1 a pobočka 2).Preto použijeme dvojvýberový t-test.Najprvn zistujeme, či je rozptyl výberov zhodný alebo štatisticky významne odlišný.Použijeme F-test pre rovnosť rozptylov.
data5 <- read_excel("C:/Users/Simi/Desktop/R_zadanie/Kópia - Data_param_testy.xlsx", sheet = 5)
pobocka1 <- data5$Pob1
pobocka2 <- data5$Pob2
alfa <- 0.05
df<-data.frame(Predaná_káva=c(pobocka1,pobocka2),
Pobočky= rep(c("1","2"),c(length(pobocka1),length(pobocka2))))
ggplot(df, aes(x=Pobočky, y=Predaná_káva)) +
geom_boxplot(fill=c("#4472c4", "#FF6666"))+
geom_hline(aes(yintercept=mean(pobocka1)), colour="#ff9999")+
geom_hline(aes(yintercept=mean(pobocka2)), colour="green")
Na základe boxplotu sa zdá ,že druhej pobočke sa darí viac ako tej prvej. \[H_0:\sigma^2_x = \sigma^2_y \] \[H_1:\sigma^2_x \not= \sigma^2_y\]
var.test(pobocka1,pobocka2,alternative="two.sided")
##
## F test to compare two variances
##
## data: pobocka1 and pobocka2
## F = 0.92236, num df = 29, denom df = 29, p-value = 0.8292
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.4390126 1.9378822
## sample estimates:
## ratio of variances
## 0.9223637
Keďže p-hodnota testu je väčšia ako 0.05, nulovú hypotézu o rovnosti rozptylov nemôžem zamietnuť a preto použijem dvojvyberový t-test s rovnosťou rozptylov.
Testujeme predpoklad majiteľa o tom, či sa naozaj prvej pobočke darí viac ako tej druhej porovnávaním stredných hodnôt. \[H_0:\mu_x = \mu_y\] \[H_1:\mu_x > \mu_y\]
t.test(pobocka1,pobocka2,paired = F,var.equal = T,alternative = "g",conf.level = 0.05)
##
## Two Sample t-test
##
## data: pobocka1 and pobocka2
## t = -1.315, df = 58, p-value = 0.9032
## alternative hypothesis: true difference in means is greater than 0
## 5 percent confidence interval:
## 0.1119226 Inf
## sample estimates:
## mean of x mean of y
## 1.544733 1.957533
Na základe p-hodnoty, ktorá je vyššia ako hladina významnosti 0.05. Nulovú hypotézu o tom, že pobočka 1. a pobočka 2. predajú rovnaké množstvo kávy, nemôžeme zamietnuť na hladine významnosti α=0.05.Teda to, či je predaj vyšší na 1. pobočkenie ako na 2. nie je štatisticky významný rozdiel.