1 Výsleky skúšky

Dáta predstavujú výsledky skúšky. Skúšajúci určil dolnú hranicu 9 bodov na získanie známky, teda známky E. Predpokladáme, že počet bodov zo skúšky je normálne rozdelená NP. Na hladine významnosti α=0.05 testujte, či bola táto hranica splniteľná pre väčšinu študentov. Ak nie, koľko bodov by ste určili, aby skúšku na prvom termíne spravilo aspoň 65% študentov? Testujte aj hypotézu, že rozptyl počtu bodov je 3.

Pozorovaný háhodná premenná X-výsledky skúšky. Budeme pozorovať hypotézu pre strednú hodnotu. Overujeme, či je strednou hodnotou 9 bodov. Toto tvrdenie je nulová hypotéza, ktorej platnosť overujeme. Alternatívnu hypotézu si bolíme ako jednostrannú čiže, či je hranica splnená pre väčšinu študentov.Hypotézu testujeme na hladine významnosti 0.05.

\[H_0:\mu = 9 \] \[H_1:\mu > 9 \]

library(readxl)
data1 <- read_excel("C:/Users/Simi/Desktop/R_zadanie/Kópia - Data_param_testy.xlsx", sheet = 1)
dat1 <- data1$Body

library(ggplot2)
df<-data.frame(dat1)
ggplot(data = df,aes(x="", y=dat1)) +
  geom_boxplot(fill="#4472c4", outlier.colour = "red")+labs(x="",y="Body",title="Boxplot pre vysledky skúšky")+
  theme(plot.title = element_text(hjust=0.5))+
  geom_hline(aes(yintercept=mean(dat1)),colour="#ff9999")+
  geom_hline(aes(yintercept=9),colour="cyan")

Z boxplotu vidíme, že odhad strednej hodnoty je skoro taký istý ako testovacia hodnota 9.Otestujeme, či ide o štatisticky významný rozdiel.

smean <- mean(dat1)
mu0 <- 9
sigma <- 3
n <- length(dat1)
alfa <- 0.05
(T <- (smean - mu0) / sigma*sqrt(n))
## [1] -1.424131

Testovaciu štatistiku porovnáme s kvantilom normálenho normovaného rozdelenia.\(H_0\) zamietame,ak T>q.Overujeme, či testovacia štatistika padla do oboru zamietnutia \(H_0\) alebo nie.

(q<-qnorm(1-alfa))
## [1] 1.644854
abs(T) > q
## [1] FALSE

Keďže neplatí T>q , \(H_0\) nezamietame na hladine významnosti 0.05 a zamietame alternatívnu hypotézu.Na základe testu vieme povedať, že výsledky skúšky nie sú štatisticky významne horšie ako sa očakávalo.

plot (function(data1) dnorm(data1,mean=0,sd=1), from = -7, to = 7 ) 
abline(v=T,col="blue") #testovacia štatistika
abline(v=q,col="red") #oblasť nezamietnutia

# hodnoty sa nachádzaju v rámci oboru nezamietnutia -> nezamietame nulovú hytotézu 
pt(T,df=n-1)<alfa #aj na základe p-honoty sme dostali rovnaký záver
## [1] FALSE

Ak by sme nepoznali rozptyl pouzijeme t-test.Aj na základe neho by sme nulovú hypotézu zamietli.

t.test(dat1, mu=9, alternative = "g")
## 
##  One Sample t-test
## 
## data:  dat1
## t = -0.80502, df = 299, p-value = 0.7893
## alternative hypothesis: true mean is greater than 9
## 95 percent confidence interval:
##  8.247765      Inf
## sample estimates:
## mean of x 
##  8.753333

2 Opravná skúška

Dáta predstavujú počet bodov tých študentov, ktorí neuspeli na skúške ani na tretíkrát (maximum zo všetkých termínov, na ktorých sa zúčastnili- stĺpec “standard”). Predmet teda preniesli do ďalšieho ročníka. Znovu absolvovali predmet a na konci skúškového obdobia im boli evidované body v stĺpci “prenos”. Nastala nejaká štatisticky významná zmena u týchto študentov? Ide o štatisticky významné o zlepšenie? Testujte na hladine významnosti α=0.1, pričom predpokladáme, že ide o normálne rozdelenú NP.

Pozorujeme náhodnú premennú X-núspech na skúške na dvoch výberoch,ktoré spolu súvisia tvoria pár (1.vyber: počet bodov študentov ktorí neuspeli na skúške, a počet bodov tých ktorí skúšku prenašali).Použijeme párový t-test.

data2 <- read_excel("C:/Users/Simi/Desktop/R_zadanie/Kópia - Data_param_testy.xlsx", sheet = 2)
standart <- data2$standard
prenos <- data2$prenos

df <- data.frame(body = c(standart,prenos),
                 skuska = rep(c("standart","prenos"), c(length(standart),length(prenos))))

ggplot(df,aes(x=skuska,y=body))+
  geom_boxplot(fill=c("#4472c4","#FF6666"))+
  geom_hline(aes(yintercept=mean(standart)), colour="#F0E130")+
  geom_hline(aes(yintercept=mean(prenos)), colour="#F4C2C2")

Na boxplotoch môžme porovnať body zo skúšky na tretí krát a znovu absolvovanej skúšky v nasledujúcom semestri. Stredné hodnoty spolu s mediánmi sú rôzne, či je tento rozdiel štatisticky významný určíme testom.

Ešte pred testovním stredných hodnôt musíme overiť či sa disperzie týchto súborov rovnajú alebo nie. \[H_0:\sigma_x = \sigma_y \] \[H_1:\sigma_x \not= \sigma_y \]

var.test(standart,prenos,alternative = "two.sided")
## 
##  F test to compare two variances
## 
## data:  standart and prenos
## F = 0.13652, num df = 139, denom df = 139, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.0977672 0.1906219
## sample estimates:
## ratio of variances 
##          0.1365158

Na základe p-hodnoty zamietame nulovú hypotézu a príjmame alternatívnu hypotézu o nerovnosti rozptylov.

Zistujeme či medzi obdobiami nastala štatisticky významná zmena v zlepšení studentov. Preto volíme alternatívnu hypotézu v takomto tvare.

\[H_0:\mu_x = \mu_y \] \[H_1:\mu_x < \mu_y \]

t.test(standart, prenos, paired=T,alternative = "l",var.equal = F,conf.level = 0.1)
## 
##  Paired t-test
## 
## data:  standart and prenos
## t = -9.4933, df = 139, p-value < 2.2e-16
## alternative hypothesis: true difference in means is less than 0
## 10 percent confidence interval:
##     -Inf -3.4637
## sample estimates:
## mean of the differences 
##                   -3.05

Na základe p-hodnoty, ktorá je oveľa nižšia ako hladina významnosti, Nulovú hypotézu o tom ako sa nemenil výsledok študentov zamietam na hladine významnosti 0.01. Rozdiel v bodoch na skuškach je štatisticky významný. Študenti sa po prenesení skúšky zlepšili.

3 Porovanie

V 3. hárku sú porovnané výsledky vlaňajších a tohtoročných študentov. Existuje štatisticky významný rozdiel medzi dvoma ročníkmi v počte bodov? Ak áno, ktorý ročník zvládol predmet lepšie? Opäť predpokladáme normalitu.

Náhodná premenná X-výsledky študentov. Premennú pozorujeme na dvoch nezávislých výberoch(vlaňajší a tohtoročný študenti).Preto použijeme dvojvýberovy t-test. Zistujeme či je medzi nimi štatisticky významný rozdiel.Overujeme či sú výsledky študentov vzhľadom na ročník rôzne.Preto si zvolíme alternatívnu hypotézu ako nerovnosť spredných hodnôt.

data3 <- read_excel("C:/Users/Simi/Desktop/R_zadanie/Kópia - Data_param_testy.xlsx", sheet = 3)
minuly <- data3$Minuly[1:234]
aktualny <- data3$Aktualny
df<-data.frame(Body=c(minuly,aktualny), 
               Rocniky= rep(c("minuly","aktualny"),c(length(minuly),length(aktualny))))

ggplot(df, aes(x=Rocniky, y=Body)) +
  geom_boxplot(fill=c("#4472c4", "#FF6666"))+
  geom_hline(aes(yintercept=mean(minuly)), colour="#872657")+
  geom_hline(aes(yintercept=mean(aktualny)), colour="#FFA812")

Podľa krabicového grafu aktuálny ročník má lepšie výsledky ako minulý, či je tento rozdiel štatisticky významný musíme otestovať. Pri dvojvýberovom t-teste rozlišujeme dve verzie testu, podľa toho či je rozptyl výberov zhodný alebo rôzny. Preto ako prvé treba testovať rovnosť rozptylov F-testom. \[H_0:\sigma^2_x = \sigma^2_y \] \[H_1:\sigma^2_x \not= \sigma^2_y\]

var.test(minuly,aktualny, alternative = "two.sided")
## 
##  F test to compare two variances
## 
## data:  minuly and aktualny
## F = 0.28281, num df = 233, denom df = 299, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.2222643 0.3611776
## sample estimates:
## ratio of variances 
##          0.2828076

Kedže hodnota p-testu je menšia ako 0.05 nulovú hypotézu o rovnosti rozptylu musíme zamietnuť a použijeme dvojvýberový t-test s nerovnosťou rozptylov.Porovnávame stredné hodnoty a ako alternatívnu hypotézu porovnávame či minulý ročník dosahoval horšie výsledky ako aktuálny ročník. \[H_0:\mu_x = \mu_y \] \[H_1:\mu_x < \mu_y \]

t.test(minuly,aktualny,alternative = "l", paired = F,var.equal=F)
## 
##  Welch Two Sample t-test
## 
## data:  minuly and aktualny
## t = -11.426, df = 475, p-value < 2.2e-16
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##       -Inf -3.497199
## sample estimates:
## mean of x mean of y 
##  4.666667  8.753333

Na záklede p-hodnoty, nulovú hypotézu o rovnosti stredných hodnôt o výsledkoch študentov zamietame na hladine významnosti =0.05 a z toho vyplíva že rozdiel vo výsledkoch tohtoročných a vlaňajších študentov je štatisticky významný a teda vysledky študentov v aktuálnom ročniku majú štatisticky významne lepšie výsledky.

4 Botanika

V botanickom výskume pozorovali veľkosť oblastí výskytu určitej invazívnej rastliny v rámci Devínskej Kobyly. Očakávali, že priemerná rozloha takejto oblasti je 3,5 m^2. Predpokladáme, že poznáme smerodajnú odchýlku, ktorá má hodnotu 0.5 m^2 a predpokladáme aj normalitu. Na hladine významnosti 0.01 overte, či je predpoklad botanikov správny.

Pozorovaná náhodná premenná X-veĺkosť oblasti. Budeme pozorovať hypotézu pre strednú hodnotu. Nulová hypotéza bude skúmať, či je stredná hodnota rozlohy je 3.5m^2. Alternatívna hypotéza bude obojstranná, kedže chceme testovať či mali botanicky správny predpoklad.Hypotézu testujeme na hladine významnosti 0.01, čiže 1% pravdepodobnosť chyby testovania.Keďže poznáme smerodajnú odchylku, použijeme z-test. \[H_0:\mu = 3.5 m^2 \] \[H_1:\mu \not= 3.5 m^2 \]

data4 <- read_excel("C:/Users/Simi/Desktop/R_zadanie/Kópia - Data_param_testy.xlsx", sheet = 4)
dat4 <- data4$Rozloha
mu0 <- 3.5
mu <- mean(dat4)

df<-data.frame(dat4)

ggplot(data = df, aes(x = "", y =dat4)) + 
  geom_boxplot(fill="#4472c4", outlier.colour = "red")+labs(x="", y="Rozloha", title = "Boxplot rozlohy veľkostí výskytu invazívnej rastliny")+
  theme(plot.title = element_text(hjust=0.5))+
  geom_hline(aes(yintercept=mu), colour="#ff9999")+
  geom_hline(aes(yintercept=mu0), colour="#e60000")

Z boxplotu vidíme, že odhad strednej hodnoty je menší ako testovaná hodnota 3.5 m^2.

sigma <- 0.5
alfa <- 0.01
n <- length(dat4)
(z<- (mu-mu0)/ sigma * sqrt(n))
## [1] -9.359615
q <- (1-alfa/2)

Testovaciu štatistiku porovnávame s kvantilom. Nulovú hypotézu nezamietame ak platí abs(z)<qnorm(1-/2)

abs(z)<q 
## [1] FALSE

keďže abs(z)<q neplatí, \(H_0\) zamietam na hladine významnosti 0.01

p<-2*pnorm(z) #cez p-hodnotu
p>alfa #vyšlo nám to isté 
## [1] FALSE

Znamená to,ťe predpoklad botanikov o priemernej rozlohe veĺkosti oblasti bol správny a teda priemerný hodnota rozlohy je 3.5m^2.

plot(function(x) dnorm(x, mean=0, sd=1 ), from=-10, to=10)
abline(v=z,col="blue") #testovacia štatistika
abline(v=c(-q, q), col="red") #oblasť nezamietnutia nulovej hypotézy

5 Káva

Dve pobočky istej kaviarne v Bratislave, denne zaznamenali celkové množstvo zrnkovej kávy v kg, z ktorej za posledný mesiac pripravili zákazníkom kávu. Majiteľovi sa zdá, že pobočke 1 sa darí viac. Je to naozaj tak? Overte na hladine významnosti α=0.05. Predpokladáme, že množstvo spotrebovanej kávy pochádza z normálneho rozdelenia.

Náhodná premenná X-množstvo zrnkvej kávy v kilogramoch za posledný mesiac. Pozorujeme ju na dvoch nezávislých výberoch(pobočka 1 a pobočka 2).Preto použijeme dvojvýberový t-test.Najprvn zistujeme, či je rozptyl výberov zhodný alebo štatisticky významne odlišný.Použijeme F-test pre rovnosť rozptylov.

data5 <- read_excel("C:/Users/Simi/Desktop/R_zadanie/Kópia - Data_param_testy.xlsx", sheet = 5)
pobocka1 <- data5$Pob1
pobocka2 <- data5$Pob2
alfa <- 0.05

df<-data.frame(Predaná_káva=c(pobocka1,pobocka2), 
               Pobočky= rep(c("1","2"),c(length(pobocka1),length(pobocka2))))
ggplot(df, aes(x=Pobočky, y=Predaná_káva)) +
  geom_boxplot(fill=c("#4472c4", "#FF6666"))+
  geom_hline(aes(yintercept=mean(pobocka1)), colour="#ff9999")+
  geom_hline(aes(yintercept=mean(pobocka2)), colour="green")

Na základe boxplotu sa zdá ,že druhej pobočke sa darí viac ako tej prvej. \[H_0:\sigma^2_x = \sigma^2_y \] \[H_1:\sigma^2_x \not= \sigma^2_y\]

var.test(pobocka1,pobocka2,alternative="two.sided")
## 
##  F test to compare two variances
## 
## data:  pobocka1 and pobocka2
## F = 0.92236, num df = 29, denom df = 29, p-value = 0.8292
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.4390126 1.9378822
## sample estimates:
## ratio of variances 
##          0.9223637

Keďže p-hodnota testu je väčšia ako 0.05, nulovú hypotézu o rovnosti rozptylov nemôžem zamietnuť a preto použijem dvojvyberový t-test s rovnosťou rozptylov.

Testujeme predpoklad majiteľa o tom, či sa naozaj prvej pobočke darí viac ako tej druhej porovnávaním stredných hodnôt. \[H_0:\mu_x = \mu_y\] \[H_1:\mu_x > \mu_y\]

t.test(pobocka1,pobocka2,paired = F,var.equal = T,alternative = "g",conf.level = 0.05)
## 
##  Two Sample t-test
## 
## data:  pobocka1 and pobocka2
## t = -1.315, df = 58, p-value = 0.9032
## alternative hypothesis: true difference in means is greater than 0
## 5 percent confidence interval:
##  0.1119226       Inf
## sample estimates:
## mean of x mean of y 
##  1.544733  1.957533

Na základe p-hodnoty, ktorá je vyššia ako hladina významnosti 0.05. Nulovú hypotézu o tom, že pobočka 1. a pobočka 2. predajú rovnaké množstvo kávy, nemôžeme zamietnuť na hladine významnosti α=0.05.Teda to, či je predaj vyšší na 1. pobočkenie ako na 2. nie je štatisticky významný rozdiel.