R Studio tutkimuksessa - Jälkitehtävät 1

Tehtävä 1

Heikki mittasi Heikki mittasi lepopulssiaan ja sai seuraavat tulokset: 67, 62, 58, 74, 65, 66, 63. Määritä 95 % luottamusväli Heikin keskimääräiselle lepopulssille.

teht1_data <- c(67, 62, 58, 74, 65, 66, 63)
teht1_ka <- mean(teht1_data)
teht1_ka

## [1] 65

hajonta <- sqrt(mean(teht1_data ^ 2) - mean(teht1_data)^2)
hajonta

## [1] 4.598136

luottamusvali <- function(sampleMean, standardDeviation, sampleCount, confidenceLevel) {
  x <- 1-(1-confidenceLevel/100)/2
  error <- qt(x, df=sampleCount-1)*standardDeviation/sqrt(sampleCount)
  left <- sampleMean - error
  right <- sampleMean + error
  return( c(left, right) )
}
luottorajat <- luottamusvali(mean(teht1_data), hajonta, 7 , 95)
round(luottorajat[1], 2)

## [1] 60.75

round(luottorajat[2], 2)

## [1] 69.25

luottovali <- round(((luottorajat[2]-luottorajat[1])/2), 2) 
luottovali

## [1] 4.25

Tehtävä 1 vastaus: Heikin keskimääräisen lepopulssin 95% luottamusväli on 60.75 — 69.25, eli 65 ±4,25

Tehtävä 2

Estimoitaessa normaalisti N(μ;2,2) jakautuneen satunnaissuureen odotusarvoa μ, otetaan n kpl:n otos. Kuinka suuri otos on valittava, että μ:n 99 %:n luottamusvälin pituus ei ole suurempi kuin 1,5?

“The notation N(µ, σ2) means normally distributed with mean µ and variance σ2” .

keskivirhe <- 1.5/2
keskivirhe

## [1] 0.75

varianssi <- 2.2
hajonta <- sqrt(varianssi)
# käytetään 'puolitettua' virhettä 1%-> 0,5% eli 0,99->0,995
samplekoko <- function(error, standardDeviation) {
  n <- qnorm(0.995)^2 * standardDeviation^2 / error^2
  return(n)
}
tarvittavaOtos <- (samplekoko(keskivirhe, hajonta))
tarvittavaOtos

## [1] 25.94982

#pyöristetään otoskoko ylöspäin lähimpään kokonaisulukuun
vastaus <- ceiling(tarvittavaOtos)
vastaus

## [1] 26

Tehtävä 2 vastaus: 99% luottamusvälillä ja luottamusvälin pituudella 1,5 tarvittava otoskoko on 26

Tehtävä 3

Internetgallupissa kysyttiin 1500 suomalaiselta, onko heillä ilmalämpöpumppua. Ilmalämpöpumpun sanoi omistavansa 52,9 %. Määritä 95 %:n luottamusväli ilmalämpöpumpun omistavien suhteelliselle osuudelle.

n <- 1500
pumpulliset <- (0.529*1500)
pumpullisetIhmiset <- round(pumpulliset, 0)
binom.test(pumpullisetIhmiset, 1500, 
           0.5,
           alternative="two.sided",
           conf.level=0.95)

## 
##  Exact binomial test
## 
## data:  pumpullisetIhmiset and 1500
## number of successes = 794, number of trials = 1500, p-value =
## 0.02465
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.5037040 0.5548476
## sample estimates:
## probability of success 
##              0.5293333

Tehtävä 3 vastaus: 95% luottamusvälillä ilmalämpöpumun omistavien suhteellinen osuus on välillä 50,4% - 55,5%

Tehtävä 4

Otoksesta, jonka koko on a) 35 b) 100, saadaan otoskeskiarvoksi 168.1 cm? Perusjoukon keskihajonta on = 10,0 cm. Testaa, poikkeaako μ arvosta 172 tilastollisesti.

“Tilastotieteessä Z-testi on tilastollinen testi, jota käytetään populaatiokeskiarvon testaamiseen kun tiedetään, että populaatio noudattaa normaalijakaumaa ja sen varianssi tunnetaan.” Jos otoksen koko on yli 30, niin z-testiä voidaan käyttää otoskeskiarvon kanssa.

4 a)

H0 = Arvo ei poikkea tilastollisesti

H1 = Arvo poikkeaa tilastollisesti

n <- 35
otoskeskiarvo <- 168.1
mu0<-172
keskihajonta<-10

z<-sqrt(n)*(otoskeskiarvo-mu0)/keskihajonta

#keskiarvojen vertailuuun käy yksisuuntainen testi kun molemmat arvot on tiedossa:
pnorm(z, lower.tail = TRUE) #

## [1] 0.01051986

Tehtävä 4a) vastaus: H0 jää voimaan. Otoksen koolla 35, μ poikkeaa arvosta 172 melkein merkitsevästi (0,011 kun <0,05 = tilastollisesti melkein merkitsevä, <0,01 = tilastollisesti merkitsevä). H1 olisi voimassa 1,1% riskillä

4 b)

H0 = Arvo ei poikkea tilastollisesti

H1 = Arvo poikkeaa tilastollisesti

n <- 100
otoskeskiarvo <- 168.1
mu0<-172
keskihajonta<-10

z<-sqrt(n)*(otoskeskiarvo-mu0)/keskihajonta

#keskiarvojen vertailuuun käy yksisuuntainen testi kun molemmat arvot on tiedossa:
pnorm(z, lower.tail = TRUE)

## [1] 4.809634e-05

#ja koska numeroita on helpompi ajatella ilman potenssinotaatiota :)
format(pnorm(z, lower.tail = TRUE), scientific = FALSE)

## [1] "0.00004809634"

Tehtävä 4b) vastaus: H0 hylätään, Otoksen koolla 100, μ poikkeaa arvosta 172 erittäin merkitsevästi (0,00004809634 kun <0,001 = tilastollisesti erittäin merkitsevä).

Tehtävä 5

Suklaakonvehtirasian sisällön painoksi ilmoitetaan 300 g. Tuotannon luotettavuutta testattiin 20 rasian otoksella. Otoksen keskiarvo oli 295 g ja keskihajonta 7,8 g. Testaa kaksisuuntaisella testillä 5 %:n riskitasolla voidaanko luottaa siihen, että rasioiden keskipaino on 300 g.

H0 : Suklaarasioiden keskipaino on 300g

H1 : Suklaarasioiden keskipaino ei ole 300g

mean <- 295
s <- 7.8
xbar = 295            # otoska
mu0 = 300             # oletusarvo
s = 7.8                # otoskeskihajonta
n = 20                 # otoksen koko 
t = (xbar-mu0)/(s/sqrt(n)) 
t                      # testi

## [1] -2.866754

alpha = .05 
t.half.alpha = qt(1-alpha/2, df=n-1) 
c(-t.half.alpha, t.half.alpha)

## [1] -2.093024  2.093024

# P-arvo laskettuna
pval <- 2 * pt(t, df=n-1)
pval

## [1] 0.009873326

Tehtävä 5 vastaus: T-arvo -2.866754 jää raja-arvojen -2.093024 2.093024 ulkopuolelle, joten h0 on hylättävä. 5% riskillä suklaarasioiden keskipainon ei voi olettaa olevan 300 g. Myös P-arvolla 0,01 < 0,05 nollyhypoteesi hylätään.

Tehtävä 6

Empaattisuutta käsittelevässä tutkimuksessa tyttöjen ja poikien saamat pistemäärät olivat seuraavat: Selvitä kaksisuuntaisella testillä, onko tyttöjen ja poikien keskiarvoissa eroa

H0 : Tyttöjen ja poikien keskiarvolla ei ole eroa

H1 : Tyttöjen ja poikien keskiarvoilla on eroa

tyt <- c(52, 56, 56, 58, 60, 62, 68, 74)
poj <- c(60, 58, 56, 54, 52, 50, 48, 46)
# Tehdään F-testi eli tutkitaan riittääkö varianssien samankaltaisuus T-testiin
var.test(tyt, poj)

## 
##  F test to compare two variances
## 
## data:  tyt and poj
## F = 2.1399, num df = 7, denom df = 7, p-value = 0.3369
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##   0.4284124 10.6885111
## sample estimates:
## ratio of variances 
##           2.139881

# F-taulukko alpha 0.025 7,7, kriittinen F arvo 4.9949, eli varianssit ovat riittävän samanlaisia ja voidaan jatkaa t-testillä:
t.test(tyt, poj, var.equal = TRUE, paired = FALSE)

## 
##  Two Sample t-test
## 
## data:  tyt and poj
## t = 2.5251, df = 14, p-value = 0.02426
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##   1.167342 14.332658
## sample estimates:
## mean of x mean of y 
##     60.75     53.00

Tehtävä 6 vastaus: T-testin ja saadun p-arvon 0,02426 mukaan nollahypoteesi kumotaan eli keskiarvoilla on eroa. Vakiintuneen tavan mukaan alle 0,050 (5,0 %) suuruista p-arvoa pidetään riittävänä näyttönä perusjoukossa olevan eron puolesta. Otannan keskiarvot ovat tytöillä 59,5 ja pojilla 53 eli tyttöjen keskiarvo on korkeampi.

Tehtävä 7

Testaa 5 % riskillä, noudattavatko linja-autojen kulkuajat tasaista jakaumaa. Tätä varten laskettiin tunnin aikana havaintopisteen ohittavat linja-autot ja saatiin seuraava empiirinen jakauma:

Autojen määrä tunnin aikana
Tunnin neljännes	1	2	3	4
Autojen lukumäärä	6	15	9	18

H0 : Jakauma on tasainen

H1 : Jakauma ei ole tasainen

Tarkistetaan khiin neliö -testin käyttöedellytykset ja datan määrä Taulukossa, jossa on kaksi riviä ja kaksi saraketta (2×2 taulukko) ei saa olla yhtään alle viiden (5) suuruista odotettua frekvenssiä. Suuremmissa taulukoissa alle viiden (5) suuruisia odotettuja frekvenssejä saa olla viidesosa (20 %) kaikista odotetuista frekvensseistä. Alle yhden (1) suuruisia odotettuja frekvenssejä ei saa olla lainkaan. vapausasteluku f = 4 - 1 = 3 X2-testin kriittinen arvo 5% riskille on 7.815

c <- c(6, 15, 9, 18)
d <- c(1/4, 1/4, 1/4, 1/4)
chisq.test(c, p=d)

## 
##  Chi-squared test for given probabilities
## 
## data:  c
## X-squared = 7.5, df = 3, p-value = 0.05756

shapiro.test(c)

## 
##  Shapiro-Wilk normality test
## 
## data:  c
## W = 0.94971, p-value = 0.7143

Tehtävä 7 vastaus: 5% riskillä Khiin neliö -testin mukaan H0 jää voimaan, eli linja-autojen kulkuajat noudattavat tasaista jakaumaa.

Koska saatu x2-testisuure 7,5 on pienempi kuin 5%:lle määrätty kriittinen arvo 7,815, nollahypoteesi jää voimaan eli jakauma on tasainen. Testasin myyös Shapiro-Wilk testin mukaan: p-arvo on 0,7143, eli suurempi kuin 0,5. Myös tällöin 0-hypoteesi jää voimaan.

Tehtävä 8

Väitettiin, että pojat ovat enemmän poissa koulusta kuin tytöt. Asiaa selvitettiin valitsemalla umpimähkään 50 pojan ja 75 tytön otos. Pojista 14 ja tytöistä 13 oli ollut poissa koulusta edellisen kuukauden aikana. Testaa väite 5%:n riskitasolla.

poissaolot <- c(14, 13)
otokset <- c(50, 75)

prop.test(poissaolot, otokset,
          alternative = c("two.sided", "less", "greater"),
          conf.level = 0.95, correct = TRUE)

## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  poissaolot out of otokset
## X-squared = 1.4349, df = 1, p-value = 0.231
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.06108918  0.27442251
## sample estimates:
##    prop 1    prop 2 
## 0.2800000 0.1733333

Tehtävä 8 vastaus: P-arvolla 0,23 nollahypoteesi jää voimaan, sukupuolella ei ole merkitystä poissaolojen suhteen.