1. Heikki mittasi lepopulssiaan ja sai seuraavat tulokset: 67, 62, 58, 74, 65, 66, 63.

Määritä 95 % luottamusväli Heikin keskimääräiselle lepopulssille.

lepopulssi <- c(67, 62, 58, 74, 65, 66, 63) otoskeskiarvo <- mean(lepopulssi) otoskeskihajonta <- sd(lepopulssi) otoskoko <- 7 luottamustaso <- 0.95

Heikki <- function(otoskeskiarvo, otoskeskihajonta, otoskoko, luottamustaso) { x <- 1 - (1 - luottamustaso/100) /2 error <- qt(x, df = otoskoko -1) * (otoskeskihajonta/sqrt(otoskoko)) left <- otoskeskiarvo - error right <- otoskeskiarvo + error return(c(left, right)) } Heikki(otoskeskiarvo = 65, otoskeskihajonta = 4.966555, otoskoko = 7, luottamustaso = 0.95)

Vastaus: luottamusvälin rajat ovat 64.9767 - 65.0233

Mikä on tässä laskennassa X???

2.Estimoitaessa normaalisti N(mju;2,2) jakautuneen satunnaissuureen odotusarvoa mju, otetaan n kpl:n otos.

Kuinka suuri otos on valittava, että mju:n 99 %:n luottamusvälin pituus ei ole suurempi kuin 1,5?

perusjoukon keskihajonta (sigma) 2.2 otoskoko (n)? luottamusvälin pituus on +/- 1,5 (1,5 väli ymmärtääkseni tarkoittaa itseiarvoa janalla jonka nolla jakaa kahtia eli 1,5 kuuluu jakaa kahtia jotta saadaan standardi virheen arvo => 1,5/2 = 0,75) luottamustaso 0.99 Z arvo luottamustasolle 0.99 on 2.33 (tieto taulukosta)

Yhtälö josta lasketaan luottamusvälit kun sigma (perusjoukon keskihajonta) tiedetään, näyttää seuraavalta:

X +/- Z * (sigma / sqrt(otoskoko)),

jossa X on otoksen keskiarvo,

Z arvo tietylle luottamustasolle,

sigma on perusjoukon keskihajonta ja

otoskoko on n jota ei tiedetä.

Meidän tapauksessa sigma on tiedossa ja luottamusvälin pituus on 1.5. Eli näillä arvoilla yhtälö tulee näyttämään:

X +/- 2.33 * (2.2/sqrt(n)) = X +/- 1.5

+ 1.5 = + 2.33 * (2.2 / sqrt (n)) ja -1.5 = - 2.33 * (2.2 / sqrt (n))

0.75 = 2.33 * (2.2 / sqrt(n)) 0.75 = 2.33 * 2.2 / sqrt(n) 0.75 = 5.126 / sqrt (n) sqrt(n) = 5.126 / 0.75 sqrt(n) = 6.83 n = 6.83 ˆ 2 n = 46.68

Vastaus: otoskoon pitää olla noin 47 henkilöä

3. Internetgallupissa kysyttiin 1500 suomalaiselta, onko heillä ilmalämpöpumppua. Ilmalämpöpumpun sanoi

omistavansa 52,9 %. Määritä 95 %:n luottamusväli ilmalämpöpumpun omistavien suhteelliselle osuudelle.

otoksen koko n - 1500 suomalaista

%-osuus ilmalämpöpumpun omistajia on 52.9% eli 0.529

1500 * 0.529 = 793.5 eli positiivisten vastausten absoluuttinen määrä. Luottamusvälit binomijakaumalle lasketaan

seuraavan funktion avulla: biconf(x, n, alpha =), jossa

x on “onnistuneiden” eli siis positiivisten vastausten absoluuttinen määrä,

n on kaikkien vastausten absoluuttinen määrä ja

alpha on luottamusriski alpha.

binconf(793.5, 1500, alpha = 0.05) PointEst Lower Upper 0.529 0.5036977 0.5541542

Vastaus: luottamusvälin rajat ovat 50.36977 ja 55.41542

4. Otoksesta, jonka koko on a) 35 b) 100, saadaan otoskeskiarvoksi 168.1 cm? Perusjoukon keskihajonta on sigma=10,0 cm.

Testaa, poikkeaako mju arvosta 172 tilastollisesti.

otoskoko A - 35

otoskoko B - 100

otoskeskiarvo - 168.1 cm

perusjoukon keskihajonta sigma - 10.0 cm

Tässä tehtävässä kuuluu käyttää yksisuuntaista Z-testiä (koska otoskoko on molemmissa esimerkeissä yli 30 ja sigma on

tunnettu suure).

otoskeskiarvo <- 168.1 perusjoukonkeskihajonta <- 10.0 otoskoko <- 35 perusjoukonkeskiarvo <- 172.0

Z-testi perustuu seuraavaan yhtälöön:

Z = X - mju / sigma/sqrt(n), jossa:

Z - kriittinen arvo,

X - otoksen keskiarvo eli otoskeskiarvo

mju - perusjoukon keskiarvo,

sigma - perusjoukon keskihajonta,

n - otoskoko

z.testi <- function(otoskeskiarvo, otoskoko, perusjoukonkeskiarvo, perusjoukonkeskihajonta) { zeta <- (otoskeskiarvo - perusjoukonkeskiarvo) / (perusjoukonkeskihajonta/sqrt(otoskoko)) return(zeta) }

z.testi(168.1, 35, 172, 10.0) [1] -2.307271

z <- z.testi(168.1, 35, 172, 10.0)

z [1] -2.307271

Luottamustason 0.95 vastaava kriittinen arvo Z on: +/- 1.65

Luottamustason 0.99 vastaava kriittinen arvo Z on: +/- 2.33

Vastaavasti, jos testataan riskitasolla 0.05 H0 hypoteesi hylätään, mutta korkeammalla luottamustasolla (ja entistä pienemmällä riskitasolla 0.001) hypoteesi H0 jää voimaan, koska -2.33 < -2.30

otoskeskiarvo <- 168.1 perusjoukonkeskihajonta <- 10.0 otoskoko <- 100 perusjoukonkeskiarvo <- 172.0

z.testi <- function(otoskeskiarvo, otoskoko, perusjoukonkeskiarvo, perusjoukonkeskihajonta) { zeta <- (otoskeskiarvo - perusjoukonkeskiarvo) / (perusjoukonkeskihajonta/sqrt(otoskoko)) return(zeta) }

z <- z.testi(168.1, 100, 172, 10.0) z [1] -3.9

Toisessa tapauksessa isommalla aineistolla (100 havaintoa) HO hylätään, molemmissa tapauksissa koska Z arvo on -3.9

Tehtävä 5. Suklaakonvehtirasian sisällön painoksi ilmoitetaan 300 g. Tuotannon

luotettavuutta testattiin 20 rasian otoksella. Otoksen keskiarvo oli 295 g

ja keskihajonta 7,8 g. Testaa kaksisuuntaisella testillä

5 %:n riskitasolla voidaanko luottaa siihen, että rasioiden keskipaino on 300 g.

otoskoko <- 20 otoskeskiarvo <- 295 otoskeskihajonta <- 7.8 perusjoukonkeskiarvo <- 300

H0 hypoteesi jos testimuuttujan t arvo kuuluu hylkäämisealueelle tai p-arvo on alle 0.05.

t.testi <- function(otoskeskiarvo, perusjoukonkeskiarvo, otoskeskihajonta, otoskoko) { t <- (otoskeskiarvo - perusjoukonkeskiarvo) / (otoskeskihajonta / sqrt(otoskoko)) return(t) } t.arvo <- t.testi(295, 300, 7.8, 20) t.arvo [1] -2.866754

Seuraavaksi pitää käyttää Student T jakauman (funktio pt) selvittääkseen

kyseisen t.arvo:n p-arvo (p-value).

pt(t.arvo, df = 20-1) [1] 0.004936663

Nollahypoteesi (H0) hylätään, koska saatu p-arvo (0.004936663) on selvästi pienempi kun asetettu riskitaso eli alpha 0.05.

6. Empaattisuutta käsittelevässä tutkimuksessa tyttöjen ja poikien saamat pistemäärät olivat seuraavat:

tytto <- c(52, 56, 56, 58, 60, 62, 68, 74)

poika <- c(60, 58, 56, 54, 52, 50, 48, 46)

Selvitä kaksisuuntaisella testillä, onko tyttöjen ja poikien keskiarvoissa eroa.

H0 eli nollahypoteesi kertoo ettei ryhmien välissä ole eroa.

H1 eli vaihtoehtoinen hypoteesi kertoo, että ryhmien välissä on eroa.

t.test(tytto, poika, conf.level = 0.95)

Welch Two Sample t-test

data: tytto and poika t = 2.5251, df = 12.37, p-value = 0.02615 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.085013 14.414987 sample estimates: mean of x mean of y 60.75 53.00

Toinen vaihtoehto laskea testitulos manuaalisesti luomalla funktion.

otoskokotytto <- 8 otoskokopoika <- 8 otoskeskiarvotytto <- mean(tytto) otoskeskiarvopoika <- mean(poika) keskihajontatytto <- sd(tytto) keskihajontapoika <- sd(poika)

T.testik <- function(otoskokotytto, otoskokopoika, otoskeskiarvotytto, otoskeskiarvopoika, keskihajontatytto, keskihajontapoika) { ylakerta <- otoskeskiarvotytto - otoskeskiarvopoika alakerta <- sqrt(((otoskokotytto * keskihajontatytto) + (otoskokopoika * keskihajontapoika) / (otoskokotytto + otoskokopoika - 2)) * ((otoskokotytto + otoskokopoika) / (otoskokotytto * otoskokopoika))) tsuure <- ylakerta / alakerta return(tsuure) }

t.suure <- T.testik(8, 8, 60.75, 53, 7.2, 4.9) t.suure [1] 1.994404

p.arvo <- 1 - pnorm(t.suure) p.arvo [1] 0.02305394

vastaus: p-arvo on alle 0.05 (asetettua riskitasoa), joten nollahypoteesi hylätään.

7. Testaa 5 % riskillä, noudattavatko linja-autojen kulkuajat tasaista jakaumaa.

Tätä varten laskettiin tunnin aikana havaintopisteen ohittavat linja-autot ja saatiin

seuraava empiirinen jakauma:

Tunnin neljännes 1. 2. 3. 4.

Autojen lukumäärä 6 15 9 18

H0 - nollahypoteesi on, että aineisto noudattaa tasajakaumaa.

H1 - vaihtoehtoinen hypoteesi on, että aineisto ei noudata tasajakaumaa.

Tunninneljannes <- c(1, 2, 3, 4) Autojenlukumaara <- c(6, 15, 9, 18) plot(Tunninneljannes, Autojenlukumaara) cor(Tunninneljannes, Autojenlukumaara)

Autojenlukumaara

prob <- c(1/4, 1/4, 1/4, 1/4)

chisq.test(Autojenlukumaara, p = prob)

Chi-squared test for given probabilities

data: Autojenlukumaara X-squared = 7.5, df = 3, p-value = 0.05756

p-arvo on 0.05756 eli yli 0.05, joten H0 jää voimaan. Tässä tapauksessa nollahypoteesi (H0) jää voimaan.

8. Väitettiin, että pojat ovat enemmän poissa koulusta kuin tytöt. Asiaa selvitettiin valitsemalla

umpimähkään 50 pojan ja 75 tytön otos. Pojista 14 ja tytöistä 13 oli ollut poissa koulusta

edellisen kuukauden aikana. Testaa väite 5%:n riskitasolla.

otoskoko1 <- 50 otoskoko2 <- 75

14/50 [1] 0.28 13/75 [1] 0.1733333

Teet tutkimusta Automaailma lehden pyynnöstä. Toimitusta kiinnostaa erityisesti se, että voidaanko löytää muuttujia tai muuttujayhdistelmiä, joilla vaikutusta miles per gallon (mpg) -muuttujaan.

Erityisen mielenkiinnon kohteena on 2 tutkimuskysymystä:

- Tuoko automaattinen vaihteisto vai manuaalinen vaihteisto paremman mpg –lukeman?

- Kvantifioi mpg:n ero automaattisella ja manuaalisella vaihteistolla. Käytössäsi on mtcars datasetti.

Tee tutkimuksestasi sellainen, että se täyttää toistettavan tutkimuksen kriteeristön.

Raportti kirjoitetaan R Markdown:illa siten, että R Studiolla tehdyt skriptit ja niiden tulokset ovat luettavissa R Pubs:issa julkaistussa HTML-dokumentissa.

mtcars str(mtcars) mtcars$am ?mtcars # parametri “am” Transmission (0 = automatic, 1 = manual) kertoo onko vaihteisto manuaalinen vai automaattinen

manual <- mtcars[mtcars$am >0,] manual mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1 Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2 Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1 Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1 Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2 Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2 Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4 Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6 Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8 Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2 automatic <- mtcars[mtcars$am <1,] automatic mpg cyl disp hp drat wt qsec vs am gear carb Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1 Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4 Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2 Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2 Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4 Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3 Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3 Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3 Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4 Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4 Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4 Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1 Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2 AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2 Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4 Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2

mean(manual\(mpg) [1] 24.39231 mean(automatic\)mpg) [1] 17.14737

Vastaus ensimmäiseen kysymykseen: Tuoko automaattinen vaihteisto vai manuaalinen vaihteisto paremman mpg –lukeman? Manuaalisen vaihteiston mpg keskiarvo 24.39 ja automaattisen vaihteiston mpg keskiarvo on 17.14. Olettaen, että

pienempi mpg arvo (pienempi bensan kulutus on parempi kuin isompi bensan kulutus) on isompaa parempi > automaattinen vaihtetisto tuo paremman mpg lukeman.

Kvantifioi mpg:n ero automaattisella ja manuaalisella vaihteistolla.

Tehtävässä ei tarkenneta, pitääkö laskea absoluuttinen vai suhteellinen ero, joten lasketaan molemmat.

suhteellinen ero = mean(manual\(mpg) - mean(automatic\)mpg)

suhtero = mean(manual\(mpg) - mean(automatic\)mpg) suhtero [1] 7.244939