Tentamen vraag:

Kijk naar de output van de univariate t-test van het eerste college en bereken daar de schatting van de standaard deviatie (SD) van de lengte van Leidse bachelor studenten aan de hand van de informatie in de output.

> t.test(Length, mu=1.79)
One Sample t-test
data: Length
t = 1.8567, df = 24, p-value = 0.07566
alternative hypothesis: true mean is not equal to 1.79
95 percent confidence interval:
1.784825 1.887948
sample estimates:
mean of x
1.836386

Antwoord: ((1.836386-1.79)/1.8567)*sqrt(25) = 0.1249152

((1.836386-1.79)/1.8567)*sqrt(25)
## [1] 0.1249152

Assignments t-test and chi^2 test.

Hieronder vind je 5 vragen. De eerste vier vragen moet je zelf de beste test afleiden en uitvoeren. De laatste vraag is meer een typische tentamen vraag.

Lever de opdracht in via blackboard. De assistenten zullen de opdrachten later nakijken.

Q1 Botlengte bij mannen en vrouwen

De lengte een specifiek botje bij mensen werd gemeten. Men wil onderzoeken of mannen of vrouwen gemiddeld een grotere botlengte hebben. De volgende data werd verzameld:

man:(5.81, 5.10, 4.74, 5.68, 4.95, 4.45, 4.43, 4.94, 4.73, 4.85, 4.77, 4.78, 4.89, 4.19, 5.64) woman:(5.09, 4.84, 5.08, 4.99, 4.61, 4.88, 5.06, 4.62, 4.62, 4.65, 4.76, 4.89, 4.79, 4.80, 5.12)

  1. Wat voor een test is hiervoor het beste geschikt ?

De t-test is hiervoor het best geschikt.

  1. Voer de data in met de c() functie en geef de variabele een naam (voorbeeld zie template of bv 1,2,4,5 Man<-c(1,2,4,5))
man<-c(5.81, 5.10, 4.74, 5.68, 4.95, 4.45, 4.43, 4.94, 4.73, 4.85, 4.77, 4.78, 4.89, 4.19, 5.64)
woman<-c(5.09, 4.84, 5.08, 4.99, 4.61, 4.88, 5.06, 4.62, 4.62, 4.65, 4.76, 4.89, 4.79, 4.80, 5.12)
  1. Zijn de varianties even groot?
var.test(man,woman)
## 
##  F test to compare two variances
## 
## data:  man and woman
## F = 6.4877, num df = 14, denom df = 14, p-value = 0.001239
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##   2.178098 19.324049
## sample estimates:
## ratio of variances 
##           6.487655

De p-waarde van var.test is 0,001239 en is kleiner dan 0,05. De Null-hypothese dat er geen verschil in varianties is kan dus verworpen worden.

  1. Zijn de steekproeven van de mannen en vrouwen normaal verdeeld?
shapiro.test(man)
## 
##  Shapiro-Wilk normality test
## 
## data:  man
## W = 0.91133, p-value = 0.1419
shapiro.test(woman)
## 
##  Shapiro-Wilk normality test
## 
## data:  woman
## W = 0.9133, p-value = 0.1522

De p-values zijn 0,1419 voor man en 0,1522 voor woman en deze waarden zijn groter dan 0,05. De steekproeven zijn dus normaal verdeeld.

  1. Maak een boxplot en beantwoord de volgende vragen.
  1. Komt de boxplot overeen met het antwoord in vraag 1c? Ja, de varianties zijn niet gelijk aan elkaar, dus is de ratio inderdaad niet gelijk aan 1.

  2. Acht je het waarschijnlijk dat het verschil in botlengte tussen mannen en vrouwen significant is gegeven deze plot? Nee, want bij datareeks man en vrouw zijn de boxplotten vrijwel identiek op de uitwijking bij de boxplot(man) naar onder na.

boxplot(man,woman)

  1. Schrijf de null-hypothese (\(H_0\)) op in woorden?

De null-hypothese is het vermoeden dat een steekproef geen effect heeft ondervonden. Deze kan vervolgens na toetsing verworpen worden, om te vermoeden dat er wel een degelijk effect was.

  1. Voer de juiste t-test uit.
t.test(man, woman, alternative = "two.sided", paired = FALSE, var.equal = TRUE)
## 
##  Two Sample t-test
## 
## data:  man and woman
## t = 0.59405, df = 28, p-value = 0.5572
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.1876959  0.3410292
## sample estimates:
## mean of x mean of y 
##  4.930000  4.853333
t.test(man, woman, alternative = "greater", paired = FALSE, var.equal = TRUE)
## 
##  Two Sample t-test
## 
## data:  man and woman
## t = 0.59405, df = 28, p-value = 0.2786
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -0.1428773        Inf
## sample estimates:
## mean of x mean of y 
##  4.930000  4.853333
  1. Kom je tot dezelfde conclusie ten aanzien van \(H_0\) met de p-waarden en het betrouwbaarheidsinterval? Leg uit.

Ja, de p-value is inderdaad bij de bovenste test (“two.sided”) kleiner dan 0,05 dus is de Null-hypothese verworpen. Bij de tweede test (“greater”) is de p-value groter dan 0,05 en ligt de waarde op de betrouwbaarheidsinterval. De alternative hypothese is dus waar.

  1. Wat is jouw conclusie met betrekking tot de lengte van dit specifieke botje bij mannen of vrouwen?

Het gemiddelde van De lengte van dit botje verschilt bij mannen en vrouwen.

Q2 Effect van medicijn op hersteltijd

Het effect van een medicijn op de hersteltijd van patiënten wordt gemeten in dagen. Een groep van 10 patienten krijgt een placebo en een andere groep van 10 patienten krijgt het medicijn toegediend. We zijn alleen geïnteresseerd in een positief effect van het medicijn.

Medicijn: 15, 10, 13, 7, 9, 8, 21, 9, 14, 8 placebo: 15, 14, 12, 8, 14, 7, 16, 10, 15, 12

  1. Wat is de \(H_0\) in dit geval ?

Het gemiddelde van hersteltijden van de patienten is bij zowel de placebo als medicijn hetzelfde.

  1. Maak de variabelen Medicijn en Placebo.
Medicijn<-c(15, 10, 13,  7,  9,  8, 21,  9, 14, 8)
placebo<-c(15, 14, 12,  8, 14,  7, 16, 10, 15, 12) 
  1. Zijn de varianties gelijk?
var.test(Medicijn,placebo)
## 
##  F test to compare two variances
## 
## data:  Medicijn and placebo
## F = 1.9791, num df = 9, denom df = 9, p-value = 0.3237
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.491579 7.967821
## sample estimates:
## ratio of variances 
##           1.979094

De p-value is groter dan 0,05 dus kan de Null-hypothese verworpen worden. Er kan aangenomen dat de varianties gelijk zijn.

  1. Is dit een gepaarde test? Waarom wel/niet.

Het is niet gepaard, want de data zijn niet onderling afhankelijk van elkaar.

  1. Is dit een een-zijdige of twee-zijdige test?

Twee-zijdig, want er wordt niet gekeken naar of de variantie van de ene reeks links of rechts staat van de ander, maar alleen dat die variantie niet overeenkomt met de ander.

  1. Bereken de statistieken met de juiste test.
t.test(Medicijn,placebo)
## 
##  Welch Two Sample t-test
## 
## data:  Medicijn and placebo
## t = -0.53311, df = 16.245, p-value = 0.6012
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -4.474425  2.674425
## sample estimates:
## mean of x mean of y 
##      11.4      12.3
  1. Wat zijn de waarden van de test-statistieken en hoe groot zijn de vrijheidsgraden?

t = -0.53311, df = 16.245, p-value = 0.6012 De vrijheidsgraden hebben een waarde 16.245

  1. Verwerpen we \(H_0\)? Nee, want de p-value is groter dan 0,05 (0,6012)
  1. Geef de data grafisch weer
library(car)
qqPlot(Medicijn)

qqPlot(placebo)

boxplot(Medicijn,placebo)

  1. Herhaal de analyse maar nu voor het geval dat zowel de placebo als het medicijn op de zelfde patient werd getest. Wat zijn de verschillen in de output?

Q3 Cryptologie

De frequentie distributie van de 5 meest voorkomende letters in de Engelse taal is ongeveer: 29, 21, 17, 17, 16, respectievelijk voor de letters E, T, N, R, O. Dit betekent dat als de letters E,T,N,R,O voorkomen, dat het gemiddeld 29 van de 100 keer een E is en niet een van de 4 andere. Deze kennis wordt ingezet in de cryptologie om te onderzoeken of een tekst geheime berichten bevat. Stel een tekst wordt geanalyseerd en de frequenties van E,T,N,R en O’s worden geteld. De volgende distributie wordt gevonden 100, 110, 80, 55, 14, voor respectievelijk E,T,N,R en O.

  1. Welke Chi-kwadraat test is hiervoor geschikt, test voor onafhankelijkheid of kwaliteit van de fit (goodness of fit)?

Goodness of fit is hiervoor geschikt

  1. Lees de data in.
Obs<-c(100, 110, 80, 55, 14)
Exp<-c(29, 21, 17, 17, 16)
Obs/sum(Obs)
## [1] 0.27855153 0.30640669 0.22284123 0.15320334 0.03899721
Exp/sum(Exp)
## [1] 0.29 0.21 0.17 0.17 0.16
  1. Bereken de verwachte kansen van de 5 meeste voorkomende letters en tellen die op tot 1?
sum(Obs/sum(Obs))
## [1] 1
sum(Exp/sum(Exp))
## [1] 1

Beide sommen van desbetreffende frequenties tellen op tot 1

  1. Voer de juiste Chi-kwadraat test uit.
chisq.test(Obs,p=Exp/sum(Exp))
## 
##  Chi-squared test for given probabilities
## 
## data:  Obs
## X-squared = 55.395, df = 4, p-value = 2.685e-11
  1. Wat is de waarde van de test statistiek en hoe groot zijn de vrijheidsgraden (df)? Hoe zou je de vrijheid graden met de hand uitrekenen.

X-squared = 55.395, df = 4

  1. Verwerpen we \(H_0\) en wat betekend dat in dit geval?

Ja, want p-value<0,05 en dat betekent dat we de hypothese kunnen verwerpen dat de gevonden frequenties overeenkomen met de frequentie van het gemiddelde.

Q4 Studenten slaap data

data(sleep)

Informatie van de data bron:

Data which show the effect of two soporific drugs (increase in hours of sleep compared to control) on 10 patients.

A data frame with 20 observations on 3 variables.

extra numeric increase in hours of sleep group factor drug given ID factor patient ID

Voer de correct test uit en gebruik de juiste code uit de template