Kijk naar de output van de univariate t-test van het eerste college en bereken daar de schatting van de standaard deviatie (SD) van de lengte van Leidse bachelor studenten aan de hand van de informatie in de output.
> t.test(Length, mu=1.79)
One Sample t-test
data: Length
t = 1.8567, df = 24, p-value = 0.07566
alternative hypothesis: true mean is not equal to 1.79
95 percent confidence interval:
1.784825 1.887948
sample estimates:
mean of x
1.836386
Antwoord: ((1.836386-1.79)/1.8567)*sqrt(25) = 0.1249152
((1.836386-1.79)/1.8567)*sqrt(25)
## [1] 0.1249152
Hieronder vind je 5 vragen. De eerste vier vragen moet je zelf de beste test afleiden en uitvoeren. De laatste vraag is meer een typische tentamen vraag.
Lever de opdracht in via blackboard. De assistenten zullen de opdrachten later nakijken.
De lengte een specifiek botje bij mensen werd gemeten. Men wil onderzoeken of mannen of vrouwen gemiddeld een grotere botlengte hebben. De volgende data werd verzameld:
man:(5.81, 5.10, 4.74, 5.68, 4.95, 4.45, 4.43, 4.94, 4.73, 4.85, 4.77, 4.78, 4.89, 4.19, 5.64) woman:(5.09, 4.84, 5.08, 4.99, 4.61, 4.88, 5.06, 4.62, 4.62, 4.65, 4.76, 4.89, 4.79, 4.80, 5.12)
De t-test is hiervoor het best geschikt.
man<-c(5.81, 5.10, 4.74, 5.68, 4.95, 4.45, 4.43, 4.94, 4.73, 4.85, 4.77, 4.78, 4.89, 4.19, 5.64)
woman<-c(5.09, 4.84, 5.08, 4.99, 4.61, 4.88, 5.06, 4.62, 4.62, 4.65, 4.76, 4.89, 4.79, 4.80, 5.12)
var.test(man,woman)
##
## F test to compare two variances
##
## data: man and woman
## F = 6.4877, num df = 14, denom df = 14, p-value = 0.001239
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 2.178098 19.324049
## sample estimates:
## ratio of variances
## 6.487655
De p-waarde van var.test is 0,001239 en is kleiner dan 0,05. De Null-hypothese dat er geen verschil in varianties is kan dus verworpen worden.
shapiro.test(man)
##
## Shapiro-Wilk normality test
##
## data: man
## W = 0.91133, p-value = 0.1419
shapiro.test(woman)
##
## Shapiro-Wilk normality test
##
## data: woman
## W = 0.9133, p-value = 0.1522
De p-values zijn 0,1419 voor man en 0,1522 voor woman en deze waarden zijn groter dan 0,05. De steekproeven zijn dus normaal verdeeld.
Komt de boxplot overeen met het antwoord in vraag 1c? Ja, de varianties zijn niet gelijk aan elkaar, dus is de ratio inderdaad niet gelijk aan 1.
Acht je het waarschijnlijk dat het verschil in botlengte tussen mannen en vrouwen significant is gegeven deze plot? Nee, want bij datareeks man en vrouw zijn de boxplotten vrijwel identiek op de uitwijking bij de boxplot(man) naar onder na.
boxplot(man,woman)
De null-hypothese is het vermoeden dat een steekproef geen effect heeft ondervonden. Deze kan vervolgens na toetsing verworpen worden, om te vermoeden dat er wel een degelijk effect was.
t.test(man, woman, alternative = "two.sided", paired = FALSE, var.equal = TRUE)
##
## Two Sample t-test
##
## data: man and woman
## t = 0.59405, df = 28, p-value = 0.5572
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.1876959 0.3410292
## sample estimates:
## mean of x mean of y
## 4.930000 4.853333
t.test(man, woman, alternative = "greater", paired = FALSE, var.equal = TRUE)
##
## Two Sample t-test
##
## data: man and woman
## t = 0.59405, df = 28, p-value = 0.2786
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -0.1428773 Inf
## sample estimates:
## mean of x mean of y
## 4.930000 4.853333
Ja, de p-value is inderdaad bij de bovenste test (“two.sided”) kleiner dan 0,05 dus is de Null-hypothese verworpen. Bij de tweede test (“greater”) is de p-value groter dan 0,05 en ligt de waarde op de betrouwbaarheidsinterval. De alternative hypothese is dus waar.
Het gemiddelde van De lengte van dit botje verschilt bij mannen en vrouwen.
Het effect van een medicijn op de hersteltijd van patiënten wordt gemeten in dagen. Een groep van 10 patienten krijgt een placebo en een andere groep van 10 patienten krijgt het medicijn toegediend. We zijn alleen geïnteresseerd in een positief effect van het medicijn.
Medicijn: 15, 10, 13, 7, 9, 8, 21, 9, 14, 8 placebo: 15, 14, 12, 8, 14, 7, 16, 10, 15, 12
Het gemiddelde van hersteltijden van de patienten is bij zowel de placebo als medicijn hetzelfde.
Medicijn<-c(15, 10, 13, 7, 9, 8, 21, 9, 14, 8)
placebo<-c(15, 14, 12, 8, 14, 7, 16, 10, 15, 12)
var.test(Medicijn,placebo)
##
## F test to compare two variances
##
## data: Medicijn and placebo
## F = 1.9791, num df = 9, denom df = 9, p-value = 0.3237
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.491579 7.967821
## sample estimates:
## ratio of variances
## 1.979094
De p-value is groter dan 0,05 dus kan de Null-hypothese verworpen worden. Er kan aangenomen dat de varianties gelijk zijn.
Het is niet gepaard, want de data zijn niet onderling afhankelijk van elkaar.
Twee-zijdig, want er wordt niet gekeken naar of de variantie van de ene reeks links of rechts staat van de ander, maar alleen dat die variantie niet overeenkomt met de ander.
t.test(Medicijn,placebo)
##
## Welch Two Sample t-test
##
## data: Medicijn and placebo
## t = -0.53311, df = 16.245, p-value = 0.6012
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -4.474425 2.674425
## sample estimates:
## mean of x mean of y
## 11.4 12.3
t = -0.53311, df = 16.245, p-value = 0.6012 De vrijheidsgraden hebben een waarde 16.245
library(car)
qqPlot(Medicijn)
qqPlot(placebo)
boxplot(Medicijn,placebo)
De frequentie distributie van de 5 meest voorkomende letters in de Engelse taal is ongeveer: 29, 21, 17, 17, 16, respectievelijk voor de letters E, T, N, R, O. Dit betekent dat als de letters E,T,N,R,O voorkomen, dat het gemiddeld 29 van de 100 keer een E is en niet een van de 4 andere. Deze kennis wordt ingezet in de cryptologie om te onderzoeken of een tekst geheime berichten bevat. Stel een tekst wordt geanalyseerd en de frequenties van E,T,N,R en O’s worden geteld. De volgende distributie wordt gevonden 100, 110, 80, 55, 14, voor respectievelijk E,T,N,R en O.
Goodness of fit is hiervoor geschikt
Obs<-c(100, 110, 80, 55, 14)
Exp<-c(29, 21, 17, 17, 16)
Obs/sum(Obs)
## [1] 0.27855153 0.30640669 0.22284123 0.15320334 0.03899721
Exp/sum(Exp)
## [1] 0.29 0.21 0.17 0.17 0.16
sum(Obs/sum(Obs))
## [1] 1
sum(Exp/sum(Exp))
## [1] 1
Beide sommen van desbetreffende frequenties tellen op tot 1
chisq.test(Obs,p=Exp/sum(Exp))
##
## Chi-squared test for given probabilities
##
## data: Obs
## X-squared = 55.395, df = 4, p-value = 2.685e-11
X-squared = 55.395, df = 4
Ja, want p-value<0,05 en dat betekent dat we de hypothese kunnen verwerpen dat de gevonden frequenties overeenkomen met de frequentie van het gemiddelde.
data(sleep)
Informatie van de data bron:
Data which show the effect of two soporific drugs (increase in hours of sleep compared to control) on 10 patients.
A data frame with 20 observations on 3 variables.
extra numeric increase in hours of sleep group factor drug given ID factor patient ID
Voer de correct test uit en gebruik de juiste code uit de template