Para un juego de mesa en el que se utiliza un dado de seis caras, el 6 tiene especial importancia. En una partida, se ha lanzado el dado 275 veces, de las que 60 ha salido el 6. Si el dado no está cargado, esperamos que el 6 salga 275/6 = 45.8333333 veces. ¿Es razonable pensar al 95\(\%\) de confianza que el dado no está trucado?
binom.test( 60, 275, p = 1/6)
##
## Exact binomial test
##
## data: 60 and 275
## number of successes = 60, number of trials =
## 275, p-value = 0.02847
## alternative hypothesis: true probability of success is not equal to 0.1666667
## 95 percent confidence interval:
## 0.1708227 0.2717267
## sample estimates:
## probability of success
## 0.2181818
\(p\)-valor = 0.0284671, luego rechazamos la hipótesis nula: podemos pensar que el dado está trucado.
En una muestra de 1000 nacimientos, han nacido 530 varones. ¿Puede considerarse, con un nivel de significación del 5\(\%\), que en general nacen más niños que niñas?
binom.test( 530, 1000, p = 0.5, alternative = "greater" )
##
## Exact binomial test
##
## data: 530 and 1000
## number of successes = 530, number of trials
## = 1000, p-value = 0.03101
## alternative hypothesis: true probability of success is greater than 0.5
## 95 percent confidence interval:
## 0.5034989 1.0000000
## sample estimates:
## probability of success
## 0.53
\(p\)-valor = 0.0310116 \(\Rightarrow\) Rechazamos la hipótesis nula \(\Rightarrow\) Podemos considerar que nacen más niños que niñas.
El fichero notasTest.csv contiene notas de dos exámenes tipo test (inicial y final) realizado en dos clases diferentes. Se quiere saber: a. La media de las notas del examen inicial es 22. b. La media de la clase A es distinta de la de la clase B en el examen inicial. c. La media de la clase A se modifica en el examen final respecto del inicial. d. La media de la clase B se modifica en el examen final respecto del inicial. e. La media mejora en el examen final respecto del inicial.
examen <- read.table( file = "notasTest.csv", header = T, sep = ";" )
a) La media de las notas del examen inicial es 23
qqnorm( examen$notaInicial )
qqline( examen$notaInicial )
shapiro.test( examen$notaInicial ) #Menos de 50 observaciones
##
## Shapiro-Wilk normality test
##
## data: examen$notaInicial
## W = 0.96838, p-value = 0.2189
El test de Shapiro-Wilk resulta no significativo, por lo que podemos suponer la normalidad.
\[\mu = 23\] \[\mu \neq 23\]
t.test( examen$notaInicial, mu = 23, alternative = "two.sided" )
##
## One Sample t-test
##
## data: examen$notaInicial
## t = 0.5379, df = 47, p-value = 0.5932
## alternative hypothesis: true mean is not equal to 23
## 95 percent confidence interval:
## 21.74419 25.17248
## sample estimates:
## mean of x
## 23.45833
\(p\)-valor = 0.5931812 \(> 0.5\), luego aceptamos la hipótesis nula de que la media es 23.
b) La media de la clase A es distinta de la de la clase B en el examen inicial.
#Clase A
#Utilizamos primero los gráficos Q-Q
qqnorm( examen$notaInicial[ examen$clase == "A" ] )
qqline( examen$notaInicial[ examen$clase == "A" ] )
shapiro.test( examen$notaInicial[ examen$clase == "A"] )
##
## Shapiro-Wilk normality test
##
## data: examen$notaInicial[examen$clase == "A"]
## W = 0.96586, p-value = 0.5667
#Clase B
qqnorm( examen$notaInicial[ examen$clase == "B" ] )
qqline( examen$notaInicial[ examen$clase == "B" ] )
shapiro.test( examen$notaInicial[ examen$clase == "B"] )
##
## Shapiro-Wilk normality test
##
## data: examen$notaInicial[examen$clase == "B"]
## W = 0.96544, p-value = 0.5568
En ambos grupos el test de Shapiro es no significativo, por lo que aceptamos la hipótesis de normalidad para ambos.
library( car )
leveneTest( notaInicial ~ clase, data = examen )
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 0.1557 0.695
## 46
#bartlett.test( notaInicial ~ clase, data = examen )
#fligner.test( notaInicial ~ clase, data = examen )
El test de Levene es no significativo, luego aceptamos también la hipótesis de homocedasticidad.
t.test( notaInicial ~ clase, alternative = "two.sided", data = examen )
##
## Welch Two Sample t-test
##
## data: notaInicial by clase
## t = 0.77913, df = 45.579, p-value = 0.4399
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.112220 4.778887
## sample estimates:
## mean in group A mean in group B
## 24.12500 22.79167
#Otra forma de escribirlo:
# t.test( examen$notaInicial[ examen$clase == "A" ],
# examen$notaInicial[ examen$clase == "B" ],
# alternative = "two.sided" )
\(p\)-valor = t.test( notaInicial ~ clase, alternative = "two.sided", data = examen )$p.value, luego aceptamos la hipótesis nula: no se han encontrado diferencias entre las medias según la clase.
c) La media de la clase A se modifica en el examen final respecto del inicial.
#Nota inicial A
#shapiro.test( examen$notaInicial[ examen$clase == "A" ] ) #Ya lo tenemos
shapiro.test( examen$notaFinal[ examen$clase == "A" ] )
##
## Shapiro-Wilk normality test
##
## data: examen$notaFinal[examen$clase == "A"]
## W = 0.9517, p-value = 0.2947
Teníamos ya la normalidad para la nota inicial en la clase A y, además, el test de Shapiro también es no significativo para la notaFinal, por lo que podemos aceptar la normalidad.
fligner.test( notaInicial[ clase == "A" ] ~ notaFinal[ clase == "A" ], data = examen )
##
## Fligner-Killeen test of homogeneity of
## variances
##
## data: notaInicial[clase == "A"] by notaFinal[clase == "A"]
## Fligner-Killeen:med chi-squared = 16.041, df
## = 16, p-value = 0.4501
El test de Fligner-Killen es no significativo, por lo que aceptamos la homocedasticidad.
Contraste: \[\mu_{inic} \leq \mu_{final}\] \[\mu_{inic} > \mu_{final}\]
t.test( examen$notaInicial[ examen$clase == "A"] ,
examen$notaFinal[ examen$clase == "A"],
alternative = "two.sided",
paired = TRUE )
##
## Paired t-test
##
## data: examen$notaInicial[examen$clase == "A"] and examen$notaFinal[examen$clase == "A"]
## t = -0.19423, df = 23, p-value = 0.8477
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.456315 1.206315
## sample estimates:
## mean of the differences
## -0.125
\(p\)-valor > 0.05, luego no hemos encontrado diferencias entre el examen inicial y el final para la clase A.
d) La media de la clase B se modifica en el examen final respecto del inicial.
#shapiro.test( examen$notaInicial[ examen$clase == "B" ] ) #Ya lo tenemos
shapiro.test( examen$notaFinal[ examen$clase == "B" ] )
##
## Shapiro-Wilk normality test
##
## data: examen$notaFinal[examen$clase == "B"]
## W = 0.94107, p-value = 0.1724
fligner.test( examen$notaInicial[ examen$clase == "B" ],
examen$notaFinal[ examen$clase == "B" ] )
##
## Fligner-Killeen test of homogeneity of
## variances
##
## data: examen$notaInicial[examen$clase == "B"] and examen$notaFinal[examen$clase == "B"]
## Fligner-Killeen:med chi-squared = 11.82, df
## = 15, p-value = 0.6926
Contraste: \[\mu_{inic} \leq \mu_{final}\] \[\mu_{inic} > \mu_{final}\]
t.test( examen$notaInicial[ examen$clase == "B"] ,
examen$notaFinal[ examen$clase == "B"],
alternative = "two.sided",
paired = TRUE )
##
## Paired t-test
##
## data: examen$notaInicial[examen$clase == "B"] and examen$notaFinal[examen$clase == "B"]
## t = -4.7048, df = 23, p-value = 9.714e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.839170 -1.494163
## sample estimates:
## mean of the differences
## -2.666667
\(p\)-valor < 0.05, luego rechazamos la hipótesis nula y podemos concluir que parece que hay diferencia en las medias del examen final y el inicial.
e) La media mejora en el examen final respecto del inicial.
#Nota inicial A
shapiro.test( examen$notaInicial )
##
## Shapiro-Wilk normality test
##
## data: examen$notaInicial
## W = 0.96838, p-value = 0.2189
shapiro.test( examen$notaFinal )
##
## Shapiro-Wilk normality test
##
## data: examen$notaFinal
## W = 0.95559, p-value = 0.06701
fligner.test( notaInicial ~ notaFinal, data = examen )
##
## Fligner-Killeen test of homogeneity of
## variances
##
## data: notaInicial by notaFinal
## Fligner-Killeen:med chi-squared = 20.641, df
## = 19, p-value = 0.357
Contraste: \[\mu_{final} \leq \mu_{inic}\] \[\mu_{final} > \mu_{inic}\]
# mean( examen$notaInicial )
# mean( examen$notaFinal )
t.test( examen$notaInicial ,
examen$notaFinal,
alternative = "less",
paired = TRUE )
##
## Paired t-test
##
## data: examen$notaInicial and examen$notaFinal
## t = -3.0152, df = 47, p-value = 0.002066
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf -0.6190635
## sample estimates:
## mean of the differences
## -1.395833
El t-test es significativo, por lo que aceptamos la hipótesis nula: la media del examen final mejora con respecto al inicial.
Fichero esperanzaVida.csv.
a. ¿Es la esperanza de vida general de 80 años?
b. ¿Podemos observar diferencias en la esperanza de vida entre hombres y mujeres?
c. ¿Es la esperanza de vida de las mujeres holandesas mayor que la de las españolas?
d. ¿Hay diferencias entre la esperanza de vida de los hombres holandeses y las mujeres españolas?
esperanza <- read.table( file = "esperanzaVida.csv", sep = ";", header = T)
a) ¿Es la esperanza de vida general de 80 años?
ks.test( esperanza$edadMuerte, "pnorm" ) #Más de 50 observaciones: kolmogorov
## Warning in ks.test(esperanza$edadMuerte, "pnorm"):
## ties should not be present for the Kolmogorov-
## Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: esperanza$edadMuerte
## D = 1, p-value < 2.2e-16
## alternative hypothesis: two-sided
length( esperanza$edadMuerte ) #Suponemos normalidad por el TCL
## [1] 70
El test de Kolmogorov-Smirnov no nos garantiza la normalidad (es significativo), pero podemos suponerla si recurrimos al Teorema Central del Límite, por tener un número suficientemente grande de observaciones.
t.test( esperanza$edadMuerte, mu = 80, alternative = "two.sided")
##
## One Sample t-test
##
## data: esperanza$edadMuerte
## t = 0.3879, df = 69, p-value = 0.6993
## alternative hypothesis: true mean is not equal to 80
## 95 percent confidence interval:
## 77.21830 84.12456
## sample estimates:
## mean of x
## 80.67143
El t-test es no significativo, por lo que aceptamos la hipótesis nula.
** b) ¿Podemos observar diferencias en la esperanza de vida entre hombres y mujeres? **
shapiro.test(esperanza$edadMuerte[esperanza$sexo == "M"]) #35 obs
##
## Shapiro-Wilk normality test
##
## data: esperanza$edadMuerte[esperanza$sexo == "M"]
## W = 0.94448, p-value = 0.07669
shapiro.test(esperanza$edadMuerte[esperanza$sexo == "F"]) #35 obs
##
## Shapiro-Wilk normality test
##
## data: esperanza$edadMuerte[esperanza$sexo == "F"]
## W = 0.88754, p-value = 0.001859
El test de Shapiro-Wilk es significativo para el grupo de las mujeres, pero, de nuevo, recurriendo al Teorema Central del Límite podemos suponer la normalidad.
fligner.test( edadMuerte ~ sexo, data = esperanza) #Más robusto a la falta de normalidad
##
## Fligner-Killeen test of homogeneity of
## variances
##
## data: edadMuerte by sexo
## Fligner-Killeen:med chi-squared = 0.12967,
## df = 1, p-value = 0.7188
El test de Fligner-Kilen es no significativo, por lo que aceptamos la HOV.
t.test( edadMuerte ~ sexo, alternative = "two.sided", data = esperanza)
##
## Welch Two Sample t-test
##
## data: edadMuerte by sexo
## t = 1.6633, df = 67.797, p-value = 0.1009
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.13597 12.50740
## sample estimates:
## mean in group F mean in group M
## 83.51429 77.82857
Aceptamos la hipótesis nula de que no hay diferencias en la esperanza de vida entre hombres y mujeres.
c. ¿Es la esperanza de vida de las mujeres holandesas mayor que la de las españolas?
shapiro.test(esperanza$edadMuerte[esperanza$pais == "HOL"])
##
## Shapiro-Wilk normality test
##
## data: esperanza$edadMuerte[esperanza$pais == "HOL"]
## W = 0.93594, p-value = 0.03099
shapiro.test(esperanza$edadMuerte[esperanza$pais == "ESP"])
##
## Shapiro-Wilk normality test
##
## data: esperanza$edadMuerte[esperanza$pais == "ESP"]
## W = 0.92322, p-value = 0.02545
Volvemos a suponer la normalidad por el Teorema Central del Límite.
fligner.test( edadMuerte ~ pais, data = esperanza )
##
## Fligner-Killeen test of homogeneity of
## variances
##
## data: edadMuerte by pais
## Fligner-Killeen:med chi-squared = 0.30581,
## df = 1, p-value = 0.5803
Aceptamos la homocedasticidad.
t.test( edadMuerte ~ pais, alternative = "two.sided", data = esperanza)
##
## Welch Two Sample t-test
##
## data: edadMuerte by pais
## t = -0.64001, df = 59.663, p-value = 0.5246
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -9.378000 4.831947
## sample estimates:
## mean in group ESP mean in group HOL
## 79.43750 81.71053
Aceptamos la hipótesis nula: no hay diferencias.