En esta parte del curso examinaremos las siguientes herramientas de inferencia estadística
- Pruebas para medias de muestra única
- Pruebas para medias de dos muestras independientes
- Pruebas para medias de dos muestras relacionadas
24 de septiembre de 2014
En esta parte del curso examinaremos las siguientes herramientas de inferencia estadística
Base de datos para estos ejercicios: Familia y roles de género 2012, a descargar de:
http://iop-data.pucp.edu.pe/busqueda/encuesta/71?
Se sugiere descargar también el cuestionario para utilizarlo como referencia de libro de códigos. Descomprimir y grabar el archivo SPSS en el directorio de trabajo de R
# Importar la base de datos del SPSS a un data frame de R
library(foreign)
genero <- as.data.frame(read.spss("IOP_1212_01_B.sav"))
## re-encoding from UTF-8
En estos ejemplos trabajaremos con las siguientes variables:
Antes de utilizar estas variables es necesario evaluar si necesitan algún tipo de acondicionamiento (identificar valores perdidos o "raros", recodificar, etc)
Las siguientes transformaciones nos permitirán acondicionar las variables para utilizarlas en el análisis:
genero$p1r <- genero$P1 genero$p2r <- genero$P2 genero$p1r[genero$P1 > 40] <- NA genero$p2r[genero$P2 == 99] <- NA genero$p19ar <- genero$P19A genero$p19ar[genero$P19A >= 140] <- NA genero$p28ar <- genero$P28A genero$p28ar[genero$P28A > 120] <- NA
Las pruebas de hipótesis para medias de muestra única nos sirven para comparar un estadístico muestral con un parámetro o un valor de referencia establecido para la comparación.
En la base de datos de género se pregúntó acerca del número de hijos que ha tenido una mujer. La media de esta variable fue de 2.207.
genero.f <- subset(genero, SEXO=="Femenino") summary(genero.f$P44A)
## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 0.00 1.00 2.00 2.21 3.00 16.00
De acuerdo con el censo de población del 2007, el número promedio de hijos que han tenido las mujeres de 15 años o más era de 2.63. ¿El resultado que hemos obtenido en la muestra de la encuesta del 2012 es significativamente diferente al del censo?
De acuerdo con el texto de Ritchey (2006) en toda prueba de hipótesis es necesario considerar 5 pasos:
Paso 1: Formular las hipótesis
\(H_{0}: \bar{x} - \mu = 0\)
\(H_{1}: \bar{x} - \mu \neq 0\)
Paso 2: Se utilizará una distribución de t de Student
Paso 3: Trabajaremos con un nivel de significancia del 5% ó un \(\alpha 0 =.05\)
Paso 4: El estadístico de la prueba se calcula de la siguiente manera:
\[ \begin{aligned} t = \frac{\bar{x} - \mu}{\sigma_{\bar{x}}} \end{aligned} \]
t.test(genero.f$P44A, mu=2.63)
## ## One Sample t-test ## ## data: genero.f$P44A ## t = -5.056, df = 613, p-value = 5.669e-07 ## alternative hypothesis: true mean is not equal to 2.63 ## 95 percent confidence interval: ## 2.042 2.371 ## sample estimates: ## mean of x ## 2.207
Paso 5: Tomar una decisión
En este caso se rechaza la Hipótesis Cero. Existen diferencias estadísticamente significativas entre el estadístico muestral y un parámetro igual a 2.63.
¿Las mujeres le dedican a realizar labores domésticas en su hogar más de 30 horas semanales?
t.test(genero$p19ar[genero$SEXO=="Femenino"], mu=30)
## ## One Sample t-test ## ## data: genero$p19ar[genero$SEXO == "Femenino"] ## t = 1.383, df = 608, p-value = 0.167 ## alternative hypothesis: true mean is not equal to 30 ## 95 percent confidence interval: ## 29.5 32.9 ## sample estimates: ## mean of x ## 31.2
Si consideramos un \(\alpha = 0.05\), notamos que el p-value para el estadístico de la prueba es menor que nuestro nivel de significancia. Por lo tanto en este caso se acepta la Hipótesis Cero. No existen diferencias estadísticamente significativas entre la media muestral y un valor de comparación igual a 30.
Las pruebas de t que hemos visto son de tipo bidireccional o de dos colas. Cuando:
\(H_{0}: \bar{x} - \mu = 0\)
\(H_{1}: \bar{x} - \mu \neq 0\)
No importa hacia qué lado de la distribución de muestreo cae el valor del estadístico de la prueba, por lo que se consideran ambas colas para la región \(\alpha\).
En cambio si:
\(H_{0}: \bar{x} - \mu \leq 0\)
\(H_{1}: \bar{x} - \mu > 0\)
¿Las mujeres le dedican a realizar labores domésticas en su hogar más de 30 horas semanales?
Prueba de dos colas:
t.test(genero$p19ar[genero$SEXO=="Femenino"], mu=30)
## ## One Sample t-test ## ## data: genero$p19ar[genero$SEXO == "Femenino"] ## t = 1.383, df = 608, p-value = 0.167 ## alternative hypothesis: true mean is not equal to 30 ## 95 percent confidence interval: ## 29.5 32.9 ## sample estimates: ## mean of x ## 31.2
Prueba de una cola, asumiendo una hipótesis alternativa positiva ("mayor que")
t.test(genero$p19ar[genero$SEXO=="Femenino"], mu=30, alternative = "greater")
## ## One Sample t-test ## ## data: genero$p19ar[genero$SEXO == "Femenino"] ## t = 1.383, df = 608, p-value = 0.08352 ## alternative hypothesis: true mean is greater than 30 ## 95 percent confidence interval: ## 29.77 Inf ## sample estimates: ## mean of x ## 31.2
Nos sirven para comparar las medias muestrales de dos grupos independientes. Por ejemplo, ¿la edad en la que una personas se casó o empezó a convivir es la misma entre hombres y mujeres?
En este caso las hipótesis se formulan de la siguiente manera:
\[ \begin{aligned} H_{0}: \bar{x}_{1} - \bar{x}_{2} = 0 \end{aligned} \]
\[ \begin{aligned} H_{1}: \bar{x}_{1} - \bar{x}_{2} \neq 0 \end{aligned} \]
Se siguen los mismos pasos que en las pruebas de hipótesis de una muestra. En este caso se usa también la distribución de t de Student como distribución de muestreo. Para el cálculo del estadístico de la prueba se debe estimar el error estándar de la diferencia de medias:
\[ \begin{aligned} t = \frac{\bar{x}_{1}-\bar{x}_{2}}{\sigma_{\bar{x}_{1}-\bar{x}_{2}}}=\frac{\bar{x}_{1}-\bar{x}_{2}}{\sqrt{\frac{(n_{1}-1)\sigma^2_{x_{1}}+ (n_{2}-1)\sigma^2_{x_{2}}}{n_{1}+n_{2}-2}}\sqrt{\frac{n_{1}+n_{2}}{n_{1}n_{2}}}} \end{aligned} \]
En el ejemplo propuesto, vamos a comparar la edad promedio en la que se casaron o empezaron a convivir hombres y mujeres.
Para calcular los resultados de la prueba usamos el comando:
t.test(genero$P23~genero$SEXO)
## ## Welch Two Sample t-test ## ## data: genero$P23 by genero$SEXO ## t = 8.94, df = 804, p-value < 2.2e-16 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## 2.528 3.950 ## sample estimates: ## mean in group Masculino mean in group Femenino ## 25.73 22.50
Como se aprecia, el p-value del estadístico de la prueba resulta ser menor al nivel de significancia seleccionado, por lo tanto se rechaza la hipótesis cero. Los hombres empezaron a convivir o se casaron a una edad mayor que las mujeres y esas diferencias son estadísticamente significativas con un \(\alpha = 0.05\).
¿Los hombres y las mujeres tienen la misma opinión respecto de cuál es la edad ideal para que una mujer se case?. Hagamos la prueba considerando un \(\alpha = 0.05\)
t.test(genero$p1r~genero$SEXO)
## ## Welch Two Sample t-test ## ## data: genero$p1r by genero$SEXO ## t = -2.382, df = 1156, p-value = 0.01738 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -0.91487 -0.08844 ## sample estimates: ## mean in group Masculino mean in group Femenino ## 25.94 26.44
¿Y respecto de la edad ideal para que un hombre se case?
t.test(genero$p2r~genero$SEXO)
## ## Welch Two Sample t-test ## ## data: genero$p2r by genero$SEXO ## t = -3.081, df = 1160, p-value = 0.002112 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -1.1399 -0.2529 ## sample estimates: ## mean in group Masculino mean in group Femenino ## 28.20 28.89
Veamos cómo se ven las diferencias en las horas dedicadas a labores domésticas entre las mujeres de Lima-Callao vs las de las ciudades del interior del país.
genero.s2 <- subset(genero, SEXO=="Femenino" & Ambito!= "Interior Rural") t.test(genero.s2$p19ar~genero.s2$Ambito)
## ## Welch Two Sample t-test ## ## data: genero.s2$p19ar by genero.s2$Ambito ## t = 0.2988, df = 479.5, p-value = 0.7652 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -2.967 4.032 ## sample estimates: ## mean in group Lima-Callao mean in group Interior Urbano ## 30.16 29.62
Este tipo de pruebas nos sirve para comparar las puntuaciones de dos variables en el mismo grupo de personas. Por ejemplo, si queremos determinar si existen diferencias entre la edad considerada como ideal para que una mujer se case y para que un hombre se case.
En este caso lo que se compara es la diferencia entre las puntuaciones de ambas variables:
\[ \begin{aligned} \bar{D} = \frac{\sum{(x_{1}-x_{2})}}{n} \end{aligned} \]
Las hipótesis se formulan en los siguientes términos:
\[ \begin{aligned} H_{0}: \bar{D} = 0 \end{aligned} \]
\[ \begin{aligned} H_{1}: \bar{D} \neq 0 \end{aligned} \]
Para el caso de muestras relacionadas, el estadístico de la prueba se calcula de la siguiente manera:
\[ \begin{aligned} t = \frac{\bar{D}}{\sigma_{\bar{D}}} \end{aligned} \]
Donde:
\[ \begin{aligned} \sigma_{\bar{D}}=\frac{\sigma_{D}}{\sqrt{n}} \end{aligned} \]
Calculamos el estadístico de la prueba para el ejemplo propuesto. Definimos como nivel de significancia un \(\alpha = 0.05\)
genero.s3 <- na.omit(data.frame(p1 = genero$p1r, p2= genero$p2r)) summary(genero.s3)
## p1 p2 ## Min. :15.0 Min. :18.0 ## 1st Qu.:25.0 1st Qu.:25.0 ## Median :25.0 Median :29.0 ## Mean :26.2 Mean :28.6 ## 3rd Qu.:29.0 3rd Qu.:30.0 ## Max. :40.0 Max. :42.0
t.test(genero.s3$p1, genero.s3$p2, paired=TRUE)
## ## Paired t-test ## ## data: genero.s3$p1 and genero.s3$p2 ## t = -30.31, df = 1157, p-value < 2.2e-16 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -2.528 -2.221 ## sample estimates: ## mean of the differences ## -2.375
El resultado de la prueba nos lleva a rechazar la hipótesis cero. Por lo tanto, con un nivel de significancia del 5% (incluso menor), podemos decir que la edad considerada ideal para que un hombre se case es mayor que la de una mujer.
En el caso de los hombres, ¿la edad considerada como ideal para que un hombre se case es muy diferente que la edad en que se empezó a convivir o se casó?
genero.s4 <- na.omit(data.frame(p2=genero$p2r, p23=genero$P23, sexo=genero$SEXO)) genero.s4 <- subset(genero.s4, sexo=="Masculino") summary(genero.s4)
## p2 p23 sexo ## Min. :18 Min. :10.0 Masculino:390 ## 1st Qu.:25 1st Qu.:22.0 Femenino : 0 ## Median :28 Median :25.0 ## Mean :28 Mean :25.8 ## 3rd Qu.:30 3rd Qu.:29.0 ## Max. :40 Max. :60.0
Solicitamos la prueba correspondiente:
t.test(genero.s4$p2, genero.s4$p23, paired=TRUE)
## ## Paired t-test ## ## data: genero.s4$p2 and genero.s4$p23 ## t = 6.882, df = 389, p-value = 2.369e-11 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## 1.586 2.855 ## sample estimates: ## mean of the differences ## 2.221
Considerando un nivel de significancia del 5% se rechaza la hipótesis cero y se concluye que los hombres se casaron o empezaron a convivir a una edad menor a la que se considera ideal para que ello ocurra.