En esta parte del curso examinaremos las siguientes herramientas de inferencia estadística
Base de datos para estos ejercicios: Familia y roles de género 2012, a descargar de:
http://iop-data.pucp.edu.pe/busqueda/encuesta/71?
Se sugiere descargar también el cuestionario para utilizarlo como referencia de libro de códigos. Descomprimir y grabar el archivo SPSS en el directorio de trabajo de R
# Importar la base de datos del SPSS a un data frame de R
library(foreign)
genero <- as.data.frame(read.spss("IOP_1212_01_B.sav"))
En estos ejemplos trabajaremos con las siguientes variables:
Antes de utilizar estas variables es necesario evaluar si necesitan algún tipo de acondicionamiento (identificar valores perdidos o “raros”, recodificar, etc)
Las siguientes transformaciones nos permitirán acondicionar las variables para utilizarlas en el análisis:
genero$p1r <- genero$P1
genero$p2r <- genero$P2
genero$p1r[genero$P1 > 40] <- NA
genero$p2r[genero$P2 == 99] <- NA
genero$p19ar <- genero$P19A
genero$p19ar[genero$P19A >= 140] <- NA
genero$p28ar <- genero$P28A
genero$p28ar[genero$P28A > 120] <- NA
Las pruebas de hipótesis para medias de muestra única nos sirven para comparar un estadístico muestral con un parámetro o un valor de referencia establecido para la comparación.
En la base de datos de género se pregúntó acerca del número de hijos que ha tenido una mujer. La media de esta variable fue de 2.207.
genero.f <- subset(genero, SEXO=="Femenino")
summary(genero.f$P44A)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 1.000 2.000 2.207 3.000 16.000
De acuerdo con el censo de población del 2007, el número promedio de hijos que han tenido las mujeres de 15 años o más era de 2.63. ¿El resultado que hemos obtenido en la muestra de la encuesta del 2012 es significativamente diferente al del censo?
De acuerdo con el texto de Ritchey (2006) en toda prueba de hipótesis es necesario considerar 5 pasos:
Paso 1: Formular las hipótesis
\(H_{0}: \bar{x} - \mu = 0\)
\(H_{1}: \bar{x} - \mu \neq 0\)
Paso 2: Se utilizará una distribución de t de Student
Paso 3: Trabajaremos con un nivel de significancia del 5% ó un \(\alpha = 0.05\)
Paso 4: El estadístico de la prueba se calcula de la siguiente manera:
\[ \begin{aligned} t = \frac{\bar{x} - \mu}{\sigma_{\bar{x}}} \end{aligned} \]
t.test(genero.f$P44A, mu=2.63)
##
## One Sample t-test
##
## data: genero.f$P44A
## t = -5.0558, df = 613, p-value = 5.669e-07
## alternative hypothesis: true mean is not equal to 2.63
## 95 percent confidence interval:
## 2.042469 2.371211
## sample estimates:
## mean of x
## 2.20684
Paso 5: Tomar una decisión
En este caso se rechaza la Hipótesis Cero. Existen diferencias estadísticamente significativas entre el estadístico muestral y un parámetro igual a 2.63.
¿Las mujeres le dedican a realizar labores domésticas en su hogar más de 30 horas semanales?
t.test(genero$p19ar[genero$SEXO=="Femenino"], mu=30)
##
## One Sample t-test
##
## data: genero$p19ar[genero$SEXO == "Femenino"]
## t = 1.3834, df = 608, p-value = 0.167
## alternative hypothesis: true mean is not equal to 30
## 95 percent confidence interval:
## 29.49774 32.89635
## sample estimates:
## mean of x
## 31.19704
Si consideramos un \(\alpha = 0.05\), notamos que el p-value para el estadístico de la prueba es menor que nuestro nivel de significancia. Por lo tanto en este caso se acepta la Hipótesis Cero. No existen diferencias estadísticamente significativas entre la media muestral y un valor de comparación igual a 30.
Las pruebas de t que hemos visto son de tipo bidireccional o de dos colas. Cuando:
\(H_{0}: \bar{x} - \mu = 0\)
\(H_{1}: \bar{x} - \mu \neq 0\)
No importa hacia qué lado de la distribución de muestreo cae el valor del estadístico de la prueba, por lo que se consideran ambas colas para la región \(\alpha\).
En cambio si:
\(H_{0}: \bar{x} - \mu \leq 0\)
\(H_{1}: \bar{x} - \mu > 0\)
¿Las mujeres le dedican a realizar labores domésticas en su hogar más de 30 horas semanales?
Prueba de dos colas:
t.test(genero$p19ar[genero$SEXO=="Femenino"], mu=30)
##
## One Sample t-test
##
## data: genero$p19ar[genero$SEXO == "Femenino"]
## t = 1.3834, df = 608, p-value = 0.167
## alternative hypothesis: true mean is not equal to 30
## 95 percent confidence interval:
## 29.49774 32.89635
## sample estimates:
## mean of x
## 31.19704
Prueba de una cola, asumiendo una hipótesis alternativa positiva (“mayor que”)
t.test(genero$p19ar[genero$SEXO=="Femenino"], mu=30, alternative = "greater")
##
## One Sample t-test
##
## data: genero$p19ar[genero$SEXO == "Femenino"]
## t = 1.3834, df = 608, p-value = 0.08352
## alternative hypothesis: true mean is greater than 30
## 95 percent confidence interval:
## 29.77161 Inf
## sample estimates:
## mean of x
## 31.19704
Nos sirven para comparar las medias muestrales de dos grupos independientes. Por ejemplo, ¿la edad en la que una personas se casó o empezó a convivir es la misma entre hombres y mujeres?
En este caso las hipótesis se formulan de la siguiente manera:
\[ \begin{aligned} H_{0}: \bar{x}_{1} - \bar{x}_{2} = 0 \end{aligned} \]
\[ \begin{aligned} H_{1}: \bar{x}_{1} - \bar{x}_{2} \neq 0 \end{aligned} \]
Se siguen los mismos pasos que en las pruebas de hipótesis de una muestra. En este caso se usa también la distribución de t de Student como distribución de muestreo. Para el cálculo del estadístico de la prueba se debe estimar el error estándar de la diferencia de medias:
\[ \begin{aligned} t = \frac{\bar{x}_{1}-\bar{x}_{2}}{\sigma_{\bar{x}_{1}-\bar{x}_{2}}}=\frac{\bar{x}_{1}-\bar{x}_{2}}{\sqrt{\frac{(n_{1}-1)\sigma^2_{x_{1}}+ (n_{2}-1)\sigma^2_{x_{2}}}{n_{1}+n_{2}-2}}\sqrt{\frac{n_{1}+n_{2}}{n_{1}n_{2}}}} \end{aligned} \]
En el ejemplo propuesto, vamos a comparar la edad promedio en la que se casaron o empezaron a convivir hombres y mujeres.
Para calcular los resultados de la prueba usamos el comando:
t.test(genero$P23~genero$SEXO)
##
## Welch Two Sample t-test
##
## data: genero$P23 by genero$SEXO
## t = 8.9404, df = 803.979, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 2.527755 3.949971
## sample estimates:
## mean in group Masculino mean in group Femenino
## 25.73464 22.49578
Como se aprecia, el p-value del estadístico de la prueba resulta ser menor al nivel de significancia seleccionado, por lo tanto se rechaza la hipótesis cero. Los hombres empezaron a convivir o se casaron a una edad mayor que las mujeres y esas diferencias son estadísticamente significativas con un \(\alpha = 0.05\).
¿Los hombres y las mujeres tienen la misma opinión respecto de cuál es la edad ideal para que una mujer se case?. Hagamos la prueba considerando un \(\alpha = 0.05\)
t.test(genero$p1r~genero$SEXO)
##
## Welch Two Sample t-test
##
## data: genero$p1r by genero$SEXO
## t = -2.3819, df = 1156.439, p-value = 0.01738
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.91486807 -0.08844004
## sample estimates:
## mean in group Masculino mean in group Femenino
## 25.93794 26.43960
¿Y respecto de la edad ideal para que un hombre se case?
t.test(genero$p2r~genero$SEXO)
##
## Welch Two Sample t-test
##
## data: genero$p2r by genero$SEXO
## t = -3.081, df = 1159.999, p-value = 0.002112
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.1398995 -0.2529314
## sample estimates:
## mean in group Masculino mean in group Femenino
## 28.19788 28.89430
Veamos cómo se ven las diferencias en las horas dedicadas a labores domésticas entre las mujeres de Lima-Callao vs las de las ciudades del interior del país.
genero.s2 <- subset(genero, SEXO=="Femenino" & Ambito!= "Interior Rural")
t.test(genero.s2$p19ar~genero.s2$Ambito)
##
## Welch Two Sample t-test
##
## data: genero.s2$p19ar by genero.s2$Ambito
## t = 0.2988, df = 479.493, p-value = 0.7652
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.967144 4.031554
## sample estimates:
## mean in group Lima-Callao mean in group Interior Urbano
## 30.15721 29.62500
Este tipo de pruebas nos sirve para comparar las puntuaciones de dos variables en el mismo grupo de personas. Por ejemplo, si queremos determinar si existen diferencias entre la edad considerada como ideal para que una mujer se case y para que un hombre se case.
En este caso lo que se compara es la diferencia entre las puntuaciones de ambas variables:
\[ \begin{aligned} \bar{D} = \frac{\sum{(x_{1}-x_{2})}}{n} \end{aligned} \]
Las hipótesis se formulan en los siguientes términos:
\[ \begin{aligned} H_{0}: \bar{D} = 0 \end{aligned} \]
\[ \begin{aligned} H_{1}: \bar{D} \neq 0 \end{aligned} \]
Para el caso de muestras relacionadas, el estadístico de la prueba se calcula de la siguiente manera:
\[ \begin{aligned} t = \frac{\bar{D}}{\sigma_{\bar{D}}} \end{aligned} \]
Donde:
\[ \begin{aligned} \sigma_{\bar{D}}=\frac{\sigma_{D}}{\sqrt{n}} \end{aligned} \]
Calculamos el estadístico de la prueba para el ejemplo propuesto. Definimos como nivel de significancia un \(\alpha = 0.05\)
genero.s3 <- na.omit(data.frame(p1 = genero$p1r, p2= genero$p2r))
summary(genero.s3)
## p1 p2
## Min. :15.0 Min. :18.00
## 1st Qu.:25.0 1st Qu.:25.00
## Median :25.0 Median :29.00
## Mean :26.2 Mean :28.57
## 3rd Qu.:29.0 3rd Qu.:30.00
## Max. :40.0 Max. :42.00
t.test(genero.s3$p1, genero.s3$p2, paired=TRUE)
##
## Paired t-test
##
## data: genero.s3$p1 and genero.s3$p2
## t = -30.3124, df = 1157, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.528495 -2.221073
## sample estimates:
## mean of the differences
## -2.374784
El resultado de la prueba nos lleva a rechazar la hipótesis cero. Por lo tanto, con un nivel de significancia del 5% (incluso menor), podemos decir que la edad considerada ideal para que un hombre se case es mayor que la de una mujer.
En el caso de los hombres, ¿la edad considerada como ideal para que un hombre se case es muy diferente que la edad en que se empezó a convivir o se casó?
genero.s4 <- na.omit(data.frame(p2=genero$p2r, p23=genero$P23, sexo=genero$SEXO))
genero.s4 <- subset(genero.s4, sexo=="Masculino")
summary(genero.s4)
## p2 p23 sexo
## Min. :18.00 Min. :10.00 Masculino:390
## 1st Qu.:25.00 1st Qu.:22.00 Femenino : 0
## Median :28.00 Median :25.00
## Mean :27.98 Mean :25.76
## 3rd Qu.:30.00 3rd Qu.:29.00
## Max. :40.00 Max. :60.00
Solicitamos la prueba correspondiente:
t.test(genero.s4$p2, genero.s4$p23, paired=TRUE)
##
## Paired t-test
##
## data: genero.s4$p2 and genero.s4$p23
## t = 6.8822, df = 389, p-value = 2.369e-11
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 1.586165 2.854860
## sample estimates:
## mean of the differences
## 2.220513
Considerando un nivel de significancia del 5% se rechaza la hipótesis cero y se concluye que los hombres se casaron o empezaron a convivir a una edad menor a la que se considera ideal para que ello ocurra.