Para este ejemplo usaremos la diferencia de ingresos entre hombres y mujeres de la región de Los Ríos, datos extraídos de la encuesta CASEN.
Dado que es una encuesta social, si bien de caracter aleatoria, a priori desconoces su distribución o ley, por lo que ocuparemos el Bootstrap no paramétrico. Por simplicidad ignoraremos el diseño complejo de la encuesta (se omitirá el uso de factores de expansión).
Observemos como están distribuidos tanto los sexos como sus ingresos en la región.
En general la literatura ha identificado que existiría cierta brecha de género en la distribución de ingreso, lo cual no obstante puede verse influido por múltiples variables, entre ellas especificidades de cada zona geográfica, tales como su cultura, el nivel de productividad general, la presencia de grupos de sociedad civil fuertes (ONGs, sindicatos, partidos, etc), entre otros.
En este caso se analizará si, la región de los Ríos presenta tal brecha. La inspección visual de la distribución de ingresos entre sexo sugiere que estos parecen diferir de manera importante, aunque esto puede ser un mero efecto producto de la transformación logarítmica.
Para su constatación estadística se usará la prueba de t de student para la comparación de medias, y como en este caso los datos se desvían significativamente de una normal, resulta apropiada la aplicación de bootstrap no paramétrico.
# obteniendo los vectores con ingresos por sexo
H <- casen_2017_los_rios$ytotcorh[casen_2017_los_rios$sexo==1]
M <- casen_2017_los_rios$ytotcorh[casen_2017_los_rios$sexo==2]
# verificando supuesto de normalidad para cada grupo
ks.test(H,
"pnorm",
mean= mean(H),
sd= sd(H))
##
## One-sample Kolmogorov-Smirnov test
##
## data: H
## D = 0.22562, p-value < 0.00000000000000022
## alternative hypothesis: two-sided
ks.test(M,
"pnorm",
mean= mean(M),
sd= sd(M))
##
## One-sample Kolmogorov-Smirnov test
##
## data: M
## D = 0.20239, p-value < 0.00000000000000022
## alternative hypothesis: two-sided
# aplicación de prueba t
t.test(H, M)
##
## Welch Two Sample t-test
##
## data: H and M
## t = 2.1299, df = 7501.4, p-value = 0.03322
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 4179.367 100804.815
## sample estimates:
## mean of x mean of y
## 1034533.5 982041.4
El resultado nos da un \(t(7501.4)=2.13, p<.05\), sugiriendo la existencia de diferencias significativas en ingresos, favorable a los hombres.
Ahora replicaremos esta estimación por bootstrap con 1.000 iteraciones, por cada sexo, sacaremos el promedio cada vez para luego obtener las diferencias medias de cada re muestro, lo que implementamos de esta forma
# Función para hace re muestrear
bootstrap <- function(B, x){
replicate(B,{
sample_frac(as_tibble(x), .5, replace = T)
}) %>% do.call("rbind", .) %>%
t() %>%
as.data.frame() -> boot
return(boot)
}
# obtener re muestreos de Hombres
mean_boots_h <- bootstrap(1000, H) %>%
colMeans()
# obtener re muestreos de Mujeres
mean_boots_m <- bootstrap(1000, M) %>%
colMeans()
# obtener vector de diferencias medias
dif_mean <- mean_boots_h - mean_boots_m
Con esto tenemos nuestro vector de diferencias medias por bootstrap, cuya distribución se ve así.
Con esto podemos visualizar que la diferencia media por bootstrap tiende a ser mayor a 0, aunque en este caso, con un intérvalo de confianza del 95% entre -5399.11 y 108417.33, intérvalo que contiene el 0.
Por último, con estos elementos, podemos obtener el sesgo para ver si lo valores obtenidos por este proceso de bootstrap se desvian de manera importante respecto de los parámetros de la muestra, en este caso, el promedio y la desviación estándar, lo cual calculamos así.
# parámetros de la muestra
s_mean <- mean(H) - mean(M)
# parámetros del bootstraping
boot_mean <- mean(dif_mean)
# sesgo media
boot_mean - s_mean
## [1] -915.8884
# desviación estándar de diferencias medias por bootstrap
sd(dif_mean)
## [1] 35799.28
Como se observa, el sesgo parece ser importante en los parámetros, con una diferencia media de -$915.89 , a lo que se suma una dispersión relativamente alta en las diferencias medias por bootstrap, mostrando una desviación estándar de $35,799.28.
Dada la naturaliza asintótica del bootstrap, esto podría sugerir el uso de muestras más grandes (en este caso se usó un 50% de cada grupo con reemplazo).