Descripción de la base y variables de estudio
La base de datos “trabaj_dep.rda” en formato R, contiene información de 23,837 trabajadores dependientes entrevistados por el Instituto Nacional de Estadística de Informática, para la Encuesta Nacional de Hogares 2017.
Los datos provienen del Módulo 5 de la ENAHO 2017.
Variables
sexo: Sexo del entrevistado(Hombre, Mujer)
indig: Condición indígena(1=Indígena; 2=No indígena)
Cargar datos
load("trabaj_dep.Rdata")
Exploración de base de datos
names(trabaj_dep)
## [1] "CONGLOME" "VIVIENDA" "HOGAR" "CODPERSO" "region"
## [6] "urbano" "sexo" "edad" "nivedu" "etnic"
## [11] "indig" "meses_w" "horas" "ing_mes" "emp_informal"
Estadísticos descriptivos
summary(trabaj_dep$ing_mes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10 570 950 1019 1400 2500
tapply(trabaj_dep$ing_mes, trabaj_dep$region, mean)
## Costa Sierra Selva Lima M.
## 1034.0888 936.3849 931.3646 1216.5331
Modelo de ANOVA con 1 factor
modelo1 <- aov(ing_mes ~ region, data = trabaj_dep)
summary(modelo1)
## Df Sum Sq Mean Sq F value Pr(>F)
## region 3 2.354e+08 78466492 222.9 <2e-16 ***
## Residuals 23833 8.391e+09 352078
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Post-hoc
TukeyHSD(modelo1)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = ing_mes ~ region, data = trabaj_dep)
##
## $region
## diff lwr upr p adj
## Sierra-Costa -97.703963 -122.31320 -73.09473 0.0000000
## Selva-Costa -102.724204 -131.28712 -74.16129 0.0000000
## Lima M.-Costa 182.444274 153.42530 211.46324 0.0000000
## Selva-Sierra -5.020241 -35.07583 25.03535 0.9734941
## Lima M.-Sierra 280.148237 249.65891 310.63757 0.0000000
## Lima M.-Selva 285.168478 251.40719 318.92977 0.0000000
Estadísticos descriptivos
summary(trabaj_dep$ing_mes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10 570 950 1019 1400 2500
tapply(trabaj_dep$ing_mes, trabaj_dep$sexo, mean)
## Hombre Mujer
## 1088.9289 922.7973
tapply(trabaj_dep$ing_mes, trabaj_dep$indig, mean)
## Indigena No indigena
## 923.4331 1048.8772
Modelo de ANOVA con 2 factores
modelo2 <- aov(ing_mes ~ sexo + indig + sexo*indig, data = trabaj_dep)
summary(modelo2)
## Df Sum Sq Mean Sq F value Pr(>F)
## sexo 1 1.603e+08 160282759 455.41 < 2e-16 ***
## indig 1 7.001e+07 70007200 198.91 < 2e-16 ***
## sexo:indig 1 8.118e+06 8118283 23.07 1.57e-06 ***
## Residuals 23833 8.388e+09 351951
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Gáfico de medias
interaction.plot(trabaj_dep$sexo, trabaj_dep$indig, trabaj_dep$ing_mes,
col = c("red", "blue"),
lwd = 4,
pch = 19,
type = "b",
main = "Ingreso mensual según sexo y si es indígena",
xlab = "Sexo", ylab = "Ingreso mensual(soles)",
trace.label = "Sexo")
___
Post-hoc
TukeyHSD(modelo2)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = ing_mes ~ sexo + indig + sexo * indig, data = trabaj_dep)
##
## $sexo
## diff lwr upr p adj
## Mujer-Hombre -166.1316 -181.3904 -150.8728 0
##
## $indig
## diff lwr upr p adj
## No indigena-Indigena 127.3985 109.6922 145.1047 0
##
## $`sexo:indig`
## diff lwr upr p adj
## Mujer:Indigena-Hombre:Indigena -234.56735 -275.76291 -193.37178 0.00e+00
## Hombre:No indigena-Hombre:Indigena 90.94380 60.62412 121.26348 0.00e+00
## Mujer:No indigena-Hombre:Indigena -55.53436 -87.15593 -23.91279 3.78e-05
## Hombre:No indigena-Mujer:Indigena 325.51115 290.57351 360.44879 0.00e+00
## Mujer:No indigena-Mujer:Indigena 179.03299 142.95974 215.10624 0.00e+00
## Mujer:No indigena-Hombre:No indigena -146.47816 -169.35801 -123.59831 0.00e+00