Análisis de varianza (ANOVA)

Descripción de la base y variables de estudio

La base de datos “trabaj_dep.rda” en formato R, contiene información de 23,837 trabajadores dependientes entrevistados por el Instituto Nacional de Estadística de Informática, para la Encuesta Nacional de Hogares 2017.

Los datos provienen del Módulo 5 de la ENAHO 2017.

Variables

Cargar datos


load("trabaj_dep.Rdata")

Exploración de base de datos


names(trabaj_dep)
##  [1] "CONGLOME"     "VIVIENDA"     "HOGAR"        "CODPERSO"     "region"      
##  [6] "urbano"       "sexo"         "edad"         "nivedu"       "etnic"       
## [11] "indig"        "meses_w"      "horas"        "ing_mes"      "emp_informal"

ANOVA de 1 factor

Estadísticos descriptivos


summary(trabaj_dep$ing_mes)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      10     570     950    1019    1400    2500
tapply(trabaj_dep$ing_mes, trabaj_dep$region, mean)
##     Costa    Sierra     Selva   Lima M. 
## 1034.0888  936.3849  931.3646 1216.5331

Modelo de ANOVA con 1 factor


modelo1 <- aov(ing_mes ~ region, data = trabaj_dep)

summary(modelo1)
##                Df    Sum Sq  Mean Sq F value Pr(>F)    
## region          3 2.354e+08 78466492   222.9 <2e-16 ***
## Residuals   23833 8.391e+09   352078                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Post-hoc


TukeyHSD(modelo1)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = ing_mes ~ region, data = trabaj_dep)
## 
## $region
##                       diff        lwr       upr     p adj
## Sierra-Costa    -97.703963 -122.31320 -73.09473 0.0000000
## Selva-Costa    -102.724204 -131.28712 -74.16129 0.0000000
## Lima M.-Costa   182.444274  153.42530 211.46324 0.0000000
## Selva-Sierra     -5.020241  -35.07583  25.03535 0.9734941
## Lima M.-Sierra  280.148237  249.65891 310.63757 0.0000000
## Lima M.-Selva   285.168478  251.40719 318.92977 0.0000000

ANOVA de 2 factores

Estadísticos descriptivos


summary(trabaj_dep$ing_mes)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      10     570     950    1019    1400    2500
tapply(trabaj_dep$ing_mes, trabaj_dep$sexo, mean)
##    Hombre     Mujer 
## 1088.9289  922.7973
tapply(trabaj_dep$ing_mes, trabaj_dep$indig, mean)
##    Indigena No indigena 
##    923.4331   1048.8772

Modelo de ANOVA con 2 factores


modelo2 <- aov(ing_mes ~ sexo + indig + sexo*indig, data = trabaj_dep)

summary(modelo2)
##                Df    Sum Sq   Mean Sq F value   Pr(>F)    
## sexo            1 1.603e+08 160282759  455.41  < 2e-16 ***
## indig           1 7.001e+07  70007200  198.91  < 2e-16 ***
## sexo:indig      1 8.118e+06   8118283   23.07 1.57e-06 ***
## Residuals   23833 8.388e+09    351951                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Gáfico de medias


interaction.plot(trabaj_dep$sexo, trabaj_dep$indig, trabaj_dep$ing_mes, 
                 col = c("red", "blue"), 
                 lwd = 4, 
                 pch = 19,
                 type = "b",
                 main = "Ingreso mensual según sexo y si es indígena", 
                 xlab = "Sexo", ylab = "Ingreso mensual(soles)", 
                 trace.label = "Sexo")

___

Post-hoc


TukeyHSD(modelo2)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = ing_mes ~ sexo + indig + sexo * indig, data = trabaj_dep)
## 
## $sexo
##                   diff       lwr       upr p adj
## Mujer-Hombre -166.1316 -181.3904 -150.8728     0
## 
## $indig
##                          diff      lwr      upr p adj
## No indigena-Indigena 127.3985 109.6922 145.1047     0
## 
## $`sexo:indig`
##                                            diff        lwr        upr    p adj
## Mujer:Indigena-Hombre:Indigena       -234.56735 -275.76291 -193.37178 0.00e+00
## Hombre:No indigena-Hombre:Indigena     90.94380   60.62412  121.26348 0.00e+00
## Mujer:No indigena-Hombre:Indigena     -55.53436  -87.15593  -23.91279 3.78e-05
## Hombre:No indigena-Mujer:Indigena     325.51115  290.57351  360.44879 0.00e+00
## Mujer:No indigena-Mujer:Indigena      179.03299  142.95974  215.10624 0.00e+00
## Mujer:No indigena-Hombre:No indigena -146.47816 -169.35801 -123.59831 0.00e+00