Fuente: DANE - GEIH Dic. 2024
Curso: Muestreo Avanzado
Alumno: Victor Duque
Maestría en Estadística Avanzada
Universidad: Santo Tomás
df_geih <- read_sav("geih_diciembre2024.SAV", encoding = "latin1")
head(df_geih)
## # A tibble: 6 × 43
## PERIODO MES PER DIRECTORIO SECUENCIA_P ORDEN HOGAR REGIS AREA CLASE
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <chr> <chr>
## 1 20241252 12 2024 8038184 1 1 1 50 "" 2
## 2 20241252 12 2024 8038184 1 2 1 50 "" 2
## 3 20241252 12 2024 8038184 1 3 1 50 "" 2
## 4 20241252 12 2024 8038186 1 1 1 50 "" 2
## 5 20241252 12 2024 8038186 1 2 1 50 "" 2
## 6 20241252 12 2024 8038186 1 3 1 50 "" 2
## # ℹ 33 more variables: FEX_C18 <dbl>, DPTO <chr>, FT <dbl>, FFT <dbl>,
## # PET <dbl>, P6240 <dbl>, P6240S1 <chr>, P6240S2 <dbl>, P6250 <dbl>,
## # P6260 <dbl>, P6260S1 <dbl>, P6260S1A1 <chr>, P6260S2 <dbl>, P6270 <dbl>,
## # P6280 <dbl>, P6290 <dbl>, P3362S1 <dbl>, P3362S2 <dbl>, P3362S3 <dbl>,
## # P3362S4 <dbl>, P3362S5 <dbl>, P3362S6 <dbl>, P3362S7 <dbl>, P3362S8 <dbl>,
## # P3362S7A1 <chr>, P6300 <dbl>, P6310 <dbl>, P6310S1 <chr>, P6320 <dbl>,
## # P6330 <dbl>, P6340 <dbl>, P6350 <dbl>, P6351 <dbl>
names(df_geih)
## [1] "PERIODO" "MES" "PER" "DIRECTORIO" "SECUENCIA_P"
## [6] "ORDEN" "HOGAR" "REGIS" "AREA" "CLASE"
## [11] "FEX_C18" "DPTO" "FT" "FFT" "PET"
## [16] "P6240" "P6240S1" "P6240S2" "P6250" "P6260"
## [21] "P6260S1" "P6260S1A1" "P6260S2" "P6270" "P6280"
## [26] "P6290" "P3362S1" "P3362S2" "P3362S3" "P3362S4"
## [31] "P3362S5" "P3362S6" "P3362S7" "P3362S8" "P3362S7A1"
## [36] "P6300" "P6310" "P6310S1" "P6320" "P6330"
## [41] "P6340" "P6350" "P6351"
diseño_geih <- svydesign(
id = ~DIRECTORIO,
strata = ~CLASE,
weights = ~FEX_C18,
data = df_geih,
nest = TRUE
)
summary(diseño_geih)
## Stratified 1 - level Cluster Sampling design (with replacement)
## With (22954) clusters.
## svydesign(id = ~DIRECTORIO, strata = ~CLASE, weights = ~FEX_C18,
## data = df_geih, nest = TRUE)
## Probabilities:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.682e-05 1.060e-03 2.980e-03 4.585e-03 6.000e-03 8.865e-02
## Stratum Sizes:
## 1 2
## obs 44928 6799
## design.PSU 19830 3124
## actual.PSU 19830 3124
## Data variables:
## [1] "PERIODO" "MES" "PER" "DIRECTORIO" "SECUENCIA_P"
## [6] "ORDEN" "HOGAR" "REGIS" "AREA" "CLASE"
## [11] "FEX_C18" "DPTO" "FT" "FFT" "PET"
## [16] "P6240" "P6240S1" "P6240S2" "P6250" "P6260"
## [21] "P6260S1" "P6260S1A1" "P6260S2" "P6270" "P6280"
## [26] "P6290" "P3362S1" "P3362S2" "P3362S3" "P3362S4"
## [31] "P3362S5" "P3362S6" "P3362S7" "P3362S8" "P3362S7A1"
## [36] "P6300" "P6310" "P6310S1" "P6320" "P6330"
## [41] "P6340" "P6350" "P6351"
Conclusión: En diciembre de 2024, se estima que el total de personas en edad de trabajar en Colombia fue de aproximadamente 40,4 millones. De ellas, el 10,6% trabajó al menos una hora la semana pasada, mientras que cerca del 12% manifestó interés en trabajar o emprender. Además, un 12,6% buscó empleo activamente sin haber trabajado, lo que evidencia una presión moderada por conseguir trabajo.
svymean(~I(PET == 1), diseño_geih)
## mean SE
## I(PET == 1)FALSE 0 0
## I(PET == 1)TRUE 1 0
svymean(~I(P6250 == 1), diseño_geih, na.rm = TRUE)
## mean SE
## I(P6250 == 1)FALSE 0.89369 0.0036
## I(P6250 == 1)TRUE 0.10631 0.0036
svymean(~I(P6300 == 1), diseño_geih, na.rm = TRUE)
## mean SE
## I(P6300 == 1)FALSE 0.88103 0.0044
## I(P6300 == 1)TRUE 0.11897 0.0044
svymean(~I(P6280 == 1 & P6250 != 1), diseño_geih, na.rm = TRUE)
## mean SE
## I(P6280 == 1 & P6250 != 1)FALSE 0.87393 0.0041
## I(P6280 == 1 & P6250 != 1)TRUE 0.12607 0.0041
svytotal(~I(PET == 1), diseño_geih)
## total SE
## I(PET == 1)FALSE 0 0
## I(PET == 1)TRUE 40377907 429964
Conclusión: La mayoría de las personas que dejaron de buscar empleo lo hicieron hace muy poco tiempo, especialmente en el primer mes. A medida que pasa el tiempo, menos personas permanecen inactivas sin buscar trabajo, lo que sugiere que la desconexión del mercado laboral suele ser reciente o de corta duración para muchos.
svyhist(~P6350, design = diseño_geih, main = "Meses desde que dejó de buscar trabajo", xlab = "Meses", col = "lightblue", breaks = 12)
Conclusión: El tiempo que llevan sin buscar trabajo es similar en zonas urbanas y rurales, con una ligera tendencia a mayor dispersión en el área rural. En ambos casos, la mayoría dejó de buscar hace pocos meses, lo que sugiere que la inactividad reciente es un fenómeno generalizado y no muy distinto entre contextos geográficos.
svyboxplot(P6350 ~ as.factor(CLASE), design = diseño_geih, main = "Tiempo sin buscar trabajo por zona", xlab = "Zona", col = "lightgray")
Conclusión: Tanto en zonas urbanas como rurales, una minoría de las personas manifiesta deseo de trabajar actualmente, y la proporción es ligeramente mayor en las zonas rurales. Aunque la diferencia no es muy amplia visualmente, sí podría reflejar una mayor necesidad o motivación laboral fuera de las ciudades.
svyby_result <- svyby(~I(P6300 == 1), ~as.factor(CLASE), diseño_geih, svymean, na.rm = TRUE)
barplot(svyby_result[, 2], beside = TRUE, names.arg = c("Urbana", "Rural"), col = "skyblue", main = "Proporción que desea trabajar por zona", ylab = "Proporción", ylim = c(0, 1))
Conclusión: Las personas que no han buscado empleo recientemente tienden a reportar una mayor duración de ausencia laboral, en comparación con quienes sí realizaron búsquedas activas. Esto sugiere que la falta de búsqueda está asociada a periodos más prolongados de desconexión del trabajo.
svyboxplot(P6260S2 ~ as.factor(P6280), design = diseño_geih, main = "Ausencia laboral según búsqueda de empleo", xlab = "¿Buscó trabajo? (1=Sí, 2=No)", col = "lightgreen")
Conclusión: En promedio, las personas que están ausentes del trabajo estiman que su ausencia durará alrededor de 1.16 meses, y la mediana es de 1 mes, lo que indica que la mayoría espera reincorporarse rápidamente. El intervalo de confianza (1.00 a 1.31 meses) respalda esta conclusión y sugiere que la mayoría de estas ausencias son temporales y de corta duración.
svymean(~P6260S2, diseño_geih, na.rm = TRUE)
## mean SE
## P6260S2 1.1554 0.0786
confint(svymean(~P6260S2, diseño_geih, na.rm = TRUE))
## 2.5 % 97.5 %
## P6260S2 1.001406 1.30944
diseño_srvyr <- as_survey_design(diseño_geih)
diseño_srvyr %>% summarise(media = survey_mean(P6260S2, na.rm = TRUE))
## # A tibble: 1 × 2
## media media_se
## <dbl> <dbl>
## 1 1.16 0.0786
diseño_srvyr %>% summarise(mediana = survey_median(P6260S2, na.rm = TRUE))
## # A tibble: 1 × 2
## mediana mediana_se
## <dbl> <dbl>
## 1 1 2.01
Conclusión: En zonas urbanas, las personas ausentes del trabajo esperan reincorporarse en promedio en 1.22 meses, mientras que en zonas rurales el promedio es de 1 mes, sin variación. Esto sugiere que la duración esperada de las ausencias laborales es corta en ambos contextos y ligeramente mayor en lo urbano, posiblemente por diferencias en el tipo de ocupaciones o condiciones laborales.
svyby(~P6260S2, ~CLASE, diseño_geih, svymean, na.rm = TRUE)
## CLASE P6260S2 se
## 1 1 1.22225 0.1135924
## 2 2 1.00000 0.0000000
diseño_srvyr %>% group_by(CLASE) %>% summarise(mediana = survey_median(P6260S2, na.rm = TRUE), media = survey_mean(P6260S2, na.rm = TRUE))
## # A tibble: 2 × 5
## CLASE mediana mediana_se media media_se
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 1 1 2.01 1.22 0.114
## 2 2 1 0 1 0
Conclusión: El deseo de trabajar es más frecuente en zonas rurales (14.3%) que en zonas urbanas (11.2%). Aunque la diferencia es moderada, es estadísticamente significativa según la prueba de chi-cuadrado ajustada por diseño (p = 0.0029). Esto indica que el lugar de residencia está asociado al interés por integrarse o reintegrarse al mercado laboral, siendo más notorio en las zonas rurales.
svytable(~P6300 + CLASE, diseño_geih)
## CLASE
## P6300 1 2
## 1 1186277.8 440587.8
## 2 9410711.5 2637263.0
prop.table(svytable(~P6300 + CLASE, diseño_geih), margin = 2)
## CLASE
## P6300 1 2
## 1 0.1119448 0.1431479
## 2 0.8880552 0.8568521
svychisq(~P6300 + CLASE, diseño_geih, statistic = "F")
##
## Pearson's X^2: Rao & Scott adjustment
##
## data: svychisq(~P6300 + CLASE, diseño_geih, statistic = "F")
## F = 8.8924, ndf = 1, ddf = 22952, p-value = 0.002867
barplot(prop.table(svytable(~P6300 + CLASE, diseño_geih), margin = 2), beside = TRUE, legend = TRUE, col = c("skyblue", "salmon"), main = "Deseo de trabajar por zona")
Conclusión: En las zonas rurales, una mayor proporción de personas (13.9%) reportó haber trabajado al menos una hora la semana pasada, en comparación con las zonas urbanas, donde la proporción fue del 9.7%. Esto podría reflejar una mayor presencia de actividades laborales informales o de subsistencia en el ámbito rural.
Conclusión: En las zonas urbanas, el 15.4% de las personas realizó diligencias para conseguir empleo recientemente, mientras que en las zonas rurales lo hizo el 9.9%. Esto sugiere que la presión por conseguir empleo es mayor en las ciudades, posiblemente por mayores expectativas de inserción laboral formal o por un desempleo más visible.
svyby(~I(P6250 == 1), ~CLASE, diseño_geih, svymean, na.rm = TRUE)
## CLASE I(P6250 == 1)FALSE I(P6250 == 1)TRUE se.I(P6250 == 1)FALSE
## 1 1 0.9032475 0.09675253 0.003942680
## 2 2 0.8611530 0.13884703 0.008631348
## se.I(P6250 == 1)TRUE
## 1 0.003942680
## 2 0.008631348
svyby(~I(P6280 == 1), ~CLASE, diseño_geih, svymean, na.rm = TRUE)
## CLASE I(P6280 == 1)FALSE I(P6280 == 1)TRUE se.I(P6280 == 1)FALSE
## 1 1 0.8460840 0.15391600 0.005328125
## 2 2 0.9011204 0.09887955 0.008397422
## se.I(P6280 == 1)TRUE
## 1 0.005328125
## 2 0.008397422
Conclusión: Las personas que viven en zonas rurales tienen mayor probabilidad de manifestar deseo de trabajar que quienes viven en zonas urbanas. Esta diferencia es estadísticamente significativa (p = 0.0029). El modelo, ajustado al diseño muestral de la encuesta, confirma que el contexto geográfico influye de manera real y medible en las aspiraciones laborales de la población.
modelo_zona <- svyglm(P6300 == 1 ~ CLASE, design = diseño_geih, family = quasibinomial())
summary(modelo_zona)
##
## Call:
## svyglm(formula = P6300 == 1 ~ CLASE, design = diseño_geih, family = quasibinomial())
##
## Survey design:
## svydesign(id = ~DIRECTORIO, strata = ~CLASE, weights = ~FEX_C18,
## data = df_geih, nest = TRUE)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.07103 0.04948 -41.856 < 2e-16 ***
## CLASE2 0.28164 0.09468 2.975 0.00294 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for quasibinomial family taken to be 0.9212965)
##
## Number of Fisher Scoring iterations: 4
Conclusión: El pseudo-R² del modelo fue cercano a cero e incluso ligeramente negativo (-0.0017), lo que indica que el modelo no explica gran parte de la variabilidad individual en el deseo de trabajar. Sin embargo, esto no invalida el resultado principal del modelo, que muestra una diferencia significativa entre zonas rurales y urbanas. El bajo R² es común en modelos sociales simples con variables binarias, y refleja que la decisión de trabajar depende de muchos otros factores no incluidos.
pred <- predict(modelo_zona, type = "response")
real <- modelo_zona$y
res <- (real - pred)^2
sst <- (real - mean(real))^2
R2 <- 1 - sum(res) / sum(sst)
R2
## [1] -0.001696915