# Librerías a utilizar
library(readr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
library(vcd)
## Loading required package: grid
library(vcdExtra)
## Loading required package: gnm
##
## Attaching package: 'vcdExtra'
## The following object is masked from 'package:dplyr':
##
## summarise
library(ggmosaic)
##
## Attaching package: 'ggmosaic'
## The following objects are masked from 'package:vcd':
##
## mosaic, spine
library(MASS)
##
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
##
## select
Este trabajo tiene como objetivo analizar la EPH 2023,para dicho trabajo utilizamos las variables ( area de residencia, trabajo, años de estudio y departamento)
Analizar la situación laboral de las personas en Py, por área de residencia, departamento de residencia y año de estudios, año 2023.
Describir la situación laboral por área y Dpto.
Verificar la asociación entre la situación laboral por área de residencia.
Verificar la asociación entre la situación laboral por área de residencia y Dpto.
Estimar las probabilidad de trabajo en función de las áreas de residencias, Dpto. y año de estudio de las personas.
Fueron utlizados los datos correspondientes a la encuesta permanente de hogares del año 2023, analizando las variables situación laboral de las personas de los últimos 7 días, área de residencia, departamento de residencia y años de estudios. Así mismo, para dar respuestas a los objetivos propuestos se utilizaron las pruebas de: Chi-cuadrada, mantel hanzeth, y regresión logística.
Primeramente, en esta herramienta, cargamos los paquetes que serán necesarios para realizar los análisis de los datos para responder a los objetivos propuestos.
Lectura de los datos
# Lectura de los datos
dataEPHC2023 <- read.csv2("REG02_ANUAL_2023.csv")
# Número de filas y columnas
dim(dataEPHC2023)
## [1] 58005 213
# Nombre de las variables
names(dataEPHC2023)
## [1] "UPM" "NVIVI" "NHOGA" "TRIMESTRE" "AÑO"
## [6] "DPTO" "AREA" "L02" "P02" "P03"
## [11] "P04" "P04A" "P04B" "P05C" "P05P"
## [16] "P05M" "P06" "P08D" "P08M" "P08A"
## [21] "P09" "A01" "A01A" "A02" "A03"
## [26] "A04" "A04A" "A04B" "A05" "A07"
## [31] "A08" "A10" "A11A" "A11M" "A11S"
## [36] "A12" "A13REC" "A14REC" "A15" "A16"
## [41] "A17A" "A17M" "A17S" "A18" "B01REC"
## [46] "B02REC" "B03LU" "B03MA" "B03MI" "B03JU"
## [51] "B03VI" "B03SA" "B03DO" "B04" "B05"
## [56] "B06" "B07A" "B07M" "B07S" "B08"
## [61] "B09A" "B09M" "B09S" "B10" "B11"
## [66] "B12" "B12A" "B12B" "B12C" "B13"
## [71] "B14" "B15" "B16G" "B16U" "B16D"
## [76] "B16T" "B17" "B18AG" "B18AU" "B18BG"
## [81] "B18BU" "B19" "B20G" "B20U" "B20D"
## [86] "B20T" "B21" "B22" "B23" "B24"
## [91] "B25" "B26" "B271" "B272" "B28"
## [96] "B29" "B30" "B31" "C01REC" "C02REC"
## [101] "C03" "C04" "C05" "C06" "C07"
## [106] "C08" "C09" "C101" "C102" "C11G"
## [111] "C11U" "C11D" "C11T" "C12" "C13AG"
## [116] "C13AU" "C13BG" "C13BU" "C14" "C14A"
## [121] "C14B" "C14C" "C15" "C16REC" "C17REC"
## [126] "C18" "C18A" "C18B" "C19" "D01"
## [131] "D02" "D03" "D04" "D05" "E01A"
## [136] "E01B" "E01C" "E01D" "E01E" "E01F"
## [141] "E01G" "E01H" "E01I" "E01J" "E01K"
## [146] "E01L" "E01M" "ED01" "ED02" "ED03"
## [151] "ED0504" "ED06C" "ED08" "ED09" "ED10"
## [156] "ED11F1" "ED11F1A" "ED11GH1" "ED11GH1A" "S01A"
## [161] "S01B" "S02" "S03" "S03A" "S03B"
## [166] "S03C" "S04" "S05" "S06" "S07"
## [171] "S08" "S09" "CATE_PEA" "TAMA_PEA" "OCUP_PEA"
## [176] "RAMA_PEA" "HORAB" "HORABC" "HORABCO" "PEAD"
## [181] "PEAA" "TIPOHOGA" "FEX.2022" "NJEF" "NCON"
## [186] "NPAD" "NMAD" "añoest" "ra06ya09" "e01aimde"
## [191] "e01bimde" "e01cimde" "e01dde" "e01ede" "e01fde"
## [196] "e01gde" "e01hde" "e01ide" "e01jde" "e01kde"
## [201] "e01lde" "e01mde" "e01kjde" "e02bde" "ingrevasode"
## [206] "ipcm" "pobrezai" "pobnopoi" "quintili" "decili"
## [211] "quintiai" "decilai" "informalidad"
Para el presente estudio se utilizan las siguientes variables:
DPTO: Representa el departamento de residencia de las personas de la encuesta.
AREA:Representa el area de residencia de las personas de la encuesta.
A02:Representa si la persona ha trabajado o no durante los ultimos 7 dias antes de la aplicación de la encuesta.
añoest: REpresenta los años de estudio de las personas encuestadas.
# Selección de variables
ephc2023final <- dataEPHC2023 %>%
dplyr::select(DPTO, AREA, A02, añoest)
# Etiqueta de las variables categóricas
ephc2023final <- ephc2023final %>%
mutate(
DPTO = factor(DPTO, labels = c("Asunción",
"Concepción",
"San Pedro",
"Cordillera",
"Guairá",
"Caaguazú",
"Caazapá",
"Itapúa",
"Misiones",
"Paraguarí",
"Alto Paraná",
"Central",
"Ñeembucú",
"Amambay",
"Canindeyú",
"Pdte Hayes")),
AREA = factor(AREA, labels = c("Urbana", "Rural")),
A02 = factor(A02, labels = c("Sí", "No")),
añoest = if_else(is.na(añoest) | añoest == 99, NA_integer_, añoest)) %>%
rename(AnioEstudio = añoest)
# Resumen breve de las variables seleccionadas
summary(ephc2023final)
## DPTO AREA A02 AnioEstudio
## Central :10036 Urbana:32940 Sí :28238 Min. : 0.000
## Alto Paraná: 6770 Rural :25065 No :20040 1st Qu.: 4.000
## Itapúa : 4708 NA's: 9727 Median : 7.000
## Asunción : 4157 Mean : 8.092
## San Pedro : 3782 3rd Qu.:12.000
## Caaguazú : 3300 Max. :18.000
## (Other) :25252 NA's :3815
¿Es posible concluir que trabajar durante los últimos 7 días antes de la aplicación de la encuesta es independiente del área de residencia?
Hipótesis Nula: El hecho de trabajar durante los últimos 7 días antes de la aplicación de la encuesta es independiente del área de residencia.
Hipótesis Alternativa: El hecho de trabajar durante los últimos 7 días antes de la aplicación de la encuesta no es independiente del área de residencia.
Visualizamos la distribución en la siguiente gráfica.
# Filtrar los datos para excluir NA en AREA y A02
ephc2023final_filtrada <- ephc2023final %>%
filter(!is.na(AREA) & !is.na(A02))
# Crear el gráfico de barras sin NA
ggplot(ephc2023final_filtrada, aes(x = AREA, fill = A02)) +
geom_bar(position = "fill") +
labs(
title = "Distribución de A02 según AREA",
x = "Área",
y = "Porcentaje",
fill = "Trabaja"
) +
scale_y_continuous(labels = scales::percent_format()) +
theme_minimal()
Analizamos mediante la prueba chi cuadrado
# Tabla de contingencia
tabla2x2 <- xtabs(~ AREA + A02, data = ephc2023final)
tabla2x2
## A02
## AREA Sí No
## Urbana 16062 11696
## Rural 12176 8344
# Distribución de "Sí" por área de residencia
prop_si <- addmargins(prop.table(tabla2x2, margin = 1), 2)
prop_si
## A02
## AREA Sí No Sum
## Urbana 0.5786440 0.4213560 1.0000000
## Rural 0.5933723 0.4066277 1.0000000
# Prueba Chi-Cuadrado
resultado_chi <- chisq.test(tabla2x2)
resultado_chi
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tabla2x2
## X-squared = 10.481, df = 1, p-value = 0.001206
La prueba chi cuadrada arroja un p valor aproximado de 0.0012, que es menor al nivel \(\alpha=0.05\), lo que permite rechazar la hipótesis nula. Esto significa que las variables no son independientes. Es decir, el hecho de trabajar durante los últimos 7 días antes de la aplicación de la encuesta no es independiente del área de residencia.
OR <- (tabla2x2[1,1]*tabla2x2[2,2])/(tabla2x2[2,1]*tabla2x2[1,2])
OR
## [1] 0.9410916
Ahora se analiza la asociación entre las dos variables estudiadas en el punto anterior ( trabajo y área de residencia), añadiendo la variable DPTO de residencia actual como de estratificación. En consecuencia, se tiene plasmada las siguientes hipotesis:
Hipótesis Nula: No existe asociación entre el trabajo y área de residencia de la persona en los diferentes departamentos del pais.
Hipótesis alterntiva: Existe asociación entre el trabajo y área de residencia de la persona en los diferentes departamentos del pais.
# Gráfico de mosaico
ggplot(data = ephc2023final_filtrada) +
geom_mosaic(aes(weight = 1, x = product(AREA, A02), fill = A02)) +
facet_wrap(~ DPTO) +
labs(
title = "Relación de AREA y A02 por Departamento",
x = "Trabaja",
y = "Frecuencia"
) +
theme_minimal() +
theme(legend.position = "none")
# Tablas de contingencia estratificadas por DPTO
tabla_2x2_dpto <- xtabs(~ AREA + A02 + DPTO, data = ephc2023final)
ftable(tabla_2x2_dpto, row.vars = c(3, 1), col.vars = "A02")
## A02 Sí No
## DPTO AREA
## Asunción Urbana 2035 1589
## Rural 0 0
## Concepción Urbana 407 365
## Rural 611 455
## San Pedro Urbana 424 334
## Rural 1370 967
## Cordillera Urbana 597 540
## Rural 819 681
## Guairá Urbana 507 361
## Rural 738 460
## Caaguazú Urbana 659 493
## Rural 908 675
## Caazapá Urbana 291 223
## Rural 1248 729
## Itapúa Urbana 1041 668
## Rural 1441 766
## Misiones Urbana 773 558
## Rural 587 430
## Paraguarí Urbana 397 382
## Rural 665 573
## Alto Paraná Urbana 2304 1602
## Rural 934 661
## Central Urbana 4226 2951
## Rural 742 536
## Ñeembucú Urbana 550 385
## Rural 386 221
## Amambay Urbana 806 538
## Rural 376 272
## Canindeyú Urbana 634 393
## Rural 769 469
## Pdte Hayes Urbana 411 314
## Rural 582 449
# Prueba de Mantel-Haenszel
resultado_mantel <- mantelhaen.test(tabla_2x2_dpto)
resultado_mantel
##
## Mantel-Haenszel chi-squared test with continuity correction
##
## data: tabla_2x2_dpto
## Mantel-Haenszel X-squared = 9.0343, df = 1, p-value = 0.00265
## alternative hypothesis: true common odds ratio is not equal to 1
## 95 percent confidence interval:
## NA NA
## sample estimates:
## common odds ratio
## 0.9384065
La prueba de Mantel-Haenszel sugiere que existe una asociación
significativa entre las variables categóricas analizadas, incluso
después de controlar por el estrato definido por DPTO
(p = 0.00265). El valor del odds ratio común es
0.94, lo que indica que, en promedio, el evento de interés
tiene una ligera reducción en probabilidad en un grupo comparado con el
otro.
Se ajusta un modelo de de regresión logística considerando como
respuesta la variable A02 y como posibles variables
explicativas AREA, DPTO y
AnioEstudio. Se intenta descubrir si estas variables tienen
un efecto significativo sobre el hecho de trabajar o no durante los
últimos 7 días.
# Convertir A02 a variable con 0s y 1s
ephc2023final <- ephc2023final %>%
mutate(A02_01 = ifelse(A02 == "Sí", 1, 0))
# Ajuste del modelo logístico
modelo_logit <- glm(A02_01 ~ AREA + DPTO + AnioEstudio,
family = binomial(link = "logit"),
data = ephc2023final)
# Resumen del modelo
summary(modelo_logit)
##
## Call:
## glm(formula = A02_01 ~ AREA + DPTO + AnioEstudio, family = binomial(link = "logit"),
## data = ephc2023final)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.200878 0.043613 -27.535 < 2e-16 ***
## AREARural 0.360778 0.022597 15.965 < 2e-16 ***
## DPTOConcepción 0.181408 0.061174 2.965 0.00302 **
## DPTOSan Pedro 0.234895 0.053968 4.352 1.35e-05 ***
## DPTOCordillera 0.009812 0.054744 0.179 0.85775
## DPTOGuairá 0.379934 0.059682 6.366 1.94e-10 ***
## DPTOCaaguazú 0.259749 0.054662 4.752 2.01e-06 ***
## DPTOCaazapá 0.453797 0.057884 7.840 4.51e-15 ***
## DPTOItapúa 0.569699 0.050659 11.246 < 2e-16 ***
## DPTOMisiones 0.270030 0.056635 4.768 1.86e-06 ***
## DPTOParaguarí 0.018703 0.059429 0.315 0.75298
## DPTOAlto Paraná 0.338159 0.045503 7.432 1.07e-13 ***
## DPTOCentral 0.210338 0.041721 5.042 4.62e-07 ***
## DPTOÑeembucú 0.453149 0.065080 6.963 3.33e-12 ***
## DPTOAmambay 0.399500 0.059322 6.734 1.65e-11 ***
## DPTOCanindeyú 0.500227 0.058088 8.611 < 2e-16 ***
## DPTOPdte Hayes 0.172142 0.062129 2.771 0.00559 **
## AnioEstudio 0.127283 0.002335 54.501 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 65496 on 48253 degrees of freedom
## Residual deviance: 62122 on 48236 degrees of freedom
## (9751 observations deleted due to missingness)
## AIC: 62158
##
## Number of Fisher Scoring iterations: 4
Interpretación del modelo seleccionado
AREARural tiene un coeficiente positivo
(Estimate = 0.360778), lo que implica que vivir en un área
rural aumenta las probabilidades de que la respuesta sea “Sí” en
comparación con un área urbana. Este efecto es estadísticamente
significativo (p < 2e-16).
Los coeficientes de los departamentos representan el cambio en las probabilidades en comparación con Asunción. Por ejemplo:
AnioEstudio tiene un coeficiente positivo
significativo (Estimate = 0.127283, p < 2e-16), lo que
sugiere que a medida que aumenta el año de estudio, las probabilidades
de respuesta “Sí” también aumentan. Este efecto es altamente
significativo.
Significancia global: Las variables independientes tienen un
efecto significativo en las probabilidades de la respuesta “Sí”, como lo
indican los valores p pequeños en varios
coeficientes.
Interpretación general del modelo: Vivir en áreas rurales, residir en ciertos departamentos como Itapúa o Canindeyú, por ejemplo, y tener un mayor número de años de estudio aumentan las probabilidades de una respuesta “Sí”. Sin embargo, algunos departamentos (por ejemplo, Cordillera, Paraguarí) no tienen efectos significativos en las probabilidades.
# Odds Ratios
exp(coef(modelo_logit))
## (Intercept) AREARural DPTOConcepción DPTOSan Pedro DPTOCordillera
## 0.300930 1.434444 1.198905 1.264776 1.009861
## DPTOGuairá DPTOCaaguazú DPTOCaazapá DPTOItapúa DPTOMisiones
## 1.462188 1.296604 1.574278 1.767735 1.310004
## DPTOParaguarí DPTOAlto Paraná DPTOCentral DPTOÑeembucú DPTOAmambay
## 1.018879 1.402364 1.234096 1.573259 1.491079
## DPTOCanindeyú DPTOPdte Hayes AnioEstudio
## 1.649096 1.187847 1.135738
Todos los odds ratios, excepto el del intercepto, son mayores a 1 pero menores a 2, lo que indica un efecto positivo moderado en las probabilidades de trabajar. Vivir en un área rural, manteniendo constantes las demás variables, incrementa los odds de trabajar en aproximadamente un 43% en comparación con quienes viven en un área urbana. Asimismo, residir en Concepción aumenta los odds de trabajar en aproximadamente un 20% respecto a vivir en Asunción, el grupo de referencia. Por cada año adicional de estudio, los odds de trabajar aumentan en un promedio del 14%, lo que refuerza la influencia positiva de la educación sobre la probabilidad de estar trabajando.
En este trabajo se pretende analizar la situación laboral de las personas en Paraguay del año 2023, utlizando los datos correspondientes a la encuesta permanente de hogares del año 2023, analizando las variables situación laboral de las personas de los últimos 7 días, área de residencia, departamento de residencia y años de estudios. Así mismo, para dar respuestas a los objetivos propuestos se utilizaron las pruebas de: Chi-cuadrada, mantel hanzeth, y regresión logística. Por tanto, se tienen las siguientes conclusiones:
Que la situación laboral de las personas en Paraguay en los ultimos 7 dias, especificamente en el año 2023, tiene alta dependencia del area donde residen (P_valor=0,0012).
Sin embargo, analizando la situación laboral y el área de
residencia de las personas estratificado por departamento de residencia,
se encontró que además de la dependencia del trabajo con el área de
residencia tambien ocurre con el departamento que reside
(p = 0.00265). Es decir, trabajar o no en los últimos 7
días tiene alta dependencia del área de residencia y del mismo
departamento.
Por otro lado analizando la situación laboral en función al area de residencia , departamento de residencia y años de estudio, se tiene las siguientes concluciones
i). Las personas que viven en el area rural comparado con los que
viven en Asunción tiene mayor probabilidad de trabajar en un 36%,
teniendo en cuenta los que han trabajado los ultimos 7
dias(p < 2e-16).
ii). Por otro lado, las personas que viven en el interior y resto del pais tienen mayores probabilidades de trabajar en los últimos 7 días en comparación con los que viven en Asuncón, a excecpción de los que están en Cordillera y Paraguarí que se encuentran en situaciones similares que los de Asunción. No obstante, los que viven en Itapúa, Canindeyú, Ñeembucú, Caazapá y Guairá concentran mayores probabilidad de trabajar en comparación con lo que viven en Asunción.
iii). En cuanto al año de estudio de las personas, se ha notado que a medida que aumenta el año de estudio, las probabilidades de trabajar en los últimos 7 días también aumentan significativamente.
iv). De manera global, las áreas de residencias, Departanento de residencia y el año de estudio influyen significativamente en la situación laboral de los últimos 7 días de las personas en Paraguay del año 2023. Es decir, virir en áreas rurales, residir en ciertos departamentos como Itapúa o Canindeyú, por ejemplo, y tener un mayor número de años de estudio aumentan las probabilidades de trabajar en los últimos 7 días. Sin embargo, algunos departamentos (por ejemplo, Cordillera, Paraguarí) no tienen efectos significativos en las probabilidades trabajar, lo que implica que las personas que viven en estas regiones tienen las mismas probabilidades de trabajo que en lo de Asunción.