# Librerías a utilizar

library(readr)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(ggplot2)
library(vcd)

## Loading required package: grid

library(vcdExtra)

## Loading required package: gnm

## 
## Attaching package: 'vcdExtra'

## The following object is masked from 'package:dplyr':
## 
##     summarise

library(ggmosaic)

## 
## Attaching package: 'ggmosaic'

## The following objects are masked from 'package:vcd':
## 
##     mosaic, spine

library(MASS)

## 
## Attaching package: 'MASS'

## The following object is masked from 'package:dplyr':
## 
##     select

INTRODUCCIÓN

Este trabajo tiene como objetivo analizar la EPH 2023,para dicho trabajo utilizamos las variables ( area de residencia, trabajo, años de estudio y departamento)

Objetivos

*Objetivo general

Analizar la situación laboral de las personas en Py, por área de residencia, departamento de residencia y año de estudios, año 2023.

*Objetivos específicos

Describir la situación laboral por área y Dpto.
Verificar la asociación entre la situación laboral por área de residencia.
Verificar la asociación entre la situación laboral por área de residencia y Dpto.
Estimar las probabilidad de trabajo en función de las áreas de residencias, Dpto. y año de estudio de las personas.

Metodología

Fueron utlizados los datos correspondientes a la encuesta permanente de hogares del año 2023, analizando las variables situación laboral de las personas de los últimos 7 días, área de residencia, departamento de residencia y años de estudios. Así mismo, para dar respuestas a los objetivos propuestos se utilizaron las pruebas de: Chi-cuadrada, mantel hanzeth, y regresión logística.

Resultados

Primeramente, en esta herramienta, cargamos los paquetes que serán necesarios para realizar los análisis de los datos para responder a los objetivos propuestos.

Importación de los datos de la Encuesta Permanente de Hogares Continua 2023 y selección de variables para el análisis

Lectura de los datos

# Lectura de los datos
dataEPHC2023 <- read.csv2("REG02_ANUAL_2023.csv")

# Número de filas y columnas
dim(dataEPHC2023)

## [1] 58005   213

# Nombre de las variables
names(dataEPHC2023)

##   [1] "UPM"          "NVIVI"        "NHOGA"        "TRIMESTRE"    "AÑO"         
##   [6] "DPTO"         "AREA"         "L02"          "P02"          "P03"         
##  [11] "P04"          "P04A"         "P04B"         "P05C"         "P05P"        
##  [16] "P05M"         "P06"          "P08D"         "P08M"         "P08A"        
##  [21] "P09"          "A01"          "A01A"         "A02"          "A03"         
##  [26] "A04"          "A04A"         "A04B"         "A05"          "A07"         
##  [31] "A08"          "A10"          "A11A"         "A11M"         "A11S"        
##  [36] "A12"          "A13REC"       "A14REC"       "A15"          "A16"         
##  [41] "A17A"         "A17M"         "A17S"         "A18"          "B01REC"      
##  [46] "B02REC"       "B03LU"        "B03MA"        "B03MI"        "B03JU"       
##  [51] "B03VI"        "B03SA"        "B03DO"        "B04"          "B05"         
##  [56] "B06"          "B07A"         "B07M"         "B07S"         "B08"         
##  [61] "B09A"         "B09M"         "B09S"         "B10"          "B11"         
##  [66] "B12"          "B12A"         "B12B"         "B12C"         "B13"         
##  [71] "B14"          "B15"          "B16G"         "B16U"         "B16D"        
##  [76] "B16T"         "B17"          "B18AG"        "B18AU"        "B18BG"       
##  [81] "B18BU"        "B19"          "B20G"         "B20U"         "B20D"        
##  [86] "B20T"         "B21"          "B22"          "B23"          "B24"         
##  [91] "B25"          "B26"          "B271"         "B272"         "B28"         
##  [96] "B29"          "B30"          "B31"          "C01REC"       "C02REC"      
## [101] "C03"          "C04"          "C05"          "C06"          "C07"         
## [106] "C08"          "C09"          "C101"         "C102"         "C11G"        
## [111] "C11U"         "C11D"         "C11T"         "C12"          "C13AG"       
## [116] "C13AU"        "C13BG"        "C13BU"        "C14"          "C14A"        
## [121] "C14B"         "C14C"         "C15"          "C16REC"       "C17REC"      
## [126] "C18"          "C18A"         "C18B"         "C19"          "D01"         
## [131] "D02"          "D03"          "D04"          "D05"          "E01A"        
## [136] "E01B"         "E01C"         "E01D"         "E01E"         "E01F"        
## [141] "E01G"         "E01H"         "E01I"         "E01J"         "E01K"        
## [146] "E01L"         "E01M"         "ED01"         "ED02"         "ED03"        
## [151] "ED0504"       "ED06C"        "ED08"         "ED09"         "ED10"        
## [156] "ED11F1"       "ED11F1A"      "ED11GH1"      "ED11GH1A"     "S01A"        
## [161] "S01B"         "S02"          "S03"          "S03A"         "S03B"        
## [166] "S03C"         "S04"          "S05"          "S06"          "S07"         
## [171] "S08"          "S09"          "CATE_PEA"     "TAMA_PEA"     "OCUP_PEA"    
## [176] "RAMA_PEA"     "HORAB"        "HORABC"       "HORABCO"      "PEAD"        
## [181] "PEAA"         "TIPOHOGA"     "FEX.2022"     "NJEF"         "NCON"        
## [186] "NPAD"         "NMAD"         "añoest"       "ra06ya09"     "e01aimde"    
## [191] "e01bimde"     "e01cimde"     "e01dde"       "e01ede"       "e01fde"      
## [196] "e01gde"       "e01hde"       "e01ide"       "e01jde"       "e01kde"      
## [201] "e01lde"       "e01mde"       "e01kjde"      "e02bde"       "ingrevasode" 
## [206] "ipcm"         "pobrezai"     "pobnopoi"     "quintili"     "decili"      
## [211] "quintiai"     "decilai"      "informalidad"

Para el presente estudio se utilizan las siguientes variables:

DPTO: Representa el departamento de residencia de las personas de la encuesta.
AREA:Representa el area de residencia de las personas de la encuesta.
A02:Representa si la persona ha trabajado o no durante los ultimos 7 dias antes de la aplicación de la encuesta.
añoest: REpresenta los años de estudio de las personas encuestadas.

# Selección de variables
ephc2023final <- dataEPHC2023 %>%
  dplyr::select(DPTO, AREA, A02, añoest)

# Etiqueta de las variables categóricas
ephc2023final <- ephc2023final %>%
  mutate(
    DPTO = factor(DPTO, labels = c("Asunción",
                                   "Concepción",
                                   "San Pedro",
                                   "Cordillera",
                                   "Guairá",
                                   "Caaguazú",
                                   "Caazapá",
                                   "Itapúa",
                                   "Misiones",
                                   "Paraguarí",
                                   "Alto Paraná",
                                   "Central",
                                   "Ñeembucú",
                                   "Amambay",
                                   "Canindeyú",
                                   "Pdte Hayes")),
    AREA = factor(AREA, labels = c("Urbana", "Rural")),
    A02 = factor(A02, labels = c("Sí", "No")),
    añoest = if_else(is.na(añoest) | añoest == 99, NA_integer_, añoest)) %>%
  rename(AnioEstudio = añoest)

# Resumen breve de las variables seleccionadas
summary(ephc2023final)

##           DPTO           AREA         A02         AnioEstudio    
##  Central    :10036   Urbana:32940   Sí  :28238   Min.   : 0.000  
##  Alto Paraná: 6770   Rural :25065   No  :20040   1st Qu.: 4.000  
##  Itapúa     : 4708                  NA's: 9727   Median : 7.000  
##  Asunción   : 4157                               Mean   : 8.092  
##  San Pedro  : 3782                               3rd Qu.:12.000  
##  Caaguazú   : 3300                               Max.   :18.000  
##  (Other)    :25252                               NA's   :3815

Prueba de independencia Chi cuadrado

¿Es posible concluir que trabajar durante los últimos 7 días antes de la aplicación de la encuesta es independiente del área de residencia?

Hipótesis Nula: El hecho de trabajar durante los últimos 7 días antes de la aplicación de la encuesta es independiente del área de residencia.

Hipótesis Alternativa: El hecho de trabajar durante los últimos 7 días antes de la aplicación de la encuesta no es independiente del área de residencia.

Visualizamos la distribución en la siguiente gráfica.

# Filtrar los datos para excluir NA en AREA y A02
ephc2023final_filtrada <- ephc2023final %>%
  filter(!is.na(AREA) & !is.na(A02))

# Crear el gráfico de barras sin NA
ggplot(ephc2023final_filtrada, aes(x = AREA, fill = A02)) +
  geom_bar(position = "fill") +
  labs(
    title = "Distribución de A02 según AREA",
    x = "Área",
    y = "Porcentaje",
    fill = "Trabaja"
  ) +
  scale_y_continuous(labels = scales::percent_format()) +
  theme_minimal()

Analizamos mediante la prueba chi cuadrado

# Tabla de contingencia
tabla2x2 <- xtabs(~ AREA + A02, data = ephc2023final)
tabla2x2

##         A02
## AREA        Sí    No
##   Urbana 16062 11696
##   Rural  12176  8344

# Distribución de "Sí" por área de residencia
prop_si <- addmargins(prop.table(tabla2x2, margin = 1), 2)
prop_si

##         A02
## AREA            Sí        No       Sum
##   Urbana 0.5786440 0.4213560 1.0000000
##   Rural  0.5933723 0.4066277 1.0000000

# Prueba Chi-Cuadrado
resultado_chi <- chisq.test(tabla2x2)
resultado_chi

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tabla2x2
## X-squared = 10.481, df = 1, p-value = 0.001206

La prueba chi cuadrada arroja un p valor aproximado de 0.0012, que es menor al nivel \(\alpha=0.05\), lo que permite rechazar la hipótesis nula. Esto significa que las variables no son independientes. Es decir, el hecho de trabajar durante los últimos 7 días antes de la aplicación de la encuesta no es independiente del área de residencia.

OR <- (tabla2x2[1,1]*tabla2x2[2,2])/(tabla2x2[2,1]*tabla2x2[1,2])
OR

## [1] 0.9410916

Prueba de Cochran Mantel-Haenszel para tablas de tres entradas

Ahora se analiza la asociación entre las dos variables estudiadas en el punto anterior ( trabajo y área de residencia), añadiendo la variable DPTO de residencia actual como de estratificación. En consecuencia, se tiene plasmada las siguientes hipotesis:

Hipótesis Nula: No existe asociación entre el trabajo y área de residencia de la persona en los diferentes departamentos del pais.

Hipótesis alterntiva: Existe asociación entre el trabajo y área de residencia de la persona en los diferentes departamentos del pais.

# Gráfico de mosaico
ggplot(data = ephc2023final_filtrada) +
  geom_mosaic(aes(weight = 1, x = product(AREA, A02), fill = A02)) +
  facet_wrap(~ DPTO) +
  labs(
    title = "Relación de AREA y A02 por Departamento",
    x = "Trabaja",
    y = "Frecuencia"
  ) +
  theme_minimal() +
  theme(legend.position = "none")

# Tablas de contingencia estratificadas por DPTO
tabla_2x2_dpto <- xtabs(~ AREA + A02 + DPTO, data = ephc2023final)
ftable(tabla_2x2_dpto, row.vars = c(3, 1), col.vars = "A02")

##                    A02   Sí   No
## DPTO        AREA                
## Asunción    Urbana     2035 1589
##             Rural         0    0
## Concepción  Urbana      407  365
##             Rural       611  455
## San Pedro   Urbana      424  334
##             Rural      1370  967
## Cordillera  Urbana      597  540
##             Rural       819  681
## Guairá      Urbana      507  361
##             Rural       738  460
## Caaguazú    Urbana      659  493
##             Rural       908  675
## Caazapá     Urbana      291  223
##             Rural      1248  729
## Itapúa      Urbana     1041  668
##             Rural      1441  766
## Misiones    Urbana      773  558
##             Rural       587  430
## Paraguarí   Urbana      397  382
##             Rural       665  573
## Alto Paraná Urbana     2304 1602
##             Rural       934  661
## Central     Urbana     4226 2951
##             Rural       742  536
## Ñeembucú    Urbana      550  385
##             Rural       386  221
## Amambay     Urbana      806  538
##             Rural       376  272
## Canindeyú   Urbana      634  393
##             Rural       769  469
## Pdte Hayes  Urbana      411  314
##             Rural       582  449

# Prueba de Mantel-Haenszel
resultado_mantel <- mantelhaen.test(tabla_2x2_dpto)
resultado_mantel

## 
##  Mantel-Haenszel chi-squared test with continuity correction
## 
## data:  tabla_2x2_dpto
## Mantel-Haenszel X-squared = 9.0343, df = 1, p-value = 0.00265
## alternative hypothesis: true common odds ratio is not equal to 1
## 95 percent confidence interval:
##  NA NA
## sample estimates:
## common odds ratio 
##         0.9384065

La prueba de Mantel-Haenszel sugiere que existe una asociación significativa entre las variables categóricas analizadas, incluso después de controlar por el estrato definido por DPTO (p = 0.00265). El valor del odds ratio común es 0.94, lo que indica que, en promedio, el evento de interés tiene una ligera reducción en probabilidad en un grupo comparado con el otro.

Ajuste de un modelo de regresión logística

Se ajusta un modelo de de regresión logística considerando como respuesta la variable A02 y como posibles variables explicativas AREA, DPTO y AnioEstudio. Se intenta descubrir si estas variables tienen un efecto significativo sobre el hecho de trabajar o no durante los últimos 7 días.

# Convertir A02 a variable con 0s y 1s
ephc2023final <- ephc2023final %>%
  mutate(A02_01 = ifelse(A02 == "Sí", 1, 0))

# Ajuste del modelo logístico
modelo_logit <- glm(A02_01 ~ AREA + DPTO + AnioEstudio, 
                    family = binomial(link = "logit"),
                    data = ephc2023final)

# Resumen del modelo
summary(modelo_logit)

## 
## Call:
## glm(formula = A02_01 ~ AREA + DPTO + AnioEstudio, family = binomial(link = "logit"), 
##     data = ephc2023final)
## 
## Coefficients:
##                  Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     -1.200878   0.043613 -27.535  < 2e-16 ***
## AREARural        0.360778   0.022597  15.965  < 2e-16 ***
## DPTOConcepción   0.181408   0.061174   2.965  0.00302 ** 
## DPTOSan Pedro    0.234895   0.053968   4.352 1.35e-05 ***
## DPTOCordillera   0.009812   0.054744   0.179  0.85775    
## DPTOGuairá       0.379934   0.059682   6.366 1.94e-10 ***
## DPTOCaaguazú     0.259749   0.054662   4.752 2.01e-06 ***
## DPTOCaazapá      0.453797   0.057884   7.840 4.51e-15 ***
## DPTOItapúa       0.569699   0.050659  11.246  < 2e-16 ***
## DPTOMisiones     0.270030   0.056635   4.768 1.86e-06 ***
## DPTOParaguarí    0.018703   0.059429   0.315  0.75298    
## DPTOAlto Paraná  0.338159   0.045503   7.432 1.07e-13 ***
## DPTOCentral      0.210338   0.041721   5.042 4.62e-07 ***
## DPTOÑeembucú     0.453149   0.065080   6.963 3.33e-12 ***
## DPTOAmambay      0.399500   0.059322   6.734 1.65e-11 ***
## DPTOCanindeyú    0.500227   0.058088   8.611  < 2e-16 ***
## DPTOPdte Hayes   0.172142   0.062129   2.771  0.00559 ** 
## AnioEstudio      0.127283   0.002335  54.501  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 65496  on 48253  degrees of freedom
## Residual deviance: 62122  on 48236  degrees of freedom
##   (9751 observations deleted due to missingness)
## AIC: 62158
## 
## Number of Fisher Scoring iterations: 4

Interpretación del modelo seleccionado

AREARural tiene un coeficiente positivo (Estimate = 0.360778), lo que implica que vivir en un área rural aumenta las probabilidades de que la respuesta sea “Sí” en comparación con un área urbana. Este efecto es estadísticamente significativo (p < 2e-16).
Los coeficientes de los departamentos representan el cambio en las probabilidades en comparación con Asunción. Por ejemplo:
- Concepción (Estimate = 0.181408, p = 0.00302): Aumenta ligeramente las probabilidades de respuesta “Sí”.
- Itapúa (Estimate = 0.569699, p < 2e-16): Incrementa sustancialmente las probabilidades de respuesta “Sí”.
- Cordillera (Estimate = 0.009812, p = 0.85775): No tiene un efecto significativo.
- Departamentos como Caazapá, Ñeembucú y Canindeyú también presentan efectos significativos y positivos.
AnioEstudio tiene un coeficiente positivo significativo (Estimate = 0.127283, p < 2e-16), lo que sugiere que a medida que aumenta el año de estudio, las probabilidades de respuesta “Sí” también aumentan. Este efecto es altamente significativo.
Significancia global: Las variables independientes tienen un efecto significativo en las probabilidades de la respuesta “Sí”, como lo indican los valores p pequeños en varios coeficientes.
Interpretación general del modelo: Vivir en áreas rurales, residir en ciertos departamentos como Itapúa o Canindeyú, por ejemplo, y tener un mayor número de años de estudio aumentan las probabilidades de una respuesta “Sí”. Sin embargo, algunos departamentos (por ejemplo, Cordillera, Paraguarí) no tienen efectos significativos en las probabilidades.

# Odds Ratios
exp(coef(modelo_logit))

##     (Intercept)       AREARural  DPTOConcepción   DPTOSan Pedro  DPTOCordillera 
##        0.300930        1.434444        1.198905        1.264776        1.009861 
##      DPTOGuairá    DPTOCaaguazú     DPTOCaazapá      DPTOItapúa    DPTOMisiones 
##        1.462188        1.296604        1.574278        1.767735        1.310004 
##   DPTOParaguarí DPTOAlto Paraná     DPTOCentral    DPTOÑeembucú     DPTOAmambay 
##        1.018879        1.402364        1.234096        1.573259        1.491079 
##   DPTOCanindeyú  DPTOPdte Hayes     AnioEstudio 
##        1.649096        1.187847        1.135738

Todos los odds ratios, excepto el del intercepto, son mayores a 1 pero menores a 2, lo que indica un efecto positivo moderado en las probabilidades de trabajar. Vivir en un área rural, manteniendo constantes las demás variables, incrementa los odds de trabajar en aproximadamente un 43% en comparación con quienes viven en un área urbana. Asimismo, residir en Concepción aumenta los odds de trabajar en aproximadamente un 20% respecto a vivir en Asunción, el grupo de referencia. Por cada año adicional de estudio, los odds de trabajar aumentan en un promedio del 14%, lo que refuerza la influencia positiva de la educación sobre la probabilidad de estar trabajando.

Conclusión

En este trabajo se pretende analizar la situación laboral de las personas en Paraguay del año 2023, utlizando los datos correspondientes a la encuesta permanente de hogares del año 2023, analizando las variables situación laboral de las personas de los últimos 7 días, área de residencia, departamento de residencia y años de estudios. Así mismo, para dar respuestas a los objetivos propuestos se utilizaron las pruebas de: Chi-cuadrada, mantel hanzeth, y regresión logística. Por tanto, se tienen las siguientes conclusiones:

Que la situación laboral de las personas en Paraguay en los ultimos 7 dias, especificamente en el año 2023, tiene alta dependencia del area donde residen (P_valor=0,0012).
Sin embargo, analizando la situación laboral y el área de residencia de las personas estratificado por departamento de residencia, se encontró que además de la dependencia del trabajo con el área de residencia tambien ocurre con el departamento que reside (p = 0.00265). Es decir, trabajar o no en los últimos 7 días tiene alta dependencia del área de residencia y del mismo departamento.
Por otro lado analizando la situación laboral en función al area de residencia , departamento de residencia y años de estudio, se tiene las siguientes concluciones

i). Las personas que viven en el area rural comparado con los que viven en Asunción tiene mayor probabilidad de trabajar en un 36%, teniendo en cuenta los que han trabajado los ultimos 7 dias(p < 2e-16).

ii). Por otro lado, las personas que viven en el interior y resto del pais tienen mayores probabilidades de trabajar en los últimos 7 días en comparación con los que viven en Asuncón, a excecpción de los que están en Cordillera y Paraguarí que se encuentran en situaciones similares que los de Asunción. No obstante, los que viven en Itapúa, Canindeyú, Ñeembucú, Caazapá y Guairá concentran mayores probabilidad de trabajar en comparación con lo que viven en Asunción.

iii). En cuanto al año de estudio de las personas, se ha notado que a medida que aumenta el año de estudio, las probabilidades de trabajar en los últimos 7 días también aumentan significativamente.

iv). De manera global, las áreas de residencias, Departanento de residencia y el año de estudio influyen significativamente en la situación laboral de los últimos 7 días de las personas en Paraguay del año 2023. Es decir, virir en áreas rurales, residir en ciertos departamentos como Itapúa o Canindeyú, por ejemplo, y tener un mayor número de años de estudio aumentan las probabilidades de trabajar en los últimos 7 días. Sin embargo, algunos departamentos (por ejemplo, Cordillera, Paraguarí) no tienen efectos significativos en las probabilidades trabajar, lo que implica que las personas que viven en estas regiones tienen las mismas probabilidades de trabajo que en lo de Asunción.

Examen Final - Análisis de Datos en Categorías

Análisis de la situación laboral de las personas en Py, año 2023

Ramona Enciso