Indicadores basados en la Encuesta Permanente de Hogares Contínua del Paraguy (EPHC)


Laboratorio de Investigación en Estadística Teórica y Aplicada
Actualizada al año 2022

Introducción

En la era actual de información y análisis, los microdatos provenientes de encuestas de hogares representan un valioso recurso para comprender diversos aspectos de la sociedad, incluyendo la demografía, el mercado laboral, la educación y la seguridad social. Estas encuestas capturan una vasta gama de información detallada y representativa de las características y comportamientos de los hogares y las personas que los componen. Mediante la explotación de estas fuentes de datos ricas y granulares, es posible generar indicadores precisos y significativos que impulsan la toma de decisiones informada en políticas públicas, investigaciones académicas y la comprensión general de tendencias sociales.

En este contexto, la herramienta R se erige como un pilar fundamental para aprovechar al máximo estos microdatos y traducirlos en información valiosa. R es un software de código abierto y gratuito, altamente flexible y robusto, que brinda una plataforma poderosa para manipular, visualizar y analizar datos de manera efectiva. Su comunidad activa de usuarios y desarrolladores ha creado una amplia gama de paquetes especializados, lo que permite realizar tareas complejas con facilidad. R se destaca por su capacidad para gestionar grandes conjuntos de datos, realizar análisis estadísticos avanzados y generar gráficos y visualizaciones atractivas.

Al emplear R en el análisis de microdatos de encuestas de hogares, los investigadores y analistas pueden identificar patrones y relaciones que son fundamentales para comprender los cambios sociales, económicos y demográficos. Desde la elaboración de perfiles demográficos hasta el estudio de las tendencias de empleo y educación, pasando por el análisis de la inclusión social a través de los programas de seguridad social, R ofrece un abanico de herramientas que facilitan la creación de indicadores precisos y relevantes.

En este documento, exploraremos cómo el uso de microdatos de encuestas de hogares en conjunto con el software R puede enriquecer nuestro entendimiento de la sociedad y proporcionar insights profundos en una variedad de temas. Descubriremos cómo el análisis detallado de estas fuentes de información, impulsado por la versatilidad de R, puede ser instrumental en la toma de decisiones, la planificación de políticas y la generación de conocimiento en campos clave.

Fuente de datos

La Encuesta Permanente de Hogares (EPH) es llevado a cabo por el Instituto Nacional de Estadísticas (INE) y tiene como objetivo fundamental la generación de estadísticas que permitan monitorear trimestralmente las características clave del mercado laboral, así como otros aspectos socioeconómicos. Esta encuesta abarca a las personas que residen en hogares particulares ubicados en los departamentos de la Región Oriental y Pte. Hayes.

Para llevar a cabo este propósito, se ha establecido un tamaño muestral de 5,004 hogares por trimestre en el año 2023. La metodología empleada se basa en un enfoque de muestra semi-panel con una rotación del 50% de los hogares durante dos años consecutivos. Esto significa que en dos años seguidos, el 50% de los hogares se solapan entre los mismos trimestres, con el propósito principal de controlar los cambios reales en las características laborales.

La EPH comenzó su ejecución en la segunda semana de enero de 2017 y se ha mantenido en funcionamiento de manera continua hasta la fecha actual. En el anexo, se presentan los resultados correspondientes a veintiséis trimestres, abarcando desde el año 2017 hasta el 2023.

La relevancia de este material radica en su capacidad para proporcionar información sobre los indicadores clave de empleo. Esta información resulta esencial para la formulación, implementación y evaluación de políticas públicas orientadas a mejorar las condiciones de empleo y, por extensión, las condiciones de vida de la población en general.

Gestión de los datos

Transformación de las bases en formato SAV a csv

library(haven)
R02_EPH2013 <- read_sav("R02_EPH2013.SAV")
write.csv(R02_EPH2013, file = "r02eph2013.csv", row.names = FALSE)


R02_EPH2014 <- read_sav("R02_EPH2014.SAV")
write.csv(R02_EPH2014, file = "r02eph2014.csv", row.names = FALSE)


R02_EPH2015 <- read_sav("R02_EPH2015.SAV")
write.csv(R02_EPH2015, file = "r02eph2015.csv", row.names = FALSE)



R02_EPH2016 <- read_sav("R02_EPH2016.SAV")
write.csv(R02_EPH2016, file = "r02eph2016.csv", row.names = FALSE)


R02_EPH2017 <- read_sav("R02_EPH2017.SAV")
write.csv(R02_EPH2017, file = "r02eph2017.csv", row.names = FALSE)

R02_EPH2018 <- read_sav("R02_EPH2018.sav")
write.csv(R02_EPH2018, file = "r02eph2018.csv", row.names = FALSE)

R02_EPH2019 <- read_sav("R02_EPH2019.sav")
write.csv(R02_EPH2019, file = "r02eph2019.csv", row.names = FALSE)

R02_EPH2020 <- read_sav("R02_EPH2020.sav")
write.csv(R02_EPH2020, file = "r02eph2020.csv", row.names = FALSE)

R02_EPH2021 <- read_sav("R02_EPH2021.sav")
write.csv(R02_EPH2021, file = "r02eph2021.csv", row.names = FALSE)

R02_EPH2022 <- read_sav("R02_EPH2022.SAV")
write.csv(R02_EPH2022, file = "r02eph2022.csv", row.names = FALSE)
eph13<-read.csv("r02eph2013.csv")
eph14<-read.csv("r02eph2014.csv")
eph15<-read.csv("r02eph2015.csv")
eph16<-read.csv("r02eph2016.csv")
eph17<-read.csv("r02eph2017.csv")
eph18<-read.csv("r02eph2018.csv")
eph19<-read.csv("r02eph2019.csv")
eph20<-read.csv("r02eph2020.csv")
eph21<-read.csv("r02eph2021.csv")
eph22<-read.csv("r02eph2022.csv")


# Convert variable names to lowercase for all data frames
eph13 <- setNames(eph13, tolower(names(eph13)))
eph14 <- setNames(eph14, tolower(names(eph14)))
eph15 <- setNames(eph15, tolower(names(eph15)))
eph16 <- setNames(eph16, tolower(names(eph16)))
eph17 <- setNames(eph17, tolower(names(eph17)))
eph18 <- setNames(eph18, tolower(names(eph18)))
eph19 <- setNames(eph19, tolower(names(eph19)))
eph20 <- setNames(eph20, tolower(names(eph20)))
eph21 <- setNames(eph21, tolower(names(eph21)))
eph22 <- setNames(eph22, tolower(names(eph22)))
eph13$year<-2013
eph14$year<-2014
eph15$year<-2015
eph16$year<-2016
eph17$year<-2017
eph18$year<-2018
eph19$year<-2019
eph20$year<-2020
eph21$year<-2021
eph22$year<-2022
names(eph13)
names(eph14)
names(eph15)
names(eph16)
names(eph17)
names(eph18)
library(dplyr)
eph13 <- eph13 %>%
  select(year, p06, p02, peaa,cate_pea,pead,area, e01aimde, fexajustado) %>%
  filter(peaa == 1 & e01aimde > 0) %>%
  rename(fex = fexajustado)
names(eph13)
str(eph13)
library(dplyr)
eph14 <- eph14 %>%
  select(year, p06, p02, peaa,cate_pea,pead,area, e01aimde, fexajustado) %>%
subset(peaa==1 & e01aimde>0) %>%
  rename(fex = fexajustado)
names(eph14)
str(eph14)
library(dplyr)
eph15 <- eph15 %>%
  select(year, p06, p02, peaa, e01aimde,fexajustado)  %>%
subset(peaa==1 & e01aimde>0) %>%
  rename(fex = fexajustado)
names(eph15)
str(eph15)
library(dplyr)
eph16 <- eph16 %>%
  select(year, p06, p02, peaa, e01aimde,fex)  %>%
subset(peaa==1 & e01aimde>0)
names(eph16)
str(eph16)
library(dplyr)
eph17 <- eph17 %>%
  select(year, p06, p02, peaa, e01aimde,fex)  %>%
subset(peaa==1 & e01aimde>0)
names(eph17)
str(eph17)
library(dplyr)
eph18 <- eph18 %>%
  select(year, p06, p02, peaa, e01aimde,fex)  %>%
subset(peaa==1 & e01aimde>0)
names(eph18)
str(eph18)
library(dplyr)
eph19 <- eph19 %>%
  select(year, p06, p02, peaa, e01aimde,fex)  %>%
subset(peaa==1 & e01aimde>0)
names(eph19)
str(eph19)
library(dplyr)
eph20 <- eph20 %>%
  select(year, p06, p02, peaa, e01aimde,fex)  %>%
subset(peaa==1 & e01aimde>0)
names(eph20)
str(eph20)
library(dplyr)
eph21 <- eph21 %>%
  select(year, p06, p02, peaa, e01aimde,fex)  %>%
subset(peaa==1 & e01aimde>0)
names(eph21)
str(eph21)
library(dplyr)
eph22 <- eph22 %>%
  select(year, p06, p02, peaa, e01aimde,fex)  %>%
subset(peaa==1 & e01aimde>0)
names(eph22)
str(eph22)
# Juntar todas las bases en una sola 
baseEPH<-rbind(eph13,eph14,eph15,eph16,eph17,eph18,eph19,eph20,eph21,eph22)
table(baseEPH$year)

# Guardamos los datos combinados en un archivo CSV
write.csv(baseEPH, file = "baseEPH.csv", row.names = FALSE)

Socio-demográficas

## [1] "year"     "p06"      "p02"      "peaa"     "e01aimde" "fex"
## 'data.frame':    101025 obs. of  6 variables:
##  $ year    : int  2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
##  $ p06     : int  6 1 6 1 6 1 1 6 6 6 ...
##  $ p02     : int  33 26 22 54 53 37 54 39 67 66 ...
##  $ peaa    : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ e01aimde: num  1815138 3186575 806728 4033639 3025229 ...
##  $ fex     : int  140 100 100 135 108 108 100 100 80 80 ...

FEX

##    year     fex
## 1  2013 2810167
## 2  2014 2826174
## 3  2015 2825103
## 4  2016 2882240
## 5  2017 2988619
## 6  2018 3071747
## 7  2019 3159885
## 8  2020 3144484
## 9  2021 3213048
## 10 2022 3292354

P06

## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## 
## Attaching package: 'tidyr'
## The following object is masked _by_ '.GlobalEnv':
## 
##     table1
## `summarise()` has grouped output by 'year'. You can override using the
## `.groups` argument.
## # A tibble: 10 × 6
## # Groups:   year [10]
##     year   Total Cantidad_Hombres Cantidad_Mujeres Porcentaje_Hombres
##    <int>   <int>            <int>            <int>              <dbl>
##  1  2013 2810167          1649568          1160599               58.7
##  2  2014 2826174          1707880          1118294               60.4
##  3  2015 2825103          1725734          1099369               61.1
##  4  2016 2882240          1761474          1120766               61.1
##  5  2017 2988619          1833533          1155086               61.4
##  6  2018 3071747          1876249          1195498               61.1
##  7  2019 3159885          1892156          1267729               59.9
##  8  2020 3144484          1900744          1243740               60.4
##  9  2021 3213048          1940119          1272929               60.4
## 10  2022 3292354          1970677          1321677               59.9
## # ℹ 1 more variable: Porcentaje_Mujeres <dbl>
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout

## `summarise()` has grouped output by 'year'. You can override using the
## `.groups` argument.
## # A tibble: 40 × 4
## # Groups:   year [10]
##     year age_group   Total Percentage
##    <int> <fct>       <int>      <dbl>
##  1  2013 0-13         6431      0.229
##  2  2013 14-29      898492     32.0  
##  3  2013 30-59     1647555     58.6  
##  4  2013 60+        257689      9.17 
##  5  2014 0-13        10293      0.364
##  6  2014 14-29      912955     32.3  
##  7  2014 30-59     1644799     58.2  
##  8  2014 60+        258127      9.13 
##  9  2015 0-13         7140      0.253
## 10  2015 14-29      887867     31.4  
## # ℹ 30 more rows

Laborales

Situación de ocupación (PEAA)

Categoría de ocupación de ocupación (CATE_PEA)

Tipo de ocupación (TIPO_PEA)

Rama de la ocupación principal (RAMA_PEA)

Informalidad laboral

Categoría de ocupación de ocupación (CATE_PEA)

Pobreza extrema y no extrema

Educación

Analfabetismo

Asiste actualmente a una institución educativa

Población en edad escolar no escolarizada

Condición NINI

Nivel educativo

Salud

Tenencia de seguro médico (S01a)

Previsión social

Tenencia de aportes a una caja de jubilaciones (b10)

Tableros (dashboard)

Socio-demográficos

Laborales

Educativos

Salud

Seguridad social