Indicadores basados en la Encuesta Permanente de Hogares Contínua del Paraguy (EPHC)
Laboratorio de Investigación en Estadística Teórica y Aplicada
Actualizada al año
2022
Laboratorio de Investigación en Estadística Teórica y Aplicada
Actualizada al año 2022
Introducción
En la era actual de información y análisis, los microdatos provenientes de encuestas de hogares representan un valioso recurso para comprender diversos aspectos de la sociedad, incluyendo la demografía, el mercado laboral, la educación y la seguridad social. Estas encuestas capturan una vasta gama de información detallada y representativa de las características y comportamientos de los hogares y las personas que los componen. Mediante la explotación de estas fuentes de datos ricas y granulares, es posible generar indicadores precisos y significativos que impulsan la toma de decisiones informada en políticas públicas, investigaciones académicas y la comprensión general de tendencias sociales.
En este contexto, la herramienta R se erige como un pilar fundamental para aprovechar al máximo estos microdatos y traducirlos en información valiosa. R es un software de código abierto y gratuito, altamente flexible y robusto, que brinda una plataforma poderosa para manipular, visualizar y analizar datos de manera efectiva. Su comunidad activa de usuarios y desarrolladores ha creado una amplia gama de paquetes especializados, lo que permite realizar tareas complejas con facilidad. R se destaca por su capacidad para gestionar grandes conjuntos de datos, realizar análisis estadísticos avanzados y generar gráficos y visualizaciones atractivas.
Al emplear R en el análisis de microdatos de encuestas de hogares, los investigadores y analistas pueden identificar patrones y relaciones que son fundamentales para comprender los cambios sociales, económicos y demográficos. Desde la elaboración de perfiles demográficos hasta el estudio de las tendencias de empleo y educación, pasando por el análisis de la inclusión social a través de los programas de seguridad social, R ofrece un abanico de herramientas que facilitan la creación de indicadores precisos y relevantes.
En este documento, exploraremos cómo el uso de microdatos de encuestas de hogares en conjunto con el software R puede enriquecer nuestro entendimiento de la sociedad y proporcionar insights profundos en una variedad de temas. Descubriremos cómo el análisis detallado de estas fuentes de información, impulsado por la versatilidad de R, puede ser instrumental en la toma de decisiones, la planificación de políticas y la generación de conocimiento en campos clave.
Fuente de datos
La Encuesta Permanente de Hogares (EPH) es llevado a cabo por el Instituto Nacional de Estadísticas (INE) y tiene como objetivo fundamental la generación de estadísticas que permitan monitorear trimestralmente las características clave del mercado laboral, así como otros aspectos socioeconómicos. Esta encuesta abarca a las personas que residen en hogares particulares ubicados en los departamentos de la Región Oriental y Pte. Hayes.
Para llevar a cabo este propósito, se ha establecido un tamaño muestral de 5,004 hogares por trimestre en el año 2023. La metodología empleada se basa en un enfoque de muestra semi-panel con una rotación del 50% de los hogares durante dos años consecutivos. Esto significa que en dos años seguidos, el 50% de los hogares se solapan entre los mismos trimestres, con el propósito principal de controlar los cambios reales en las características laborales.
La EPH comenzó su ejecución en la segunda semana de enero de 2017 y se ha mantenido en funcionamiento de manera continua hasta la fecha actual. En el anexo, se presentan los resultados correspondientes a veintiséis trimestres, abarcando desde el año 2017 hasta el 2023.
La relevancia de este material radica en su capacidad para proporcionar información sobre los indicadores clave de empleo. Esta información resulta esencial para la formulación, implementación y evaluación de políticas públicas orientadas a mejorar las condiciones de empleo y, por extensión, las condiciones de vida de la población en general.
Gestión de los datos
Transformación de las bases en formato SAV a csv
library(haven)
R02_EPH2013 <- read_sav("R02_EPH2013.SAV")
write.csv(R02_EPH2013, file = "r02eph2013.csv", row.names = FALSE)
R02_EPH2014 <- read_sav("R02_EPH2014.SAV")
write.csv(R02_EPH2014, file = "r02eph2014.csv", row.names = FALSE)
R02_EPH2015 <- read_sav("R02_EPH2015.SAV")
write.csv(R02_EPH2015, file = "r02eph2015.csv", row.names = FALSE)
R02_EPH2016 <- read_sav("R02_EPH2016.SAV")
write.csv(R02_EPH2016, file = "r02eph2016.csv", row.names = FALSE)
R02_EPH2017 <- read_sav("R02_EPH2017.SAV")
write.csv(R02_EPH2017, file = "r02eph2017.csv", row.names = FALSE)
R02_EPH2018 <- read_sav("R02_EPH2018.sav")
write.csv(R02_EPH2018, file = "r02eph2018.csv", row.names = FALSE)
R02_EPH2019 <- read_sav("R02_EPH2019.sav")
write.csv(R02_EPH2019, file = "r02eph2019.csv", row.names = FALSE)
R02_EPH2020 <- read_sav("R02_EPH2020.sav")
write.csv(R02_EPH2020, file = "r02eph2020.csv", row.names = FALSE)
R02_EPH2021 <- read_sav("R02_EPH2021.sav")
write.csv(R02_EPH2021, file = "r02eph2021.csv", row.names = FALSE)
R02_EPH2022 <- read_sav("R02_EPH2022.SAV")
write.csv(R02_EPH2022, file = "r02eph2022.csv", row.names = FALSE)
eph13<-read.csv("r02eph2013.csv")
eph14<-read.csv("r02eph2014.csv")
eph15<-read.csv("r02eph2015.csv")
eph16<-read.csv("r02eph2016.csv")
eph17<-read.csv("r02eph2017.csv")
eph18<-read.csv("r02eph2018.csv")
eph19<-read.csv("r02eph2019.csv")
eph20<-read.csv("r02eph2020.csv")
eph21<-read.csv("r02eph2021.csv")
eph22<-read.csv("r02eph2022.csv")
# Convert variable names to lowercase for all data frames
eph13 <- setNames(eph13, tolower(names(eph13)))
eph14 <- setNames(eph14, tolower(names(eph14)))
eph15 <- setNames(eph15, tolower(names(eph15)))
eph16 <- setNames(eph16, tolower(names(eph16)))
eph17 <- setNames(eph17, tolower(names(eph17)))
eph18 <- setNames(eph18, tolower(names(eph18)))
eph19 <- setNames(eph19, tolower(names(eph19)))
eph20 <- setNames(eph20, tolower(names(eph20)))
eph21 <- setNames(eph21, tolower(names(eph21)))
eph22 <- setNames(eph22, tolower(names(eph22)))
eph13$year<-2013
eph14$year<-2014
eph15$year<-2015
eph16$year<-2016
eph17$year<-2017
eph18$year<-2018
eph19$year<-2019
eph20$year<-2020
eph21$year<-2021
eph22$year<-2022
library(dplyr)
eph13 <- eph13 %>%
select(year, p06, p02, peaa,cate_pea,pead,area, e01aimde, fexajustado) %>%
filter(peaa == 1 & e01aimde > 0) %>%
rename(fex = fexajustado)
names(eph13)
str(eph13)
library(dplyr)
eph14 <- eph14 %>%
select(year, p06, p02, peaa,cate_pea,pead,area, e01aimde, fexajustado) %>%
subset(peaa==1 & e01aimde>0) %>%
rename(fex = fexajustado)
names(eph14)
str(eph14)
library(dplyr)
eph15 <- eph15 %>%
select(year, p06, p02, peaa, e01aimde,fexajustado) %>%
subset(peaa==1 & e01aimde>0) %>%
rename(fex = fexajustado)
names(eph15)
str(eph15)
library(dplyr)
eph16 <- eph16 %>%
select(year, p06, p02, peaa, e01aimde,fex) %>%
subset(peaa==1 & e01aimde>0)
names(eph16)
str(eph16)
library(dplyr)
eph17 <- eph17 %>%
select(year, p06, p02, peaa, e01aimde,fex) %>%
subset(peaa==1 & e01aimde>0)
names(eph17)
str(eph17)
library(dplyr)
eph18 <- eph18 %>%
select(year, p06, p02, peaa, e01aimde,fex) %>%
subset(peaa==1 & e01aimde>0)
names(eph18)
str(eph18)
library(dplyr)
eph19 <- eph19 %>%
select(year, p06, p02, peaa, e01aimde,fex) %>%
subset(peaa==1 & e01aimde>0)
names(eph19)
str(eph19)
library(dplyr)
eph20 <- eph20 %>%
select(year, p06, p02, peaa, e01aimde,fex) %>%
subset(peaa==1 & e01aimde>0)
names(eph20)
str(eph20)
library(dplyr)
eph21 <- eph21 %>%
select(year, p06, p02, peaa, e01aimde,fex) %>%
subset(peaa==1 & e01aimde>0)
names(eph21)
str(eph21)
Socio-demográficas
## [1] "year" "p06" "p02" "peaa" "e01aimde" "fex"
## 'data.frame': 101025 obs. of 6 variables:
## $ year : int 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
## $ p06 : int 6 1 6 1 6 1 1 6 6 6 ...
## $ p02 : int 33 26 22 54 53 37 54 39 67 66 ...
## $ peaa : int 1 1 1 1 1 1 1 1 1 1 ...
## $ e01aimde: num 1815138 3186575 806728 4033639 3025229 ...
## $ fex : int 140 100 100 135 108 108 100 100 80 80 ...
FEX
## year fex
## 1 2013 2810167
## 2 2014 2826174
## 3 2015 2825103
## 4 2016 2882240
## 5 2017 2988619
## 6 2018 3071747
## 7 2019 3159885
## 8 2020 3144484
## 9 2021 3213048
## 10 2022 3292354
P06
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
##
## Attaching package: 'tidyr'
## The following object is masked _by_ '.GlobalEnv':
##
## table1
## `summarise()` has grouped output by 'year'. You can override using the
## `.groups` argument.
## # A tibble: 10 × 6
## # Groups: year [10]
## year Total Cantidad_Hombres Cantidad_Mujeres Porcentaje_Hombres
## <int> <int> <int> <int> <dbl>
## 1 2013 2810167 1649568 1160599 58.7
## 2 2014 2826174 1707880 1118294 60.4
## 3 2015 2825103 1725734 1099369 61.1
## 4 2016 2882240 1761474 1120766 61.1
## 5 2017 2988619 1833533 1155086 61.4
## 6 2018 3071747 1876249 1195498 61.1
## 7 2019 3159885 1892156 1267729 59.9
## 8 2020 3144484 1900744 1243740 60.4
## 9 2021 3213048 1940119 1272929 60.4
## 10 2022 3292354 1970677 1321677 59.9
## # ℹ 1 more variable: Porcentaje_Mujeres <dbl>
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
## `summarise()` has grouped output by 'year'. You can override using the
## `.groups` argument.
## # A tibble: 40 × 4
## # Groups: year [10]
## year age_group Total Percentage
## <int> <fct> <int> <dbl>
## 1 2013 0-13 6431 0.229
## 2 2013 14-29 898492 32.0
## 3 2013 30-59 1647555 58.6
## 4 2013 60+ 257689 9.17
## 5 2014 0-13 10293 0.364
## 6 2014 14-29 912955 32.3
## 7 2014 30-59 1644799 58.2
## 8 2014 60+ 258127 9.13
## 9 2015 0-13 7140 0.253
## 10 2015 14-29 887867 31.4
## # ℹ 30 more rows