install.packages(“eph”)— title: “Trabajo_Final_Renzo_Valdez” author: “Renzo Valdez” date: “2025-05-25” output: html_document —
Para el análisis, se han seleccionado las siguientes variables de la EPH:
## Descargando EPH 2016 T2...
## Descargando EPH 2017 T2...
## Descargando EPH 2018 T2...
## Descargando EPH 2019 T2...
## Descargando EPH 2020 T2...
## Descargando EPH 2021 T2...
## Descargando EPH 2022 T2...
## Descargando EPH 2023 T2...
## Descargando EPH 2024 T2...
## Dimensiones de la base de datos combinada:
## [1] 467713 13
## Años únicos en la base de datos:
## [1] 2016 2017 2018 2019 2020 2021 2022 2023 2024
## Variables presentes en la base de datos:
## [1] "CODUSU" "COMPONENTE" "ANO4" "TRIMESTRE" "REGION"
## [6] "PP07H" "PONDIIO" "PONDERA" "CH04" "CH06"
## [11] "ESTADO" "P21" "NIVEL_ED"
Hacemos esto para responder la pregunta 2.a. Previo al análisis del ingreso, es crucial examinar la calidad de los datos, prestando especial atención a los valores de no respuesta (0 o -9) y atípicos en las variables de ingreso.
## --- Análisis de Ingreso de la Ocupación Principal (P21) ---
## Casos con P21 <= 0 (solo ocupados): 34477 (17.82%)
## Casos con P21 < 0 (solo ocupados, errores): 29181 (15.08%)
##
## --- Impacto de la No Respuesta (Imputación en EPH) ---
## Los casos iguales a cero, o menores a 0 (que deben ser -9) son casos que indican 'No ingresos' por eso, no son tomados en cuenta en nuestro analisis, siempre se harán los calculos con mayores iguales a 0. La EPH ajsuta sus ponderadores para evitar estos inconvenientes
## Casos con NA en P21 (ocupados): 0 (0%)
##
## No hay casos con NA explícitos
## Número de casos para análisis de P21 (ocupados con P21 > 0): 159010
La tabla solicitada en la pregunta 3 de la parte I se hizo directamente en Word. En lo que sigue del codigo, se utiliza, pero no se ha generado desde aquí. El chunk a continuación se corresponde con la pregunta 4 de la parte I.
## --- Preparando datos: Deflactación de ingresos ---
##
## Tabla de IPC cargada desde 'ipc_mayo_manual.csv':
## # A tibble: 6 × 3
## ANO4 TRIMESTRE IPC_valor
## <dbl> <dbl> <dbl>
## 1 2016 2 100
## 2 2017 2 110.
## 3 2018 2 140.
## 4 2019 2 220.
## 5 2020 2 315.
## 6 2021 2 469.
## # A tibble: 6 × 3
## ANO4 TRIMESTRE IPC_valor
## <dbl> <dbl> <dbl>
## 1 2019 2 220.
## 2 2020 2 315.
## 3 2021 2 469.
## 4 2022 2 753.
## 5 2023 2 1614.
## 6 2024 2 6064.
##
## Base 'eph_deflactada' creada con 'P21_real'.
## Dimensiones de 'eph_deflactada':
## [1] 159010 15
## Primeros casos de 'eph_deflactada' con P21 y P21_real:
## # A tibble: 6 × 5
## ANO4 TRIMESTRE P21 IPC_valor P21_real
## <dbl> <dbl> <int> <dbl> <dbl>
## 1 2016 2 20000 100 20000
## 2 2016 2 15600 100 15600
## 3 2016 2 30000 100 30000
## 4 2016 2 5600 100 5600
## 5 2016 2 6000 100 6000
## 6 2016 2 11000 100 11000
##
## Casos restantes en 'eph_deflactada' después de filtrar NAs en P21_real:
## [1] 159010 15
##
## Variable 'periodo_texto' creada y ordenada en 'eph_deflactada'.
## Primeros 10 valores únicos de 'periodo_texto' en 'eph_deflactada':
## [1] 2016-T2 2017-T2 2018-T2 2019-T2 2020-T2 2021-T2 2022-T2 2023-T2 2024-T2
## 9 Levels: 2016-T2 2017-T2 2018-T2 2019-T2 2020-T2 2021-T2 2022-T2 ... 2024-T2
Decidimos crear un gráfico con nuestra tabla de eventos importantes. Se muestra el grafico en el documento Word
## --- Analizando la evolución del ingreso real ---
##
## Resumen de la mediana y promedio del ingreso real por periodo:
## # A tibble: 9 × 6
## ANO4 TRIMESTRE periodo_texto mediana_P21_real promedio_P21_real
## <dbl> <dbl> <fct> <dbl> <dbl>
## 1 2016 2 2016-T2 8000 9523.
## 2 2017 2 2017-T2 9050. 11283.
## 3 2018 2 2018-T2 10029. 11161.
## 4 2019 2 2019-T2 8197. 9386.
## 5 2020 2 2020-T2 7939. 9074.
## 6 2021 2 2021-T2 6401. 8325.
## 7 2022 2 2022-T2 6639. 8247.
## 8 2023 2 2023-T2 6197. 8089.
## 9 2024 2 2024-T2 4994. 6888.
## # ℹ 1 more variable: n_observaciones <int>
##
## --- Diagnóstico de 'ingreso_real_resumen' ---
## [1] "tbl_df" "tbl" "data.frame"
## [1] 9 6
## # A tibble: 6 × 6
## ANO4 TRIMESTRE periodo_texto mediana_P21_real promedio_P21_real
## <dbl> <dbl> <fct> <dbl> <dbl>
## 1 2016 2 2016-T2 8000 9523.
## 2 2017 2 2017-T2 9050. 11283.
## 3 2018 2 2018-T2 10029. 11161.
## 4 2019 2 2019-T2 8197. 9386.
## 5 2020 2 2020-T2 7939. 9074.
## 6 2021 2 2021-T2 6401. 8325.
## # ℹ 1 more variable: n_observaciones <int>
## # A tibble: 6 × 6
## ANO4 TRIMESTRE periodo_texto mediana_P21_real promedio_P21_real
## <dbl> <dbl> <fct> <dbl> <dbl>
## 1 2019 2 2019-T2 8197. 9386.
## 2 2020 2 2020-T2 7939. 9074.
## 3 2021 2 2021-T2 6401. 8325.
## 4 2022 2 2022-T2 6639. 8247.
## 5 2023 2 2023-T2 6197. 8089.
## 6 2024 2 2024-T2 4994. 6888.
## # ℹ 1 more variable: n_observaciones <int>
## [1] FALSE
## [1] 2016-T2 2017-T2 2018-T2 2019-T2 2020-T2 2021-T2 2022-T2 2023-T2 2024-T2
## 9 Levels: 2016-T2 2017-T2 2018-T2 2019-T2 2020-T2 2021-T2 2022-T2 ... 2024-T2
## --------------------------------------------
##
## Periodos con NA en mediana_P21_real:
## # A tibble: 0 × 6
## # ℹ 6 variables: ANO4 <dbl>, TRIMESTRE <dbl>, periodo_texto <fct>,
## # mediana_P21_real <dbl>, promedio_P21_real <dbl>, n_observaciones <int>
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: A numeric `legend.position` argument in `theme()` was deprecated in ggplot2
## 3.5.0.
## ℹ Please use the `legend.position.inside` argument of `theme()` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Este chunk exporta la tabla de la mediana del ingreso real a un archivo Excel, tal como lo pide la pregunta 5 de la parte I
## --- Exportando resultados a Excel ---
## Tabla 'ingreso_real_resumen' exportada a: C:\Users\renzo\OneDrive\Desktop\trabajo_final\Resumen_Ingreso_Real_Ocupacion_Principal.xlsx
## --- Exportación completada ---
La selección de las variables de interés fue realizada al comienzo y ya están en la base con la que trabajamos.
Hemos decidido utilizar la mediana y rango intercuartílico porque son
mas robustos para ingresos. El siguiente chunk prepara la base de datos
eph_deflactada para los análisis de la Parte 2, filtrando a
la población mayor de 18 años y realizando un conteo de valores nulos
(NA)en las variables clave antes de cualquier imputación. Solo obtenemos
dos valores NA en PP07H, como es un número bastante pequeño, solo no los
hemos incluido en nuestro calculo para esa variable (formalidad), pero
sí hemos incluido esas filas para las otras variables donde no son
NA.
## --- Preparando base para Parte 2 y conteo de NAs ---
## Número de observaciones en `eph_deflactada` (original): 159010
## Número de observaciones en `eph_analisis_parte2` (filtrada >18 años): 157643
##
## Conteo de valores NA en variables clave (para población > 18 años):
## Variable N_NA Porcentaje_NA
## 1 P21_real 0 0.000000000
## 2 PONDIIO 0 0.000000000
## 3 REGION 0 0.000000000
## 4 PP07H 2 0.001268689
## 5 CH04 0 0.000000000
## 6 NIVEL_ED 0 0.000000000
## 7 CH06 0 0.000000000
## --- Generando tabla de serie histórica de Ingreso Real Mediano e IQR por Rango Etario ---
## # A tibble: 36 × 6
## ANO4 TRIMESTRE periodo_texto rango_etario Mediana_P21_Real IQR_P21_Real
## <dbl> <dbl> <chr> <chr> <dbl> <dbl>
## 1 2016 2 2016-T2 1. 16-29 años (J… 7000 6000
## 2 2017 2 2017-T2 1. 16-29 años (J… 7692. 7240.
## 3 2018 2 2018-T2 1. 16-29 años (J… 8596. 7880.
## 4 2019 2 2019-T2 1. 16-29 años (J… 6831. 6375.
## 5 2020 2 2020-T2 1. 16-29 años (J… 6351. 6351.
## 6 2021 2 2021-T2 1. 16-29 años (J… 5334. 5334.
## 7 2022 2 2022-T2 1. 16-29 años (J… 5843. 5975.
## 8 2023 2 2023-T2 1. 16-29 años (J… 5578. 6197.
## 9 2024 2 2024-T2 1. 16-29 años (J… 4947. 5772.
## 10 2016 2 2016-T2 2. 30-44 años (A… 9000 8300
## # ℹ 26 more rows
## --- Generando tabla de serie histórica de Ingreso Real Mediano e IQR por Sexo ---
## # A tibble: 18 × 6
## ANO4 TRIMESTRE periodo_texto nombre_sexo Mediana_P21_Real IQR_P21_Real
## <dbl> <dbl> <chr> <chr> <dbl> <dbl>
## 1 2016 2 2016-T2 Mujer 7000 8000
## 2 2017 2 2017-T2 Mujer 8145. 9502.
## 3 2018 2 2018-T2 Mujer 8596. 8596.
## 4 2019 2 2019-T2 Mujer 6831. 7969.
## 5 2020 2 2020-T2 Mujer 7939. 7463.
## 6 2021 2 2021-T2 Mujer 6401. 7467.
## 7 2022 2 2022-T2 Mujer 5975. 7038.
## 8 2023 2 2023-T2 Mujer 5578. 7127.
## 9 2024 2 2024-T2 Mujer 4947. 5937.
## 10 2016 2 2016-T2 Varón 9500 8000
## 11 2017 2 2017-T2 Varón 10860. 9050.
## 12 2018 2 2018-T2 Varón 11461. 8596.
## 13 2019 2 2019-T2 Varón 9107. 8197.
## 14 2020 2 2020-T2 Varón 9527. 8733.
## 15 2021 2 2021-T2 Varón 8534. 7467.
## 16 2022 2 2022-T2 Varón 7967. 6639.
## 17 2023 2 2023-T2 Varón 8428. 7437.
## 18 2024 2 2024-T2 Varón 6597. 7421.
## --- Generando tabla de serie histórica de Ingreso Real Mediano y IQR por Nivel Educativo (Agrupado) ---
## # A tibble: 27 × 6
## ANO4 TRIMESTRE periodo_texto nivel_educativo_agrupado_final Mediana_P21_Real
## <dbl> <dbl> <chr> <chr> <dbl>
## 1 2016 2 2016-T2 1. Hasta primaria completa 6000
## 2 2017 2 2017-T2 1. Hasta primaria completa 7240.
## 3 2018 2 2018-T2 1. Hasta primaria completa 7163.
## 4 2019 2 2019-T2 1. Hasta primaria completa 5464.
## 5 2020 2 2020-T2 1. Hasta primaria completa 5081.
## 6 2021 2 2021-T2 1. Hasta primaria completa 4267.
## 7 2022 2 2022-T2 1. Hasta primaria completa 5046.
## 8 2023 2 2023-T2 1. Hasta primaria completa 4648.
## 9 2024 2 2024-T2 1. Hasta primaria completa 3298.
## 10 2016 2 2016-T2 2. Hasta secundaria completa 8000
## # ℹ 17 more rows
## # ℹ 1 more variable: IQR_P21_Real <dbl>
## --- Generando tabla de serie histórica de Ingreso Real Mediano y IQR por Formalidad ---
## # A tibble: 18 × 6
## ANO4 TRIMESTRE periodo_texto tipo_formalidad_label Mediana_P21_Real
## <dbl> <dbl> <chr> <chr> <dbl>
## 1 2016 2 2016-T2 Aporta (Formal) 11000
## 2 2017 2 2017-T2 Aporta (Formal) 13484.
## 3 2018 2 2018-T2 Aporta (Formal) 12894.
## 4 2019 2 2019-T2 Aporta (Formal) 11384.
## 5 2020 2 2020-T2 Aporta (Formal) 11115.
## 6 2021 2 2021-T2 Aporta (Formal) 10668.
## 7 2022 2 2022-T2 Aporta (Formal) 10623.
## 8 2023 2 2023-T2 Aporta (Formal) 9916.
## 9 2024 2 2024-T2 Aporta (Formal) 8246.
## 10 2016 2 2016-T2 No Aporta (Informal) 4800
## 11 2017 2 2017-T2 No Aporta (Informal) 5430.
## 12 2018 2 2018-T2 No Aporta (Informal) 5731.
## 13 2019 2 2019-T2 No Aporta (Informal) 4554.
## 14 2020 2 2020-T2 No Aporta (Informal) 4128.
## 15 2021 2 2021-T2 No Aporta (Informal) 4267.
## 16 2022 2 2022-T2 No Aporta (Informal) 4249.
## 17 2023 2 2023-T2 No Aporta (Informal) 4338.
## 18 2024 2 2024-T2 No Aporta (Informal) 3298.
## # ℹ 1 more variable: IQR_P21_Real <dbl>
## --- Generando tabla de serie histórica de Ingreso Real Mediano y IQR por Región ---
## # A tibble: 54 × 6
## ANO4 TRIMESTRE periodo_texto nombre_region Mediana_P21_Real IQR_P21_Real
## <dbl> <dbl> <chr> <chr> <dbl> <dbl>
## 1 2016 2 2016-T2 Cuyo 7000 6000
## 2 2017 2 2017-T2 Cuyo 9050. 9050.
## 3 2018 2 2018-T2 Cuyo 8596. 8739.
## 4 2019 2 2019-T2 Cuyo 6831. 7741.
## 5 2020 2 2020-T2 Cuyo 6510. 7304.
## 6 2021 2 2021-T2 Cuyo 5974. 7041.
## 7 2022 2 2022-T2 Cuyo 5975. 5975.
## 8 2023 2 2023-T2 Cuyo 5578. 6817.
## 9 2024 2 2024-T2 Cuyo 4947. 5277.
## 10 2016 2 2016-T2 Gran Buenos Aires 9000 9000
## # ℹ 44 more rows
## --- Calculando y graficando serie histórica del Ingreso Real Mediano Ponderado por Rango Etario ---
## --- Calculando y graficando serie histórica del Ingreso Real Mediano Ponderado por Sexo ---
## --- Calculando y graficando serie histórica del Ingreso Real Mediano Ponderado por Nivel Educativo (AGRUPADO) ---
## --- Calculando y graficando serie histórica del Ingreso Real Mediano Ponderado por Formalidad ---
## --- Calculando y graficando serie histórica del Ingreso Real Mediano Ponderado por Región ---
## Warning in geom_point(linewidth = 2): Ignoring unknown parameters: `linewidth`
Como parte del punto 4 (sistematización en un texto argumentativo), hemos decidido incluir este chunk para exportar las tablas y gráficos creados en toda la codificación.
## Todas las tablas de serie histórica de ingreso real exportadas a 'Resultados_Tablas_Historicas/series_historicas_ingreso_detallado.xlsx'.
## GRAFICO1.png' exportado.
## GRAFICO2.png exportado.
## GRAFICO3.png' exportado.
## GRAFICO4.png exportado.
## GRAFICO5.png exportado.
## GRAFICO6.png exportado.