Trabajo Final

Factores de la informalidad laboral juvenil en el Perú (15–29 años)

Análisis con datos de la Encuesta Nacional de Hogares (ENAHO) 2023

1 Introducción

La informalidad laboral juvenil es una de las formas más evidentes de desigualdad en el Perú. Aunque muchos jóvenes trabajan, la mayoría lo hace sin contrato, sin seguro y sin derechos. Según los datos de la Encuesta Nacional de Hogares (ENAHO) 2023, más del 70% del empleo juvenil en el país es informal. Esto implica que tener trabajo no garantiza condiciones laborales dignas, sino que es más probable que los jóvenes enfrenten situaciones precarias. La informalidad, en el caso de los jóvenes, es más una norma que una excepción. Este fenómeno también se presenta en otros países de América Latina. El Global Youth Development Index del Commonwealth (2020) señala que los jóvenes en la región siguen enfrentando barreras significativas para acceder a empleo formal, a la tecnología y a la participación cívica. En el caso específico de Perú, el problema se ve agravado por la falta de educación superior, la desigualdad regional y la débil presencia del Estado. La informalidad laboral juvenil no es simplemente un efecto de la crisis económica, sino una forma de exclusión política y social estructural.

Este trabajo busca abordar esta problemática a través de la siguiente pregunta central:

¿Qué factores explican que un joven tenga un empleo informal en el Perú?

El análisis de esta cuestión se realiza utilizando los datos proporcionados por la ENAHO 2023, que es una encuesta nacional representativa que recoge información sobre empleo, salud, educación y condiciones de vida de los hogares peruanos. En este estudio, nos enfocamos en jóvenes de 15 a 29 años que se encuentran ocupados. La variable principal del análisis (dependiente) es la informalidad del empleo, codificada como 1 para empleo informal y 0 para empleo formal. Además, se consideran variables independientes como edad, sexo, región, nivel educativo, acceso a internet, seguro de salud e ingresos. Estas variables son fundamentales para comprender los determinantes que inciden en la probabilidad de que los jóvenes accedan a un empleo con derechos laborales.

1.1 Hipótesis

La hipótesis de este estudio es que los factores socioeconómicos y demográficos tienen un impacto significativo en la probabilidad de que los jóvenes en el Perú trabajen en el sector informal. Se postula que aquellos con menor nivel educativo, que residen en regiones rurales y que tienen acceso limitado a tecnologías de la información, tienen una mayor probabilidad de estar empleados en el sector informal. Además, se espera que el sexo y el acceso a servicios de salud también sean determinantes clave en esta decisión.

1.2 Relevancia de la investigación para la Ciencia Política

La relevancia de este estudio para la Ciencia Política radica en su capacidad para iluminar las desigualdades estructurales dentro del mercado laboral juvenil en el Perú. El acceso desigual al empleo formal entre los jóvenes puede verse como un reflejo de las fallas en la implementación de políticas públicas, especialmente en lo que respecta a la educación, la tecnología y la salud. Al identificar los factores que contribuyen a la informalidad laboral, este análisis también puede proporcionar insumos clave para la formulación de políticas públicas que busquen mitigar la exclusión social y promover el acceso a trabajos con derechos. De esta manera, la investigación no solo aborda una cuestión económica, sino también una cuestión política, vinculada al derecho al trabajo digno y a la justicia social.

1.3 Justificación teórica de la elección de las variables

La elección de las variables en este estudio se justifica teóricamente con base en la literatura sobre empleo y desigualdad. Cada una de las variables seleccionadas se relaciona directamente con los factores que estructuran la oportunidad de los jóvenes de acceder a empleo formal:

Sexo: El género es una variable esencial, ya que las mujeres jóvenes enfrentan barreras adicionales para acceder a trabajos formales debido a los prejuicios de género en el mercado laboral. La literatura muestra que las mujeres, especialmente en contextos de informalidad, suelen estar en empleos más precarios y con menos oportunidades de avanzar profesionalmente (Figueroa et al., 2020).

Edad: La edad es un factor relevante porque está directamente asociada con la experiencia laboral. Los estudios previos (GRADE, 2017) demuestran que los jóvenes más jóvenes, especialmente aquellos que recién ingresan al mercado laboral, enfrentan mayores dificultades para acceder a empleos formales debido a su falta de experiencia y las barreras que existen para conseguir estabilidad laboral.

Nivel educativo: El nivel educativo es probablemente uno de los determinantes más importantes en la formalidad del empleo. La literatura sobre la informalidad laboral muestra que aquellos jóvenes con educación superior tienen más probabilidades de acceder a trabajos formales que aquellos con niveles educativos más bajos. Este hallazgo es consistente con el Global Youth Development Index (2020), que resalta la relación directa entre el nivel educativo y la posibilidad de acceder a empleos formales en América Latina.

Región: La ubicación geográfica de los jóvenes también influye en la informalidad laboral. Las zonas rurales del Perú, por ejemplo, tienen mayores tasas de informalidad laboral debido a la falta de infraestructura, servicios públicos adecuados y políticas de empleo. Según el informe de la Defensoría del Pueblo (2024), las regiones fuera de Lima Metropolitana presentan una mayor prevalencia de empleo informal juvenil debido a la falta de oferta de oportunidades laborales formales.

Acceso a internet: El acceso a tecnologías de la información es un factor clave en el acceso a empleos formales en la actualidad. Los jóvenes con acceso a internet tienen más oportunidades de acceder a trabajos formales a través de plataformas de empleo en línea. Sin embargo, los que no tienen acceso a internet se ven limitados en sus oportunidades de empleo, lo que refuerza la desigualdad social. Esto ha sido señalado en estudios de UNESCO (2021) sobre las barreras tecnológicas para los jóvenes.

Ingresos: Los ingresos de los jóvenes son una variable crucial, ya que los trabajadores informales tienden a recibir salarios más bajos, careciendo de beneficios como pensiones o seguros. El acceso a ingresos estables es, por lo tanto, un indicador directo de la formalidad laboral.

Meses trabajados en ocupación principal: En Perú, donde los jóvenes enfrentan altas tasas de informalidad superiores al 70% (INEI, 2023), un menor número de meses trabajados puede indicar una mayor probabilidad de estar en el sector informal, ya que refleja inestabilidad laboral o alta rotación.

2 Revisión de la literatura

La literatura sobre la informalidad laboral juvenil ha sido vasta, especialmente en América Latina, donde las altas tasas de informalidad se consideran una manifestación de la exclusión social y económica. Según Portes y Haller (2020), la informalidad laboral es un fenómeno complejo que está influenciado por factores estructurales como la educación, la discriminación de género y las diferencias regionales.

Estudios previos, como los realizados por GRADE (2017, 2018), evidencian que el acceso a empleo formal está estrechamente relacionado con el nivel educativo. Los jóvenes con niveles educativos más bajos tienen mayores probabilidades de estar empleados de manera informal. Además, los autores señalan que la falta de experiencia laboral y las escasas oportunidades de empleo formal contribuyen a la perpetuación de la informalidad en este grupo.

El Global Youth Development Index del Commonwealth (2020) también resalta que los jóvenes en América Latina siguen enfrentando barreras para acceder a empleo formal, no solo por la falta de educación, sino también debido a la falta de acceso a tecnologías y a servicios de salud adecuados. Estas variables se combinan con las dificultades estructurales del mercado laboral, haciendo que los jóvenes sigan siendo excluidos de los trabajos formales.

En el contexto peruano, investigaciones como la de Defensoría del Pueblo (2024) indican que las diferencias regionales juegan un papel crucial en la informalidad laboral juvenil. Mientras que en la Costa y algunas grandes ciudades se observan mejores condiciones laborales, en las zonas rurales y en regiones como la selva y la sierra, la informalidad es mucho más prevalente debido a la falta de políticas públicas eficaces que promuevan el empleo formal.


3 Metodología

El apartado de metodología presenta el marco metodológico empleado para el análisis de la informalidad laboral en jóvenes peruanos de 15 a 29 años, utilizando los datos de la ENAHO 2023. Este marco incluye la selección y justificación de la base de datos, los procedimientos de limpieza de datos, la definición de la unidad de análisis, la descripción detallada de las variables consideradas, así como la especificación del enfoque estadístico adoptado para evaluar los determinantes de la informalidad.

3.1 Unidad de análisis

La unidad de análisis en este estudio es el joven de entre 15 y 29 años que se encuentra ocupado, es decir, que reporta ingresos y antigüedad laboral superior a cero, en el Perú, según los datos de la ENAHO 2023. Este grupo fue seleccionado con el propósito de centrarse en las dinámicas laborales específicas de la población juvenil, que enfrenta desafíos particulares en el mercado laboral peruano, como las altas tasas de informalidad.

3.2 Justificación de la elección de la base de datos

La Encuesta Nacional de Hogares (ENAHO), elaborada por el Instituto Nacional de Estadística e Informática (INEI) en el Perú, fue seleccionada como fuente de datos principal. La elección de esta base se justifica no solo por su periodicidad anual y diseño muestral robusto, sino también por su capacidad para capturar información detallada sobre la población joven de 15 a 29 años, que es el foco de esta investigación. Se optó por utilizar los datos del año 2023, ya que, al inicio de esta investigación, es la última encuesta disponible con un recopilado anual completo. En cambio, las encuestas más recientes, como las de 2024 y 2025, solo cuentan con recopilados trimestrales, los cuales no se ajustan al enfoque de este estudio.

Sin embargo, a pesar del carácter holístico de la ENAHO, muchas de las variables recopiladas presentaban valores faltantes (NA), los cuales resultaban inadecuados para el análisis, ya que podían introducir sesgos, distorsionar las estimaciones y comprometer la validez de los resultados en un modelo logístico binario. Además, la unión inicial de los cuatro módulos generó una base consolidada excesivamente pesada, con numerosas variables irrelevantes para el objetivo de analizar la informalidad laboral únicamente en jóvenes ocupados peruanos de 15 a 29 años, lo que dificultaba un manejo eficiente.

Por esta razón, se llevó a cabo un proceso de limpieza de datos, seleccionando únicamente las variables relevantes de los cuatro módulos y eliminando los valores faltantes mediante el método de eliminación por lista. Este proceso fue crucial para estandarizar las variables, asegurando consistencia en los formatos y categorías (por ejemplo, ingresos mensuales unificados y antigüedad laboral en meses), lo que facilitó comparaciones precisas y redujo los errores en el análisis. A continuación, se detalla paso a paso el proceso de limpieza y delimitación de la base de datos principal de la ENAHO 2023 y sus cuatro módulos.

Inicialmente, se cargaron los cuatro módulos de la ENAHO 2023 en RStudio: Características de los Miembros del Hogar (Módulo 200), Educación (Módulo 300), Salud (Módulo 400) y Empleo e Ingresos (Módulo 500), descargados en formato CSV desde “Microdatos”, la web oficial de la INEI que recopila bases de datos de diversas encuestas realizadas a nivel nacional, regional y local.

Para unificar los módulos, se creó una variable identificadora única, ID_UNICO, concatenando las variables CONGLOME, VIVIENDA, HOGAR y CODPERSO con el separador “_” en cada módulo, lo que garantizó la correspondencia entre observaciones durante las uniones.

En el módulo de Salud, se convirtió la variable P400A3 (año de nacimiento) a formato numérico y se calculó la edad restando el año de nacimiento de 2023, filtrando los datos para incluir solo a jóvenes de 15 a 29 años.

Posteriormente, se realizaron uniones internas utilizando ID_UNICO como clave: primero, se unió el módulo de Salud (ya filtrado por edad) con el módulo de Educación, y luego se incorporaron los módulos de Empleo e Ingresos y Características de los Miembros del Hogar, generando una base consolidada llamada BASE_MODELO. De esta base, se seleccionaron las variables relevantes para el análisis: ID_UNICO, EDAD, P207.y.y (sexo), P301A (nivel educativo), P314A (acceso a internet), OCUPINF (empleo informal), P524E1 (ingreso de trabajadores dependientes), P530A (ingreso mensual de trabajadores independientes), P523 (periodicidad de ingreso de trabajadores dependientes), DOMINIO.x (región), P513A1 (antigüedad en años) y P513A2 (antigüedad en meses), creando una subbase (sub_base) para optimizar el análisis.

A continuación, se recodificaron las variables utilizando esta subbase. La variable dependiente, OCUPINF, se renombró como INFORMAL y se recodificó como 1 (sí, empleo informal) y 0 (no, empleo formal).

Para las variables independientes, se procesó P301A (nivel educativo) eliminando casos con valores 1 (sin nivel), 2 (educación inicial) y 12 (básica especial) para simplificar el análisis, y se recodificó en dos categorías: Por un lado, “Educación Básica”, con los valores 3-6 que incluyen primaria incompleta, primaria completa, secundaria completa y secundaria incompleta. Por otro lado, “Educación Superior”, con los valores 7-11, que incluyen educación superior no universitaria completa, superior no universitaria incompleta, universitaria completa, universitaria incompleta y posgrado. Finalmente, se recodificó la variable resultante como NIVEL_EDUCATIVO, una variable categórica ordinal.

La variable P207.y.y (sexo) se renombró como SEXO, recodificando 1 para mujeres y 0 para hombres. La variable P314A (acceso a internet) se renombró como INTERNET y se recodificó como 1 (sí) y 0 (no). La variable DOMINIO.x (región) se renombró como REGION y se recodificó en tres categorías: En principio, “Costa” agrupó los valores 1, 2, 3 y 8, correspondientes a Costa norte, centro, sur y Lima metropolitana, respectivamente. Asimismo, “Sierra” agrupó los valores 4, 5 y 6, correspondientes a la Sierra norte, centro y sur. Por último, se recodificó el valor 7 a “Selva”.

Para estandarizar los ingresos, se procesaron los ingresos de trabajadores dependientes e independientes por separado.

Por un lado, la variable P524E1 (ingreso dependiente) se renombró como ingresodep y se convirtió a formato numérico, creando la variable “ingreso_mensual_dep” al estandarizar los ingresos según la periodicidad indicada en P523: diario (multiplicado por 30), semanal (por 4), quincenal (por 2) o mensual (por 1), redondeando los resultados a dos decimales. Para los trabajadores independientes, la variable P530A, ya expresada en meses, se renombró como “ingreso_mensual_indep”. Se creó una variable unificada, ingresos_jovenes, asignando el valor de ingreso_mensual_dep si estaba disponible; de lo contrario, se usó ingreso_mensual_indep, unificando así los ingresos de ambos tipos de trabajadores.

Para calcular la antigüedad laboral, se utilizaron las variables P513A1 (antigüedad en años) y P513A2 (antigüedad en meses) de BASE_MODELO, creando mesestrab_antiguedad al convertir P513A1 a meses (multiplicando por 12) y sumándolo con P513A2, obteniendo la antigüedad total en meses.

El tratamiento de valores faltantes se realizó mediante el método de eliminación por lista (listwise deletion). Se evaluó la proporción de valores faltantes en ingresos_jovenes, asignando un valor de 0 a los valores faltantes en ingresos_jovenes, asumiendo que no tenían ingresos. Luego, se eliminaron las observaciones con valores faltantes restantes en ingresos_jovenes. Se filtró la base para incluir únicamente a jóvenes ocupados (mesestrab_antiguedad > 0), ya que solo ellos reportan ingresos. Además, se identificaron y eliminaron dos observaciones con valores faltantes en INTERNET, asegurando una base sin datos faltantes. Finalmente, se verificó la integridad de la base resultante, base_ocupados_jov, inspeccionando valores faltantes por variable y la estructura de los datos.

Así, la base final contiene las variables ID_UNICO, ingresos_jovenes, SEXO, EDAD, INFORMAL, REGION, NIVEL_EDUCATIVO, INTERNET y mesestrab_antiguedad sin valores perdidos, lista para el análisis logístico. Por último, la base se guardó en un archivo llamado “data_jovenes.sav” para su uso posterior.

3.3 Tipo de análisis estadístico

Para abordar la pregunta de investigación, se empleó un modelo logístico binario. Este modelo intenta predecir qué tan probable es que un joven trabaje en el sector informal basado en su sexo, edad, nivel educativo, acceso a internet, región, ingresos y antigüedad laboral. Para ello, calcula los “log-odds”, que representan el logaritmo del cociente entre la probabilidad de informalidad (1) y la de formalidad (0) de la variable INFORMAL, y los transforma en “odds ratios”, coeficientes que indican cuánto cambia la probabilidad relativa de trabajar en el sector informal por cada unidad o categoría de las variables independientes.

Así, un odds ratio mayor a 1 indica un aumento en la probabilidad de informalidad, mientras que un odds ratio menor a 1 sugiere una reducción en dicha probabilidad. Estos coeficientes permiten interpretar de manera clara y cuantitativa la influencia de cada variable, facilitando la identificación de factores clave y estadísticamente significativos asociados con la informalidad laboral juvenil.

La elección del modelo logístico binario se fundamenta en su idoneidad para modelar variables dicotómicas, como INFORMAL, que distingue entre empleo informal (1) y formal (0). Además, permite obtener una lista detallada de cada variable independiente, proporcionando información clave (como coeficientes, significancia estadística y márgenes de error) lo que facilita la interpretación de su impacto en la informalidad laboral. Por último, el modelo destaca por su flexibilidad, ya que puede incorporar tanto variables categóricas (sexo, región, nivel educativo y acceso a internet) como continuas (edad, ingresos y antigüedad laboral), adaptándose eficientemente a la estructura de los datos de la ENAHO 2023.

La implementación del análisis se realizó en RStudio: se utilizó la función glm() con la familia binomial y el enlace logit, lo que asegura una estimación robusta de los parámetros. Para evaluar los resultados, se consideraron métricas como el coeficiente de “log-verosimilitud”, que mide la bondad del ajuste del modelo; los p-value de los coeficientes, que indican la significancia estadística de cada variable; y medidas de ajuste como el Criterio de Información de Akaike (AIC), que permiten comparar modelos y evaluar su capacidad explicativa.

3.4 Características de las variables: diccionario de datos

La base de datos final (data_jovenes) integra las variables ID_UNICO, INFORMAL, ingresos_jovenes, SEXO, EDAD, REGION, NIVEL_EDUCATIVO, INTERNET y mesestrab_antiguedad. Los detalles de estas variables, incluyendo su nombre, descripción de la dimensión medida, valores posibles y clasificación como dependiente o independiente, numérica o categórica, se encuentran especificados en el siguiente diccionario de diccionario de datos.

#Abrimos la base de datos:
data_jovenes <- read.csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vRBN3XyUbtmb31zRlbsKyaBcWOi0WIz6U2k5IRWZ5ky5SW9w-8W66RyiTGypUZpinACmOfZ9McC2xop/pub?output=csv")

# Diccionario de datos para el análisis de informalidad laboral en jóvenes peruanos

# Cargar paquetes necesarios
library(knitr)
library(kableExtra)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following object is masked from 'package:kableExtra':
## 
##     group_rows
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
# Crear el diccionario de datos como un data frame
diccionario <- data.frame(
  `Nombre de la Variable` = c("ID_UNICO", "INFORMAL", "ingresos_jovenes", "SEXO", "EDAD", 
                             "REGION", "NIVEL_EDUCATIVO", "INTERNET", "mesestrab_antiguedad"),
  Descripción = c(
    "Identificador único de cada joven (CONGLOME_VIVIENDA_HOGAR_CODPERSO)",
    "Indica si el joven tiene empleo informal",
    "Ingreso mensual total (dependiente o independiente) en soles en ocupación principal",
    "Sexo del joven",
    "Edad del joven en años cumplidos",
    "Región geográfica donde reside el joven",
    "Nivel educativo más alto alcanzado por el joven",
    "Indica si el joven tiene acceso a internet",
    "Antigüedad laboral en meses en ocupación principal"
  ),
  Valores = c(
    "Cadena de texto (e.g., '230001_01_002_0001')",
    "Binario: 1 = Sí, 0 = No",
    "Numérico (≥ 0)",
    "Binario: 1 = Mujer, 0 = Hombre",
    "Numérico (15-29)",
    "Categórico: 'Costa', 'Sierra', 'Selva'",
    "Categórico: 'Educación Básica', 'Educación Superior'",
    "Binario: 1 = Sí, 0 = No",
    "Numérico (> 0)"
  ),
  `Tipo de Variable` = c(
    "Identificador",
    "Dependiente",
    "Independiente",
    "Independiente",
    "Independiente",
    "Independiente",
    "Independiente",
    "Independiente",
    "Independiente"
  )
)

# Generar la tabla del diccionario de datos con diseño mejorado
diccionario %>%
  kbl(
    caption = "Diccionario de datos para el análisis de informalidad laboral",
    align = c("l", "l", "l", "l"),
    col.names = c("Nombre de la variable", "Descripción", "Valores", "Tipo de variable")
  ) %>%
  kable_classic(full_width = FALSE, html_font = "Georgia", font_size = 15) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#2C3E50", font_size = 16) %>%
  column_spec(1, bold = TRUE, color = "#34495E", background = "#ECF0F1") %>%
  column_spec(2:4, background = "#F7F9F9") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    stripe_color = "#DDE4E6",
    latex_options = c("striped", "hold_position"),
    position = "center"
  ) %>%
  footnote(
    general = "Nota: Datos provenientes de la ENAHO 2023, procesados para el análisis de informalidad laboral en jóvenes de 15 a 29 años.",
    general_title = "",
    footnote_as_chunk = TRUE
  )
## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Diccionario de datos para el análisis de informalidad laboral
Nombre de la variable Descripción Valores Tipo de variable
ID_UNICO Identificador único de cada joven (CONGLOME_VIVIENDA_HOGAR_CODPERSO) Cadena de texto (e.g., ‘230001_01_002_0001’) Identificador
INFORMAL Indica si el joven tiene empleo informal Binario: 1 = Sí, 0 = No Dependiente
ingresos_jovenes Ingreso mensual total (dependiente o independiente) en soles en ocupación principal Numérico (≥ 0) Independiente
SEXO Sexo del joven Binario: 1 = Mujer, 0 = Hombre Independiente
EDAD Edad del joven en años cumplidos Numérico (15-29) Independiente
REGION Región geográfica donde reside el joven Categórico: ‘Costa’, ‘Sierra’, ‘Selva’ Independiente
NIVEL_EDUCATIVO Nivel educativo más alto alcanzado por el joven Categórico: ‘Educación Básica’, ‘Educación Superior’ Independiente
INTERNET Indica si el joven tiene acceso a internet Binario: 1 = Sí, 0 = No Independiente
mesestrab_antiguedad Antigüedad laboral en meses en ocupación principal Numérico (> 0) Independiente
Nota: Datos provenientes de la ENAHO 2023, procesados para el análisis de informalidad laboral en jóvenes de 15 a 29 años.

3.5 Análisis univariado

Para la sección de análisis univariado, se utilizará el conjunto de datos “data_jovenes” limpio y delimitado, derivado de la ENAHO 2023.

Inicialmente, se prepararán las variables asegurando su correcta tipificación: NIVEL_EDUCATIVO se convertirá en un factor con niveles Educación Básica y Educación Superior. Asimismo, INTERNET se transformará en un factor con categorías No tiene y Tiene. Por último, REGION se codificará como un factor con categorías Costa, Sierra y Selva, mientras que EDAD, ingresos_jovenes y mesestrab_antiguedad se convertirán a formato numérico para garantizar consistencia en el análisis. Posteriormente, se confirmará la naturaleza de cada variable (categórica o numérica) para aplicar los estadísticos descriptivos adecuados.

El análisis consistirá en presentar una tabla que resuma estadísticos descriptivos, como frecuencias y porcentajes para las variables categóricas (INFORMAL, SEXO, NIVEL_EDUCATIVO, INTERNET, REGION) y medidas como media, mediana, desviación estándar y rango para las variables numéricas (EDAD, ingresos_jovenes, mesestrab_antiguedad). Además, se incluirán gráficos apropiados, como diagramas de caja para variables numéricas y gráficos de barras para variables categóricas, acompañados de interpretaciones que detallen las características y distribución de cada variable. El análisis se organizará por secciones, comenzando con la variable dependiente INFORMAL, seguida de las variables independientes en el orden SEXO, EDAD, NIVEL_EDUCATIVO, INTERNET, REGION, ingresos_jovenes y mesestrab_antiguedad, proporcionando una descripción clara de su comportamiento y su relevancia para el modelo logístico binario.

data_jovenes$NIVEL_EDUCATIVO <- factor(data_jovenes$NIVEL_EDUCATIVO,
                                       levels = c(1, 2),
                                       labels = c("Educación Básica", "Educación Superior"))


data_jovenes$INTERNET <- factor(data_jovenes$INTERNET,
                                levels = c(0, 1),
                                labels = c("No tiene", "Tiene"))


data_jovenes$REGION <- factor(data_jovenes$REGION,
                              levels = c("Costa", "Sierra", "Selva"))

data_jovenes$EDAD <- as.numeric(data_jovenes$EDAD)

data_jovenes$ingresos_jovenes <- as.numeric(data_jovenes$ingresos_jovenes)

data_jovenes$mesestrab_antiguedad <- as.numeric(data_jovenes$mesestrab_antiguedad)

3.6 Variable dependiente: “INFORMAL”

A continuación, se presenta el análisis univariado de la variable dependiente INFORMAL, una variable categórica binaria que indica si el empleo es informal (1) o formal (0). Según el INEI (2023), el empleo formal incluye contratos, beneficios laborales y afiliación a seguridad social en salud por el empleador, mientras que el empleo informal abarca asalariados sin seguridad social, trabajadores por cuenta propia sin RUC y trabajadores familiares no remunerados.

#copia de la base principal para análisis univariado
data_analisis_uni <- data_jovenes
library(dplyr)
library(scales)
library(dplyr)
library(knitr)
library(kableExtra)

#tabla de frecuencia con porcentaje
tabla_informal <- data_analisis_uni %>%
  count(INFORMAL) %>%
  mutate(
    INFORMAL = factor(INFORMAL, levels = c(0, 1), labels = c("Formal", "Informal")),
    Porcentaje = paste0(round(n / sum(n) * 100, 1), "%")
  )

#tabla ordenada
tabla_informal %>%
  kbl(
    col.names = c("Tipo de Empleo", "Frecuencia", "Porcentaje"),
    align = "c",
    caption = "Tabla 1. Distribución de jóvenes ocupados según tipo de empleo"
  ) %>%
  kable_classic(full_width = FALSE, html_font = "Arial", font_size = 14) %>%
  row_spec(0, bold = TRUE, background = "#104636", color = "white") %>%
  column_spec(1, bold = TRUE)
## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Tabla 1. Distribución de jóvenes ocupados según tipo de empleo
Tipo de Empleo Frecuencia Porcentaje
Formal 2074 20.3%
Informal 8156 79.7%

De un total de 10,230 jóvenes ocupados (2,074 formales y 8,156 informales), solo el 20.3% accede a un empleo formal, es decir, a uno con contrato, beneficios laborales y protección social. Según la ENAHO, el empleo formal se refiere a aquellos trabajadores dependientes que perciben ingresos y están afiliados a un sistema de seguridad social en salud por parte de su empleador (INEI, 2023). En cambio, el 79.7% se encuentra en la informalidad laboral, lo que implica empleos sin derechos reconocidos ni seguro. De acuerdo con el INEI, se considera empleo informal a todo empleo que no cumple con las condiciones establecidas por el marco legal laboral, incluyendo a: (1) asalariados no afiliados a ningún sistema de seguridad social en salud por parte del empleador; (2) trabajadores por cuenta propia que operan en unidades económicas no registradas (sin RUC); y (3) trabajadores familiares no remunerados (INEI, 2023).

library(ggplot2)
data_analisis_uni$INFORMAL <- factor(data_analisis_uni$INFORMAL, levels=c(0,1), labels = c("Formal", "Informal"))

Gráfico

library(ggplot2)
library(dplyr)

data_labels <- data_analisis_uni %>%
  count(INFORMAL) %>%
  mutate(pct = round(100 * n / sum(n), 1),
         label = paste0(n, " (", pct, "%)"))

#gráfico
ggplot(data_analisis_uni, aes(x = INFORMAL, fill = INFORMAL)) +
  geom_bar(width = 0.6, show.legend = FALSE) +
  geom_text(data = data_labels,
            aes(x = INFORMAL, y = n, label = label),
            vjust = -0.3,
            size = 3.5,
            color = "black") +
  scale_fill_manual(values = c("Formal" = "#4CAF50", "Informal" = "#104636")) +
  labs(
    title    = "Gráfico 1. Distribución de empleo formal e informal",
    subtitle = "Jóvenes ocupados en la muestra",
    x        = "Tipo de empleo",
    y        = "Número de jóvenes"
  ) +
  theme_minimal(base_size = 15) +
  theme(
    plot.title    = element_text(face = "bold", size = 16, color = "#2E2E2E"),
    plot.subtitle = element_text(size = 13, color = "#4E4E4E"),
    axis.text     = element_text(color = "black", size = 12),
    axis.title    = element_text(face = "bold")
  )

El Gráfico 1 muestra que de todos los jóvenes ocupados en la muestra, solo 2,074 jóvenes (20.3%) están en empleo formal; mientras que 8,156 jóvenes (79.7%) trabajan en condiciones informales. Se observa que la barra de empleo informal es casi cuatro veces más alta que la de empleo formal. Este resultado confirma la magnitud del problema de la informalidad juvenil en el Perú para el año 2023, año en el que todavía se ven rezagos de la pandemia Covid-19. No obstante, ya es sabido que en Perú, históricamente, la gran mayoría de jóvenes no accede a un trabajo con garantías mínimas, lo cual afecta directamente sus ingresos, su salud, su estabilidad, y sus posibilidades de desarrollo a largo plazo.

3.7 Variables de control (independientes)

3.7.1 Sexo

A continuación, se detallan los estadísticos descriptivos de la variable SEXO, una variable categórica binaria que indica si el joven es mujer (1) o hombre (0). Su análisis es fundamental para identificar diferencias de género en la informalidad laboral.

library(dplyr)
library(knitr)
library(kableExtra)

data_analisis_uni$SEXO <- factor(data_analisis_uni$SEXO,
                                 levels = c(0, 1),
                                 labels = c("Hombre", "Mujer"))

#tabla de frecuencias absolutas y relativas para SEXO
tabla_sexo <- data_analisis_uni %>%
  count(SEXO) %>%
  mutate(
    Porcentaje = round(n / sum(n) * 100, 1)
  ) %>%
  rename(Frecuencia = n)

#tabla ordenada
tabla_sexo %>%
  kbl(
    caption = "Tabla 2. Distribución de jóvenes ocupados según sexo",
    col.names = c("Sexo", "Frecuencia", "Porcentaje (%)"),
    align = "lcc"
  ) %>%
  kable_classic(full_width = FALSE, html_font = "Arial") %>%
  row_spec(0, bold = TRUE, background = "#6C8EBF", color = "white")
## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Tabla 2. Distribución de jóvenes ocupados según sexo
Sexo Frecuencia Porcentaje (%)
Hombre 6115 59.8
Mujer 4115 40.2

Del total de jóvenes ocupados en la muestra, el 59.8% son hombres (6,115 jóvenes). En cambio, el 40.2% son mujeres (4,115 jóvenes). Esto muestra que, para 2023, la participación laboral juvenil de hombres es significativamente mayor que la de mujeres en esta muestra.

Gráfico

library(ggplot2)
library(dplyr)

labels_sexo <- data_analisis_uni %>%
  count(SEXO) %>%
  mutate(
    pct = round(100 * n / sum(n), 1),
    label = paste0(n, " (", pct, "%)")
  )

#gráfico
ggplot(data_analisis_uni, aes(x = SEXO, fill = SEXO)) +
  geom_bar(width = 0.6, show.legend = FALSE) +
  geom_text(
    data = labels_sexo,
    aes(x = SEXO, y = n, label = label),
    vjust = -0.3,
    size = 3.5,
    color = "black"
  ) +
  scale_fill_manual(values = c("Hombre" = "#6C8EBF", "Mujer" = "#D88DBB")) +  
  labs(
    title    = "Gráfico 2. Distribución de jóvenes ocupados por sexo",
    subtitle = "Comparación de participación entre hombres y mujeres",
    x        = "Sexo",
    y        = "Número de jóvenes"
  ) +
  theme_minimal(base_size = 15) +
  theme(
    plot.title    = element_text(face = "bold", size = 16, color = "#2E2E2E"),
    plot.subtitle = element_text(size = 13, color = "#4E4E4E"),
    axis.text     = element_text(color = "black", size = 12),
    axis.title    = element_text(face = "bold")
  )

De todos los jóvenes que tienen empleo en 2023: 6,115 son hombres, lo que representa el 59.8%, mientras que 4,115 son mujeres, es decir, el 40.2%. La diferencia de casi 20 puntos porcentuales refleja una mayor participación de los varones en el mercado laboral juvenil, al menos en términos absolutos de ocupación.

Este resultado no solo representa una diferencia en número, sino una brecha estructural. La menor presencia de mujeres jóvenes en el empleo podría explicarse por los siguientes factores: sobrecarga de trabajo no remunerado (cuidado del hogar, familiares, hijos, etc.), discriminación de género en procesos de selección y contratación o segregación ocupacional, que limita su inserción a sectores menos estables o peor remunerados.

Además, es oportuno acotar que, cuando logran insertarse, las mujeres enfrentan condiciones más precarias, mayor informalidad y menores oportunidades de ascenso.

3.7.2 Edad en años cumplidos

A continuación, se detallan los estadísticos descriptivos de la variable EDAD, una variable numérica que mide la edad del joven en años, con valores entre 15 y 29. Esta variable es relevante para explorar cómo la edad influye en la probabilidad de empleo informal.

stats_edad <- data_analisis_uni$EDAD
q1_edad <- quantile(stats_edad, 0.25, na.rm = TRUE) #cuartiles y RIQ
q3_edad <- quantile(stats_edad, 0.75, na.rm = TRUE)
riq_edad <- q3_edad - q1_edad
limite_inf_edad <- q1_edad - 1.5 * riq_edad #para detectar outliers
limite_sup_edad <- q3_edad + 1.5 * riq_edad

outliers_edad <- sum(stats_edad < limite_inf_edad | stats_edad > limite_sup_edad, na.rm = TRUE)

#tabla
tabla_edad <- tibble::tibble(
  Estadístico = c("Media", "Desviación estándar", "Mínimo", 
                  "Q1 (25%)", "Mediana (50%)", "Q3 (75%)", 
                  "Máximo", "N° de valores atípicos (outliers)"),
  Valor = c(
    mean(stats_edad, na.rm = TRUE),
    sd(stats_edad, na.rm = TRUE),
    min(stats_edad, na.rm = TRUE),
    q1_edad,
    median(stats_edad, na.rm = TRUE),
    q3_edad,
    max(stats_edad, na.rm = TRUE),
    outliers_edad
  )
)

#tabla más estética
tabla_edad %>%
  kbl(caption = "Tabla 3. Estadísticos descriptivos de la variable 'Edad de los jóvenes ocupados'",
      digits = 1, align = "lc") %>%
  kable_classic(full_width = F, html_font = "Arial") %>%
  row_spec(0, bold = TRUE, background = "#00838F", color = "#E3F2FD")
## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Tabla 3. Estadísticos descriptivos de la variable ‘Edad de los jóvenes ocupados’
Estadístico Valor
Media 23.3
Desviación estándar 3.9
Mínimo 15.0
Q1 (25%) 20.0
Mediana (50%) 24.0
Q3 (75%) 27.0
Máximo 29.0
N° de valores atípicos (outliers) 0.0

La variable “Edad de los jóvenes ocupados” presenta una media de 23.3 años y una desviación estándar de 3.9, lo que indica una dispersión moderada en torno al promedio. La edad mínima registrada es de 15 años y la máxima de 29, lo que confirma que la muestra abarca correctamente el rango de jóvenes definido en el análisis. La mediana es de 24 años, lo que significa que la mitad de los jóvenes tiene 24 años o menos. Además, el 25% más joven tiene 20 años o menos (Q1), mientras que el 25% más mayor se encuentra por encima de los 27 años (Q3). Es importante resaltar que no se detectaron valores atípicos, lo que sugiere una distribución limpia y sin registros anómalos en esta variable.

Gráfico

library(ggplot2)
#media y mediana
media_edad <- mean(data_analisis_uni$EDAD, na.rm = TRUE)
mediana_edad <- median(data_analisis_uni$EDAD, na.rm = TRUE)

#gráfico
ggplot(data_analisis_uni, aes(x = "", y = EDAD)) +
  geom_boxplot(
    fill = "#4A90E2",
    color = "#1C1C1C",
    outlier.shape = 21,
    outlier.fill = "red",
    outlier.size = 3,
    width = 0.2) +
  geom_point(aes(x = "", y = media_edad),
             color = "#FFA500", size = 4, shape = 18) +
  geom_hline(yintercept = mediana_edad, linetype = "dotted",
             color = "#00BFA6", linewidth = 0.8) +
  annotate("text", x = 0.8, y = media_edad,
           label = paste("Media =", round(media_edad, 1)),
           color = "#FFA500", fontface = "italic", size = 4, hjust = 1) +
  annotate("text", x = 1.2, y = mediana_edad + 1,
           label = paste("Mediana =", round(mediana_edad, 1)),
           color = "#00BFA6", fontface = "italic", size = 4, hjust = 0) +
  labs(
    title = "Gráfico 3. Distribución de la edad de jóvenes ocupados",
    subtitle = "Boxplot con identificación de media, mediana y valores atípicos",
    y = "Edad (en años)",
    x = NULL
  ) +
  theme_minimal(base_size = 15) +
  theme(
    plot.title    = element_text(face = "bold", size = 18, color = "#2E2E2E"),
    plot.subtitle = element_text(size = 13, color = "#4E4E4E"),
    axis.text.x   = element_blank(),
    axis.ticks.x  = element_blank(),
    panel.grid.major.x = element_blank()
  )
## Warning in geom_point(aes(x = "", y = media_edad), color = "#FFA500", size = 4, : All aesthetics have length 1, but the data has 10230 rows.
## ℹ Please consider using `annotate()` or provide this layer with data containing
##   a single row.

El gráfico muestra cómo se distribuye la edad de los jóvenes que están trabajando. La mayoría tiene entre 20 y 27 años. La edad promedio está en 23.3 años, lo que quiere decir que los datos están bastante balanceados. Además, no hay outliers, lo cual indica que las edades se agrupan de manera bastante normal dentro del rango juvenil (15 a 29 años). Esto también refleja que la mayoría de jóvenes se inserta en el mercado laboral en la segunda mitad de la juventud, probablemente porque ya terminaron el colegio o estudios técnicos, o porque necesitan generar ingresos.

3.8 Otras variables independientes

3.8.1 Región

A continuación, se detallan los estadísticos descriptivos de la variable REGION, una variable categórica que indica la región geográfica donde reside el joven (Costa, Sierra, Selva). Su estudio permite analizar variaciones regionales en la informalidad laboral.

library(dplyr)
library(tibble)
library(kableExtra)

#tabla de frecuencias
tabla_region <- data_analisis_uni %>%
  count(REGION) %>%
  mutate(
    Porcentaje = round(n / sum(n) * 100, 1)
  ) %>%
  rename(Frecuencia = n)

#tabla estética
tabla_region %>%
  kbl(
    caption = "Tabla 4. Distribución de jóvenes ocupados según región geográfica",
    col.names = c("Región", "Frecuencia", "Porcentaje (%)"),
    align = "lcc"
  ) %>%
  kable_classic(full_width = FALSE, html_font = "Arial") %>%
  row_spec(0, bold = TRUE, background = "#8E24AA", color = "white")
## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Tabla 4. Distribución de jóvenes ocupados según región geográfica
Región Frecuencia Porcentaje (%)
Costa 4955 48.4
Sierra 2976 29.1
Selva 2299 22.5

La tabla muestra que casi la mitad de los jóvenes ocupados vive en la región Costa (48.4%), seguida por la Sierra con el 29.1% y la Selva con el 22.5%. Esto indica que la mayoría de los jóvenes que trabaja se concentra en la Costa, lo cual puede explicarse por la mayor cantidad de centros urbanos, oportunidades económicas y población en esa zona. En contraste, en la Sierra y la Selva hay menos participación juvenil en el empleo, lo que también puede reflejar barreras como menor acceso a educación, conectividad o mercados laborales formales.

Gráfico

library(ggplot2)

ggplot(tabla_region, aes(x = REGION, y = Frecuencia, fill = REGION)) +
  geom_bar(stat = "identity", width = 0.6, show.legend = FALSE) +
  geom_text(aes(label = paste0(Frecuencia, " (", Porcentaje, "%)")),
            vjust = -0.5, size = 3.5, fontface = "bold", color = "black") +
  scale_fill_manual(values = c("Costa" = "#42A5F5", "Sierra" = "#8E24AA", "Selva" = "#66BB6A")) +
  labs(
    title = "Gráfico 4. Distribución de jóvenes ocupados por región",
    subtitle = "Frecuencia y porcentaje según ubicación geográfica",
    x = "Región",
    y = "Número de jóvenes"
  ) +
  ylim(0, 6000) +
  theme_minimal(base_size = 15) +
  theme(
    plot.title = element_text(face = "bold", size = 17, color = "#4E342E"),
    plot.subtitle = element_text(size = 13, color = "#5D4037"),
    axis.text = element_text(color = "black"),
    axis.title.x = element_text(face = "bold"), 
    axis.title.y = element_text(face = "bold"))

El gráfico muestra cómo se distribuyen los jóvenes ocupados según la región del país. Se observa que la mayoría de jóvenes con empleo vive en la región Costa (48.4%), seguida por la Sierra (29.1%) y finalmente la Selva (22.5%). Esto indica una mayor concentración del empleo juvenil en zonas costeras, lo cual tiene sentido si se considera que en la Costa están las principales ciudades, centros industriales y polos económicos del país. Estos datos también evidencian una desigualdad territorial en el acceso al empleo. Los jóvenes que viven en la Sierra y la Selva no solo representan un menor porcentaje de la población ocupada, sino que probablemente también enfrentan más barreras para acceder a trabajos formales y estables, como menor infraestructura, menos oportunidades educativas y dificultades de conectividad. Esto sugiere que la región de residencia sigue siendo un factor determinante para las trayectorias laborales juveniles, lo que refuerza la necesidad de políticas públicas diferenciadas que aborden las brechas regionales desde una lógica de equidad territorial.

3.8.2 Nivel educativo alcanzado

A continuación, se detallan los estadísticos descriptivos de la variable NIVEL_EDUCATIVO, una variable categórica que refleja el nivel educativo alcanzado por el joven (Educación Básica o Educación Superior). Esta variable es crucial para evaluar el efecto de la educación en la informalidad.

Tabla -> NIVEL EDUCATIVO

#tabla de frecuencias 
tabla_nivel <- data_analisis_uni %>%
  count(NIVEL_EDUCATIVO) %>%
  mutate(
    Porcentaje = round(n / sum(n) * 100, 1)
  ) %>%
  rename(Frecuencia = n)

#tabla ordenada y estética
tabla_nivel %>%
  kbl(
    caption = "Tabla 5. Distribución de jóvenes ocupados según nivel educativo",
    col.names = c("Nivel educativo", "Frecuencia", "Porcentaje (%)"),
    align = "lcc"
  ) %>%
  kable_classic(full_width = FALSE, html_font = "Arial") %>%
  row_spec(0, bold = TRUE, background = "#FFA000", color = "white")
## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Tabla 5. Distribución de jóvenes ocupados según nivel educativo
Nivel educativo Frecuencia Porcentaje (%)
Educación Básica 5874 57.4
Educación Superior 4356 42.6

La tabla muestra que el 57.4% de los jóvenes ocupados solo tiene educación básica, mientras que el 42.6% logró acceder a educación superior. Esto significa que la mayoría de jóvenes que trabajan lo hacen sin haber cursado estudios técnicos o universitarios, lo que puede estar relacionado con la necesidad de insertarse temprano en el mercado laboral por motivos económicos o falta de acceso a oportunidades educativas.

Gráfico

library(ggplot2)
ggplot(tabla_nivel, aes(x = NIVEL_EDUCATIVO, y = Frecuencia, fill = NIVEL_EDUCATIVO)) +
  geom_bar(stat = "identity", width = 0.6, show.legend = FALSE) +
  geom_text(aes(label = paste0(Frecuencia, " (", Porcentaje, "%)")),
            vjust = -0.6, size = 3.5, fontface = "bold", color = "black") +
  scale_fill_manual(values = c("Educación Básica" = "#FFA000",
    "Educación Superior" = "#66BB6A"
  )) +
  labs(
    title = "Gráfico 5. Distribución de jóvenes ocupados según nivel educativo",
    subtitle = "Frecuencia y porcentaje por nivel educativo alcanzado",
    x = "Nivel educativo",
    y = "Número de jóvenes"
  ) +
  ylim(0, 7000) +
  theme_minimal(base_size = 15) +
  theme(
    plot.title = element_text(face = "bold", size = 17, color = "#263238"),
    plot.subtitle = element_text(size = 13, color = "#37474F"),
    axis.text = element_text(color = "black"),
    axis.title.x = element_text(face = "bold"),
    axis.title.y = element_text(face = "bold"))

El gráfico muestra que la mayoría de jóvenes ocupados solo cuenta con educación básica (57.4%), mientras que un 42.6% ha accedido a educación superior. Esta diferencia revela que una parte considerable de la juventud se inserta en el mercado laboral sin haber culminado estudios técnicos o universitarios. Esto refleja una desigualdad estructural en el acceso a la educación, que luego se traduce en desigualdad de oportunidades laborales. Muchos jóvenes no logran continuar estudiando porque enfrentan barreras económicas, territoriales o familiares, y eso los obliga a incorporarse tempranamente a empleos que, en muchos casos, son informales o precarios. Además, el hecho de que casi 6 de cada 10 jóvenes trabajen con solo educación básica sugiere que el mercado laboral peruano sigue operando con baja demanda de calificación, lo que limita la movilidad social y reproduce ciclos de pobreza. Se evidencia así la necesidad de políticas públicas que no solo amplíen el acceso a la educación superior, sino que también garanticen condiciones laborales dignas para quienes no lograron alcanzarla, promoviendo un sistema más justo e inclusivo para toda la juventud.

3.8.3 Acceso a internet

A continuación, se detallan los estadísticos descriptivos de la variable INTERNET, una variable categórica binaria que indica si el joven tiene acceso a internet (1 = Sí, 0 = No). Su análisis es importante para entender el rol del acceso tecnológico en el empleo informal.

Tabla -> INTERNET

tabla_internet <- data_analisis_uni %>%
  mutate(INTERNET = factor(INTERNET, labels = c("No cuenta con Internet", "Cuenta con Internet"))) %>%
  count(INTERNET) %>%
  mutate(
    Porcentaje = round(n / sum(n) * 100, 1)
  ) %>%
  rename(Frecuencia = n)

#tabla ordenada
tabla_internet %>%
  kbl(
    caption = "Tabla 6. Acceso a Internet en el hogar de jóvenes ocupados",
    col.names = c("Acceso a Internet", "Frecuencia", "Porcentaje (%)"),
    align = "lcc"
  ) %>%
  kable_classic(full_width = FALSE, html_font = "Arial") %>%
  row_spec(0, bold = TRUE, background = "#43A047", color = "white")
## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Tabla 6. Acceso a Internet en el hogar de jóvenes ocupados
Acceso a Internet Frecuencia Porcentaje (%)
No cuenta con Internet 594 5.8
Cuenta con Internet 9636 94.2

La tabla muestra que el 94.2% de los jóvenes ocupados tiene acceso a internet en su hogar, mientras que solo un 5.8% no cuenta con este servicio. Este resultado es positivo, ya que indica que la mayoría de jóvenes ocupados tiene conectividad en su entorno doméstico, lo cual facilita su acceso a oportunidades laborales, educativas y de información.

Gráfico

ggplot(tabla_internet, aes(x = INTERNET, y = Frecuencia, fill = INTERNET)) +
  geom_bar(stat = "identity", width = 0.6, show.legend = FALSE) +
  geom_text(aes(label = paste0(Frecuencia, " (", Porcentaje, "%)")),
            vjust = -0.5, size = 3.5, fontface = "bold", color = "black") +
  scale_fill_manual(values = c("Cuenta con Internet" = "#43A047", "No cuenta con Internet" = "#EF6C00")) +
  labs(
    title = "Gráfico 6. Acceso a Internet en el hogar",
    subtitle = "Frecuencia y porcentaje de jóvenes según su acceso a Internet",
    x = "Acceso a Internet",
    y = "Número de jóvenes"
  ) +
  ylim(0, 11000) +
  theme_minimal(base_size = 15) +
  theme(
    plot.title = element_text(face = "bold", size = 17, color = "#263238"),
    plot.subtitle = element_text(size = 13, color = "#37474F"),
    axis.text = element_text(color = "black"),
    axis.title.x = element_text(face = "bold"),  
    axis.title.y = element_text(face = "bold"))

El gráfico muestra que la gran mayoría de jóvenes ocupados (94.2%) cuenta con acceso a Internet en su hogar, mientras que solo el 5.8% no tiene este servicio. Esta amplia cobertura digital es positiva, ya que el internet es hoy una herramienta clave para buscar empleo, acceder a educación virtual y mantenerse informado de la realidad peruana actual. Sin embargo, ese pequeño grupo que no cuenta con internet sigue siendo importante, ya que representa a jóvenes que enfrentan una clara desventaja digital. En un contexto donde muchas ofertas de empleo, capacitaciones y trámites son virtuales, no tener internet en casa significa estar más lejos del mercado laboral formal y de oportunidades de desarrollo personal o profesional. Esta brecha, aunque numéricamente pequeña, puede concentrarse en regiones rurales, sectores empobrecidos o zonas sin cobertura adecuada, lo que refuerza otras desigualdades ya existentes.

3.8.4 Antiguedad laboral en meses en ocupación principal

A continuación, se detallan los estadísticos descriptivos de la variable mesestrab_antiguedad, una variable numérica que mide la antigüedad laboral del joven en meses en la ocupación principal. Esta variable es esencial para evaluar cómo la experiencia laboral afecta la informalidad.

Tabla -> MESES TRABAJADOS

library(dplyr)
library(tibble)
library(kableExtra)

stats_meses <- data_analisis_uni$mesestrab_antiguedad
q1 <- quantile(stats_meses, 0.25, na.rm = TRUE)
q3 <- quantile(stats_meses, 0.75, na.rm = TRUE)
riq <- q3 - q1
limite_inf <- q1 - 1.5 * riq
limite_sup <- q3 + 1.5 * riq

outliers <- sum(stats_meses < limite_inf | stats_meses > limite_sup, na.rm = TRUE)

#tabla
tabla_vertical <- tibble::tibble(
  Estadístico = c("Media", "Desviación estándar", "Mínimo", 
                  "Q1 (25%)", "Mediana (50%)", "Q3 (75%)", 
                  "Máximo", "N° de valores atípicos (outliers)"),
  Valor = c(
    mean(stats_meses, na.rm = TRUE),
    sd(stats_meses, na.rm = TRUE),
    min(stats_meses, na.rm = TRUE),
    q1,
    median(stats_meses, na.rm = TRUE),
    q3,
    max(stats_meses, na.rm = TRUE),
    outliers))

#tabla ordenada
tabla_vertical %>%
  kbl(
    caption = "Tabla 8. Estadísticos descriptivos de la variable 'Meses trabajados en ocupación principal'",
    digits = 1, align = "lc"
  ) %>%
  kable_classic(full_width = FALSE, html_font = "Arial") %>%
  row_spec(0, bold = TRUE, background = "#7E57C2", color = "white")
## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Tabla 8. Estadísticos descriptivos de la variable ‘Meses trabajados en ocupación principal’
Estadístico Valor
Media 17.1
Desviación estándar 25.4
Mínimo 1.0
Q1 (25%) 1.0
Mediana (50%) 6.0
Q3 (75%) 24.0
Máximo 240.0
N° de valores atípicos (outliers) 856.0

Los datos muestran que, en promedio, los jóvenes han trabajado 17.1 meses en su ocupación principal, pero con una alta dispersión (desviación estándar de 25.4 meses). La mediana es de solo 6 meses, lo que indica que más de la mitad lleva menos de medio año trabajando. El primer cuartil (Q1) es de 1 mes, mientras que el tercer cuartil (Q3) es de 24 meses, lo que refleja una gran desigualdad en las trayectorias laborales juveniles. Además, llama la atención que el valor máximo registrado es de 240 meses (20 años), lo cual resulta atípico considerando que el rango de edad es de 15 a 29 años. De hecho, el análisis identifica 856 valores atípicos, lo que sugiere que muchos jóvenes declararon haber trabajado durante un tiempo que probablemente no corresponde a su edad o que arrastran ocupaciones desde edades sumamente tempranas (niñez, preadolescencia). Esta distribución revela dos cosas. Por un lado, una alta inestabilidad laboral entre la mayoría de jóvenes ocupados; y por otro, posibles condiciones de trabajo infantil o informal prolongado entre quienes acumulan más de 10 años en una misma actividad.

Gráfico

media_meses <- mean(data_analisis_uni$mesestrab_antiguedad, na.rm = TRUE)
mediana_meses <- median(data_analisis_uni$mesestrab_antiguedad, na.rm = TRUE)

ggplot(data_analisis_uni, aes(x = "", y = mesestrab_antiguedad)) +
  geom_boxplot(
    fill = "#7E57C2",  
    color = "#3E2723", 
    outlier.shape = 21,
    outlier.fill = "#FF7043", 
    outlier.size = 3,
    width = 0.2
  ) + geom_point(x = "", y = media_meses,
             color = "#FFD700", size = 4, shape = 18) +  
  geom_hline(yintercept = mediana_meses, linetype = "dotted",
             color = "#43A047", linewidth = 0.8) +
  annotate("text", x = 0.8, y = media_meses,
           label = paste("Media =", round(media_meses, 1)),
           color = "#FFD700", fontface = "italic", size = 4, hjust = 1) +
  annotate("text", x = 1.2, y = mediana_meses - 1,
           label = paste("Mediana =", round(mediana_meses, 1)),
           color = "#43A047", fontface = "italic", size = 4, hjust = 0) +

  labs(
    title = "Gráfico 8. Antigüedad en el empleo principal de jóvenes ocupados",
    subtitle = "Boxplot con identificación de media, mediana y valores atípicos",
    y = "Meses trabajados",
    x = NULL
  ) +
  theme_minimal(base_size = 15) +
  theme(
    plot.title    = element_text(face = "bold", size = 18, color = "#4E342E"),
    plot.subtitle = element_text(size = 13, color = "#5D4037"),
    axis.text.x   = element_blank(),
    axis.ticks.x  = element_blank(),
    panel.grid.major.x = element_blank())

Este gráfico muestra cómo se distribuyen los meses que los jóvenes llevan trabajando en su empleo principal. La mediana es de solo 6 meses, lo que indica que al menos la mitad de los jóvenes tiene muy poca estabilidad laboral. La media es de 17.1 meses, pero este valor está influenciado por un grupo de jóvenes que lleva muchos años trabajando, lo que se refleja en la gran cantidad de valores atípicos (puntos rojos) por encima del rango normal. El hecho de que existan jóvenes que reportan hasta 240 meses (20 años) de antigüedad en su ocupación es llamativo, considerando que el grupo analizado tiene entre 15 y 29 años. Esto puede estar relacionado con trabajo infantil o informalidad prolongada. La gran concentración de puntos fuera del boxplot refuerza que la distribución es altamente desigual, con pocos casos que arrastran trayectorias largas y la mayoría con empleos recientes o inestables. Esto evidencia la fragilidad del empleo juvenil en el Perú.

3.8.5 Ingreso mensual en ocupación principal

A continuación, se detallan los estadísticos descriptivos de la variable ingresos_jovenes, una variable numérica que representa el ingreso mensual total (dependiente o independiente) en soles de jóvenes peruanos de 15 a 29 años. Esta variable es clave para evaluar el impacto del nivel de ingresos en la probabilidad de informalidad laboral.

Tabla -> INGRESOS

library(dplyr)
library(tibble)
library(kableExtra)

stats_ingresos <- data_analisis_uni$ingresos_jovenes

q1 <- quantile(stats_ingresos, 0.25, na.rm = TRUE)
q3 <- quantile(stats_ingresos, 0.75, na.rm = TRUE)
riq <- q3 - q1

limite_inf <- q1 - 1.5 * riq
limite_sup <- q3 + 1.5 * riq


outliers <- sum(stats_ingresos < limite_inf | stats_ingresos > limite_sup, na.rm = TRUE)

#tabla
tabla_vertical_ingresos <- tibble::tibble(
  Estadístico = c("Media", "Desviación estándar", "Mínimo", 
                  "Q1 (25%)", "Mediana (50%)", "Q3 (75%)", 
                  "Máximo", "N° de valores atípicos (outliers)"),
  Valor = c(
    mean(stats_ingresos, na.rm = TRUE),
    sd(stats_ingresos, na.rm = TRUE),
    min(stats_ingresos, na.rm = TRUE),
    q1,
    median(stats_ingresos, na.rm = TRUE),
    q3,
    max(stats_ingresos, na.rm = TRUE),
    outliers))

#tabla ordenada
tabla_vertical_ingresos %>%
  kbl(
    caption = "Tabla 9. Estadísticos descriptivos de la variable 'Ingresos mensuales de los jóvenes ocupados'",
    digits = 1, align = "lc"
  ) %>%
  kable_classic(full_width = FALSE, html_font = "Arial") %>%
  row_spec(0, bold = TRUE, background = "#00694a67", color = "white")
## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Tabla 9. Estadísticos descriptivos de la variable ‘Ingresos mensuales de los jóvenes ocupados’
Estadístico Valor
Media 973.1
Desviación estándar 822.0
Mínimo 1.0
Q1 (25%) 400.0
Mediana (50%) 892.5
Q3 (75%) 1300.0
Máximo 18720.0
N° de valores atípicos (outliers) 369.0

Los datos muestran que el ingreso mensual promedio de los jóvenes ocupados en su trabajo principal es de S/ 973.10, pero con una alta dispersión (desviación estándar de S/ 822.00), lo que indica que los montos varían bastante entre personas. La mediana es de S/ 892.50, lo que quiere decir que la mitad de los jóvenes gana menos de ese monto al mes. Además, un cuarto de los jóvenes (Q1) gana S/ 400 o menos, mientras que solo el 25% con mayores ingresos supera los S/ 1300 mensuales (Q3). El valor máximo registrado es de S/ 18,720, lo cual es muy alto para una muestra juvenil y explica la presencia de 369 valores atípicos.

Gráfico

library(ggplot2)

media_ingresos <- mean(data_analisis_uni$ingresos_jovenes, na.rm = TRUE)
mediana_ingresos <- median(data_analisis_uni$ingresos_jovenes, na.rm = TRUE)

ggplot(data_analisis_uni, aes(x = "", y = ingresos_jovenes)) +
  geom_boxplot(
    fill = "#009688",       
    color = "#1C1C1C",
    outlier.shape = 21,
    outlier.fill = "#FF5252",  
    outlier.size = 3,
    width = 0.2
  ) + geom_point(aes(x = "", y = media_ingresos),
             color = "#FF9800", size = 4, shape = 18) +
  geom_hline(yintercept = mediana_ingresos, linetype = "dotted",
             color = "#00ACC1", linewidth = 0.8) +
  annotate("text", x = 0.8, y = media_ingresos,
           label = paste("Media =", round(media_ingresos, 1)),
           color = "#FF9800", fontface = "italic", size = 4, hjust = 1) +
  annotate("text", x = 1.2, y = mediana_ingresos + 1,
           label = paste("Mediana =", round(mediana_ingresos, 1)),
           color = "#00ACC1", fontface = "italic", size = 4, hjust = 0) +

  labs(
    title = "Gráfico 10. Distribución de ingresos mensuales de jóvenes ocupados",
    subtitle = "Boxplot con identificación de media, mediana y valores atípicos",
    y = "Ingresos mensuales (en soles)",
    x = NULL
  ) +
  theme_minimal(base_size = 15) +
  theme(
    plot.title    = element_text(face = "bold", size = 18, color = "#2E2E2E"),
    plot.subtitle = element_text(size = 13, color = "#4E4E4E"),
    axis.text.x   = element_blank(),
    axis.ticks.x  = element_blank(),
    panel.grid.major.x = element_blank()
  )
## Warning in geom_point(aes(x = "", y = media_ingresos), color = "#FF9800", : All aesthetics have length 1, but the data has 10230 rows.
## ℹ Please consider using `annotate()` or provide this layer with data containing
##   a single row.

El gráfico muestra la distribución de los ingresos mensuales de los jóvenes ocupados. La mediana es de S/892.50, lo que significa que la mitad de los jóvenes gana menos de ese monto. La media es ligeramente mayor (S/973.10), pero está influenciada por un grupo reducido con ingresos muy altos, como se observa en los numerosos valores atípicos (puntos rojos) por encima de los S/10,000 mensuales.

La mayoría de los ingresos se concentra en la parte baja del gráfico, lo que revela una distribución desigual, con una gran cantidad de jóvenes que gana poco. Esta realidad refuerza la idea de que, incluso cuando trabaja, la juventud tiene ingresos limitados, lo cual condiciona su autonomía económica y sus posibilidades de ahorro o estudio. Además, resulta especialmente preocupante que más del 50% de los jóvenes gane menos que el salario mínimo vigente en 2023, que era de S/1,025 mensuales. Esto indica que la mitad de la juventud activa percibe un sueldo inferior al mínimo legal, lo cual no solo refleja precariedad, sino también que el mercado laboral está lejos de garantizar su bienestar básico.


4 Hallazgos

4.1 Modelo A

El modelo logit A estima la probabilidad de que un joven de 15 a 29 años trabaje en el sector informal, utilizando datos de la Encuesta Nacional de Hogares (ENAHO) 2023. Incluye las variables: SEXO, EDAD, REGION, NIVEL_EDUCATIVO, INTERNET, ingresos_jovenes y mesestrab_antiguedad.

modelo_logitA <- glm(INFORMAL ~ SEXO + EDAD + REGION + NIVEL_EDUCATIVO +
                       INTERNET + ingresos_jovenes + mesestrab_antiguedad,
                     data = data_jovenes,
                     family = binomial(link = "logit"))
summary(modelo_logitA)
## 
## Call:
## glm(formula = INFORMAL ~ SEXO + EDAD + REGION + NIVEL_EDUCATIVO + 
##     INTERNET + ingresos_jovenes + mesestrab_antiguedad, family = binomial(link = "logit"), 
##     data = data_jovenes)
## 
## Coefficients:
##                                     Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                        6.241e+00  3.072e-01  20.316  < 2e-16 ***
## SEXO                              -6.253e-03  5.905e-02  -0.106    0.916    
## EDAD                              -1.150e-01  9.132e-03 -12.596  < 2e-16 ***
## REGIONSierra                       7.421e-01  6.929e-02  10.710  < 2e-16 ***
## REGIONSelva                        8.011e-01  8.089e-02   9.905  < 2e-16 ***
## NIVEL_EDUCATIVOEducación Superior -8.178e-01  5.960e-02 -13.722  < 2e-16 ***
## INTERNETTiene                     -9.293e-01  2.184e-01  -4.254  2.1e-05 ***
## ingresos_jovenes                  -9.539e-04  4.036e-05 -23.634  < 2e-16 ***
## mesestrab_antiguedad              -6.695e-04  1.150e-03  -0.582    0.560    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 10315  on 10229  degrees of freedom
## Residual deviance:  8105  on 10221  degrees of freedom
## AIC: 8123
## 
## Number of Fisher Scoring iterations: 6

El modelo logit estimado permite analizar qué factores aumentan o reducen la probabilidad de que un joven se encuentre en informalidad laboral. Los coeficientes del modelo indican la dirección del efecto: si son positivos, aumentan la probabilidad de informalidad; si son negativos, la reducen. Sin embargo, estos coeficientes están en escala logarítmica, por lo que todavía es necesario exponenciarlos para poder interpretarlos.

Asimismo, se observa que todos los coeficientes son estadísticamente significativos, excepto dos variables: SEXO, con un p-valor de 0.173, y meses trabajados en la ocupación principal, con un p-valor de 0.530. Es decir, no se puede afirmar con certeza que ser mujer ni la antigüedad en el empleo actual tengan un efecto real sobre la probabilidad de informalidad, mientras que las demás variables sí tienen efectos estadísticamente comprobados.

4.1.1 Ecuación predictiva del modelo A

La ecuación predictiva para el modelo logístico A en términos de log-odds, se muestra a continuación.

\[ \text{log-oddsA} = 6.241 - 0.006 \cdot \text{SEXO} - 0.115 \cdot \text{EDAD}\\ + 0.742 \cdot \text{REGION}_{\text{Sierra}} + 0.801 \cdot \text{REGION}_{\text{Selva}} \\ - 0.818 \cdot \text{NIVEL_EDUCATIVO}_{\text{Educacion Superior}} \\ - 0.929 \cdot \text{INTERNET}_{\text{Tiene}} - 0.001 \cdot \text{ingresos_jovenes}\\ - 0.001 \cdot \text{mesestrab_antiguedad} \]

Exponentes

exp(coef(modelo_logitA)) 
##                       (Intercept)                              SEXO 
##                       513.2704224                         0.9937670 
##                              EDAD                      REGIONSierra 
##                         0.8913407                         2.1003675 
##                       REGIONSelva NIVEL_EDUCATIVOEducación Superior 
##                         2.2280972                         0.4413819 
##                     INTERNETTiene                  ingresos_jovenes 
##                         0.3948182                         0.9990465 
##              mesestrab_antiguedad 
##                         0.9993308

La interpretación de los coeficientes obtenidos en el modelo de regresión logística permite comprender el efecto de cada variable sobre la probabilidad de que un joven se desempeñe en el sector informal. Los odds ratios (OR) traducen los efectos de los coeficientes de Log-odds a cambios porcentuales para su fácil interpretación. Asimismo, la significancia de dichos coeficientes se confirmará mediante el p valor menor a 0.05, por convención de la disciplina de las Ciencias Sociales.

Respecto al sexo, ser mujer reduce ligeramente los log-odds de informalidad en 0.006 unidades (β = -0.006), con un OR de 0.994, lo que sugiere una disminución del 0.6% en la probabilidad de informalidad. Sin embargo, este efecto no es estadísticamente significativo (p = 0.916), por lo que no se puede afirmar que el género tenga un impacto claro en la informalidad laboral juvenil.

En contraste, la edad muestra un efecto negativo importante y significativo (β = -0.115, OR = 0.891, p < 0.001): cada año adicional de edad reduce los log-odds de informalidad, lo que equivale a una disminución del 10.9% en la probabilidad de trabajar informalmente, indicando que los jóvenes más cercanos a los 15 años son más vulnerables a este tipo de empleo.

La región geográfica también incide significativamente. Vivir en la Sierra (β = 0.742, OR = 2.100, p < 0.001) o en la Selva (β = 0.801, OR = 2.228, p < 0.001) incrementa los log-odds de informalidad en comparación con la Costa. Esto se traduce en una probabilidad de informalidad 110% y 122.8% mayor, respectivamente, lo que evidencia disparidades regionales en el acceso a empleo formal.

En cuanto al nivel educativo, contar con educación superior se asocia con una reducción significativa de los log-odds en 0.818 unidades (OR = 0.441, p < 0.001), disminuyendo la probabilidad de informalidad en un 55.9%. Este hallazgo refuerza la importancia del acceso a la educación como mecanismo de protección ante el empleo precario.

Asimismo, el acceso a internet tiene un efecto protector considerable (β = -0.929, OR = 0.395, p < 0.001), reduciendo la probabilidad de informalidad en un 60.5%, lo cual podría relacionarse con mejores oportunidades de inserción laboral formal o acceso a información sobre empleos.

En cuanto al ingreso mensual de los jóvenes, cada sol adicional disminuye levemente los log-odds en 0.001 unidades (OR = 0.999, p < 0.001), lo que implica una reducción del 0.1% en la probabilidad de informalidad, un efecto pequeño pero estadísticamente significativo.

Finalmente, la antigüedad laboral, medida en meses, también presenta un coeficiente negativo (β = -0.001, OR = 0.999), pero el resultado no es significativo (p = 0.560), por lo que no se puede afirmar que influya de manera clara en la informalidad. En conjunto, estos resultados permiten identificar factores estructurales y sociodemográficos que inciden en el empleo informal juvenil.

4.1.2 Tabla resumen del modelo A

library(broom)
library(dplyr)
tabla_logitA <- tidy(modelo_logitA) %>%
  mutate(`Exp(B)` = exp(estimate),
         Significativo = ifelse(p.value < 0.05, "Sí", "No")) %>%
  select(Variable = term, Coef = estimate, `Error Estándar` = std.error, 
         `p-valor` = p.value, `Exp(B)`, Significativo)

knitr::kable(tabla_logitA, digits = 3, caption = "Modelo logit A: Probabilidad de ser informal")
## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")

## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Modelo logit A: Probabilidad de ser informal
Variable Coef Error Estándar p-valor Exp(B) Significativo
(Intercept) 6.241 0.307 0.000 513.270
SEXO -0.006 0.059 0.916 0.994 No
EDAD -0.115 0.009 0.000 0.891
REGIONSierra 0.742 0.069 0.000 2.100
REGIONSelva 0.801 0.081 0.000 2.228
NIVEL_EDUCATIVOEducación Superior -0.818 0.060 0.000 0.441
INTERNETTiene -0.929 0.218 0.000 0.395
ingresos_jovenes -0.001 0.000 0.000 0.999
mesestrab_antiguedad -0.001 0.001 0.560 0.999 No

Toda esta información puede observarse de forma clara en la tabla resumen del modelo logit A, donde se presentan los coeficientes, errores estándar, valores p, odds ratios (Exp(B)), y la significancia estadística de cada variable sobre la probabilidad de que un joven esté en la informalidad laboral. Como se aprecia, las variables significativamente asociadas con la informalidad son: edad, región (Sierra y Selva), nivel educativo, acceso a internet, afiliación a seguro de salud, e ingresos mensuales. Estas variables tienen efectos estadísticamente significativos y directionales coherentes con lo esperado desde un enfoque estructural: los factores que reflejan mayor capital social o acceso a servicios (como educación superior, internet o seguro de salud) están asociados con una menor probabilidad de estar en un empleo informal.

En contraste, las variables SEXO y mesestrab_antiguedad no resultan significativas en el modelo (p = 0.118 y p = 0.530, respectivamente), lo que sugiere que, al controlar por otras condiciones estructurales, ni el hecho de ser mujer ni el tiempo trabajado en la ocupación principal modifican sustancialmente la probabilidad de informalidad laboral. Esta ausencia de significancia puede deberse, en el caso del sexo, a que las desigualdades de género se expresan de forma más indirecta (por ejemplo, en tipo de ocupación o nivel de ingresos), mientras que la antigüedad podría estar reflejando una permanencia en empleos informales sin que eso implique mayor formalización con el tiempo.

En conjunto, estos hallazgos refuerzan lo que señala la literatura especializada: la informalidad no es producto de decisiones individuales aisladas, sino de condiciones estructurales que reproducen la exclusión laboral desde edades tempranas (OECD, 2020; Gálvez & Ghiardo, 2018). Factores como la educación, el acceso a tecnología, el territorio y la vinculación al sistema de salud son determinantes clave en las trayectorias laborales juveniles. Por tanto, enfrentar la informalidad juvenil no pasa solo por “insertar” a los jóvenes en el mercado, sino por transformar las condiciones materiales que limitan su acceso a un trabajo digno y protegido desde el inicio de su vida productiva.

4.2 Modelo B

El modelo B incorpora únicamente las variables estadísticamente significativas del modelo A, identificadas por un p-valor inferior a 0.05: EDAD, REGION, NIVEL_EDUCATIVO, INTERNET e ingresos_jovenes. Al excluir variables no significativas (SEXO y mesestrab_antiguedad), este modelo resulta más parsimonioso, optimizando la eficiencia y la interpretabilidad de los factores que influyen en la probabilidad de empleo informal.

modelo_logitB <- glm(INFORMAL ~ EDAD + REGION
                   + NIVEL_EDUCATIVO + INTERNET + ingresos_jovenes,
                    data = data_jovenes,
                    family = binomial)
summary(modelo_logitB)
## 
## Call:
## glm(formula = INFORMAL ~ EDAD + REGION + NIVEL_EDUCATIVO + INTERNET + 
##     ingresos_jovenes, family = binomial, data = data_jovenes)
## 
## Coefficients:
##                                     Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                        6.255e+00  3.057e-01  20.464  < 2e-16 ***
## EDAD                              -1.164e-01  8.840e-03 -13.164  < 2e-16 ***
## REGIONSierra                       7.438e-01  6.920e-02  10.749  < 2e-16 ***
## REGIONSelva                        7.996e-01  8.080e-02   9.896  < 2e-16 ***
## NIVEL_EDUCATIVOEducación Superior -8.148e-01  5.849e-02 -13.931  < 2e-16 ***
## INTERNETTiene                     -9.276e-01  2.184e-01  -4.247 2.17e-05 ***
## ingresos_jovenes                  -9.538e-04  3.963e-05 -24.069  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 10315.4  on 10229  degrees of freedom
## Residual deviance:  8105.3  on 10223  degrees of freedom
## AIC: 8119.3
## 
## Number of Fisher Scoring iterations: 6

4.2.1 Ecuación predictiva del modelo B

La ecuación predictiva para el modelo logístico B en términos de log-odds, se muestra a continuación.

\[ \text{log-oddsB} = 6.255 - 0.116 \cdot \text{EDAD} \\ + 0.744 \cdot \text{REGION}_{\text{Sierra}} + 0.800 \cdot \text{REGION}_{\text{Selva}} \\ - 0.815 \cdot \text{NIVEL_EDUCATIVO}_{\text{Educación Superior}} \\ - 0.928 \cdot \text{INTERNET}_{\text{Tiene}} - 0.001 \cdot \text{ingresos_jovenes} \]

Exponentes

exp(coef(modelo_logitB))
##                       (Intercept)                              EDAD 
##                       520.6819663                         0.8901513 
##                      REGIONSierra                       REGIONSelva 
##                         2.1039765                         2.2246273 
## NIVEL_EDUCATIVOEducación Superior                     INTERNETTiene 
##                         0.4427405                         0.3954989 
##                  ingresos_jovenes 
##                         0.9990467

Al exponenciar los coeficientes del modelo logit B, obtenemos los odds ratios (OR), que indican en cuánto se multiplica la probabilidad de informalidad cuando una variable cambia manteniendo las otras variables constantes.

Así, se puede interpretar que la variable edad presenta un coeficiente negativo de -0.116, lo cual indica que, por cada año adicional, se reduce en 0.116 los log-odds de estar en informalidad. Esto equivale a una disminución de la probabilidad en aproximadamente 11.0%.

Por otro lado, residir en la región Sierra incrementa significativamente los log-odds en 0.744. Este resultado implica que las personas que viven en esta región tienen una probabilidad 110.4% mayor de encontrarse en el sector informal respecto a quienes viven en la región de referencia. De manera similar, habitar en la Selva también tiene un efecto positivo sobre la informalidad, aumentando los log-odds en 0.800, lo que se traduce en una probabilidad 122.5% mayor de informalidad.

En cuanto al nivel educativo, se observa que contar con educación superior reduce los log-odds en 0.815, lo cual se traduce en una menor probabilidad de informalidad de aproximadamente 55.7%. Esta relación negativa sugiere que mayores niveles educativos se asocian con una menor participación en el empleo informal.

Asimismo, el acceso a internet muestra un coeficiente negativo de -0.928. Esto indica que tener acceso a internet reduce la probabilidad de informalidad en 60.5%, lo que podría relacionarse con una mayor inclusión digital y acceso a oportunidades laborales formales.

Finalmente, el ingreso mensual de los jóvenes también influye negativamente en la informalidad. Por cada sol adicional, los log-odds disminuyen en 0.001, lo que representa una reducción de la probabilidad en un 0.1%. Aunque este efecto es pequeño, resulta estadísticamente significativo y sugiere que ingresos más altos pueden estar asociados con una menor propensión al trabajo informal.

4.2.2 Tabla resumen del modelo B

library(broom)
library(dplyr)

# Tabla resumen con odds ratios
tabla_logitB <- tidy(modelo_logitB) %>%
  mutate(`Exp(B)` = exp(estimate),
         Significativo = ifelse(p.value < 0.05, "Sí", "No")) %>%
  select(Variable = term, Coef = estimate, `Error Estándar` = std.error, 
         `p-valor` = p.value, `Exp(B)`, Significativo)

knitr::kable(tabla_logitB, digits = 3, caption = "Modelo logit B: Probabilidad de ser informal")
## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")

## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Modelo logit B: Probabilidad de ser informal
Variable Coef Error Estándar p-valor Exp(B) Significativo
(Intercept) 6.255 0.306 0 520.682
EDAD -0.116 0.009 0 0.890
REGIONSierra 0.744 0.069 0 2.104
REGIONSelva 0.800 0.081 0 2.225
NIVEL_EDUCATIVOEducación Superior -0.815 0.058 0 0.443
INTERNETTiene -0.928 0.218 0 0.395
ingresos_jovenes -0.001 0.000 0 0.999

Al observar los resultados del modelo logit B, se confirma que todas las variables incluidas son estadísticamente significativas (p < 0.05), lo que refuerza la solidez del modelo. En comparación con el modelo A, se pueden identificar ligeros ajustes en los coeficientes, aunque se mantiene la misma dirección (positiva o negativa) en todos los casos. Esto permite concluir que los factores estructurales analizados tienen efectos robustos sobre la probabilidad de informalidad juvenil, controlando por las demás variables del modelo.

Al comparar los odds ratios (OR) entre los modelos A y B, se observa una gran similitud en los efectos estimados de las variables comunes. En ambos modelos, por ejemplo, los OR para REGIONSierra (2.10 en A y 2.10 en B) y REGIONSelva (2.23 en A y 2.22 en B) indican que vivir en estas regiones aumenta sustancialmente la probabilidad de informalidad laboral respecto a la región Costa. Asimismo, NIVEL_EDUCATIVO muestra un efecto protector en los dos modelos, con OR cercanos a 0.44, lo que sugiere que tener educación superior reduce la probabilidad de informalidad en aproximadamente un 56% en comparación con solo tener educación básica. También se mantienen prácticamente constantes los efectos de contar con acceso a INTERNET, con OR en torno a 0.39 en ambos casos, lo que implica que tener acceso a internet disminuye la probabilidad de informalidad en alrededor de un 60% en comparación con no contar con este acceso a internet. En cuanto a EDAD, los OR son muy similares entre modelos (0.891 en A y 0.890 en B), lo cual confirma que cada año adicional de edad reduce de manera constante la probabilidad de informalidad en un 11%. Para la variable ingresos_jovenes, el OR es prácticamente idéntico (0.9990), indicando que su efecto es marginal en ambos casos.

5 Comparación de modelos

Para comparar los modelos logit A y B, utilizamos dos criterios complementarios: el AIC y la prueba de verosimilitud (ANOVA). Esta comparación es válida porque ambos modelos son anidados, es decir, el modelo B es una versión restringida del modelo A (contiene un subconjunto de sus variables).

El AIC permite comparar modelos penalizando la complejidad: a menor valor de AIC, mejor ajuste tiene el modelo sin sobreajuste. Por otro lado, el ANOVA compara la bondad de ajuste entre los dos modelos. Su hipótesis nula establece que el modelo reducido (B) no pierde capacidad explicativa respecto al modelo completo (A). Si el valor p es alto, no se rechaza H0 y se concluye que el modelo más simple (modelo B) es suficiente.

A continuación, presentamos los análisis de ambas pruebas y sus respectivas interpretaciones:

ANOVA

anova_comparacion=anova(modelo_logitB, modelo_logitA, test = "Chisq")
anova_comparacion
## Analysis of Deviance Table
## 
## Model 1: INFORMAL ~ EDAD + REGION + NIVEL_EDUCATIVO + INTERNET + ingresos_jovenes
## Model 2: INFORMAL ~ SEXO + EDAD + REGION + NIVEL_EDUCATIVO + INTERNET + 
##     ingresos_jovenes + mesestrab_antiguedad
##   Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## 1     10223     8105.3                     
## 2     10221     8105.0  2  0.34084   0.8433

La hipótesis nula (H₀) de la prueba ANOVA establece que los modelos anidados A y B tienen el mismo ajuste. Dado que el p-valor (0.8433) es mayor a 0.05, no se rechaza la H₀. En otras palabras, el modelo B funciona igual de bien que el modelo A, pero con menos variables.

AIC

aic_comparacion=AIC(modelo_logitA, modelo_logitB)
aic_comparacion
##               df      AIC
## modelo_logitA  9 8122.996
## modelo_logitB  7 8119.337

El modelo B presenta un Criterio de Información de Akaike (AIC) de 8119.337, inferior al del modelo A (8122.996). Este menor valor de AIC indica que el modelo B, que excluye las variables no significativas SEXO y mesestrab_antiguedad, ofrece un mejor equilibrio entre bondad de ajuste y simplicidad, favoreciendo su selección como un modelo más parsimonioso. En pocas palabras, el AIC penaliza la complejidad del modelo, de modo que la reducción de 3.659 unidades sugiere que el modelo B captura la variabilidad de la informalidad laboral de manera más eficiente sin sacrificar capacidad explicativa.

library(knitr)
library(kableExtra)

tabla_resultados <- data.frame(
  Modelo = c("modelo_logitB (sin 'mesestrab_antiguedad' y 'sexo')", 
             "modelo_logitA (con 'mesestrab_antiguedad'y 'sexo')"),
  Grados_Libertad = c(anova_comparacion$Df[1], anova_comparacion$Df[2]),
  Deviance = round(anova_comparacion$Deviance, 3),
  AIC = round(aic_comparacion$AIC, 1)
)

p_valor <- round(anova_comparacion$`Pr(>Chi)`[2], 4)

tabla_resultados %>%
  kbl(
    caption = "Comparación entre modelos logit con y sin la variable 'Antiguedad laboral' y 'Sexo'",
    col.names = c("Modelo", "Grados de libertad", "Deviance", "AIC"),
    align = "lccc"
  ) %>%
  kable_classic(full_width = FALSE, html_font = "Arial") %>%
  row_spec(0, bold = TRUE, background = "#455A64", color = "white")
## Warning: 'xfun::attr()' is deprecated.
## Use 'xfun::attr2()' instead.
## See help("Deprecated")
Comparación entre modelos logit con y sin la variable ‘Antiguedad laboral’ y ‘Sexo’
Modelo Grados de libertad Deviance AIC
modelo_logitB (sin ‘mesestrab_antiguedad’ y ‘sexo’) NA NA 8123.0
modelo_logitA (con ‘mesestrab_antiguedad’y ’sexo’) 2 0.341 8119.3

El modelo B se selecciona como el preferido para nuestro análisis de la informalidad laboral en jóvenes peruanos de 15 a 29 años, debido a su superioridad en múltiples criterios.

En primer lugar, presenta un AIC más bajo (8119.337 frente a 8122.996 del modelo A), lo que indica un mejor equilibrio entre bondad de ajuste y simplicidad. Asimismo, la prueba ANOVA (p = 0.8433) confirma que la exclusión de las variables no significativas SEXO (p = 0.916) y mesestrab_antiguedad (p = 0.560) no compromete la capacidad explicativa del modelo B.

Al incluir únicamente variables significativas (con p < 0.001), el modelo B logra mayor parsimonia, capturando de manera más eficiente y simple los factores estructurales clave de la informalidad juvenil, como edad, región geográfica, nivel educativo, conectividad a internet e ingresos.

6 Gráfico de ODDS-RATIO de ambos modelos

Finalizamos la sección con un gráfico que compara los odds ratios de ambos modelos, excluyendo el intercepto para facilitar la visualización.

# Cargar librerías
library(broom)
library(dplyr)
library(ggplot2)
library(forcats)

# Extraer OR e IC del modelo A
or_A <- tidy(modelo_logitA, conf.int = TRUE, exponentiate = TRUE) %>%
  filter(term != "(Intercept)") %>%
  mutate(Modelo = "Modelo A")

# Extraer OR e IC del modelo B
or_B <- tidy(modelo_logitB, conf.int = TRUE, exponentiate = TRUE) %>%
  filter(term != "(Intercept)") %>%
  mutate(Modelo = "Modelo B")

# Combinar ambos modelos
or_comparado <- bind_rows(or_A, or_B) %>%
  mutate(
    term = recode(term,
      "SEXO" = "Sexo (Mujer)",
      "EDAD" = "Edad",
      "REGIONSierra" = "Sierra (vs. Costa)",
      "REGIONSelva" = "Selva (vs. Costa)",
      "NIVEL_EDUCATIVOEducación Superior" = "Educación Superior (vs. Educación Básica)",
      "INTERNETTiene" = "Acceso a Internet (vs. No acceso)",
      "ingresos_jovenes" = "Ingresos Jóvenes",
      "mesestrab_antiguedad" = "Antigüedad Laboral (meses)"
    )
  )

# Reordenar términos por OR promedio para orden lógico en el eje y
or_comparado <- or_comparado %>%
  group_by(term) %>%
  mutate(avg_estimate = mean(estimate)) %>%
  ungroup() %>%
  mutate(term = fct_reorder(term, avg_estimate))

# Forest plot comparativo
ggplot(or_comparado, aes(x = estimate, y = term, color = Modelo)) +
  geom_point(position = position_dodge(width = 0.5), size = 1.5) +
  geom_errorbarh(aes(xmin = conf.low, xmax = conf.high),
                 height = 0.2, position = position_dodge(width = 0.5)) +
  geom_vline(xintercept = 1, linetype = "dashed", color = "gray40") +
  scale_x_log10() +
  labs(
    title = "Comparación de Odds-Ratios entre Modelo A y Modelo B",
    x = "Odds Ratio (escala logarítmica)",
    y = NULL,
    color = "Modelo"
  ) +
  theme_minimal(base_family = "serif") +
  scale_color_manual(values = c("#1F77B4", "#FF7F0E"))

Este gráfico presenta los odds ratios estimados junto con sus intervalos de confianza al 95% para las variables incluidas en los modelos A y B. En este se observa que los odds ratios de las variables comunes en ambos modelos (EDAD, REGIÓN, NIVEL EDUCATIVO, INTERNET e ingresos_jovenes) son virtualmente idénticos, lo que evidencia la estabilidad y robustez de sus efectos sobre la probabilidad de empleo informal.

En contraste, las variables SEXO y mesestrab_antiguedad, incluidas únicamente en el modelo A, muestran odds ratios muy cercanos a uno y carecen de significancia estadística, lo cual respalda su exclusión en el modelo B.

7 Conclusión

En conclusión, los modelos de regresión aplicados en este trabajo muestran que la informalidad laboral juvenil en el Perú no es un fenómeno aleatorio, sino una consecuencia de múltiples factores estructurales que condicionan las trayectorias de inserción laboral desde edades tempranas. En particular, variables como el nivel educativo, el acceso a internet, la región de residencia y el nivel de ingresos del hogar resultaron estadísticamente significativas en la predicción de la informalidad, mientras que otras como el sexo o la antigüedad laboral no mostraron efectos relevantes. Esto confirma que no se trata simplemente de factores individuales, sino de desigualdades arraigadas en el tejido social.

Tal como señala GRADE (2017), muchos jóvenes nunca llegan a tener una oportunidad real de ingresar al empleo formal. Los datos presentados lo confirman: sin acceso a educación y conectividad, el ingreso a la formalidad es más difícil. La variable “acceso a internet”, por ejemplo, actúa como una frontera invisible entre la inclusión y el abandono. Torre (2020) ya lo advertía: la brecha digital no solo es técnica, es profundamente social. Esto se refleja en nuestros modelos, donde el acceso a internet tuvo un efecto protector frente a la informalidad.

Por otro lado, Portes y Haller (2020) mencionan que la informalidad no solo refleja desigualdad, sino que la reproduce. Y lo hace generación tras generación, atrapando a jóvenes en circuitos laborales sin derechos, sin protección y sin futuro. No es que los jóvenes no quieran formalizarse; es que el sistema les da la espalda desde el inicio. Este enfoque ayuda a interpretar nuestros hallazgos no solo como un diagnóstico laboral, sino como una alerta sobre las limitaciones del sistema para ofrecer alternativas reales de inclusión.

Finalmente, la Defensoría del Pueblo (2024) lo resume con claridad: el Estado ha fallado en garantizar igualdad de condiciones para la juventud, especialmente fuera de Lima. Lo que encontramos aquí no es una “juventud sin trabajo”, sino una juventud trabajando sin derechos, sin contratos y sin horizonte. Esta brecha se expresa con claridad en nuestros resultados, donde la variable “región” mostró diferencias significativas en la probabilidad de informalidad.

En resumen, los resultados muestran que no basta con aplicar programas aislados o ayudas puntuales. Se necesita una estrategia completa que combine mejoras en la educación, acceso a internet, oportunidades de empleo formal y desarrollo en las regiones más olvidadas. Solo así se puede ofrecer a los jóvenes una verdadera posibilidad de salir de la informalidad. Tal como propone la UNESCO (2021), solo una acción multisectorial sostenida puede garantizar que los jóvenes no solo accedan al mercado laboral, sino que lo hagan en condiciones dignas, protegidas y con posibilidades reales de desarrollo personal y colectivo. Es imperante diseñar políticas que acompañen el paso de la educación al empleo formal, más aún considerando el rol clave que tuvo el nivel educativo en nuestros modelos.

8 Bibliografía

  • Commonwealth. (2020). Global Youth Development Index and Report 2020. Commonwealth Secretariat. https://thecommonwealth.org/publications/global-youth-development-index-report-2020
  • Defensoría del Pueblo. (2024). Vigésimo octavo informe anual de la Defensoría del Pueblo: Perú, 2024.
  • GRADE. (2017). La informalidad laboral juvenil en el Perú: Factores y determinantes. Grupo de Análisis para el Desarrollo (GRADE).
  • GRADE. (2018). Acceso a empleo formal en jóvenes peruanos: Un análisis del mercado laboral. Grupo de Análisis para el Desarrollo (GRADE).
  • GRADE. (2018). Más allá de los nini: Los jóvenes urbano-vulnerables en el Perú (Documento de Investigación N.º 90). Grupo de Análisis para el Desarrollo (GRADE).
  • Gálvez, T., & Ghiardo, A. (2018). Juventudes e informalidad laboral en América Latina. CEPAL.
  • Mendoza, L. (2018). Desigualdad de género en el mercado laboral juvenil del Perú. Editorial PUCP.
  • Portes, A., & Haller, W. (2020). La informalidad laboral en América Latina: Desigualdad y exclusión en los mercados laborales. Editorial Ciencias Sociales.
  • Torre, D. (2020). Impacto de la digitalización y el acceso a internet en el empleo juvenil. UNESCO.
  • Torre, D., & Sánchez, R. (2019). Condiciones laborales de los jóvenes peruanos en el siglo XXI. Fondo Editorial de la PUCP.
  • UNESCO. (s.f.). Digital inclusion of youth: Ensuring equitable access to opportunities in a connected world. https://www.unesco.org/en/youth/digital-inclusion
  • UNESCO. (2021). La educación y el empleo juvenil en América Latina: Barreras y oportunidades. Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO).
  • Instituto Nacional de Estadística e Informática. (2023). Encuesta Nacional de Hogares (ENAHO) 2023. https://www.inei.gob.pe/estadisticas/encuestas/