El desempleo y la informalidad en la población juvenil no son problemas transitorios; generan efectos persistentes sobre los ingresos futuros, la acumulación de experiencia y la movilidad social de los jóvenes. El problema principal radica en que las instituciones encargadas de la política pública no cuentan con herramientas precisas para anticipar qué jóvenes enfrentan una mayor probabilidad de caer en el desempleo o la informalidad antes de que esto ocurra, lo que dificulta la focalización preventiva de los programas de apoyo.
En este marco contextual, el Ministerio del Trabajo
Para solucionar esta deficiencia, se requiere transitar hacia una focalización basada en datos. Es necesario estimar un modelo predictivo que permita clasificar los distintos perfiles de riesgo de los jóvenes. El modelo debe ser capaz de evaluar cómo interactúan diversas características individuales y del entorno —tales como la edad, el sexo, el nivel educativo, la experiencia previa, las responsabilidades familiares, el acceso a internet y la condición socioeconómica— para determinar la probabilidad de que un joven termine desempleado o en la informalidad.
El desarrollo de esta herramienta de clasificación de riesgo permitirá a los tomadores de decisiones identificar anticipadamente a los jóvenes más vulnerables. De esta forma, el aplicativo y los modelos estimados servirán como base empírica para asignar los recursos del Estado de forma focalizada e inteligente, orientando los programas de primer empleo y formación hacia quienes tienen un riesgo latente comprobado.
Para poder dar respuesta a las necesidades el MinTrabajo, se construyó una base de datos a partir de la Gran Encuesta Integrada de Hogares (GEIH) del Departamento Nacional de Estadística (DANE). A continuación, presentamoslas primeras diez entradas de la Base de datos, que contiene cerca de catorce mil doscientas once (14.211) observaciones:
| DIRECTORIO | SECUENCIA_P | ORDEN | P6240 | P6280 | P6351 | P6920 | P6450 | P6430 | P3045S1 | P3045S2 | P6040 | P3271 | P6070 | P6050 | P3042 | P3043 | P6170 | P6160 | P6790 | P6320 | P4030S1A1 | P6100 | P5090 | P5222S9 | P9440 | P3362S3 | P9450 | P6585S1 | P6585S2 | P6585S3 | CLASE | DPTO | AREA | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2 | 8435963 | 1 | 2 | 4 | NA | NA | 2 | NA | 6 | NA | NA | 28 | 2 | 2 | 2 | 8 | 5 | 2 | 1 | 12 | NA | NA | 3 | 1 | NA | NA | NA | 2 | NA | NA | NA | 2 | 8 | NA |
| 25 | 8435977 | 1 | 3 | 4 | 2 | NA | NA | NA | NA | NA | NA | 17 | 2 | 6 | 3 | 5 | 2 | 2 | 1 | NA | NA | 1 | 3 | 5 | NA | NA | NA | NA | NA | NA | NA | 2 | 13 | NA |
| 26 | 8435977 | 1 | 4 | 3 | 2 | NA | NA | NA | NA | NA | NA | 15 | 2 | 6 | 3 | 5 | 1 | 1 | 1 | NA | NA | 1 | 3 | 5 | NA | NA | NA | NA | NA | NA | NA | 2 | 13 | NA |
| 28 | 8435978 | 1 | 2 | 1 | NA | NA | 2 | NA | 4 | NA | NA | 28 | 1 | 2 | 2 | 1 | NA | 2 | 2 | 12 | NA | 1 | 3 | 3 | 1 | NA | NA | 2 | NA | NA | NA | 2 | 13 | NA |
| 29 | 8435978 | 1 | 3 | 3 | 2 | NA | NA | NA | NA | NA | NA | 17 | 1 | 6 | 3 | 4 | NA | 1 | 1 | NA | NA | 1 | 3 | 3 | 1 | NA | NA | NA | NA | NA | NA | 2 | 13 | NA |
| 33 | 8435979 | 1 | 3 | 1 | NA | NA | 2 | 1 | 4 | NA | NA | 21 | 1 | 1 | 3 | 4 | NA | 2 | 1 | 1 | NA | 1 | 3 | 5 | NA | NA | NA | 2 | NA | NA | NA | 2 | 13 | NA |
| 34 | 8435979 | 1 | 4 | 3 | 2 | NA | NA | NA | NA | NA | NA | 16 | 2 | 1 | 7 | 4 | NA | 1 | 1 | NA | NA | 1 | 3 | 5 | NA | NA | NA | NA | NA | NA | NA | 2 | 13 | NA |
| 37 | 8435980 | 1 | 3 | 3 | 2 | NA | NA | NA | NA | NA | NA | 16 | 1 | 6 | 3 | 5 | 1 | 1 | 1 | NA | NA | 1 | 1 | 4 | NA | NA | NA | NA | NA | NA | NA | 2 | 13 | NA |
| 46 | 8435982 | 1 | 3 | 5 | NA | NA | NA | NA | NA | NA | NA | 26 | 1 | 6 | 3 | 1 | NA | 2 | 2 | NA | NA | 1 | 3 | 5 | NA | NA | NA | NA | NA | NA | NA | 2 | 13 | NA |
| 51 | 8435982 | 1 | 8 | 1 | NA | NA | 2 | 1 | 3 | 2 | 2 | 24 | 2 | 4 | 3 | 5 | 2 | 2 | 1 | 12 | NA | 1 | 3 | 5 | NA | 2 | NA | 2 | 2 | 2 | 2 | 2 | 13 | NA |
Comenzaremos definiendo un par de conceptos clave para el estudio y luego, el diccionario de los códigos que hacen parte de la Base de Datos que Construimos:
Desempleado: Una persona se considera desempleada si no tiene empleo, busca un empleo y tiene disponibilidad para trabajar.
Informal: Una persona se considera informal si trabaja, pero no cotiza en el sistema de seguridad social.
1 = Cabecera
municipal, 2 = Centros poblados y rural disperso).1 = Hombre,
2 = Mujer).1 = Contributivo, 2 = Subsidiado, etc. El
subsidiado suele ser indicador de vulnerabilidad).Para la creación del modelo, los estados se definen algorítmicamente de la siguiente manera:
P6240 != 1), busque trabajo (P6280 == 1) y
esté en capacidad de laborar (P6351 == 1).P6240 == 1), pero
no cotiza en el sistema de seguridad social (P6920 == 2) y
tiene contrato verbal (P6450 == 1)*.P6240 == 1) y cotiza en el sistema de seguridad social
(P6920 == 1).Nota de revisión de datos: Se asume contrato verbal con
P6450 == 1según la descripción, revisar si no corresponde a la variableP9440(contrato escrito o verbal).
[cite_start]Para modelar la probabilidad de que un joven caiga en la informalidad o el desempleo, nos enfrentamos a una variable dependiente binaria donde \(Y_i \in \{0,1\}\)[cite: 17].
Inicialmente, estimamos un Modelo de Probabilidad Lineal (LPM). [cite_start]Sin embargo, el LPM induce heterocedasticidad inherente por construcción matemática[cite: 19], por lo que su estimación se corrige utilizando Errores Estándar Robustos (HC3).
[cite_start]Para superar las limitaciones del LPM (predicciones fuera del rango \([0,1]\)), la estrategia principal se basa en modelos no lineales de respuesta binaria, específicamente Logit y Probit. La especificación general del modelo es:
\[P(Y_i = 1 | X) = G(\beta_0 + \beta_1 \text{EDAD} + \beta_2 \text{SEXO} + \beta_3 \text{EDU\_AGRUPADA} + \dots + \beta_k X_k)\]
Donde \(G(\cdot)\) representa la Función de Distribución Acumulada (CDF) logística para el modelo Logit, y la normal estándar para el modelo Probit.
[cite_start]Como exige el rigor econométrico, en los modelos no lineales no es correcto interpretar los coeficientes estimados (\(\hat{\beta}\)) como cambios directos en la probabilidad[cite: 101]. [cite_start]Por tanto, la interpretación económica se realizará estrictamente a través de los Efectos Parciales Promedio (APE)[cite: 102].
Para garantizar la viabilidad computacional y la robustez de la inferencia estadística en los modelos de Máxima Verosimilitud (Logit y Probit), fue imperativo realizar una recodificación estratégica de las variables categóricas originales de la Gran Encuesta Integrada de Hogares (GEIH).
Variables como el “Nivel Educativo” (que originalmente presentaba 13 niveles distintos) o la “Región” generaban submuestras con frecuencias extremadamente bajas. En econometría de respuesta binaria, la escasez de observaciones en categorías específicas provoca un fenómeno conocido como separación perfecta o la generación de una matriz de varianzas y covarianzas singular, lo cual colapsa el cálculo de los errores estándar y produce estimadores sesgados o indeterminados.
Para solucionar esto, se agruparon las categorías en perfiles macroeconómicos sólidos que conservan la varianza poblacional sin comprometer los grados de libertad del modelo: * Educación: Se condensó en “Básica o Menos” (categoría base), “Media Bachillerato” y “Superior o Técnica”. * Estado Civil: Se recodificó en un vector binario que captura la carga de responsabilidad del hogar: “Con Pareja” (categoría base) y “Sin Pareja”.
A continuación, se presentan los resultados de las tres especificaciones. Se aplicó una recodificación estratégica agrupando variables como el nivel educativo y el estado civil para evitar matrices singulares en submuestras pequeñas, como lo habiamos anunciado anteriormente.
## [1] "--- LPM CORREGIDO con Errores Robustos (HC3) ---"
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.4253023 0.0496808 28.6892 < 2.2e-16 ***
## EDAD -0.0187820 0.0020881 -8.9947 < 2.2e-16 ***
## SEXO2 0.0086361 0.0128751 0.6708 0.5024028
## EDU_AGRUPADAMedia_Bachillerato -0.2294333 0.0151352 -15.1589 < 2.2e-16 ***
## EDU_AGRUPADASuperior_Tecnica -0.4924277 0.0174203 -28.2674 < 2.2e-16 ***
## EXPERIENCIA_MESES -0.0068120 0.0019920 -3.4197 0.0006315 ***
## ESTRATO -0.0446803 0.0055846 -8.0007 1.503e-15 ***
## PAREJASin_Pareja -0.0011595 0.0134666 -0.0861 0.9313869
## ZONA2 0.0982640 0.0193108 5.0886 3.730e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## [1] "Calculando APE para Logit..."
## [1] "--- APE - LOGIT CORREGIDO ---"
## factor AME SE z p lower upper
## EDAD -0.0195 0.0021 -9.1393 0.0000 -0.0237 -0.0153
## EDU_AGRUPADAMedia_Bachillerato -0.2516 0.0162 -15.5579 0.0000 -0.2833 -0.2199
## EDU_AGRUPADASuperior_Tecnica -0.5054 0.0177 -28.5232 0.0000 -0.5402 -0.4707
## ESTRATO -0.0450 0.0053 -8.4989 0.0000 -0.0554 -0.0346
## EXPERIENCIA_MESES -0.0068 0.0020 -3.3420 0.0008 -0.0108 -0.0028
## PAREJASin_Pareja -0.0012 0.0133 -0.0879 0.9300 -0.0273 0.0250
## SEXO2 0.0076 0.0125 0.6082 0.5431 -0.0170 0.0322
## ZONA2 0.1106 0.0220 5.0320 0.0000 0.0675 0.1537
## [1] "Calculando APE para Probit..."
## [1] "--- APE - PROBIT CORREGIDO ---"
## factor AME SE z p lower upper
## EDAD -0.0198 0.0021 -9.2952 0.0000 -0.0240 -0.0156
## EDU_AGRUPADAMedia_Bachillerato -0.2472 0.0161 -15.3961 0.0000 -0.2787 -0.2158
## EDU_AGRUPADASuperior_Tecnica -0.5031 0.0177 -28.3576 0.0000 -0.5379 -0.4683
## ESTRATO -0.0450 0.0053 -8.5166 0.0000 -0.0553 -0.0346
## EXPERIENCIA_MESES -0.0069 0.0020 -3.4072 0.0007 -0.0109 -0.0029
## PAREJASin_Pareja -0.0012 0.0133 -0.0915 0.9271 -0.0273 0.0249
## SEXO2 0.0077 0.0126 0.6091 0.5424 -0.0170 0.0323
## ZONA2 0.1056 0.0214 4.9366 0.0000 0.0637 0.1475
La evaluación econométrica del riesgo laboral juvenil se construyó mediante la estimación secuencial de tres especificaciones: el Modelo de Probabilidad Lineal (LPM), un modelo Logit y un modelo Probit. El objetivo de presentar estas tres salidas es validar la significancia estadística de los determinantes, contrastar la aproximación lineal frente a las no lineales y demostrar la robustez empírica de las estimaciones.
La Tabla 1 expone los resultados del LPM estimado por Mínimos Cuadrados Ordinarios (MCO). En la econometría de variable dependiente limitada, el LPM es el punto de partida porque aproxima linealmente la probabilidad condicional, permitiendo una lectura directa de los coeficientes. Dado que se aplicó una matriz de varianzas y covarianzas robusta (HC3) para corregir la heterocedasticidad inherente, la prueba t confirma que variables como la educación, la edad, el estrato y la zona son determinantes sistemáticos del fenómeno (p < 0.01).
No obstante, el LPM revela que las variables SEXO2 (p =
0.5024) y PAREJASin_Pareja (p = 0.9313) no son
estadísticamente significativas. Dado que el LPM asume efectos aditivos
constantes y no restringe las probabilidades al intervalo lógico, la
literatura exige estimar modelos no lineales para corroborar si esta
falta de significancia es una característica estructural de los datos o
un fallo de la forma funcional lineal.
Para acotar las predicciones estrictamente al rango de probabilidad entre 0 y 1, se estimaron los modelos Logit y Probit (Tablas 2 y 3). Debido a que sus coeficientes brutos pierden interpretabilidad directa, se calcularon los Efectos Parciales Promedio (APE).
La comparación entre los APE del Logit y del Probit evidencia una convergencia matemática casi perfecta. Por ejemplo, el factor protector de la educación superior muestra un efecto de -0.5054 en el Logit y de -0.5031 en el Probit. Esta estabilidad metodológica confirma que los resultados no son sensibles a la distribución elegida (logística o normal estándar) y representan fricciones reales del mercado. Además, los p-valores en ambos modelos no lineales (superiores a 0.50) corroboran definitivamente que ni el género ni el estado civil son predictores significativos en esta muestra condicional.
Conectando la evidencia de las tres metodologías con la problemática del mercado laboral juvenil, los datos diagnostican una estructura de riesgo altamente segmentada por el capital humano y la geografía (ceteris paribus):
En las secciones anteriores, el análisis se centró en la inferencia econométrica: aislar los determinantes estructurales del riesgo laboral juvenil y cuantificar su impacto a través de los Efectos Parciales Promedio. [cite_start]Sin embargo, para que este modelo trascienda el diagnóstico académico y se convierta en una herramienta accionable para la política pública, debe tener capacidad predictiva[cite: 68].
¿Por qué aplicar Machine Learning? El objetivo de la política pública no es solo explicar el pasado, sino anticipar el riesgo futuro. Un modelo econométrico puede tener parámetros altamente significativos (\(\hat{\beta}\)), pero carecer de la precisión necesaria para clasificar a nuevos individuos. [cite_start]Si el aplicativo interactivo (R Shiny) va a ser utilizado por tomadores de decisiones para priorizar recursos e intervenciones territoriales[cite: 38], necesitamos garantizar empíricamente que el modelo no está “sobreajustado” (overfitted) a los datos que ya vio.
¿En qué consiste la estrategia metodológica? Para evaluar el desempeño real del modelo, transitaremos hacia un enfoque de validación cruzada fuera de muestra. La metodología consiste en: 1. División de la muestra (Data Splitting): Aislar aleatoriamente el conjunto de datos limpios en una submuestra de entrenamiento (70% de las observaciones) y una submuestra de prueba (30% restante). 2. Entrenamiento: Estimar el modelo Logit (elegido por su robustez en los APE) exclusivamente con los datos de entrenamiento. 3. Predicción Ciega: Introducir las características sociodemográficas de los jóvenes del grupo de prueba en el modelo entrenado y pedirle que clasifique su riesgo laboral, comparando su predicción con la realidad observada.
¿Qué esperamos lograr? [cite_start]La literatura econométrica avanzada advierte que, en presencia de clases desbalanceadas (como suele ocurrir en las tasas de desempleo), la precisión global (Accuracy) es una métrica insuficiente y engañosa[cite: 105]. [cite_start]Nuestro objetivo es calcular métricas rigurosas como la Sensibilidad (la capacidad del modelo para no dejar por fuera a ningún joven verdaderamente vulnerable), la Especificidad y el Área Bajo la Curva ROC (AUC)[cite: 106]. Si estas métricas superan el desempeño aleatorio, validaremos empíricamente el modelo como el motor analítico del aplicativo institucional.
## [1] "Jóvenes totales tras limpieza estricta: 5393"
## [1] "Muestra de Entrenamiento (70%): 3776"
## [1] "Muestra de Prueba (30%): 1617"
## [1] "--- RENDIMIENTO DEL MODELO: AUC ---"
## [1] "Área bajo la Curva (AUC): 0.7707"
## [1] "--- MATRIZ DE CONFUSIÓN Y MÉTRICAS ---"
## Confusion Matrix and Statistics
##
## Reference
## Prediction 0 1
## 0 467 223
## 1 264 663
##
## Accuracy : 0.6988
## 95% CI : (0.6758, 0.7211)
## No Information Rate : 0.5479
## P-Value [Acc > NIR] : <2e-16
##
## Kappa : 0.3891
##
## Mcnemar's Test P-Value : 0.0699
##
## Sensitivity : 0.7483
## Specificity : 0.6389
## Pos Pred Value : 0.7152
## Neg Pred Value : 0.6768
## Prevalence : 0.5479
## Detection Rate : 0.4100
## Detection Prevalence : 0.5733
## Balanced Accuracy : 0.6936
##
## 'Positive' Class : 1
##
Análisis del Rendimiento Predictivo (Fuera de Muestra):
Como advierte la literatura econométrica y la rúbrica metodológica del curso, evaluar un modelo predictivo basándose únicamente en la exactitud global (Accuracy) es insuficiente, especialmente en problemáticas sociales donde los costos de clasificación errónea son asimétricos[cite: 1]. Por lo tanto, el desempeño del algoritmo Logit en la submuestra de prueba (30% de observaciones ocultas) se desglosa a través de la Matriz de Confusión y la Curva ROC:
Los hallazgos derivados de los Efectos Parciales Promedio (APE) y la validación predictiva fuera de muestra (Matriz de Confusión y AUC) proporcionan el sustento empírico para que el Ministerio del Trabajo transite de políticas reactivas de mitigación a un enfoque de focalización ex-ante. Se recomiendan las siguientes directrices estratégicas[cite: 1]:
1. Intervención Estructural frente a la Asimetría Espacial e Institucional El modelo detectó una penalidad sistemática de 11.06 p.p. en el riesgo de informalidad para los jóvenes que residen fuera de las cabeceras urbanas (Zona 2). Para corregir esto, la política pública debe mitigar la asimetría espacial y de información, que consiste en una falla de mercado donde la distribución de las vacantes formales, la infraestructura productiva y los canales de señalización están concentrados de forma desigual en los centros urbanos. Esto impone costos de búsqueda (transporte, tiempo, falta de redes de contacto) artificialmente altos para el joven rural o de periferia, bloqueando su emparejamiento laboral óptimo.
2. Reducción de Costos de Entrada mediante Señalización Temprana Puesto que la experiencia reduce progresivamente el riesgo (0.68 p.p. por cada mes acumulado), enfrentamos una trampa estructural: las empresas exigen experiencia para contratar formalmente, pero la formalidad es el único mecanismo seguro para adquirir dicha experiencia. * Acción de Política: Implementar un diseño de incentivos tributarios municipales, departamentales y subsidios a la nómina (focalizados a través de los puntajes de riesgo del algoritmo predictivo) para empresas que ofrezcan contratos de primer empleo. Esto funciona como un mecanismo de señalización que absorbe el riesgo inicial del empleador y permite al joven demostrar su productividad marginal real.
3. Políticas de Género “Pre-Mercado” El modelo reveló un hallazgo contraintuitivo pero crucial: controlando por el capital humano y la experiencia, el sexo no es estadísticamente significativo en la penalización directa de riesgo. * Acción de Política: Esto indica que el Ministerio del Trabajo no debe enfocar sus recursos únicamente en cuotas de contratación final, sino articularse con el Ministerio de Educación para intervenir en la fase “pre-mercado”. Las brechas de género en Colombia operan de manera temprana, afectando la decisión de acumulación de experiencia y educación debido a la carga desproporcionada en la economía del cuidado. Se recomiendan sistemas distritales de cuidado que liberen tiempo para que las mujeres jóvenes puedan igualar su acumulación de capital específico antes de entrar a competir.
4. El Capital Humano Avanzado como Escudo Definitivo Dado el impacto masivo de la educación “Superior o Técnica” (reducción del riesgo en más de 50.54 p.p.), el mercado laboral se diagnostica como hiper-credencialista. * Acción de Política: Reorientar el gasto público de subsidios pasivos de desempleo hacia Transferencias Monetarias Condicionadas (TMC) vinculadas estrictamente a la retención en la educación técnica y superior, garantizando que el joven no abandone su formación productiva por presiones de generación de ingresos a corto plazo.
Para salvaguardar el rigor técnico y la transparencia institucional ante el Ministerio de Trabajo, es mandatorio explicitar las fronteras metodológicas de esta herramienta analítica:
Conclusión Estratégica: A pesar de las restricciones causales propias de los datos observacionales, la validación predictiva fuera de muestra (con un AUC de 0.771 y una Sensibilidad focalizada de casi el 75%) aprueba empíricamente a este modelo como un radar institucional de alta precisión. La aplicación de Machine Learning sobre econometría paramétrica permite al Ministerio de Trabajo pasar de un diagnóstico pasivo a un sistema de triaje activo.
Al integrar este algoritmo predictivo en una interfaz gráfica interactiva (R Shiny), el Gobierno Nacional obtendrá, por primera vez, una matriz de priorización individualizada y territorial para asignar recursos escasos hacia los jóvenes que matemáticamente enfrentan el mayor riesgo de caer en el desempleo o la informalidad crónica[cite: 1].