Planteamiento del Problema

El desempleo y la informalidad en la población juvenil no son problemas transitorios; generan efectos persistentes sobre los ingresos futuros, la acumulación de experiencia y la movilidad social de los jóvenes. El problema principal radica en que las instituciones encargadas de la política pública no cuentan con herramientas precisas para anticipar qué jóvenes enfrentan una mayor probabilidad de caer en el desempleo o la informalidad antes de que esto ocurra, lo que dificulta la focalización preventiva de los programas de apoyo.

En este marco contextual, el Ministerio del Trabajo

Justificación del Problema

Para solucionar esta deficiencia, se requiere transitar hacia una focalización basada en datos. Es necesario estimar un modelo predictivo que permita clasificar los distintos perfiles de riesgo de los jóvenes. El modelo debe ser capaz de evaluar cómo interactúan diversas características individuales y del entorno —tales como la edad, el sexo, el nivel educativo, la experiencia previa, las responsabilidades familiares, el acceso a internet y la condición socioeconómica— para determinar la probabilidad de que un joven termine desempleado o en la informalidad.

Objetivo

El desarrollo de esta herramienta de clasificación de riesgo permitirá a los tomadores de decisiones identificar anticipadamente a los jóvenes más vulnerables. De esta forma, el aplicativo y los modelos estimados servirán como base empírica para asignar los recursos del Estado de forma focalizada e inteligente, orientando los programas de primer empleo y formación hacia quienes tienen un riesgo latente comprobado.

Base de datos

Para poder dar respuesta a las necesidades el MinTrabajo, se construyó una base de datos a partir de la Gran Encuesta Integrada de Hogares (GEIH) del Departamento Nacional de Estadística (DANE). A continuación, presentamoslas primeras diez entradas de la Base de datos, que contiene cerca de catorce mil doscientas once (14.211) observaciones:

Muestra de los primeros 10 registros de la base de jóvenes
DIRECTORIO SECUENCIA_P ORDEN P6240 P6280 P6351 P6920 P6450 P6430 P3045S1 P3045S2 P6040 P3271 P6070 P6050 P3042 P3043 P6170 P6160 P6790 P6320 P4030S1A1 P6100 P5090 P5222S9 P9440 P3362S3 P9450 P6585S1 P6585S2 P6585S3 CLASE DPTO AREA
2 8435963 1 2 4 NA NA 2 NA 6 NA NA 28 2 2 2 8 5 2 1 12 NA NA 3 1 NA NA NA 2 NA NA NA 2 8 NA
25 8435977 1 3 4 2 NA NA NA NA NA NA 17 2 6 3 5 2 2 1 NA NA 1 3 5 NA NA NA NA NA NA NA 2 13 NA
26 8435977 1 4 3 2 NA NA NA NA NA NA 15 2 6 3 5 1 1 1 NA NA 1 3 5 NA NA NA NA NA NA NA 2 13 NA
28 8435978 1 2 1 NA NA 2 NA 4 NA NA 28 1 2 2 1 NA 2 2 12 NA 1 3 3 1 NA NA 2 NA NA NA 2 13 NA
29 8435978 1 3 3 2 NA NA NA NA NA NA 17 1 6 3 4 NA 1 1 NA NA 1 3 3 1 NA NA NA NA NA NA 2 13 NA
33 8435979 1 3 1 NA NA 2 1 4 NA NA 21 1 1 3 4 NA 2 1 1 NA 1 3 5 NA NA NA 2 NA NA NA 2 13 NA
34 8435979 1 4 3 2 NA NA NA NA NA NA 16 2 1 7 4 NA 1 1 NA NA 1 3 5 NA NA NA NA NA NA NA 2 13 NA
37 8435980 1 3 3 2 NA NA NA NA NA NA 16 1 6 3 5 1 1 1 NA NA 1 1 4 NA NA NA NA NA NA NA 2 13 NA
46 8435982 1 3 5 NA NA NA NA NA NA NA 26 1 6 3 1 NA 2 2 NA NA 1 3 5 NA NA NA NA NA NA NA 2 13 NA
51 8435982 1 8 1 NA NA 2 1 3 2 2 24 2 4 3 5 2 2 1 12 NA 1 3 5 NA 2 NA 2 2 2 2 2 13 NA

Descripción de los Datos

Comenzaremos definiendo un par de conceptos clave para el estudio y luego, el diccionario de los códigos que hacen parte de la Base de Datos que Construimos:

Desempleado: Una persona se considera desempleada si no tiene empleo, busca un empleo y tiene disponibilidad para trabajar.

Informal: Una persona se considera informal si trabaja, pero no cotiza en el sistema de seguridad social.

1. Identificación y Ubicación Geográfica

  • DPTO: Código del Departamento.
  • AREA: Identificador del Área Metropolitana o ciudad principal.
  • CLASE: Zona de ubicación (1 = Cabecera municipal, 2 = Centros poblados y rural disperso).

2. Características Sociodemográficas (El perfil del joven)

  • P6040: Edad (¿Cuántos años cumplidos tiene?).
  • P3271: Sexo (1 = Hombre, 2 = Mujer).
  • P6070: Estado civil (Útil para ver si tiene pareja y cómo afecta la probabilidad de trabajar).
  • P6050: Parentesco con el jefe(a) de hogar (Para identificar si es hijo, jefe de hogar, etc., lo que implica cargas familiares).
  • P6170: Principal fuente de ingresos / Dependencia económica (Si depende de familiares o tiene ingresos propios).

3. Capital Humano (Educación y habilidades)

  • P6160: ¿Sabe leer y escribir?
  • P3042: Nivel educativo más alto alcanzado (Incluye básica, media, técnica, tecnológica y universitaria).
  • P3043: Último año o grado aprobado en el nivel educativo que reportó.

4. Condiciones Socioeconómicas y de la Vivienda

  • P4030S1A1: Estrato socioeconómico para el pago de la energía (Excelente proxy para el nivel de riqueza del hogar).
  • P5090: Tenencia de la vivienda (Propia, en arriendo, pagando, etc.).
  • P6100: Régimen de seguridad social en salud (1 = Contributivo, 2 = Subsidiado, etc. El subsidiado suele ser indicador de vulnerabilidad).
  • P5222S9: Bienes y servicios del hogar: ¿Tiene servicio de conexión a Internet? (Clave para tu modelo, mide el acceso a TIC).

5. Fuerza de Trabajo (Desempleo)

  • P6240: Actividad principal durante la semana pasada (Trabajando, buscando trabajo, estudiando, oficios del hogar).
  • P6280: ¿Qué hizo durante las últimas 4 semanas para conseguir trabajo o instalar un negocio?
  • P6320: ¿Hace cuántas semanas está buscando trabajo? (Mide la duración del desempleo).
  • P6351: ¿Si le hubieran ofrecido un trabajo la semana pasada, estaba disponible para empezar a trabajar?

6. Condiciones Laborales y Medición de Informalidad

  • P6430: Posición ocupacional (Obrero o empleado de empresa particular, cuenta propia, patrón, trabajador familiar, etc.).
  • P6450: Ingreso laboral / Salario recibido el mes pasado en su trabajo principal.
  • P6790: ¿Cuántos meses lleva trabajando en esa empresa o negocio? (Experiencia / Antigüedad).
  • P6920: ¿Actualmente está cotizando a un fondo de pensiones? (Es uno de los filtros principales del DANE para definir la informalidad).
  • P9440: ¿El contrato de trabajo es escrito o verbal?
  • P9450: Tipo de contrato (Término fijo, indefinido, prestación de servicios).
  • P3045S1: ¿La empresa o negocio tiene Registro en la Cámara de Comercio? (Mide formalidad empresarial).
  • P3045S2: ¿La empresa o negocio tiene RUT (Registro Único Tributario)?

7. Prestaciones y Beneficios (Calidad del empleo)

  • P6585S1: ¿En este trabajo recibe Prima de servicios?
  • P6585S2: ¿En este trabajo recibe Vacaciones con sueldo?
  • P6585S3: ¿En este trabajo recibe Cesantías?
  • P3362S3: ¿Ha recibido ayudas o participado en programas institucionales/públicos para el fomento del empleo?

Criterios de Clasificación Lógica

Para la creación del modelo, los estados se definen algorítmicamente de la siguiente manera:

  • Desempleado: Que no trabaje (P6240 != 1), busque trabajo (P6280 == 1) y esté en capacidad de laborar (P6351 == 1).
  • Informal: Trabaja (P6240 == 1), pero no cotiza en el sistema de seguridad social (P6920 == 2) y tiene contrato verbal (P6450 == 1)*.
  • Ocupado formalmente: Trabaja (P6240 == 1) y cotiza en el sistema de seguridad social (P6920 == 1).

Nota de revisión de datos: Se asume contrato verbal con P6450 == 1 según la descripción, revisar si no corresponde a la variable P9440 (contrato escrito o verbal).

Estrategia Metodológica y Especificación Econométrica

[cite_start]Para modelar la probabilidad de que un joven caiga en la informalidad o el desempleo, nos enfrentamos a una variable dependiente binaria donde \(Y_i \in \{0,1\}\)[cite: 17].

Inicialmente, estimamos un Modelo de Probabilidad Lineal (LPM). [cite_start]Sin embargo, el LPM induce heterocedasticidad inherente por construcción matemática[cite: 19], por lo que su estimación se corrige utilizando Errores Estándar Robustos (HC3).

[cite_start]Para superar las limitaciones del LPM (predicciones fuera del rango \([0,1]\)), la estrategia principal se basa en modelos no lineales de respuesta binaria, específicamente Logit y Probit. La especificación general del modelo es:

\[P(Y_i = 1 | X) = G(\beta_0 + \beta_1 \text{EDAD} + \beta_2 \text{SEXO} + \beta_3 \text{EDU\_AGRUPADA} + \dots + \beta_k X_k)\]

Donde \(G(\cdot)\) representa la Función de Distribución Acumulada (CDF) logística para el modelo Logit, y la normal estándar para el modelo Probit.

[cite_start]Como exige el rigor econométrico, en los modelos no lineales no es correcto interpretar los coeficientes estimados (\(\hat{\beta}\)) como cambios directos en la probabilidad[cite: 101]. [cite_start]Por tanto, la interpretación económica se realizará estrictamente a través de los Efectos Parciales Promedio (APE)[cite: 102].

Justificación Metodológica: Agrupación de Categorías

Para garantizar la viabilidad computacional y la robustez de la inferencia estadística en los modelos de Máxima Verosimilitud (Logit y Probit), fue imperativo realizar una recodificación estratégica de las variables categóricas originales de la Gran Encuesta Integrada de Hogares (GEIH).

Variables como el “Nivel Educativo” (que originalmente presentaba 13 niveles distintos) o la “Región” generaban submuestras con frecuencias extremadamente bajas. En econometría de respuesta binaria, la escasez de observaciones en categorías específicas provoca un fenómeno conocido como separación perfecta o la generación de una matriz de varianzas y covarianzas singular, lo cual colapsa el cálculo de los errores estándar y produce estimadores sesgados o indeterminados.

Para solucionar esto, se agruparon las categorías en perfiles macroeconómicos sólidos que conservan la varianza poblacional sin comprometer los grados de libertad del modelo: * Educación: Se condensó en “Básica o Menos” (categoría base), “Media Bachillerato” y “Superior o Técnica”. * Estado Civil: Se recodificó en un vector binario que captura la carga de responsabilidad del hogar: “Con Pareja” (categoría base) y “Sin Pareja”.

Resultados e Interpretación Económica

A continuación, se presentan los resultados de las tres especificaciones. Se aplicó una recodificación estratégica agrupando variables como el nivel educativo y el estado civil para evitar matrices singulares en submuestras pequeñas, como lo habiamos anunciado anteriormente.

## [1] "--- LPM CORREGIDO con Errores Robustos (HC3) ---"
## 
## t test of coefficients:
## 
##                                  Estimate Std. Error  t value  Pr(>|t|)    
## (Intercept)                     1.4253023  0.0496808  28.6892 < 2.2e-16 ***
## EDAD                           -0.0187820  0.0020881  -8.9947 < 2.2e-16 ***
## SEXO2                           0.0086361  0.0128751   0.6708 0.5024028    
## EDU_AGRUPADAMedia_Bachillerato -0.2294333  0.0151352 -15.1589 < 2.2e-16 ***
## EDU_AGRUPADASuperior_Tecnica   -0.4924277  0.0174203 -28.2674 < 2.2e-16 ***
## EXPERIENCIA_MESES              -0.0068120  0.0019920  -3.4197 0.0006315 ***
## ESTRATO                        -0.0446803  0.0055846  -8.0007 1.503e-15 ***
## PAREJASin_Pareja               -0.0011595  0.0134666  -0.0861 0.9313869    
## ZONA2                           0.0982640  0.0193108   5.0886 3.730e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## [1] "Calculando APE para Logit..."
## [1] "--- APE - LOGIT CORREGIDO ---"
##                          factor     AME     SE        z      p   lower   upper
##                            EDAD -0.0195 0.0021  -9.1393 0.0000 -0.0237 -0.0153
##  EDU_AGRUPADAMedia_Bachillerato -0.2516 0.0162 -15.5579 0.0000 -0.2833 -0.2199
##    EDU_AGRUPADASuperior_Tecnica -0.5054 0.0177 -28.5232 0.0000 -0.5402 -0.4707
##                         ESTRATO -0.0450 0.0053  -8.4989 0.0000 -0.0554 -0.0346
##               EXPERIENCIA_MESES -0.0068 0.0020  -3.3420 0.0008 -0.0108 -0.0028
##                PAREJASin_Pareja -0.0012 0.0133  -0.0879 0.9300 -0.0273  0.0250
##                           SEXO2  0.0076 0.0125   0.6082 0.5431 -0.0170  0.0322
##                           ZONA2  0.1106 0.0220   5.0320 0.0000  0.0675  0.1537
## [1] "Calculando APE para Probit..."
## [1] "--- APE - PROBIT CORREGIDO ---"
##                          factor     AME     SE        z      p   lower   upper
##                            EDAD -0.0198 0.0021  -9.2952 0.0000 -0.0240 -0.0156
##  EDU_AGRUPADAMedia_Bachillerato -0.2472 0.0161 -15.3961 0.0000 -0.2787 -0.2158
##    EDU_AGRUPADASuperior_Tecnica -0.5031 0.0177 -28.3576 0.0000 -0.5379 -0.4683
##                         ESTRATO -0.0450 0.0053  -8.5166 0.0000 -0.0553 -0.0346
##               EXPERIENCIA_MESES -0.0069 0.0020  -3.4072 0.0007 -0.0109 -0.0029
##                PAREJASin_Pareja -0.0012 0.0133  -0.0915 0.9271 -0.0273  0.0249
##                           SEXO2  0.0077 0.0126   0.6091 0.5424 -0.0170  0.0323
##                           ZONA2  0.1056 0.0214   4.9366 0.0000  0.0637  0.1475

Análisis Comparativo y Robustez Estructural de los Modelos

La evaluación econométrica del riesgo laboral juvenil se construyó mediante la estimación secuencial de tres especificaciones: el Modelo de Probabilidad Lineal (LPM), un modelo Logit y un modelo Probit. El objetivo de presentar estas tres salidas es validar la significancia estadística de los determinantes, contrastar la aproximación lineal frente a las no lineales y demostrar la robustez empírica de las estimaciones.

1. El Modelo de Probabilidad Lineal (LPM) como Línea Base

La Tabla 1 expone los resultados del LPM estimado por Mínimos Cuadrados Ordinarios (MCO). En la econometría de variable dependiente limitada, el LPM es el punto de partida porque aproxima linealmente la probabilidad condicional, permitiendo una lectura directa de los coeficientes. Dado que se aplicó una matriz de varianzas y covarianzas robusta (HC3) para corregir la heterocedasticidad inherente, la prueba t confirma que variables como la educación, la edad, el estrato y la zona son determinantes sistemáticos del fenómeno (p < 0.01).

No obstante, el LPM revela que las variables SEXO2 (p = 0.5024) y PAREJASin_Pareja (p = 0.9313) no son estadísticamente significativas. Dado que el LPM asume efectos aditivos constantes y no restringe las probabilidades al intervalo lógico, la literatura exige estimar modelos no lineales para corroborar si esta falta de significancia es una característica estructural de los datos o un fallo de la forma funcional lineal.

2. Corrección No Lineal y Efectos Parciales Promedio (APE)

Para acotar las predicciones estrictamente al rango de probabilidad entre 0 y 1, se estimaron los modelos Logit y Probit (Tablas 2 y 3). Debido a que sus coeficientes brutos pierden interpretabilidad directa, se calcularon los Efectos Parciales Promedio (APE).

La comparación entre los APE del Logit y del Probit evidencia una convergencia matemática casi perfecta. Por ejemplo, el factor protector de la educación superior muestra un efecto de -0.5054 en el Logit y de -0.5031 en el Probit. Esta estabilidad metodológica confirma que los resultados no son sensibles a la distribución elegida (logística o normal estándar) y representan fricciones reales del mercado. Además, los p-valores en ambos modelos no lineales (superiores a 0.50) corroboran definitivamente que ni el género ni el estado civil son predictores significativos en esta muestra condicional.

3. Síntesis Estructural: ¿Qué nos dicen los modelos sobre el problema público?

Conectando la evidencia de las tres metodologías con la problemática del mercado laboral juvenil, los datos diagnostican una estructura de riesgo altamente segmentada por el capital humano y la geografía (ceteris paribus):

  1. El poder masivo de la educación formal: El capital humano avanzado no es solo un protector, es el determinante absoluto del modelo. Finalizar la “Media Bachillerato” reduce el riesgo en 25.16 puntos porcentuales (APE Logit) frente a la educación básica. Sin embargo, alcanzar la educación “Superior o Técnica” genera una contracción dramática del riesgo de 50.54 puntos porcentuales. Esto indica que el mercado laboral formal colombiano recompensa abrumadoramente las credenciales superiores.
  2. Brechas espaciales y de redes (Zona y Estrato): La geografía determina la oportunidad. Residir fuera de las cabeceras urbanas (Zona 2) es un factor de riesgo sistemático que aumenta la vulnerabilidad en 11.06 puntos porcentuales. Paralelamente, cada incremento en el estrato socioeconómico reduce el riesgo en 4.50 puntos porcentuales. Esto evidencia cómo la concentración urbana de la demanda laboral y la capacidad financiera del hogar facilitan el emparejamiento formal.
  3. La neutralidad condicional del género y el estado civil: A diferencia de las intuiciones agregadas, aislar el efecto de las demás variables demuestra que ser mujer, tener o no tener pareja no incrementa el riesgo directo de informalidad o desempleo en esta cohorte. Esto sugiere que las brechas de género observadas a nivel macroeconómico operan en etapas previas (por ejemplo, condicionando el acceso a la educación superior o la acumulación de experiencia), pero no actúan como una penalidad explícita en la contratación final cuando los perfiles de capital humano son idénticos.
  4. Maduración y capital específico (Edad y Experiencia): El tiempo consolida la trayectoria laboral. Cada año adicional de edad reduce el riesgo en 1.95 puntos porcentuales, y la experiencia acumulada lo disminuye en 0.68 puntos porcentuales por mes de trabajo previo. Esto valida empíricamente la teoría del “aprender haciendo” como el mecanismo de anclaje definitivo al sector formal.

    4. Evaluación Predictiva y Machine Learning (Fuera de Muestra)

En las secciones anteriores, el análisis se centró en la inferencia econométrica: aislar los determinantes estructurales del riesgo laboral juvenil y cuantificar su impacto a través de los Efectos Parciales Promedio. [cite_start]Sin embargo, para que este modelo trascienda el diagnóstico académico y se convierta en una herramienta accionable para la política pública, debe tener capacidad predictiva[cite: 68].

¿Por qué aplicar Machine Learning? El objetivo de la política pública no es solo explicar el pasado, sino anticipar el riesgo futuro. Un modelo econométrico puede tener parámetros altamente significativos (\(\hat{\beta}\)), pero carecer de la precisión necesaria para clasificar a nuevos individuos. [cite_start]Si el aplicativo interactivo (R Shiny) va a ser utilizado por tomadores de decisiones para priorizar recursos e intervenciones territoriales[cite: 38], necesitamos garantizar empíricamente que el modelo no está “sobreajustado” (overfitted) a los datos que ya vio.

¿En qué consiste la estrategia metodológica? Para evaluar el desempeño real del modelo, transitaremos hacia un enfoque de validación cruzada fuera de muestra. La metodología consiste en: 1. División de la muestra (Data Splitting): Aislar aleatoriamente el conjunto de datos limpios en una submuestra de entrenamiento (70% de las observaciones) y una submuestra de prueba (30% restante). 2. Entrenamiento: Estimar el modelo Logit (elegido por su robustez en los APE) exclusivamente con los datos de entrenamiento. 3. Predicción Ciega: Introducir las características sociodemográficas de los jóvenes del grupo de prueba en el modelo entrenado y pedirle que clasifique su riesgo laboral, comparando su predicción con la realidad observada.

¿Qué esperamos lograr? [cite_start]La literatura econométrica avanzada advierte que, en presencia de clases desbalanceadas (como suele ocurrir en las tasas de desempleo), la precisión global (Accuracy) es una métrica insuficiente y engañosa[cite: 105]. [cite_start]Nuestro objetivo es calcular métricas rigurosas como la Sensibilidad (la capacidad del modelo para no dejar por fuera a ningún joven verdaderamente vulnerable), la Especificidad y el Área Bajo la Curva ROC (AUC)[cite: 106]. Si estas métricas superan el desempeño aleatorio, validaremos empíricamente el modelo como el motor analítico del aplicativo institucional.

## [1] "Jóvenes totales tras limpieza estricta: 5393"
## [1] "Muestra de Entrenamiento (70%): 3776"
## [1] "Muestra de Prueba (30%): 1617"
## [1] "--- RENDIMIENTO DEL MODELO: AUC ---"
## [1] "Área bajo la Curva (AUC): 0.7707"

## [1] "--- MATRIZ DE CONFUSIÓN Y MÉTRICAS ---"
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction   0   1
##          0 467 223
##          1 264 663
##                                           
##                Accuracy : 0.6988          
##                  95% CI : (0.6758, 0.7211)
##     No Information Rate : 0.5479          
##     P-Value [Acc > NIR] : <2e-16          
##                                           
##                   Kappa : 0.3891          
##                                           
##  Mcnemar's Test P-Value : 0.0699          
##                                           
##             Sensitivity : 0.7483          
##             Specificity : 0.6389          
##          Pos Pred Value : 0.7152          
##          Neg Pred Value : 0.6768          
##              Prevalence : 0.5479          
##          Detection Rate : 0.4100          
##    Detection Prevalence : 0.5733          
##       Balanced Accuracy : 0.6936          
##                                           
##        'Positive' Class : 1               
## 

Análisis del Rendimiento Predictivo (Fuera de Muestra):

Como advierte la literatura econométrica y la rúbrica metodológica del curso, evaluar un modelo predictivo basándose únicamente en la exactitud global (Accuracy) es insuficiente, especialmente en problemáticas sociales donde los costos de clasificación errónea son asimétricos[cite: 1]. Por lo tanto, el desempeño del algoritmo Logit en la submuestra de prueba (30% de observaciones ocultas) se desglosa a través de la Matriz de Confusión y la Curva ROC:

  1. Exactitud Global (Accuracy): El modelo logra un nivel de acierto del 69.88%. Esto significa que clasifica correctamente a casi el 70% de los jóvenes de la submuestra, ya sea como formales o vulnerables. Aunque es un buen punto de partida, requiere evaluar el desempeño específico por clase.
  2. Capacidad de Discriminación (AUC): Complementando la matriz, el Área Bajo la Curva ROC se sitúa en 0.771. Esto demuestra un alto poder predictivo: si elegimos al azar a un joven verdaderamente vulnerable y a uno formalizado, el algoritmo tiene un 77.1% de probabilidad de asignar correctamente la mayor puntuación de riesgo al joven que verdaderamente requiere la intervención.
  3. Sensibilidad (La prioridad de política social): Esta es la métrica reina para el Estado. Fijando el umbral en 50%, el modelo alcanza una Sensibilidad del 74.83%. De los 886 jóvenes que efectivamente se encontraban en desempleo o informalidad en la muestra de prueba, el modelo logró detectar correctamente a 663 de ellos. Esta alta capacidad de detección minimiza los “falsos negativos” (jóvenes vulnerables que quedan fuera del radar de la política pública).
  4. Especificidad y Trade-off: La Especificidad es del 63.89%, identificando correctamente a 467 jóvenes de los 731 que estaban ocupados formalmente. El algoritmo asume conscientemente un margen de “falsos positivos” (264 jóvenes formales clasificados en riesgo) para asegurar una red de captura más amplia. En política social, el costo de orientar a alguien que no lo necesita es aceptable si a cambio se garantiza no abandonar a quienes están en condición de desempleo crónico.
  5. Precisión Predictiva (Pos Pred Value): El 71.52% de los individuos que el algoritmo etiqueta como “en riesgo”, verdaderamente lo están. Esto asegura que la priorización de los recursos (ej. subsidios o capacitación) tendrá un nivel de eficiencia operativa y focalización superior al 71%.

5. Recomendaciones de Política Pública: Estrategia de Focalización Ex-Ante

Los hallazgos derivados de los Efectos Parciales Promedio (APE) y la validación predictiva fuera de muestra (Matriz de Confusión y AUC) proporcionan el sustento empírico para que el Ministerio del Trabajo transite de políticas reactivas de mitigación a un enfoque de focalización ex-ante. Se recomiendan las siguientes directrices estratégicas[cite: 1]:

1. Intervención Estructural frente a la Asimetría Espacial e Institucional El modelo detectó una penalidad sistemática de 11.06 p.p. en el riesgo de informalidad para los jóvenes que residen fuera de las cabeceras urbanas (Zona 2). Para corregir esto, la política pública debe mitigar la asimetría espacial y de información, que consiste en una falla de mercado donde la distribución de las vacantes formales, la infraestructura productiva y los canales de señalización están concentrados de forma desigual en los centros urbanos. Esto impone costos de búsqueda (transporte, tiempo, falta de redes de contacto) artificialmente altos para el joven rural o de periferia, bloqueando su emparejamiento laboral óptimo.

  • Acción de Política: Se recomienda descentralizar las agencias públicas de empleo mediante “Nodos Móviles de Inserción”, integrando bases de datos municipales que reduzcan los costos de transacción e información para los jóvenes en zonas periféricas, conectándolos directamente con el tejido empresarial formal sin necesidad de migración previa. Adicionalmente, sería interesante realizar una cooperación entre el nivel municipal y nacional con el fin de crear condiciones favorables para el aumento de vacantes laborales en las zonas rurales de los municipios principalmente rurales.

2. Reducción de Costos de Entrada mediante Señalización Temprana Puesto que la experiencia reduce progresivamente el riesgo (0.68 p.p. por cada mes acumulado), enfrentamos una trampa estructural: las empresas exigen experiencia para contratar formalmente, pero la formalidad es el único mecanismo seguro para adquirir dicha experiencia. * Acción de Política: Implementar un diseño de incentivos tributarios municipales, departamentales y subsidios a la nómina (focalizados a través de los puntajes de riesgo del algoritmo predictivo) para empresas que ofrezcan contratos de primer empleo. Esto funciona como un mecanismo de señalización que absorbe el riesgo inicial del empleador y permite al joven demostrar su productividad marginal real.

3. Políticas de Género “Pre-Mercado” El modelo reveló un hallazgo contraintuitivo pero crucial: controlando por el capital humano y la experiencia, el sexo no es estadísticamente significativo en la penalización directa de riesgo. * Acción de Política: Esto indica que el Ministerio del Trabajo no debe enfocar sus recursos únicamente en cuotas de contratación final, sino articularse con el Ministerio de Educación para intervenir en la fase “pre-mercado”. Las brechas de género en Colombia operan de manera temprana, afectando la decisión de acumulación de experiencia y educación debido a la carga desproporcionada en la economía del cuidado. Se recomiendan sistemas distritales de cuidado que liberen tiempo para que las mujeres jóvenes puedan igualar su acumulación de capital específico antes de entrar a competir.

4. El Capital Humano Avanzado como Escudo Definitivo Dado el impacto masivo de la educación “Superior o Técnica” (reducción del riesgo en más de 50.54 p.p.), el mercado laboral se diagnostica como hiper-credencialista. * Acción de Política: Reorientar el gasto público de subsidios pasivos de desempleo hacia Transferencias Monetarias Condicionadas (TMC) vinculadas estrictamente a la retención en la educación técnica y superior, garantizando que el joven no abandone su formación productiva por presiones de generación de ingresos a corto plazo.


6. Limitaciones Metodológicas y Conclusiones

Para salvaguardar el rigor técnico y la transparencia institucional ante el Ministerio de Trabajo, es mandatorio explicitar las fronteras metodológicas de esta herramienta analítica:

  1. Predicción vs. Causalidad Estructural: Los coeficientes estimados (\(\hat{\beta}\)) en las especificaciones Logit y Probit, así como sus respectivos APE, cuantifican rigurosamente correlaciones condicionales y perfiles probabilísticos de riesgo. Sin embargo, no deben interpretarse bajo un marco de causalidad econométrica pura[cite: 1]. La ecuación estructural del riesgo laboral está sujeta a factores de heterogeneidad no observada, representados a través de los errores aleatorios (\(u_i\)).
  2. Endogeneidad y Sesgo de Selección: Variables críticas como el nivel educativo o la experiencia no son asignadas aleatoriamente en la población. Existe una alta probabilidad de endogeneidad por variable omitida (ej. la habilidad innata del joven, la “calidad” de la red de contactos familiares o el nivel de motivación personal). Dado que estas variables inobservables residen en el término de error y correlacionan simultáneamente con la educación y la probabilidad de empleo, los estimadores podrían presentar sesgos[cite: 1]. En futuras fases de evaluación de impacto, será necesario emplear estrategias de identificación cuasi-experimental (como Variables Instrumentales o Diseños de Regresión Discontinua).
  3. Restricción Transversal: Al fundamentarse en un corte transversal de la GEIH, el modelo captura una “fotografía” estática del mercado, impidiendo controlar por la heterogeneidad invariante en el tiempo mediante técnicas de datos de panel (Efectos Fijos)[cite: 1].

Conclusión Estratégica: A pesar de las restricciones causales propias de los datos observacionales, la validación predictiva fuera de muestra (con un AUC de 0.771 y una Sensibilidad focalizada de casi el 75%) aprueba empíricamente a este modelo como un radar institucional de alta precisión. La aplicación de Machine Learning sobre econometría paramétrica permite al Ministerio de Trabajo pasar de un diagnóstico pasivo a un sistema de triaje activo.

Al integrar este algoritmo predictivo en una interfaz gráfica interactiva (R Shiny), el Gobierno Nacional obtendrá, por primera vez, una matriz de priorización individualizada y territorial para asignar recursos escasos hacia los jóvenes que matemáticamente enfrentan el mayor riesgo de caer en el desempleo o la informalidad crónica[cite: 1].