Resumen Ejecutivo

Este informe técnico evalúa los determinantes estructurales del desempleo y la informalidad en la población juvenil colombiana, utilizando microdatos de la Gran Encuesta Integrada de Hogares (GEIH). A través de la estimación secuencial de modelos de probabilidad lineal (LPM) y de respuesta binaria no lineal (Logit y Probit), se identificó que el capital humano avanzado es el principal factor protector frente a la exclusión. Para preservar la varianza original y evitar la pérdida de información, se omitió el agrupamiento artificial de categorías, estabilizando el cálculo de varianzas mediante el uso de errores estándar robustos tipo HC1. Se evidenció, además, una fuerte asimetría espacial que penaliza a los jóvenes ubicados fuera de las cabeceras urbanas. La evaluación predictiva fuera de muestra (Machine Learning) validó el modelo Logit como un motor analítico robusto para la focalización ex-ante de Políticas Activas de Mercado Laboral (PAML) de alta sofisticación técnica.

Planteamiento del Problema

La estructuración de un mercado laboral eficiente y equitativo representa uno de los desafíos macroeconómicos más apremiantes para Colombia. El mercado de trabajo nacional se caracteriza por altos niveles de segmentación y rigidez, donde la informalidad y el desempleo estructural afectan de manera desproporcionada a la población juvenil. Estos problemas no son transitorios y adicionalmente, generan efectos persistentes sobre los ingresos futuros, la acumulación de experiencia y la movilidad social de las Juventudes Colombianas.

Conocer los Efectos de un Problema Estructural como este no es suficiente para poder atender de manera eficiente sus raíces, y esta premisa resulta en el problema principal ra que las instituciones encargadas de elaborar políticas públicas, como el Ministerio del Trabajo, es que no cuentan con herramientas confiables que les permita reconocer los factores que generan esta inestabilidad del mercado laboral para las juventudes y, que a su vez, les permita anticipar qué jóvenes enfrentan una mayor probabilidad de caer en la exclusión laboral antes de que esto ocurra. Teniendo lo anterior en cuenta, resulta dificíl realizar una focalización preventiva ala hora de ejecutar programas de apoyo que pretendan implementar para contrarestar este fenomeno en el país. Así pues, el Ministerio del Trabajo requiere transitar de un diagnóstico descriptivo a herramientas analíticas avanzadas que le permita anticipar el riesgo de exclusión laboral antes de que los jovenes ingresen a la trampa de la informalidad crónica.

Justificación del Problema

Para solucionar esta deficiencia, se requiere avanzar hacia una focalización y un estudio basado en datos estadísticos confiables. Y para dar trámite a la necesidad anterior, es necesario estimar un modelo predictivo que permita en primer lugar, identificar los factores clave de la inestabilidad laboral juvenil y, en segundo lugar, permita clasificar distintos perfiles de riesgo de los jóvenes según sus condiciones Socioeconómicas. Un modelo semejante, debe ser capaz de evaluar de forma granular cómo interactúan diversas características individuales y del entorno —tales como la edad, el sexo, el nivel educativo exacto, la experiencia previa acumulada y la condición socioeconómica— para determinar la probabilidad de que un joven termine excluido de la red de protección social y económica que ofrece el mercado laboral formal.

Objetivo

El desarrollo de esta herramienta de identificación de factores y clasificación de riesgo permitirá a los tomadores de decisiones identificar las principales raíces de esta problematica y reconocer anticipadamente a los jóvenes más vulnerables. De tal forma que, el aplicativo y los modelos estimados, sirvan de base empírica para asignar los recursos del Estado de forma focalizada e inteligente, orientando por ejemplo, los programas de primer empleo y formación hacia quienes tienen un riesgo comprobado y considerable de quedar excluidos del mercado laboral formal.

Base de datos

Para poder dar respuesta a las necesidades del MinTrabajo, se construyó una base de datos a partir de la Gran Encuesta Integrada de Hogares (GEIH) del Departamento Nacional de Estadística (DANE). A continuación, presentamos las primeras diez entradas de la base de datos, que contiene cerca de catorce mil doscientas once (14.211) observaciones.

Muestra de los primeros 10 registros de la base de jóvenes
DIRECTORIO SECUENCIA_P ORDEN P6240 P6280 P6351 P6920 P6450 P6430 P3045S1 P3045S2 P6040 P3271 P6070 P6050 P3042 P3043 P6170 P6160 P6790 P6320 P4030S1A1 P6100 P5090 P5222S9 P9440 P3362S3 P9450 P6585S1 P6585S2 P6585S3 CLASE DPTO AREA
2 8435963 1 2 4 NA NA 2 NA 6 NA NA 28 2 2 2 8 5 2 1 12 NA NA 3 1 NA NA NA 2 NA NA NA 2 8 NA
25 8435977 1 3 4 2 NA NA NA NA NA NA 17 2 6 3 5 2 2 1 NA NA 1 3 5 NA NA NA NA NA NA NA 2 13 NA
26 8435977 1 4 3 2 NA NA NA NA NA NA 15 2 6 3 5 1 1 1 NA NA 1 3 5 NA NA NA NA NA NA NA 2 13 NA
28 8435978 1 2 1 NA NA 2 NA 4 NA NA 28 1 2 2 1 NA 2 2 12 NA 1 3 3 1 NA NA 2 NA NA NA 2 13 NA
29 8435978 1 3 3 2 NA NA NA NA NA NA 17 1 6 3 4 NA 1 1 NA NA 1 3 3 1 NA NA NA NA NA NA 2 13 NA
33 8435979 1 3 1 NA NA 2 1 4 NA NA 21 1 1 3 4 NA 2 1 1 NA 1 3 5 NA NA NA 2 NA NA NA 2 13 NA
34 8435979 1 4 3 2 NA NA NA NA NA NA 16 2 1 7 4 NA 1 1 NA NA 1 3 5 NA NA NA NA NA NA NA 2 13 NA
37 8435980 1 3 3 2 NA NA NA NA NA NA 16 1 6 3 5 1 1 1 NA NA 1 1 4 NA NA NA NA NA NA NA 2 13 NA
46 8435982 1 3 5 NA NA NA NA NA NA NA 26 1 6 3 1 NA 2 2 NA NA 1 3 5 NA NA NA NA NA NA NA 2 13 NA
51 8435982 1 8 1 NA NA 2 1 3 2 2 24 2 4 3 5 2 2 1 12 NA 1 3 5 NA 2 NA 2 2 2 2 2 13 NA

En el contexto de la economía laboral colombiana, que es altamente segmentada, la informalidad y el desempleo no son fenómenos aleatorios aislados, sino manifestaciones duales de un mismo problema estructural: la exclusión del sector corporativo formal.

Desde la teoría microeconómica, un joven empleado en la informalidad (frecuentemente denominada “informalidad de subsistencia”) comparte características de vulnerabilidad casi idénticas a las de un desempleado: ambos enfrentan carencia total de redes de seguridad social, inestabilidad de ingresos y la imposibilidad de acumular experiencia validable que opere como señalización futura frente al mercado. Por consiguiente, para el diseño de políticas públicas orientadas a la mitigación del riesgo, este estudio unifica ambos estados de precariedad.

La variable dependiente dicotómica (\(Y_i\)) se define algorítmicamente agrupando a desempleados e informales bajo la categoría de Riesgo Laboral (\(Y_i = 1\)), contrastándolos contra los jóvenes insertos en la Formalidad (\(Y_i = 0\)):

Por otro lado, la especificación del vector de características observables (\(X\)) no responde a una selección arbitraria, sino que se fundamenta rigurosamente en la teoría microeconómica del mercado laboral y en las fricciones estructurales documentadas para el caso colombiano:

Capital Humano y el Efecto Credencialista (Nivel Educativo y Edad): A diferencia de enfoques descriptivos que agrupan artificialmente la educación, en este modelo se tomó la decisión metodológica de mantener el NIVEL_EDUCATIVO en su máxima desagregación original. La justificación subyacente radica en capturar con precisión algorítmica la tensión empírica entre la Teoría del Capital Humano (Becker, 1964) y la Teoría de la Señalización (Signaling) de Spence (1973).

Desde la perspectiva clásica de Becker, la educación es una inversión racional y continua: cada año adicional de escolaridad representa una acumulación de destrezas cognitivas y técnicas que incrementan directa y monótonamente la productividad marginal del joven. Sin embargo, en mercados laborales con alta asimetría de información como el colombiano, los empleadores enfrentan severas limitaciones para observar ex-ante la verdadera productividad innata de los candidatos. Aquí interviene la teoría de Spence(1973), quien argumenta que la educación opera como una “señal costosa”, dado que obtener un diploma de educación superior supone un costo marginal (en esfuerzo y resiliencia) menor para los individuos de alta habilidad, el título se convierte en un mecanismo de filtro (Screening) que permite al mercado alcanzar un equilibrio separador.

Desagrupar esta variable nos permite testear empíricamente ambas posturas: observar si el mercado colombiano premia el conocimiento acumulado año tras año (Becker), o si otorga reducciones de riesgo desproporcionadas únicamente en el momento exacto en que se cruza el umbral de graduación para obtener la credencial final (el “Efecto Pergamino” de Spence). Con todo, la evidencia empírica da luces de que el mercado laboral colombiano es hiper-credencialista y exhibe fuertes “Efectos Pergamino” (Sheepskin effects). Por lo que los empleadores, operando bajo asimetría de información, utilizan el grado exacto (especialmente el título técnico o universitario) como un filtro (Screening) que certifica habilidades cognitivas, otorgando primas marginales desproporcionadas en el momento exacto de la graduación.

Adicionalmente, la EDAD se incluye como un proxy continuo de la maduración demográfica del joven en su transición hacia la adultez productiva.

Fricciones de Búsqueda y Desajuste Espacial (Zona y Estrato): La inclusión de la variable ZONA (Cabecera vs. Periferia/Rural) se ancla en los modelos macroeconómicos de Fricciones de Búsqueda (Search and Matching) formalizados por Mortensen y Pissarides (1994), cruzados con la Hipótesis del Desajuste Espacial (Spatial Mismatch) de Kain (1968). A diferencia de un mercado de competencia perfecta Walrasiano con vaciado instantáneo en equilibrio, la búsqueda de empleo en la realidad exige considerables inversiones de esfuerzo, tiempo y dinero.

El mercado laboral colombiano padece una asimetría espacial severa: las vacantes formales de alto valor se aglomeran en los clústeres céntricos urbanos (Central Business Districts - CBD), mientras que la población joven vulnerable tiende a residir en anillos periféricos o rurales. Esta segregación impone gravosos costos de conmutación (commuting costs, medidos en tarifas de transporte, desgaste físico y extensas horas de desplazamiento) operando como un impuesto regresivo que reduce el salario neto esperado del joven periférico. Esto deprime severamente su salario de reserva y desencadena el pernicioso “efecto del trabajador desanimado” (discouraged worker effect), forzándolo a claudicar en la búsqueda de empleo corporativo y a aceptar la “informalidad de subsistencia” por estricta proximidad geográfica. Paralelamente, esta fricción espacial le otorga a las firmas urbanas un poder de oligopsonio espacial, es decir, que adoptan una estructura de mercado laboral en la que hay pocos demandantes de mano de obra y mucha oferta disponible, de tal forma que al ser tan pocos, los demandantes tienen un gran poder de negociación y pueden presionar los requisitos para vacantes a la alta, permitiéndoles excluir implícitamente a los candidatos periféricos.

Por su parte, el ESTRATO trasciende la simple medición de ingresos; actúa como un proxy multidimensional de la resiliencia del hogar. En primer lugar, un estrato superior garantiza la liquidez financiera necesaria para que el joven pueda soportar financieramente el periodo de “desempleo friccional” sin verse asfixiado a aceptar ofertas precarias tempranas. En segundo lugar, captura la calidad del capital social y las redes de referenciación (networking), herramientas vitales para disminuir los costos de búsqueda y superar los filtros corporativos en un mercado caracterizado por una altísima asimetría de la información.

Acumulación de Capital Específico (Experiencia en Meses): La variable EXPERIENCIA_MESES operacionaliza la teoría del aprendizaje en la práctica (learning-by-doing) y la acumulación de capital humano específico. Más allá del capital humano general adquirido en la etapa académica, a medida que el joven acumula meses ininterrumpidos en el sector corporativo, adquiere destrezas técnicas, rutinas organizacionales y habilidades blandas propias de su entorno laboral. En este proceso, su productividad marginal real se revela, resolviendo progresivamente la asimetría de información inicial que existe en la contratación. Esto mitiga la incertidumbre del empleador, reduciendo la dependencia exclusiva de la credencial educativa como único mecanismo de señalización. Consecuentemente, esta acumulación continua de experiencia no solo disminuye los costos de rotación para la firma, sino que se traduce en una mayor empleabilidad, estabilidad y un potencial incremento salarial para el joven durante las primeras etapas de su trayectoria profesional.

Economía del Cuidado y el Sesgo de Selección (Sexo): La inclusión de SEXO dentro de un modelo multivariado condicionado (Ceteris Paribus) permite testear rigurosamente la Hipótesis del Sesgo de Selección Pre-Mercado (Heckman, 1979) y el impacto de las normas sociales subyacentes. La literatura económica reciente sugiere que gran parte de la marginación laboral y la brecha salarial femenina no opera exclusivamente a través de una discriminación directa (o por preferencias del empleador, taste-based discrimination) en el emparejamiento final frente a perfiles masculinos idénticos. Por el contrario, esta desventaja se gesta de manera endógena y acumulativa debido a la “pobreza de tiempo” impuesta por las cargas desproporcionadas de la Economía del Cuidado no remunerado.

Esta restricción estructural eleva el salario de reserva de las mujeres y fomenta la intermitencia en sus trayectorias profesionales, limitando sistemáticamente su capacidad previa para acumular años de educación formal y, críticamente, experiencia laboral continua. Así, al controlar por variables de capital humano, el coeficiente de esta variable permitirá aislar si la penalización en el mercado obedece puramente a estas barreras pre-mercado (menor dotación de atributos observables por dedicación al cuidado) o si persiste un sesgo residual o discriminación estadística por parte del mercado frente a la mano de obra femenina.

(Nota Metodológica: Se excluyó deliberadamente la variable de estado civil del vector de regresores para garantizar la parsimonia del modelo, asumiendo que el estrato y el nivel educativo absorben de manera más eficiente la varianza asociada a las presiones financieras del hogar).


Estrategia Metodológica y Especificación Econométrica

La estimación de la probabilidad de riesgo laboral juvenil se aborda de forma secuencial, partiendo de aproximaciones lineales hasta converger en modelaciones probabilísticas de máxima verosimilitud.

El Modelo de Probabilidad Lineal (LPM) Inicialmente, se estima el Modelo de Probabilidad Lineal (LPM) definido por la siguiente ecuación estructural:

\[ Y_i = \beta_0 + \beta_1 \text{EDAD}_i + \beta_2 \text{SEXO}_i + \sum_{j=1}^{k} \gamma_j \text{NIVEL\_EDUCATIVO}_{ji} + \beta_3 \text{EXP}_i + \beta_4 \text{ESTRATO}_i + \beta_5 \text{ZONA}_i + u_i \]

El LPM es fundamental para evaluar la significancia estadística inicial y la dirección de los parámetros. No obstante, por construcción matemática, una variable dependiente de Bernoulli induce heterocedasticidad inherente (la varianza del error depende de \(X_i\)).

Para corregir esto, habitualmente se utilizan Errores Estándar Robustos HC3. Sin embargo, al tomar la decisión metodológica de desagrupar totalmente el nivel educativo para capturar el Sheepskin effect, se generan celdas categóricas con micro-muestras. El estimador HC3 corrige dividiendo por \((1 - h_{ii})^2\), donde \(h_{ii}\) es el valor de apalancamiento (leverage). Ante muestras pequeñas, \(h_{ii}\) tiende a 1, colapsando la matriz en indeterminaciones matemáticas (NaN).

Para garantizar una inferencia estadística consistente sin sacrificar la granularidad vital de los datos, se adopta el estimador robusto HC1. Esta variante (el estándar en econometría clásica) ajusta la matriz de White introduciendo un factor multiplicativo de grados de libertad \(n/(n-k)\), estabilizando el cálculo de los estadísticos \(t\) frente a la presencia de submuestras categóricas sin generar matrices singulares.

Modelos No Lineales (Logit y Probit): Si bien el LPM es una excelente línea base, adolece de una falla estructural: puede predecir probabilidades ilógicas matemáticamente (menores a 0 o mayores a 1) y asume que el efecto marginal de \(X\) es constante en todo su dominio. Para acotar estrictamente las predicciones al espacio probabilístico \([0,1]\), se transita hacia modelos no lineales, cuya especificación general es:

\[ P(Y_i = 1 | \mathbf{X}_i) = G(\beta_0 + \mathbf{X}_i'\boldsymbol{\beta}) \]

Donde \(G(\cdot)\) representa la Función de Distribución Acumulada (CDF). Para el modelo Logit, se emplea la distribución logística, ideal para colas más pesadas (eventos extremos de marginación). Para el modelo Probit, se utiliza la CDF de la normal estándar, asumiendo que el riesgo latente se distribuye normalmente en la población.

Efectos Parciales Promedio (APE): Como exige el rigor de la microeconometría, los coeficientes brutos (\(\hat{\beta}\)) de los modelos Logit y Probit solo representan cambios en el logaritmo de las probabilidades (Log-odds) o puntajes Z, careciendo de interpretabilidad económica directa. Para resolver esto, calcularemos los Efectos Parciales Promedio (APE - Average Partial Effects).

Los APE evalúan la derivada parcial (o la diferencia discreta) de la probabilidad con respecto a cada variable independiente para cada individuo de la muestra, y luego promedian estos efectos. Esto nos devolverá métricas exactas e insesgadas (expresadas en puntos porcentuales) que permitirán medir la verdadera magnitud de las fricciones del mercado laboral colombiano.

Resultados de la Estimación Econométrica

## [1] "--- LPM CORREGIDO con Errores Robustos (HC1) ---"
## 
## t test of coefficients:
## 
##                     Estimate Std. Error  t value  Pr(>|t|)    
## (Intercept)        1.4656216  0.0546948  26.7964 < 2.2e-16 ***
## EDAD              -0.0187155  0.0020653  -9.0621 < 2.2e-16 ***
## SEXO              -0.0024305  0.0129509  -0.1877 0.8511443    
## NIVEL_EDUCATIVO   -0.0688726  0.0028162 -24.4561 < 2.2e-16 ***
## EXPERIENCIA_MESES -0.0067200  0.0019951  -3.3682 0.0007618 ***
## ESTRATO           -0.0392275  0.0055954  -7.0107 2.664e-12 ***
## ZONA               0.1075932  0.0191518   5.6179 2.030e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## [1] "Calculando APE para Logit..."
## [1] "--- APE - LOGIT CORREGIDO ---"
##             factor     AME     SE        z      p   lower   upper
##               EDAD -0.0190 0.0021  -9.0648 0.0000 -0.0231 -0.0149
##            ESTRATO -0.0394 0.0053  -7.3921 0.0000 -0.0499 -0.0290
##  EXPERIENCIA_MESES -0.0069 0.0021  -3.3700 0.0008 -0.0110 -0.0029
##    NIVEL_EDUCATIVO -0.0621 0.0023 -27.3898 0.0000 -0.0666 -0.0577
##               SEXO -0.0038 0.0127  -0.3033 0.7617 -0.0287  0.0210
##               ZONA  0.1223 0.0222   5.5008 0.0000  0.0788  0.1659
## [1] "Calculando APE para Probit..."
## [1] "--- APE - PROBIT CORREGIDO ---"
##             factor     AME     SE        z      p   lower   upper
##               EDAD -0.0193 0.0021  -9.2605 0.0000 -0.0234 -0.0152
##            ESTRATO -0.0400 0.0054  -7.4517 0.0000 -0.0505 -0.0295
##  EXPERIENCIA_MESES -0.0068 0.0020  -3.3562 0.0008 -0.0108 -0.0028
##    NIVEL_EDUCATIVO -0.0633 0.0023 -26.9820 0.0000 -0.0678 -0.0587
##               SEXO -0.0052 0.0127  -0.4092 0.6824 -0.0301  0.0197
##               ZONA  0.1181 0.0216   5.4726 0.0000  0.0758  0.1604

Análisis de Fiabilidad y Robustez Estructural de los Modelos

La evaluación econométrica del riesgo laboral juvenil se construyó mediante la estimación secuencial de tres especificaciones: el Modelo de Probabilidad Lineal (LPM), un modelo Logit y un modelo Probit. El propósito de presentar estas tres salidas es validar empíricamente que los estimadores no son un artefacto matemático del software, sino que representan fricciones estructurales reales del mercado laboral colombiano para los Jóvenes.

¿Resultados útiles y fiables?

La fiabilidad del modelo se demuestra a través de dos mecanismos econométricos: 1. Inferencia válida mediante HC1: El LPM, por construcción, padece de heterocedasticidad al modelar una variable de Bernoulli. Al emplear Errores Estándar Robustos tipo HC1 (la corrección de White estándar ajustada por grados de libertad), garantizamos que los estadísticos \(t\) y los \(p\)-valores de la Tabla 1 sean consistentes e insesgados, permitiéndonos identificar con un 99% de confianza (\(p < 0.01\)) qué variables realmente determinan el riesgo laboral. 2. Convergencia Estructural: Para corregir la falla del LPM (predicciones fuera del rango probabilístico de \([0,1]\)), se calcularon los Efectos Parciales Promedio (APE) de los modelos Logit y Probit. La fiabilidad del análisis se confirma al observar una convergencia casi perfecta entre las tres metodologías. Por ejemplo, el impacto de avanzar un nivel educativo es de \(-0.0688\) en el LPM, \(-0.0621\) en el APE Logit y \(-0.0633\) en el APE Probit. Esta extraordinaria estabilidad demuestra que la magnitud de los efectos es insensible a la forma funcional elegida (distribución lineal, logística o normal estándar).

Evaluación de Significancia Estructural (El rol del LPM)

La Tabla 1 expone los resultados del Modelo de Probabilidad Lineal estimado por MCO. Su función principal en este análisis es actuar como el primer gran filtro de validación empírica. Al aplicar la matriz de varianzas y covarianzas robusta HC1, neutralizamos la heterocedasticidad inherente y obtenemos pruebas \(t\) rigurosas.

Los resultados son contundentes: variables como el NIVEL_EDUCATIVO (\(p < 2.2e-16\)), la EDAD (\(p < 2.2e-16\)), el ESTRATO (\(p = 2.66e-12\)), la ZONA (\(p = 2.03e-08\)) y la EXPERIENCIA_MESES (\(p = 0.0007\)) arrojan una significancia estadística superior al 99%. Esto nos confirma que la elección de estas variables mediante la microfundamentación teórica fue correcta: no están correlacionadas por azar con la exclusión laboral, sino que son los verdaderos determinantes sistémicos del fenómeno de la informalidad y el desempleo juvenil en Colombia.

Síntesis de Resultados: ¿Qué nos dicen los datos respecto a la muestra escogida?

Analizando las salidas definitivas de los Efectos Parciales Promedio (APE) del modelo Logit, se logran aislar los determinantes microeconómicos de la vulnerabilidad laboral en esta cohorte juvenil. Manteniendo el resto de las características constantes (ceteris paribus), la muestra nos revela la siguiente estructura de riesgo:

El Capital Humano como un Gradiente Progresivo de Protección: Al modelar el NIVEL_EDUCATIVO en su desagregación original, el APE Logit revela un efecto marginal promedio de -6.21 puntos porcentuales. Esto significa que por cada nivel adicional de escolaridad que un joven logra certificar en la escala institucional, su riesgo de caer en la informalidad o el desempleo se contrae progresivamente en 6.21 p.p. Esta evidencia ratifica de forma escalonada la Teoría de la Señalización (Spence, 1973): a mayor grado de titulación, el individuo emite una señal más nítida de productividad que le permite sortear los filtros corporativos del sector formal.

La Penalidad del Desajuste Espacial (Spatial Mismatch): La geografía determina severamente la trayectoria del joven. Residir fuera de las cabeceras urbanas (ZONA 2) incrementa el riesgo latente de vulnerabilidad en 12.23 puntos porcentuales (APE Logit). Este es el factor de riesgo más grande del modelo y confirma la presencia de un fuerte Spatial Mismatch. Las vacantes formales están aglomeradas en los centros urbanos, imponiendo a la muestra periférica costos de búsqueda (transporte y tiempo) tan gravosos que terminan empujándolos a aceptar la “informalidad de subsistencia” por pura cercanía residencial.

Efectos de Red y Acumulación de Capacidades: * Estrato Socioeconómico: Cada incremento en el nivel de estrato de la vivienda reduce el riesgo en 3.94 puntos porcentuales. En el mercado laboral, esto opera como un proxy de liquidez financiera (para soportar el desempleo friccional mientras se busca un buen trabajo) y refleja la calidad de las redes sociales de contacto formal a las que el joven tiene acceso en su entorno inmediato. * Experiencia Laboral: La teoría del learning-by-doing queda empíricamente demostrada. Cada mes ininterrumpido de experiencia acumulada reduce el riesgo futuro de vulnerabilidad en 0.69 puntos porcentuales. Esto subraya que la experiencia en sí misma actúa como un capital específico que ancla al trabajador a la formalidad. * Maduración Demográfica (Edad): Cada año de edad adicional disminuye el riesgo en 1.90 puntos porcentuales, evidenciando una progresiva estabilización laboral a medida que el joven transita hacia la adultez plena.

La Neutralidad Condicional del Género (Sesgo de Selección Pre-Mercado): Desde una perspectiva analítica, el dato más interesante que arroja la muestra es el comportamiento de la variable SEXO. En un análisis estadístico descriptivo simple, las mujeres en Colombia siempre exhiben mayores tasas brutas de desempleo e informalidad. Sin embargo, en nuestro modelo econométrico, la variable de género resulta absolutamente no significativa en las tres especificaciones (arrojando un \(p\)-valor de \(0.8511\) en el LPM y de \(0.7617\) en el APE Logit).

¿Cómo se interpreta esto? El modelo nos dice que, al condicionar matemáticamente (Ceteris Paribus) a una mujer y a un hombre que poseen exactamente el mismo nivel educativo, el mismo estrato, idéntica experiencia acumulada y que residen en la misma zona, el mercado laboral no penaliza a la mujer en la fase final de contratación.

Esto indica que, al condicionar matemáticamente a dos jóvenes con el mismo nivel educativo, la misma experiencia y el mismo entorno geográfico, el mercado no penaliza directamente a la mujer en la fase final de contratación. Las profundas brechas de género que se observan a nivel macroeconómico operan, por tanto, en el escenario “pre-mercado” (Heckman, 1979). Es la carga desproporcionada de la Economía del Cuidado la que margina a las mujeres previamente, restringiendo su capacidad de acumular los niveles educativos y los meses de experiencia ininterrumpida que este modelo exige como escudo protector.


Evaluación Predictiva y Machine Learning (Fuera de Muestra)

En las secciones anteriores, el análisis se centró estrictamente en la inferencia econométrica: aislar los determinantes estructurales del riesgo laboral juvenil, validar su significancia estadística y cuantificar su impacto económico real a través de los Efectos Parciales Promedio (APE). Sin embargo, para que este modelo trascienda el diagnóstico académico y se convierta en una herramienta accionable para la política pública, debe demostrar una alta capacidad predictiva.

¿Por qué aplicar Machine Learning a un modelo econométrico? El objetivo primordial de la política pública moderna no es únicamente explicar el pasado, sino anticipar el riesgo futuro. Un modelo econométrico puede poseer parámetros altamente significativos (\(\hat{\beta}\)), pero carecer de la precisión o generalización necesaria para clasificar a nuevos individuos. Si el algoritmo va a ser utilizado por el Ministerio del Trabajo para priorizar recursos, entregar subsidios y focalizar intervenciones territoriales, es imperativo garantizar empíricamente que el modelo no está “sobreajustado” (overfitted) a los datos con los que fue estimado.

Estrategia Metodológica: Para evaluar el desempeño real del modelo Logit, transitaremos hacia un enfoque de validación predictiva fuera de muestra (Out-of-Sample Validation). La metodología consta de los siguientes pasos: 1. Filtro Estricto y Data Splitting: Se aíslan las observaciones completas y se divide aleatoriamente la muestra en un conjunto de entrenamiento (70%) y un conjunto de prueba (30% oculto). 2. Entrenamiento Aislado: El modelo Logit se entrena exclusivamente con el 70% de los datos, aprendiendo los patrones de las variables desagrupadas. 3. Predicción Ciega: Se introducen las características sociodemográficas de los jóvenes del grupo de prueba (el 30% restante) en el modelo entrenado, exigiéndole que clasifique su riesgo laboral para luego contrastar esa predicción con la realidad observada en la encuesta.

Métricas de Evaluación para Política Social: En presencia de clases asimétricas (como suele ocurrir en la dicotomía formalidad/informalidad), la precisión global (Accuracy) es una métrica insuficiente e ilusoria. El desempeño del modelo se evaluará mediante métricas de frontera: la Sensibilidad (la capacidad del algoritmo para no dejar por fuera a ningún joven verdaderamente vulnerable) y el Área Bajo la Curva ROC (AUC), las cuales determinan si el modelo posee el rigor necesario para operar como el motor analítico de focalización institucional.

## [1] "Jóvenes totales tras limpieza estricta: 5393"
## [1] "Muestra de Entrenamiento (70%): 3776"
## [1] "Muestra de Prueba (30%): 1617"
## [1] "--- RENDIMIENTO DEL MODELO: AUC ---"
## [1] "Área bajo la Curva (AUC): 0.7601"

## [1] "--- MATRIZ DE CONFUSIÓN Y MÉTRICAS ---"
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction   0   1
##          0 430 204
##          1 301 682
##                                           
##                Accuracy : 0.6877          
##                  95% CI : (0.6645, 0.7102)
##     No Information Rate : 0.5479          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.3622          
##                                           
##  Mcnemar's Test P-Value : 1.938e-05       
##                                           
##             Sensitivity : 0.7698          
##             Specificity : 0.5882          
##          Pos Pred Value : 0.6938          
##          Neg Pred Value : 0.6782          
##              Prevalence : 0.5479          
##          Detection Rate : 0.4218          
##    Detection Prevalence : 0.6079          
##       Balanced Accuracy : 0.6790          
##                                           
##        'Positive' Class : 1               
## 

Análisis del Rendimiento Predictivo (Fuera de Muestra):

Como advierte la literatura econométrica, evaluar un modelo predictivo de elección discreta basándose únicamente en la exactitud global (Accuracy) resulta insuficiente. En la evaluación de problemáticas sociales, los costos de clasificación errónea son asimétricos: el costo social y económico de abandonar a un joven vulnerable a la trampa de la exclusión es sustancialmente mayor que el costo operativo marginal de incluir por error a uno formalizado en un programa de apoyo. Por lo tanto, el desempeño del algoritmo Logit en la submuestra de prueba (30% de observaciones ocultas) se desglosa a través de la Matriz de Confusión y la Curva ROC:

  1. Exactitud Global (Accuracy): El modelo logra un nivel de acierto del 68.77%. Esto significa que clasifica correctamente a casi el 69% de los jóvenes de la submuestra no vista de la GEIH, ya sea como formales o vulnerables. Aunque constituye una línea base aceptable, el desbalance propio del mercado laboral exige evaluar el desempeño específico por clase.
  2. Capacidad de Discriminación (AUC): Complementando la matriz, el Área Bajo la Curva ROC se sitúa en 0.760. Esta métrica garantiza una robusta capacidad de discriminación fuera de la muestra, asegurando que las inferencias predictivas posean un alto grado de validez. Si elegimos al azar a un joven verdaderamente vulnerable y a uno formalizado, el algoritmo tiene un 76.0% de probabilidad de asignar correctamente la mayor puntuación de riesgo a quien verdaderamente requiere la intervención del Estado.
  3. Sensibilidad: Esta es la métrica rectora para el diseño de políticas públicas. Fijando el umbral probabilístico en 50%, el modelo alcanza una Sensibilidad del 76.98%. De los 886 jóvenes que efectivamente se encontraban en desempleo o informalidad en la muestra de prueba, el algoritmo logró detectar correctamente a 682 de ellos. Esta alta capacidad de detección minimiza drásticamente los “falsos negativos” (jóvenes en riesgo excluidos del radar institucional).
  4. Especificidad y Trade-off: La Especificidad se ubica en 58.82%, identificando correctamente a 430 de los jóvenes ocupados formalmente. El algoritmo asume conscientemente un margen de “falsos positivos” (301 casos) para asegurar una red de captura social más amplia. Desde la óptica del bienestar social y el diseño de mecanismos, el costo fiscal de orientar o contactar a alguien que ya goza de formalidad es plenamente aceptable si a cambio se garantiza no abandonar a quienes padecen exclusión crónica.
  5. Precisión Predictiva (Pos Pred Value): El 69.38% de los individuos que el algoritmo etiqueta formalmente como “en riesgo”, verdaderamente lo están. Esto asegura que la priorización de los escasos recursos públicos (subsidios cruzados a la nómina, vouchers de movilidad o cupos de formación in-situ) tendrá un nivel de eficiencia operativa cercano al 70%, focalizando el gasto con alta certidumbre empírica.

Consideraciones Finales y Limitaciones Metodológicas

Para salvaguardar el rigor técnico, la transparencia académica y la viabilidad institucional de este informe ante el Ministerio del Trabajo, es mandatorio explicitar las fronteras metodológicas de las herramientas analíticas empleadas. Si bien la especificación del modelo se fundamentó en teoría microeconómica de frontera, los estimadores están sujetos a las restricciones propias del trabajo empírico con datos observacionales.

Teniendo lo anterior en cuenta, se pueden identificar tres limitaciones econométricas estructurales del trabajo hecho hasta el momento:

Predicción vs. Causalidad Estructural: Los coeficientes estimados (\(\hat{\beta}\)) en las especificaciones del Modelo de Probabilidad Lineal (LPM), así como los Efectos Parciales Promedio (APE) de los modelos Logit y Probit, cuantifican rigurosamente perfiles probabilísticos de riesgo y correlaciones condicionales parciales. Sin embargo, no equivalen a una relación de causalidad econométrica estricta, es decir, con el trabajo elaborado hasta el momento, no estamos en capacidad de afirmar que existe una relación de causalidad estricta entre las variables que establecemos como factores que afectan la empleabilidad juvenil. Sin embargo, es posible decir que hay una fuerte correlación entre las variables y el riesgo de empleabilidad.

Lo anterior se fundamenta en que la ecuación estructural del riesgo laboral está sujeta a factores de heterogeneidad no observada que residen en el término de error aleatorio (\(u_i\)).

Endogeneidad y Sesgo por Variable Omitida (OVB): Variables críticas dentro del vector de regresores, como el NIVEL_EDUCATIVO o la EXPERIENCIA_MESES, no son asignadas de manera aleatoria en la población juvenil. Existe una alta probabilidad empírica de endogeneidad por variable omitida. Factores inobservables como la habilidad innata del joven, el nivel de motivación personal, o la “calidad” y agudeza de la red de contactos de sus padres correlacionan simultáneamente con la probabilidad de alcanzar mayores niveles educativos y con la probabilidad de ser contratado formalmente. Dado que el modelo no puede observar estas variables, los estimadores de capital humano podrían presentar sesgos al alza. En futuras fases de evaluación de impacto rigurosa, será necesario emplear estrategias de identificación cuasi-experimental, tales como el uso de Variables Instrumentales (VI) o Diseños de Regresión Discontinua (RDD).

Restricción de Corte Transversal: Al fundamentarse en los microdatos de la Gran Encuesta Integrada de Hogares (GEIH) para un periodo de tiempo determinado, el modelo captura una “fotografía” estática del mercado laboral. Esta restricción transversal impide observar las transiciones dinámicas de los jóvenes e imposibilita el uso de técnicas avanzadas de datos de panel (como los estimadores de Efectos Fijos), las cuales hubiesen permitido controlar matemáticamente la heterogeneidad inobservable invariante en el tiempo.

Consideración Estratégica: El Valor de la Predicción

A pesar de las restricciones causales descritas —endémicas a casi todo el modelamiento con datos observacionales—, el propósito central de esta consultoría es la focalización preventiva. En el campo del Machine Learning y las Políticas Activas de Mercado Laboral (PAML), predecir el riesgo con alta precisión es operacionalmente más urgente que aislar su causalidad pura.

La validación predictiva fuera de muestra (Out-of-Sample) confirma empíricamente que el modelo Logit calibrado es un radar institucional de altísima precisión. Al haber alcanzado un AUC de 0.760 y una Sensibilidad focalizada del 76.98%, el modelo supera con creces la asignación aleatoria o intuitiva de recursos. Permite al Estado transitar de un diagnóstico pasivo a un sistema de triaje activo y considerablemente preciso.

Recomendaciones de Política Pública: Diseño Avanzado de Mecanismos (PAML)

Los hallazgos empíricos del modelo predictivo y su validación fuera de muestra exigen que el Ministerio del Trabajo transite de políticas reactivas de mitigación a un enfoque de focalización ex-ante. Apoyados en el campo del Diseño Avanzado de Mecanismos (Mechanism Design), se proponen las siguientes Políticas Activas de Mercado Laboral (PAML) focalizadas en corregir las fricciones estructurales de la juventud colombiana:

Intervención frente a la Asimetría Espacial: Algoritmia Territorial y Vouchers de Movilidad El modelo detectó una penalidad sistemática de 12.23 p.p. en el riesgo de exclusión para los jóvenes residentes fuera de las cabeceras urbanas. Esto confirma empíricamente la hipótesis del Desajuste Espacial (Spatial Mismatch), una falla de mercado donde las vacantes formales se concentran en los centros urbanos, imponiendo gravosos costos de transporte y tiempo que deprimen el salario de reserva de los jóvenes periféricos.

Solución a la Barrera de Experiencia: Bonos de Impacto Social (BIS) para el Contrato de Aprendizaje Puesto que cada mes ininterrumpido de experiencia reduce el riesgo en 0.69 p.p., la falta de trayectoria inicial es una trampa de pobreza y asimetría de información. La reciente Ley 2466 de 2025 (Reforma Laboral) asimiló el contrato de aprendizaje a un vínculo formal, exigiendo el pago del 100% del SMMLV, lo cual eleva drásticamente el costo marginal corporativo y desalienta la contratación de personal inexperto.

Institucionalización de Sistemas de Cuidado para el Cierre de la Brecha Pre-Mercado El modelo reveló un hallazgo fascinante respecto a la “neutralidad condicional” del género: aislando el efecto de las demás variables, ser mujer no arroja significancia estadística sobre el riesgo directo de informalidad en el emparejamiento final (\(p = 0.7617\)). Esto demuestra que la brecha de género opera debido a un sesgo de selección en la etapa “pre-mercado”, donde la “pobreza de tiempo” derivada de la Economía del Cuidado restringe la capacidad previa de las mujeres para acumular la educación y la experiencia ininterrumpida que exige el mercado corporativo.

Retención Educativa frente al Hiper-Credencialismo (Efecto Pergamino) Al desagrupar la variable educativa, el modelo demostró que cada escalón superado reduce progresivamente el riesgo en 6.21 p.p. Esto ratifica que el mercado laboral colombiano opera bajo un hiper-credencialismo (Teoría de la Señalización), donde el título actúa como un filtro (Screening) que las empresas utilizan para identificar candidatos de alta productividad.

Esto se está realizando actualmente con programas como Matricula Cero, sin embargo, es necesario focalizar y establecer condiciones claras para que la iniciativa gubernamental tenga efectos reales en la trayectoría laboral de los jovenes colombianos y sea lo más eficiente posible.


Conclusiones

La evaluación econométrica del riesgo de desempleo e informalidad juvenil en Colombia desarrollada en este informe técnico ha demostrado empíricamente que la vulnerabilidad laboral no es un fenómeno aleatorio, sino el resultado de fricciones estructurales profundamente arraigadas en el desajuste geográfico, el hiper-credencialismo y los sesgos de selección pre-mercado.

Desde la dimensión metodológica, el tránsito desde un Modelo de Probabilidad Lineal (LPM) ajustado mediante errores estándar robustos HC1 —para preservar la varianza original de micro-categorías sin incurrir en matrices singulares— hacia modelos de respuesta binaria no lineal (Logit y Probit), garantizó la estimación de Efectos Parciales Promedio (APE) altamente consistentes. La convergencia matemática entre los modelos demostró que los coeficientes reflejan dinámicas reales de la población económica, aislando el impacto vital de la experiencia (-0.69 p.p. por mes), el poder del capital humano formal (-6.21 p.p. por escalón educativo) y la severa penalidad de la lejanía periférica (+12.23 p.p.).

Adicionalmente, el puente construido entre la microeconometría tradicional y las metodologías de aprendizaje automático (Machine Learning) marca un hito en la evaluación de políticas públicas. Al someter el modelo a una validación predictiva fuera de muestra (Out-of-Sample), se logró un Área Bajo la Curva ROC (AUC) de 0.760 y una excepcional Sensibilidad del 76.98%. En un contexto de recursos fiscales escasos y clases desbalanceadas, esta alta capacidad del algoritmo para clasificar correctamente a los jóvenes verdaderamente vulnerables minimiza los falsos negativos, previniendo la exclusión de quienes más necesitan el auxilio del Estado.

En conclusión, integrar modelos predictivos rigurosos con teorías de diseño de mecanismos permite al Ministerio del Trabajo y a las administraciones regionales superar el asistencialismo reactivo. Esta herramienta analítica proporciona el motor de triaje idóneo para alimentar aplicaciones interactivas institucionales (como un dashboard en R Shiny), posibilitando una asignación presupuestal inteligente, georreferenciada y basada en evidencia para blindar el futuro productivo de la juventud colombiana.


Referencias Bibliográficas

  1. Arrow, K. J. (1973). Higher Education as a Filter. Journal of Public Economics, 2(3), 193-216.
  2. Becker, G. S. (1964). Human Capital: A Theoretical and Empirical Analysis, with Special Reference to Education. National Bureau of Economic Research (NBER).
  3. Castaño, O. (2026). Notas de clase, Capítulo 2: Variable dependiente limitada. Modelos binarios y evaluación predictiva. Econometría II, Universidad del Valle.
  4. Greene, W. H. (2018). Econometric Analysis (8th ed.). Pearson.
  5. Heckman, J. J. (1979). Sample Selection Bias as a Specification Error. Econometrica, 47(1), 153-161.
  6. Kain, J. F. (1968). Housing Segregation, Negro Employment, and Metropolitan Decentralization. The Quarterly Journal of Economics, 82(2), 175-197.
  7. Mortensen, D. T., & Pissarides, C. A. (1994). Job Creation and Job Destruction in the Theory of Unemployment. The Review of Economic Studies, 61(3), 397-415.
  8. Spence, M. (1973). Job Market Signaling. The Quarterly Journal of Economics, 87(3), 355-374.
  9. Wooldridge, J. M. (2010). Econometric Analysis of Cross Section and Panel Data (2nd ed.). MIT Press.