Tabla de contenido

1 Resumen

La deserción estudiantil en la educación superior puede analizarse desde la teoría del capital humano y desde los modelos de integración académica e institucional. La primera perspectiva entiende la educación como una inversión que genera retornos económicos y sociales futuros (Becker, 1964; Schultz, 1961), mientras que los enfoques de Tinto (1975, 1989), Bean (1980) y Spady (1970) resaltan la importancia de la integración académica, social e institucional del estudiante.

En el caso de la Universidad del Valle, la estructura multicampus obliga a reconocer que la deserción no necesariamente se comporta de forma homogénea entre la sede Cali y las sedes regionales. Por ello, este informe desarrolla un enfoque microeconométrico comparativo y regionalizado, estimando modelos binarios para explicar y predecir la probabilidad de deserción en el ciclo básico.

La investigación compara tres especificaciones: Modelo Lineal de Probabilidad (LPM), Logit y Probit. La evaluación se realiza mediante métricas de discriminación y calibración, principalmente el Área Bajo la Curva ROC (AUC), el Brier Score, matrices de confusión y pruebas de calibración. El propósito no es únicamente identificar el modelo con mejor desempeño estadístico, sino producir evidencia útil para fortalecer los sistemas institucionales de alerta temprana y permanencia estudiantil.

2 Introducción

La educación superior constituye uno de los principales mecanismos de acumulación de capital humano, movilidad social y desarrollo territorial. Desde la economía de la educación, autores como Becker (1964) y Schultz (1961) sostienen que la formación académica incrementa las capacidades productivas de los individuos y, con ello, sus posibilidades de obtener mayores retornos económicos y sociales. En términos agregados, la acumulación de capital humano también favorece el crecimiento económico, la innovación y la difusión tecnológica (Lucas, 1988; Nelson & Phelps, 1966).

No obstante, estos beneficios se ven limitados cuando los estudiantes abandonan sus estudios antes de culminar la formación universitaria. La deserción genera pérdidas para el estudiante, su familia, la institución y el Estado, pues implica un uso incompleto de recursos académicos, financieros y administrativos. Además, reduce las posibilidades de movilidad social y puede reproducir desigualdades previas asociadas al origen socioeconómico, el desempeño escolar anterior y el territorio de procedencia.

La literatura sobre deserción universitaria ha mostrado que el abandono no responde a una sola causa. Los modelos de integración académica y social de Tinto (1975, 1989), el enfoque de Bean (1980) y la propuesta de Spady (1970) coinciden en que la permanencia depende de la interacción entre condiciones individuales, familiares, académicas, institucionales y socioeconómicas. En Colombia, los trabajos de Castaño, Gallón, Gómez y Vásquez (2004, 2008) han contribuido a identificar los determinantes de la deserción en el contexto nacional.

Sin embargo, una debilidad frecuente de los análisis institucionales es estimar modelos agregados para toda la población estudiantil. Este supuesto puede ocultar diferencias territoriales relevantes. En una institución multicampus como la Universidad del Valle, los estudiantes de Cali, Centro, Norte, Pacífico, Cauca y Sur pueden enfrentar condiciones sociales, económicas y académicas distintas. Por tanto, un mismo conjunto de variables puede tener distinta capacidad explicativa y predictiva según la región.

Frente a este problema, este informe responde dos preguntas principales: ¿existen diferencias regionales en la capacidad predictiva de las variables socioeconómicas y académicas disponibles al ingreso? y ¿cuál de las especificaciones econométricas evaluadas ofrece mejor desempeño para modelar la deserción estudiantil en cada contexto territorial?

La importancia del estudio es metodológica, institucional y social. Desde lo metodológico, compara tres modelos clásicos de respuesta binaria. Desde lo institucional, aporta evidencia para mejorar los sistemas de alerta temprana del Observatorio de Éxito Académico, Permanencia y Graduación (DEXIA). Desde lo social, contribuye a orientar acciones de permanencia que reconozcan las desigualdades de origen y las diferencias entre territorios.

3 Objetivos

3.1 Objetivo general

Analizar los factores socioeconómicos y de capital humano inicial asociados a la deserción estudiantil en el ciclo básico de la Universidad del Valle mediante un enfoque microeconométrico comparativo y regionalizado, con el fin de generar evidencia para el diseño de estrategias institucionales de permanencia y sistemas de alerta temprana.

3.2 Objetivos específicos

  • Caracterizar las condiciones socioeconómicas y académicas de ingreso de los estudiantes del ciclo básico, identificando diferencias entre la sede Cali y las sedes regionales de la Universidad del Valle.
  • Estimar, para cada subregión, modelos de respuesta cualitativa binaria: Modelo Lineal de Probabilidad, Logit y Probit.
  • Comparar el desempeño predictivo de los modelos mediante indicadores de discriminación y calibración, como AUC, curvas ROC, Brier Score, matriz de confusión y prueba de Hosmer-Lemeshow.
  • Proponer recomendaciones institucionales orientadas al fortalecimiento de estrategias de permanencia y alerta temprana, considerando la heterogeneidad territorial.

4 Marco teórico

4.1 Teoría del capital humano

Desde la teoría del capital humano, la permanencia en la universidad puede interpretarse como una decisión de inversión. Becker (1964) y Schultz (1961) plantean que la educación permite adquirir habilidades, conocimientos y competencias que aumentan la productividad futura del individuo. En consecuencia, continuar en la educación superior depende de la comparación entre los costos de estudiar y los beneficios esperados de obtener un título universitario.

Cuando los costos económicos, académicos o familiares superan los beneficios esperados, aumenta la probabilidad de abandono. Esto resulta especialmente relevante para estudiantes con restricciones socioeconómicas, bajo capital académico inicial o dificultades de adaptación al entorno universitario. En estos casos, la deserción puede leerse como una decisión condicionada por restricciones estructurales, no solo como una elección individual.

4.2 Modelos de integración académica e institucional

Los modelos de integración académica y social sostienen que la permanencia depende de la relación entre el estudiante y el entorno institucional. Tinto (1975, 1989) plantea que la integración académica y social fortalece el compromiso del estudiante con su proyecto formativo. Por el contrario, una baja integración aumenta el riesgo de abandono.

Spady (1970) describe la deserción como el resultado de una débil incorporación al ambiente universitario. Bean (1980), por su parte, enfatiza que factores externos, como las expectativas individuales, el contexto familiar y las condiciones económicas, influyen en la decisión de continuar o retirarse.

Estas perspectivas permiten entender que la deserción no se explica únicamente por las condiciones de ingreso, sino también por la trayectoria posterior del estudiante. Sin embargo, para efectos de alerta temprana, las variables disponibles al momento de la matrícula son especialmente útiles porque permiten identificar riesgos antes de que ocurra el abandono.

4.3 Heterogeneidad territorial

La Universidad del Valle cuenta con una estructura multicampus que amplía el acceso a la educación superior en diferentes territorios del suroccidente colombiano. Esta característica institucional introduce una fuente importante de heterogeneidad: los estudiantes no enfrentan las mismas condiciones según la sede, el municipio de procedencia, el tipo de colegio, el contexto urbano o rural y el nivel socioeconómico del hogar.

Por esta razón, estimar un único modelo agregado puede ser insuficiente. Un modelo regionalizado permite evaluar si la capacidad predictiva de las variables cambia entre territorios y si las estrategias de permanencia deben ajustarse a cada contexto.

5 Fuente de información y muestra

La información utilizada proviene de registros administrativos de la Universidad del Valle y de las bases de datos del Observatorio de Éxito Académico, Permanencia y Graduación (DEXIA). La muestra corresponde a estudiantes de pregrado del ciclo básico, entendido como los primeros cuatro semestres de trayectoria universitaria.

El análisis utiliza variables disponibles al momento de la matrícula o de ingreso institucional. Esta decisión es metodológicamente importante porque evita fuga de información (data leakage): si se incluyeran variables generadas después del abandono o demasiado cercanas al evento, el modelo podría parecer más preciso de lo que realmente sería en un sistema de alerta temprana.

6 Metodología

6.1 Definición de variables

La variable dependiente es un indicador binario de deserción en el ciclo básico. Toma el valor de 1 si el estudiante desertó y 0 si permaneció activo en la institución. Las variables explicativas corresponden a características demográficas, socioeconómicas, académicas e institucionales observables al ingreso.

Definición operativa de las variables del modelo de ingreso
Variable Tipo Descripción Interpretación
y Binaria Indicador de deserción en ciclo básico. 1 = desertor; 0 = no desertor.
mujer Binaria Sexo del estudiante. 1 = mujer; 0 = hombre.
foraneo Binaria Procedencia territorial frente a la sede de admisión. 1 = estudiante foráneo; 0 = no foráneo.
IA Continua Índice Académico asociado al desempeño previo en Saber 11. Valores más altos indican mayor capital académico inicial.
estu_inse_individual Continua Índice socioeconómico individual del ICFES. Valores más altos indican mejores condiciones socioeconómicas relativas.
oficial Binaria Naturaleza del colegio de procedencia. 1 = colegio oficial; 0 = colegio privado.
rural Binaria Área de ubicación del colegio. 1 = rural; 0 = urbana.
region Categórica Agrupación territorial de la sede de admisión. Permite estimar modelos regionalizados.

6.2 Criterio de estratificación territorial

La variable region se construye a partir de la sede de admisión. La agrupación permite estimar modelos independientes para cada territorio y comparar la capacidad predictiva de las variables de ingreso.

Distribución de estudiantes por región analítica
region n porcentaje
Cali 9812 46.4%
Centro 4897 23.2%
Norte 2514 11.9%
Pacifico 1819 8.6%
Sur 2097 9.9%

6.3 Especificación econométrica

Para cada subregión \(R\), se estima la probabilidad condicional de deserción:

\[ P(y_i = 1 \mid X_i, R) = f(X_i'\beta^{(R)}) \]

donde \(y_i\) representa la condición de deserción del estudiante \(i\), \(X_i\) es el vector de variables explicativas disponibles al ingreso y \(\beta^{(R)}\) es el vector de parámetros estimado para cada región.

El vector de covariables se define como:

\[ X_i = (mujer_i, foraneo_i, IA_i, INSE_i, oficial_i, rural_i) \]

6.3.1 Modelo Lineal de Probabilidad

El Modelo Lineal de Probabilidad estima la probabilidad de deserción mediante una especificación lineal:

\[ P(y_i = 1 \mid X_i, R) = \beta_0^{(R)} + \beta_1^{(R)}mujer_i + \beta_2^{(R)}foraneo_i + \beta_3^{(R)}IA_i + \beta_4^{(R)}INSE_i + \beta_5^{(R)}oficial_i + \beta_6^{(R)}rural_i \]

Dado que la variable dependiente es binaria, el LPM presenta heterocedasticidad inherente. Por esta razón, la inferencia se realiza con errores estándar robustos tipo HC1. Además, las predicciones del LPM se restringen al intervalo \([0,1]\), pues la forma lineal puede producir probabilidades negativas o superiores a uno.

6.3.2 Modelo Logit

El modelo Logit utiliza la función logística acumulada para transformar el índice lineal en una probabilidad:

\[ P(y_i = 1 \mid X_i, R) = \frac{\exp(X_i'\beta^{(R)})}{1 + \exp(X_i'\beta^{(R)})} \]

Esta especificación garantiza que las probabilidades estimadas estén estrictamente entre 0 y 1. A diferencia del LPM, los coeficientes del Logit no se interpretan directamente como cambios marginales en probabilidad; por ello se calculan Efectos Parciales Promedio (APE).

6.3.3 Modelo Probit

El modelo Probit asume que la probabilidad de deserción está determinada por la función de distribución acumulada normal estándar:

\[ P(y_i = 1 \mid X_i, R) = \Phi(X_i'\beta^{(R)}) \]

La lógica es similar al Logit, pero utiliza una distribución normal en lugar de una logística. En la práctica, ambos modelos suelen producir resultados cercanos, aunque pueden diferir en la escala de los coeficientes.

6.3.4 Métricas de evaluación

La comparación entre modelos se realiza mediante cuatro criterios:

  • AUC: mide capacidad de discriminación. Valores cercanos a 0.5 indican desempeño similar al azar; valores cercanos a 1 indican clasificación perfecta.
  • Brier Score: mide precisión probabilística. Valores más bajos indican mejor calibración.
  • Matriz de confusión: resume aciertos y errores de clasificación a partir de un umbral.
  • Prueba de Hosmer-Lemeshow: evalúa la calibración agrupando probabilidades predichas y comparándolas con frecuencias observadas.

El AUC se calcula como:

\[ AUC = \int_0^1 TPR(FPR^{-1}(u))\,du \]

El Brier Score se define como:

\[ BS = \frac{1}{n}\sum_{i=1}^{n}(\hat{p}_i - y_i)^2 \]

7 Análisis descriptivo

Antes de estimar los modelos, se presenta una caracterización general por región. Esta etapa permite observar diferencias territoriales en tasa de deserción, composición por sexo, condición de foráneo, desempeño académico previo y nivel socioeconómico.

Descriptivos por región
region observaciones tasa_desercion prop_mujer prop_foraneo prop_oficial prop_rural prom_IA prom_inse
Cali 9812 0.370 0.440 0.318 0.607 0.075 2.459 54.96
Centro 4897 0.462 0.412 0.355 0.880 0.095 -0.595 50.83
Norte 2514 0.417 0.525 0.407 0.929 0.146 -2.644 49.27
Pacifico 1819 0.364 0.538 0.009 0.804 0.045 -3.202 48.98
Sur 2097 0.534 0.446 0.486 0.841 0.154 -2.268 48.89

La caracterización descriptiva confirma que la deserción no se distribuye de manera uniforme entre regiones. La mayor tasa de deserción se observa en Sur, con 53.4%, mientras que la menor se registra en Pacífico, con 36.4%. Esta diferencia inicial ya justifica el tratamiento regionalizado del problema, porque el riesgo de abandono no parece responder a una única estructura institucional homogénea.

También se observan contrastes en el Índice Académico de ingreso. La región con mayor promedio de IA es Cali (2.459), mientras que el menor promedio corresponde a Pacífico (-3.202). Esta brecha es relevante porque el IA funciona como una aproximación al capital académico previo del estudiante y, por tanto, puede anticipar diferencias en la capacidad de adaptación al ciclo básico universitario.

7.1 Pruebas bivariadas

La prueba de diferencia de medias permite evaluar si el Índice Académico difiere entre estudiantes desertores y no desertores. Esta prueba no establece causalidad, pero sí aporta evidencia preliminar sobre la asociación entre capital académico inicial y permanencia.

Prueba t de Welch para diferencia de medias del Índice Académico según condición de deserción
Estadistico_t Grados_libertad P_valor Media_no_desertores Media_desertores Diferencia_medias IC_95_inf IC_95_sup
19.54 18001 0 0.5735 -0.3603 0.9338 0.8401 1.028
Prueba de asociación entre sexo y deserción
Prueba Estadistico Grados_libertad P_valor
Chi-cuadrado: deserción y sexo 475 1 0

La prueba t de Welch muestra una diferencia estadísticamente significativa en el Índice Académico entre estudiantes desertores y no desertores. La diferencia promedio estimada es de 0.934 puntos estandarizados, con un valor p de <0.001. En términos sustantivos, los estudiantes que permanecen presentan un mayor capital académico inicial, lo que respalda la inclusión del IA como una variable central en los modelos de predicción de deserción.

Desde la teoría del capital humano, este resultado es consistente con la idea de que mejores competencias académicas previas reducen los costos de adaptación a la universidad. No obstante, esta evidencia sigue siendo bivariada: muestra asociación, pero no prueba causalidad. Por eso el análisis posterior estima modelos multivariados que controlan simultáneamente por sexo, procedencia, nivel socioeconómico, tipo de colegio y ruralidad.

8 Estimación regional de modelos

La estrategia empírica consiste en dividir la muestra por región y estimar tres modelos para cada subgrupo territorial. Este procedimiento permite que los coeficientes y las métricas de desempeño varíen entre regiones.

Comparación regional de AUC y Brier Score para LPM, Logit y Probit
Region N Tasa_desercion AUC_LPM AUC_Logit AUC_Probit Brier_LPM Brier_Logit Brier_Probit Threshold_Logit
Cali 9812 0.370 0.589 0.589 0.589 0.228 0.228 0.228 0.377
Centro 4897 0.462 0.650 0.650 0.650 0.232 0.232 0.232 0.427
Norte 2514 0.417 0.629 0.629 0.629 0.231 0.231 0.231 0.398
Pacifico 1819 0.364 0.678 0.678 0.678 0.210 0.210 0.210 0.394
Sur 2097 0.534 0.662 0.662 0.662 0.229 0.229 0.229 0.531

La tabla anterior no solo resume métricas técnicas; muestra el comportamiento empírico del modelo de ingreso en cada territorio. El mayor desempeño discriminante se observa en Pacífico, con un AUC promedio de 0.678, mientras que el menor desempeño corresponde a Cali, con un AUC promedio de 0.589. Esto indica que las variables disponibles al momento de la matrícula permiten distinguir con mayor claridad a los estudiantes en riesgo en unas regiones que en otras.

La calibración probabilística confirma esta heterogeneidad. El menor Brier Score promedio se presenta en Pacífico (0.21), lo que indica una mayor cercanía entre las probabilidades estimadas y los resultados observados. En contraste, el mayor Brier Score corresponde a Centro (0.232), reflejando una mayor incertidumbre en la predicción probabilística.

Un hallazgo fuerte del ejercicio es la similitud entre LPM, Logit y Probit. La diferencia máxima de AUC entre especificaciones dentro de una misma región es de 0.0001, y la diferencia máxima en Brier Score es de 0.0001. Por tanto, en estos datos la capacidad predictiva parece depender más de la información contenida en las variables de ingreso que de la forma funcional específica del modelo.

Modelo con mejor desempeño por región según AUC y Brier Score
Region Mejor_modelo_AUC Mejor_AUC Mejor_modelo_Brier Mejor_Brier
Cali Logit 0.589 Logit 0.228
Centro Logit 0.650 Logit 0.232
Norte LPM 0.629 Logit 0.231
Pacifico Probit 0.678 LPM 0.210
Sur Logit 0.662 Logit 0.229

9 Resultados gráficos

9.1 Comparación del AUC por región

La comparación gráfica del AUC evidencia diferencias territoriales en la capacidad de discriminación del modelo de ingreso. Pacífico concentra el mejor desempeño, mientras que Cali presenta la menor capacidad para distinguir entre estudiantes que desertan y estudiantes que permanecen. Este resultado sugiere que las variables observadas al momento de matrícula capturan mejor el perfil de riesgo en algunos contextos regionales que en la sede o región con mayor heterogeneidad estudiantil.

Desde una lectura económica, el resultado es consistente con la existencia de condiciones territoriales diferenciadas. En regiones donde el origen socioeconómico, el desempeño previo y las condiciones escolares son más homogéneas, las variables de ingreso tienden a explicar mejor el riesgo de abandono. En contextos más diversos, el abandono parece depender en mayor medida de factores que emergen durante la trayectoria universitaria, como adaptación académica, rendimiento del primer semestre, elección del programa o condiciones personales posteriores al ingreso.

9.2 Comparación del Brier Score por región

La comparación del Brier Score muestra que la mejor precisión probabilística se alcanza en Pacífico, donde las probabilidades estimadas se acercan más a los resultados observados. En cambio, Centro presenta el mayor error promedio de predicción probabilística. Esta diferencia no significa que el modelo falle completamente en esa región, sino que las variables de ingreso no capturan con la misma precisión la complejidad del proceso de deserción.

El comportamiento del Brier Score confirma la lectura del AUC: el modelo de ingreso tiene utilidad para alertas tempranas, pero su desempeño no es uniforme entre territorios. Por ello, una política institucional basada en un único umbral o en una única regla de riesgo para toda la Universidad podría perder precisión y focalizar mal los esfuerzos de acompañamiento.

9.3 Curvas ROC por región y modelo

Las curvas ROC refuerzan el hallazgo central: las tres especificaciones producen trayectorias muy similares dentro de cada región. Esto indica que LPM, Logit y Probit ordenan a los estudiantes de manera prácticamente equivalente según su riesgo estimado de deserción. La diferencia relevante no está tanto entre modelos, sino entre regiones.

En términos prácticos, esta evidencia sugiere que la Universidad no ganaría mucho cambiando únicamente la forma funcional del modelo si mantiene el mismo conjunto de variables de ingreso. La mejora más importante vendría de incorporar información adicional y oportuna sobre la trayectoria académica inicial, especialmente en las regiones donde las curvas se acercan más a la diagonal de clasificación aleatoria.

9.4 Mapa de calor de métricas

El mapa de calor consolida visualmente la interpretación anterior. La similitud entre columnas de LPM, Logit y Probit confirma que las tres especificaciones tienen un desempeño muy cercano. A la vez, las diferencias entre regiones evidencian heterogeneidad territorial en la capacidad predictiva del modelo.

La lectura institucional es clara: el modelo de ingreso puede servir como primera capa de alerta temprana, pero no debe aplicarse de manera mecánica ni uniforme. En las regiones con mayor AUC y menor Brier Score, la caracterización de ingreso ofrece una señal más confiable para priorizar acompañamiento. En las regiones con menor discriminación o peor calibración, el sistema debe complementarse rápidamente con indicadores académicos del primer semestre.

10 Resultados de coeficientes y efectos marginales

10.1 Coeficientes robustos del LPM

Coeficientes del Modelo Lineal de Probabilidad con errores robustos HC1
Region Variable Estimacion Error_robusto Estadistico_t P_valor
Cali (Intercept) 0.4680 0.0391 11.9816 0.0000
Cali mujer -0.1253 0.0097 -12.9529 0.0000
Cali foraneo -0.0170 0.0108 -1.5751 0.1153
Cali IA -0.0144 0.0020 -7.3047 0.0000
Cali estu_inse_individual 0.0001 0.0006 0.1164 0.9074
Cali oficial -0.0161 0.0114 -1.4187 0.1560
Cali rural 0.0418 0.0188 2.2244 0.0261
Centro (Intercept) 0.6087 0.0691 8.8113 0.0000
Centro mujer -0.1997 0.0139 -14.3726 0.0000
Centro foraneo -0.0154 0.0147 -1.0499 0.2938
Centro IA -0.0349 0.0028 -12.5124 0.0000
Centro estu_inse_individual -0.0008 0.0011 -0.7413 0.4585
Centro oficial -0.0446 0.0228 -1.9580 0.0503
Centro rural 0.0273 0.0243 1.1248 0.2607
Norte (Intercept) 0.6163 0.0961 6.4116 0.0000
Norte mujer -0.1214 0.0193 -6.2936 0.0000
Norte foraneo -0.0251 0.0199 -1.2645 0.2062
Norte IA -0.0372 0.0038 -9.7260 0.0000
Norte estu_inse_individual -0.0034 0.0015 -2.1996 0.0279
Norte oficial -0.0541 0.0384 -1.4070 0.1596
Norte rural -0.0403 0.0278 -1.4508 0.1470
Pacifico (Intercept) 0.4421 0.0970 4.5572 0.0000
Pacifico mujer -0.1494 0.0220 -6.7930 0.0000
Pacifico foraneo 0.0261 0.1133 0.2305 0.8178
Pacifico IA -0.0490 0.0043 -11.3207 0.0000
Pacifico estu_inse_individual -0.0016 0.0017 -0.9540 0.3402
Pacifico oficial -0.0938 0.0279 -3.3586 0.0008
Pacifico rural 0.0413 0.0512 0.8078 0.4193
Sur (Intercept) 0.4391 0.0965 4.5496 0.0000
Sur mujer -0.2094 0.0216 -9.6959 0.0000
Sur foraneo -0.0520 0.0212 -2.4540 0.0142
Sur IA -0.0339 0.0043 -7.9579 0.0000
Sur estu_inse_individual 0.0037 0.0016 2.2558 0.0242
Sur oficial -0.0604 0.0300 -2.0115 0.0444
Sur rural 0.0374 0.0314 1.1908 0.2339

Los coeficientes robustos del LPM permiten leer la dirección y magnitud aproximada de la relación entre cada variable de ingreso y la probabilidad de deserción. Su principal aporte en este informe es interpretativo: expresa los cambios en puntos de probabilidad de manera directa, lo que facilita comunicar los resultados a nivel institucional. Sin embargo, sus conclusiones deben contrastarse con Logit y Probit, porque la naturaleza binaria de la variable dependiente hace que el LPM sea menos adecuado como modelo probabilístico puro.

10.2 Efectos parciales promedio del Logit

Table: Efectos Parciales Promedio del modelo Logit por región

Los efectos parciales promedio del Logit traducen los coeficientes no lineales a cambios promedio en la probabilidad de deserción. Esta tabla es central para la interpretación sustantiva del modelo, porque permite identificar qué características de ingreso aumentan o reducen el riesgo estimado en cada región. Cuando el signo y la significancia de una variable se mantienen entre regiones, puede hablarse de una asociación más estable; cuando cambian, aparece evidencia de heterogeneidad territorial.

10.3 Efectos parciales promedio del Probit

Table: Efectos Parciales Promedio del modelo Probit por región

La comparación con Probit funciona como una prueba de robustez. Si los efectos marginales del Probit son cercanos a los del Logit, la interpretación no depende de elegir una distribución logística o normal para el componente latente del modelo. En este ejercicio, la similitud general entre métricas y efectos respalda la idea de que los resultados principales provienen de la estructura de los datos y no de una especificación particular.

11 Matrices de confusión

Las matrices de confusión permiten analizar el desempeño clasificatorio de los modelos. En este informe, el LPM y el Probit se evalúan con umbral de 0.5, mientras que para el Logit se emplea el umbral óptimo de Youden calculado en cada región.

Métricas de clasificación derivadas de las matrices de confusión
Region Modelo Accuracy Sensibilidad Especificidad Precision F1
Cali LPM 0.631 0.024 0.987 0.512 0.045
Cali Logit 0.563 0.599 0.542 0.434 0.504
Cali Probit 0.631 0.028 0.985 0.523 0.053
Centro LPM 0.606 0.532 0.670 0.581 0.555
Centro Logit 0.603 0.722 0.501 0.554 0.627
Centro Probit 0.606 0.530 0.672 0.582 0.555
Norte LPM 0.623 0.314 0.844 0.590 0.409
Norte Logit 0.590 0.659 0.541 0.507 0.573
Norte Probit 0.623 0.315 0.843 0.589 0.410
Pacifico LPM 0.671 0.312 0.876 0.591 0.409
Pacifico Logit 0.656 0.561 0.710 0.526 0.543
Pacifico Probit 0.667 0.318 0.867 0.578 0.411
Sur LPM 0.626 0.708 0.532 0.634 0.669
Sur Logit 0.630 0.640 0.618 0.658 0.649
Sur Probit 0.624 0.707 0.529 0.633 0.668

Las matrices de confusión muestran el costo operativo de convertir probabilidades en decisiones de clasificación. Para un sistema de alerta temprana, el indicador más sensible no es únicamente la exactitud global, sino la capacidad de identificar estudiantes que efectivamente desertan. Por eso, la sensibilidad y el F1 son especialmente importantes: una alerta institucional con alta exactitud, pero baja detección de desertores, tendría poca utilidad práctica para prevenir abandono.

12 Calibración

Prueba de Hosmer-Lemeshow para calibración de modelos Logit y Probit
Region Modelo Estadistico_HL P_valor
Cali Logit 9.966 0.2674
Cali Probit 10.886 0.2082
Centro Logit 3.194 0.9216
Centro Probit 3.451 0.9030
Norte Logit 10.909 0.2069
Norte Probit 9.266 0.3203
Pacifico Logit 6.168 0.6284
Pacifico Probit 6.284 0.6155
Sur Logit 6.665 0.5731
Sur Probit 7.074 0.5287

La calibración permite evaluar si las probabilidades estimadas son institucionalmente utilizables. No basta con ordenar estudiantes de mayor a menor riesgo; también importa que una probabilidad estimada como alta corresponda efectivamente a una mayor frecuencia observada de deserción. La prueba de Hosmer-Lemeshow aporta esta lectura, aunque debe complementarse con el Brier Score porque es sensible al tamaño de muestra y al número de grupos definidos.

13 Discusión

Los resultados muestran que la deserción estudiantil en el ciclo básico tiene un comportamiento territorialmente diferenciado. La región con mejor desempeño predictivo es Pacífico, mientras que Cali presenta la menor capacidad de discriminación. Esta diferencia sugiere que las variables de ingreso no tienen la misma capacidad explicativa en todos los contextos de la Universidad del Valle.

La similitud entre LPM, Logit y Probit es uno de los hallazgos metodológicos más importantes del informe. Las tres especificaciones producen métricas prácticamente equivalentes, lo cual indica que el problema no se resuelve simplemente cambiando la forma funcional del modelo. En otras palabras, el límite predictivo está más asociado al conjunto de variables disponibles al ingreso que al tipo de modelo binario utilizado.

Desde la perspectiva económica, los resultados son consistentes con la teoría del capital humano. El Índice Académico muestra diferencias relevantes entre desertores y no desertores, lo que sugiere que el capital académico previo incide en la capacidad de adaptación al ciclo básico universitario. Los estudiantes con menor preparación inicial pueden enfrentar mayores costos académicos de permanencia, especialmente si no reciben acompañamiento temprano.

Desde la perspectiva institucional, el modelo de ingreso funciona como una primera herramienta de alerta, pero no como un sistema completo de predicción de abandono. Su utilidad principal está en identificar perfiles iniciales de riesgo y orientar acciones tempranas. Sin embargo, la capacidad predictiva moderada indica que la Universidad debe incorporar variables dinámicas del primer semestre para mejorar la detección: rendimiento académico, créditos aprobados, cancelaciones, asistencia, alertas docentes y participación en estrategias de apoyo.

El análisis también muestra que una política uniforme de permanencia puede ser insuficiente. Las regiones con mejor desempeño del modelo permiten usar la información de matrícula con mayor confianza para priorizar intervención. En las regiones con menor AUC o mayor Brier Score, la alerta debe actualizarse rápidamente con información académica posterior, porque las condiciones iniciales no explican completamente el riesgo de abandono.

14 Recomendaciones institucionales

A partir del análisis, se recomienda fortalecer las estrategias de alerta temprana con un enfoque territorial diferenciado. En Pacífico, donde el modelo presenta mayor capacidad discriminante, las variables disponibles desde matrícula pueden utilizarse para priorizar acompañamiento académico, psicosocial y socioeconómico desde las primeras semanas del semestre.

En Cali, donde el desempeño predictivo es más bajo, conviene complementar la caracterización inicial con información dinámica del primer semestre: asistencia, créditos matriculados y aprobados, promedio parcial, cancelaciones, reportes de bajo rendimiento y participación en actividades de acompañamiento. Esta recomendación no contradice el modelo de ingreso; lo fortalece mediante seguimiento progresivo.

También se recomienda desarrollar programas de nivelación académica para estudiantes con menor Índice Académico de ingreso, especialmente en competencias básicas como matemáticas, lectura crítica y escritura académica. Asimismo, es pertinente fortalecer la articulación con colegios oficiales y rurales para reducir brechas previas al ingreso universitario.

Finalmente, el sistema de alerta temprana no debería usarse como mecanismo de etiquetamiento del estudiante, sino como herramienta de priorización institucional. Un estudiante clasificado como de alto riesgo no debe ser tratado como un caso perdido, sino como una persona que requiere acompañamiento oportuno y diferenciado.

15 Conclusiones

El análisis microeconométrico regionalizado permite concluir que la deserción estudiantil en el ciclo básico de la Universidad del Valle no se comporta como un fenómeno homogéneo. Las diferencias entre regiones justifican la estimación de modelos separados y el diseño de estrategias de permanencia adaptadas a cada territorio.

Los modelos LPM, Logit y Probit presentan desempeños muy similares en términos de AUC y Brier Score. Esto indica que, para las variables consideradas en el modelo de ingreso, la elección entre estas tres especificaciones no modifica sustancialmente la capacidad predictiva. La información contenida en las variables de matrícula es el componente que realmente determina el alcance del modelo.

El Índice Académico se confirma como una variable relevante en la caracterización inicial del riesgo. Los estudiantes que permanecen presentan, en promedio, un IA superior al de quienes desertan, lo cual respalda su inclusión en sistemas de alerta temprana. Sin embargo, su efecto debe leerse junto con las demás variables socioeconómicas e institucionales, evitando interpretaciones causales simplistas.

En conjunto, la evidencia respalda la implementación de sistemas de alerta temprana regionalizados. El modelo de ingreso debe entenderse como una primera capa de detección, útil para focalizar acompañamiento desde el inicio, pero debe complementarse con información académica generada durante el primer semestre para mejorar la precisión y la oportunidad de las intervenciones.

16 Referencias

Andrade-Girón, D., et al. (2023). Modelado predictivo de la deserción universitaria mediante técnicas de aprendizaje automático. Revista Iberoamericana de Educación Superior, 14(40), 112-131.

Bean, J. P. (1980). Dropouts and turnovers: The synthesis and test of a causal model of student attrition. Research in Higher Education, 12(2), 155-187.

Becker, G. S. (1964). Human Capital: A Theoretical and Empirical Analysis, with Special Reference to Education. National Bureau of Economic Research.

Castaño, E., Gallón, S., Gómez, K., & Vásquez, J. (2004). En búsqueda de los determinantes de la deserción universitaria en Colombia. Lecturas de Economía, (61), 85-113.

Castaño, E., Gallón, S., Gómez, K., & Vásquez, J. (2008). Análisis de los factores asociados a la deserción estudiantil en la educación superior colombiana. Revista de Educación, (347), 333-354.

Castaño Macana, M. A. (2019). Determinantes socioeconómicos y académicos de la permanencia estudiantil en la educación pública superior subregional. Centro de Investigaciones y Documentación Socioeconómica, Universidad del Valle.

Escobar Martínez, J., Castaño Macana, M. A., & Castro Rodríguez, A. (2021). Desafíos de la regionalización universitaria: un análisis de las condiciones de vida y rendimiento académico en las sedes regionales de la Universidad del Valle. Sociedad y Economía, (43), e201.

Londoño, F. (2009). Territorio y educación superior: el impacto de la regionalización de la Universidad del Valle en el desarrollo local. Programa Editorial Universidad del Valle.

Lucas, R. E. (1988). On the mechanics of economic development. Journal of Monetary Economics, 22(1), 3-42.

Ministerio de Educación Nacional [MEN]. (2015). Estrategias para la permanencia en la educación superior: experiencias significativas. MEN.

Montoya, L. (2008). Análisis comparativo de la población estudiantil multicampus: Cali y sedes regionales. Dirección de Planeación Institucional, Universidad del Valle.

Nelson, R. R., & Phelps, E. S. (1966). Investment in humans, technological diffusion, and economic growth. The American Economic Review, 56(1/2), 69-75.

Observatorio de Éxito Académico, Permanencia y Graduación [DEXIA]. (2022). Informe estadístico de caracterización socioeconómica y alertas tempranas en la Universidad del Valle. Vicerrectoría Académica, Universidad del Valle.

Osorio, A., et al. (2012). Equidad territorial y brechas de calidad en la educación media en Colombia. Desarrollo y Sociedad, (69), 157-191.

Psacharopoulos, G. (1985). Returns to education: A further international update and implications. Journal of Human Resources, 20(4), 583-604.

Psacharopoulos, G., & Patrinos, H. A. (2002). Returns to investment in education: a further update. Education Economics, 12(2), 111-134.

Sánchez Torres, F., & Márquez Zúñiga, J. (2013). Evaluación del impacto de los costos de la deserción universitaria sobre el crecimiento económico y la equidad en Colombia. Documentos CEDE, (2013-42), Universidad de los Andes.

Schultz, T. W. (1961). Investment in human capital. The American Economic Review, 51(1), 1-17.

Spady, W. G. (1970). Dropouts from higher education: an interdisciplinary review and synthesis. Interchange, 1(1), 64-85.

Tinto, V. (1975). Dropout from higher education: a theoretical synthesis of recent research. Review of Educational Research, 45(1), 89-125.

Tinto, V. (1989). Leaving college: rethinking the causes and cures of student attrition. Journal of Higher Education, 60(4), 437-454.

Ujkani, S., et al. (2022). Machine learning applications in higher education: predicting student attrition using lasso and elastic net regularization. Computers & Education, (182), 104-121.

17 Anexo: código base original integrado

El código original entregado por el grupo fue integrado, depurado y reorganizado dentro de este RMarkdown. Los principales ajustes técnicos fueron:

  • Se incorporó una validación inicial para verificar que la base Data_set_tesis_vf exista antes de tejer el documento.
  • Se eliminaron riesgos de error por datos faltantes en las variables del modelo.
  • Se reemplazó el cálculo frágil del umbral óptimo por una función basada en la curva ROC y el criterio de Youden.
  • Se agregaron funciones seguras para AUC, Brier Score, matriz de confusión y prueba de Hosmer-Lemeshow.
  • Se mantuvo la coherencia metodológica entre el texto y el código: el informe estima LPM, Logit y Probit clásicos regionalizados.
  • Se redujeron las dependencias a los paquetes realmente utilizados en el documento final.