La deserción estudiantil en la educación superior puede analizarse desde la teoría del capital humano y desde los modelos de integración académica e institucional. La primera perspectiva entiende la educación como una inversión que genera retornos económicos y sociales futuros (Becker, 1964; Schultz, 1961), mientras que los enfoques de Tinto (1975, 1989), Bean (1980) y Spady (1970) resaltan la importancia de la integración académica, social e institucional del estudiante.
En el caso de la Universidad del Valle, la estructura multicampus obliga a reconocer que la deserción no necesariamente se comporta de forma homogénea entre la sede Cali y las sedes regionales. Por ello, este informe desarrolla un enfoque microeconométrico comparativo y regionalizado, estimando modelos binarios para explicar y predecir la probabilidad de deserción en el ciclo básico.
La investigación compara tres especificaciones: Modelo Lineal de Probabilidad (LPM), Logit y Probit. La evaluación se realiza mediante métricas de discriminación y calibración, principalmente el Área Bajo la Curva ROC (AUC), el Brier Score, matrices de confusión y pruebas de calibración. El propósito no es únicamente identificar el modelo con mejor desempeño estadístico, sino producir evidencia útil para fortalecer los sistemas institucionales de alerta temprana y permanencia estudiantil.
La educación superior constituye uno de los principales mecanismos de acumulación de capital humano, movilidad social y desarrollo territorial. Desde la economía de la educación, autores como Becker (1964) y Schultz (1961) sostienen que la formación académica incrementa las capacidades productivas de los individuos y, con ello, sus posibilidades de obtener mayores retornos económicos y sociales. En términos agregados, la acumulación de capital humano también favorece el crecimiento económico, la innovación y la difusión tecnológica (Lucas, 1988; Nelson & Phelps, 1966).
No obstante, estos beneficios se ven limitados cuando los estudiantes abandonan sus estudios antes de culminar la formación universitaria. La deserción genera pérdidas para el estudiante, su familia, la institución y el Estado, pues implica un uso incompleto de recursos académicos, financieros y administrativos. Además, reduce las posibilidades de movilidad social y puede reproducir desigualdades previas asociadas al origen socioeconómico, el desempeño escolar anterior y el territorio de procedencia.
La literatura sobre deserción universitaria ha mostrado que el abandono no responde a una sola causa. Los modelos de integración académica y social de Tinto (1975, 1989), el enfoque de Bean (1980) y la propuesta de Spady (1970) coinciden en que la permanencia depende de la interacción entre condiciones individuales, familiares, académicas, institucionales y socioeconómicas. En Colombia, los trabajos de Castaño, Gallón, Gómez y Vásquez (2004, 2008) han contribuido a identificar los determinantes de la deserción en el contexto nacional.
Sin embargo, una debilidad frecuente de los análisis institucionales es estimar modelos agregados para toda la población estudiantil. Este supuesto puede ocultar diferencias territoriales relevantes. En una institución multicampus como la Universidad del Valle, los estudiantes de Cali, Centro, Norte, Pacífico, Cauca y Sur pueden enfrentar condiciones sociales, económicas y académicas distintas. Por tanto, un mismo conjunto de variables puede tener distinta capacidad explicativa y predictiva según la región.
Frente a este problema, este informe responde dos preguntas principales: ¿existen diferencias regionales en la capacidad predictiva de las variables socioeconómicas y académicas disponibles al ingreso? y ¿cuál de las especificaciones econométricas evaluadas ofrece mejor desempeño para modelar la deserción estudiantil en cada contexto territorial?
La importancia del estudio es metodológica, institucional y social. Desde lo metodológico, compara tres modelos clásicos de respuesta binaria. Desde lo institucional, aporta evidencia para mejorar los sistemas de alerta temprana del Observatorio de Éxito Académico, Permanencia y Graduación (DEXIA). Desde lo social, contribuye a orientar acciones de permanencia que reconozcan las desigualdades de origen y las diferencias entre territorios.
Analizar los factores socioeconómicos y de capital humano inicial asociados a la deserción estudiantil en el ciclo básico de la Universidad del Valle mediante un enfoque microeconométrico comparativo y regionalizado, con el fin de generar evidencia para el diseño de estrategias institucionales de permanencia y sistemas de alerta temprana.
Desde la teoría del capital humano, la permanencia en la universidad puede interpretarse como una decisión de inversión. Becker (1964) y Schultz (1961) plantean que la educación permite adquirir habilidades, conocimientos y competencias que aumentan la productividad futura del individuo. En consecuencia, continuar en la educación superior depende de la comparación entre los costos de estudiar y los beneficios esperados de obtener un título universitario.
Cuando los costos económicos, académicos o familiares superan los beneficios esperados, aumenta la probabilidad de abandono. Esto resulta especialmente relevante para estudiantes con restricciones socioeconómicas, bajo capital académico inicial o dificultades de adaptación al entorno universitario. En estos casos, la deserción puede leerse como una decisión condicionada por restricciones estructurales, no solo como una elección individual.
Los modelos de integración académica y social sostienen que la permanencia depende de la relación entre el estudiante y el entorno institucional. Tinto (1975, 1989) plantea que la integración académica y social fortalece el compromiso del estudiante con su proyecto formativo. Por el contrario, una baja integración aumenta el riesgo de abandono.
Spady (1970) describe la deserción como el resultado de una débil incorporación al ambiente universitario. Bean (1980), por su parte, enfatiza que factores externos, como las expectativas individuales, el contexto familiar y las condiciones económicas, influyen en la decisión de continuar o retirarse.
Estas perspectivas permiten entender que la deserción no se explica únicamente por las condiciones de ingreso, sino también por la trayectoria posterior del estudiante. Sin embargo, para efectos de alerta temprana, las variables disponibles al momento de la matrícula son especialmente útiles porque permiten identificar riesgos antes de que ocurra el abandono.
La Universidad del Valle cuenta con una estructura multicampus que amplía el acceso a la educación superior en diferentes territorios del suroccidente colombiano. Esta característica institucional introduce una fuente importante de heterogeneidad: los estudiantes no enfrentan las mismas condiciones según la sede, el municipio de procedencia, el tipo de colegio, el contexto urbano o rural y el nivel socioeconómico del hogar.
Por esta razón, estimar un único modelo agregado puede ser insuficiente. Un modelo regionalizado permite evaluar si la capacidad predictiva de las variables cambia entre territorios y si las estrategias de permanencia deben ajustarse a cada contexto.
La información utilizada proviene de registros administrativos de la Universidad del Valle y de las bases de datos del Observatorio de Éxito Académico, Permanencia y Graduación (DEXIA). La muestra corresponde a estudiantes de pregrado del ciclo básico, entendido como los primeros cuatro semestres de trayectoria universitaria.
El análisis utiliza variables disponibles al momento de la matrícula o de ingreso institucional. Esta decisión es metodológicamente importante porque evita fuga de información (data leakage): si se incluyeran variables generadas después del abandono o demasiado cercanas al evento, el modelo podría parecer más preciso de lo que realmente sería en un sistema de alerta temprana.
La variable dependiente es un indicador binario de deserción en el ciclo básico. Toma el valor de 1 si el estudiante desertó y 0 si permaneció activo en la institución. Las variables explicativas corresponden a características demográficas, socioeconómicas, académicas e institucionales observables al ingreso.
| Variable | Tipo | Descripción | Interpretación |
|---|---|---|---|
| y | Binaria | Indicador de deserción en ciclo básico. | 1 = desertor; 0 = no desertor. |
| mujer | Binaria | Sexo del estudiante. | 1 = mujer; 0 = hombre. |
| foraneo | Binaria | Procedencia territorial frente a la sede de admisión. | 1 = estudiante foráneo; 0 = no foráneo. |
| IA | Continua | Índice Académico asociado al desempeño previo en Saber 11. | Valores más altos indican mayor capital académico inicial. |
| estu_inse_individual | Continua | Índice socioeconómico individual del ICFES. | Valores más altos indican mejores condiciones socioeconómicas relativas. |
| oficial | Binaria | Naturaleza del colegio de procedencia. | 1 = colegio oficial; 0 = colegio privado. |
| rural | Binaria | Área de ubicación del colegio. | 1 = rural; 0 = urbana. |
| region | Categórica | Agrupación territorial de la sede de admisión. | Permite estimar modelos regionalizados. |
La variable region se construye a partir de la sede de
admisión. La agrupación permite estimar modelos independientes para cada
territorio y comparar la capacidad predictiva de las variables de
ingreso.
| region | n | porcentaje |
|---|---|---|
| Cali | 9812 | 46.4% |
| Centro | 4897 | 23.2% |
| Norte | 2514 | 11.9% |
| Pacifico | 1819 | 8.6% |
| Sur | 2097 | 9.9% |
Para cada subregión \(R\), se estima la probabilidad condicional de deserción:
\[ P(y_i = 1 \mid X_i, R) = f(X_i'\beta^{(R)}) \]
donde \(y_i\) representa la condición de deserción del estudiante \(i\), \(X_i\) es el vector de variables explicativas disponibles al ingreso y \(\beta^{(R)}\) es el vector de parámetros estimado para cada región.
El vector de covariables se define como:
\[ X_i = (mujer_i, foraneo_i, IA_i, INSE_i, oficial_i, rural_i) \]
El Modelo Lineal de Probabilidad estima la probabilidad de deserción mediante una especificación lineal:
\[ P(y_i = 1 \mid X_i, R) = \beta_0^{(R)} + \beta_1^{(R)}mujer_i + \beta_2^{(R)}foraneo_i + \beta_3^{(R)}IA_i + \beta_4^{(R)}INSE_i + \beta_5^{(R)}oficial_i + \beta_6^{(R)}rural_i \]
Dado que la variable dependiente es binaria, el LPM presenta heterocedasticidad inherente. Por esta razón, la inferencia se realiza con errores estándar robustos tipo HC1. Además, las predicciones del LPM se restringen al intervalo \([0,1]\), pues la forma lineal puede producir probabilidades negativas o superiores a uno.
El modelo Logit utiliza la función logística acumulada para transformar el índice lineal en una probabilidad:
\[ P(y_i = 1 \mid X_i, R) = \frac{\exp(X_i'\beta^{(R)})}{1 + \exp(X_i'\beta^{(R)})} \]
Esta especificación garantiza que las probabilidades estimadas estén estrictamente entre 0 y 1. A diferencia del LPM, los coeficientes del Logit no se interpretan directamente como cambios marginales en probabilidad; por ello se calculan Efectos Parciales Promedio (APE).
El modelo Probit asume que la probabilidad de deserción está determinada por la función de distribución acumulada normal estándar:
\[ P(y_i = 1 \mid X_i, R) = \Phi(X_i'\beta^{(R)}) \]
La lógica es similar al Logit, pero utiliza una distribución normal en lugar de una logística. En la práctica, ambos modelos suelen producir resultados cercanos, aunque pueden diferir en la escala de los coeficientes.
La comparación entre modelos se realiza mediante cuatro criterios:
El AUC se calcula como:
\[ AUC = \int_0^1 TPR(FPR^{-1}(u))\,du \]
El Brier Score se define como:
\[ BS = \frac{1}{n}\sum_{i=1}^{n}(\hat{p}_i - y_i)^2 \]
Antes de estimar los modelos, se presenta una caracterización general por región. Esta etapa permite observar diferencias territoriales en tasa de deserción, composición por sexo, condición de foráneo, desempeño académico previo y nivel socioeconómico.
| region | observaciones | tasa_desercion | prop_mujer | prop_foraneo | prop_oficial | prop_rural | prom_IA | prom_inse |
|---|---|---|---|---|---|---|---|---|
| Cali | 9812 | 0.370 | 0.440 | 0.318 | 0.607 | 0.075 | 2.459 | 54.96 |
| Centro | 4897 | 0.462 | 0.412 | 0.355 | 0.880 | 0.095 | -0.595 | 50.83 |
| Norte | 2514 | 0.417 | 0.525 | 0.407 | 0.929 | 0.146 | -2.644 | 49.27 |
| Pacifico | 1819 | 0.364 | 0.538 | 0.009 | 0.804 | 0.045 | -3.202 | 48.98 |
| Sur | 2097 | 0.534 | 0.446 | 0.486 | 0.841 | 0.154 | -2.268 | 48.89 |
La caracterización descriptiva confirma que la deserción no se distribuye de manera uniforme entre regiones. La mayor tasa de deserción se observa en Sur, con 53.4%, mientras que la menor se registra en Pacífico, con 36.4%. Esta diferencia inicial ya justifica el tratamiento regionalizado del problema, porque el riesgo de abandono no parece responder a una única estructura institucional homogénea.
También se observan contrastes en el Índice Académico de ingreso. La región con mayor promedio de IA es Cali (2.459), mientras que el menor promedio corresponde a Pacífico (-3.202). Esta brecha es relevante porque el IA funciona como una aproximación al capital académico previo del estudiante y, por tanto, puede anticipar diferencias en la capacidad de adaptación al ciclo básico universitario.
La prueba de diferencia de medias permite evaluar si el Índice Académico difiere entre estudiantes desertores y no desertores. Esta prueba no establece causalidad, pero sí aporta evidencia preliminar sobre la asociación entre capital académico inicial y permanencia.
| Estadistico_t | Grados_libertad | P_valor | Media_no_desertores | Media_desertores | Diferencia_medias | IC_95_inf | IC_95_sup |
|---|---|---|---|---|---|---|---|
| 19.54 | 18001 | 0 | 0.5735 | -0.3603 | 0.9338 | 0.8401 | 1.028 |
| Prueba | Estadistico | Grados_libertad | P_valor |
|---|---|---|---|
| Chi-cuadrado: deserción y sexo | 475 | 1 | 0 |
La prueba t de Welch muestra una diferencia estadísticamente significativa en el Índice Académico entre estudiantes desertores y no desertores. La diferencia promedio estimada es de 0.934 puntos estandarizados, con un valor p de <0.001. En términos sustantivos, los estudiantes que permanecen presentan un mayor capital académico inicial, lo que respalda la inclusión del IA como una variable central en los modelos de predicción de deserción.
Desde la teoría del capital humano, este resultado es consistente con la idea de que mejores competencias académicas previas reducen los costos de adaptación a la universidad. No obstante, esta evidencia sigue siendo bivariada: muestra asociación, pero no prueba causalidad. Por eso el análisis posterior estima modelos multivariados que controlan simultáneamente por sexo, procedencia, nivel socioeconómico, tipo de colegio y ruralidad.
La estrategia empírica consiste en dividir la muestra por región y estimar tres modelos para cada subgrupo territorial. Este procedimiento permite que los coeficientes y las métricas de desempeño varíen entre regiones.
| Region | N | Tasa_desercion | AUC_LPM | AUC_Logit | AUC_Probit | Brier_LPM | Brier_Logit | Brier_Probit | Threshold_Logit |
|---|---|---|---|---|---|---|---|---|---|
| Cali | 9812 | 0.370 | 0.589 | 0.589 | 0.589 | 0.228 | 0.228 | 0.228 | 0.377 |
| Centro | 4897 | 0.462 | 0.650 | 0.650 | 0.650 | 0.232 | 0.232 | 0.232 | 0.427 |
| Norte | 2514 | 0.417 | 0.629 | 0.629 | 0.629 | 0.231 | 0.231 | 0.231 | 0.398 |
| Pacifico | 1819 | 0.364 | 0.678 | 0.678 | 0.678 | 0.210 | 0.210 | 0.210 | 0.394 |
| Sur | 2097 | 0.534 | 0.662 | 0.662 | 0.662 | 0.229 | 0.229 | 0.229 | 0.531 |
La tabla anterior no solo resume métricas técnicas; muestra el comportamiento empírico del modelo de ingreso en cada territorio. El mayor desempeño discriminante se observa en Pacífico, con un AUC promedio de 0.678, mientras que el menor desempeño corresponde a Cali, con un AUC promedio de 0.589. Esto indica que las variables disponibles al momento de la matrícula permiten distinguir con mayor claridad a los estudiantes en riesgo en unas regiones que en otras.
La calibración probabilística confirma esta heterogeneidad. El menor Brier Score promedio se presenta en Pacífico (0.21), lo que indica una mayor cercanía entre las probabilidades estimadas y los resultados observados. En contraste, el mayor Brier Score corresponde a Centro (0.232), reflejando una mayor incertidumbre en la predicción probabilística.
Un hallazgo fuerte del ejercicio es la similitud entre LPM, Logit y Probit. La diferencia máxima de AUC entre especificaciones dentro de una misma región es de 0.0001, y la diferencia máxima en Brier Score es de 0.0001. Por tanto, en estos datos la capacidad predictiva parece depender más de la información contenida en las variables de ingreso que de la forma funcional específica del modelo.
| Region | Mejor_modelo_AUC | Mejor_AUC | Mejor_modelo_Brier | Mejor_Brier |
|---|---|---|---|---|
| Cali | Logit | 0.589 | Logit | 0.228 |
| Centro | Logit | 0.650 | Logit | 0.232 |
| Norte | LPM | 0.629 | Logit | 0.231 |
| Pacifico | Probit | 0.678 | LPM | 0.210 |
| Sur | Logit | 0.662 | Logit | 0.229 |
La comparación gráfica del AUC evidencia diferencias territoriales en la capacidad de discriminación del modelo de ingreso. Pacífico concentra el mejor desempeño, mientras que Cali presenta la menor capacidad para distinguir entre estudiantes que desertan y estudiantes que permanecen. Este resultado sugiere que las variables observadas al momento de matrícula capturan mejor el perfil de riesgo en algunos contextos regionales que en la sede o región con mayor heterogeneidad estudiantil.
Desde una lectura económica, el resultado es consistente con la existencia de condiciones territoriales diferenciadas. En regiones donde el origen socioeconómico, el desempeño previo y las condiciones escolares son más homogéneas, las variables de ingreso tienden a explicar mejor el riesgo de abandono. En contextos más diversos, el abandono parece depender en mayor medida de factores que emergen durante la trayectoria universitaria, como adaptación académica, rendimiento del primer semestre, elección del programa o condiciones personales posteriores al ingreso.
La comparación del Brier Score muestra que la mejor precisión probabilística se alcanza en Pacífico, donde las probabilidades estimadas se acercan más a los resultados observados. En cambio, Centro presenta el mayor error promedio de predicción probabilística. Esta diferencia no significa que el modelo falle completamente en esa región, sino que las variables de ingreso no capturan con la misma precisión la complejidad del proceso de deserción.
El comportamiento del Brier Score confirma la lectura del AUC: el modelo de ingreso tiene utilidad para alertas tempranas, pero su desempeño no es uniforme entre territorios. Por ello, una política institucional basada en un único umbral o en una única regla de riesgo para toda la Universidad podría perder precisión y focalizar mal los esfuerzos de acompañamiento.
Las curvas ROC refuerzan el hallazgo central: las tres especificaciones producen trayectorias muy similares dentro de cada región. Esto indica que LPM, Logit y Probit ordenan a los estudiantes de manera prácticamente equivalente según su riesgo estimado de deserción. La diferencia relevante no está tanto entre modelos, sino entre regiones.
En términos prácticos, esta evidencia sugiere que la Universidad no ganaría mucho cambiando únicamente la forma funcional del modelo si mantiene el mismo conjunto de variables de ingreso. La mejora más importante vendría de incorporar información adicional y oportuna sobre la trayectoria académica inicial, especialmente en las regiones donde las curvas se acercan más a la diagonal de clasificación aleatoria.
El mapa de calor consolida visualmente la interpretación anterior. La similitud entre columnas de LPM, Logit y Probit confirma que las tres especificaciones tienen un desempeño muy cercano. A la vez, las diferencias entre regiones evidencian heterogeneidad territorial en la capacidad predictiva del modelo.
La lectura institucional es clara: el modelo de ingreso puede servir como primera capa de alerta temprana, pero no debe aplicarse de manera mecánica ni uniforme. En las regiones con mayor AUC y menor Brier Score, la caracterización de ingreso ofrece una señal más confiable para priorizar acompañamiento. En las regiones con menor discriminación o peor calibración, el sistema debe complementarse rápidamente con indicadores académicos del primer semestre.
| Region | Variable | Estimacion | Error_robusto | Estadistico_t | P_valor |
|---|---|---|---|---|---|
| Cali | (Intercept) | 0.4680 | 0.0391 | 11.9816 | 0.0000 |
| Cali | mujer | -0.1253 | 0.0097 | -12.9529 | 0.0000 |
| Cali | foraneo | -0.0170 | 0.0108 | -1.5751 | 0.1153 |
| Cali | IA | -0.0144 | 0.0020 | -7.3047 | 0.0000 |
| Cali | estu_inse_individual | 0.0001 | 0.0006 | 0.1164 | 0.9074 |
| Cali | oficial | -0.0161 | 0.0114 | -1.4187 | 0.1560 |
| Cali | rural | 0.0418 | 0.0188 | 2.2244 | 0.0261 |
| Centro | (Intercept) | 0.6087 | 0.0691 | 8.8113 | 0.0000 |
| Centro | mujer | -0.1997 | 0.0139 | -14.3726 | 0.0000 |
| Centro | foraneo | -0.0154 | 0.0147 | -1.0499 | 0.2938 |
| Centro | IA | -0.0349 | 0.0028 | -12.5124 | 0.0000 |
| Centro | estu_inse_individual | -0.0008 | 0.0011 | -0.7413 | 0.4585 |
| Centro | oficial | -0.0446 | 0.0228 | -1.9580 | 0.0503 |
| Centro | rural | 0.0273 | 0.0243 | 1.1248 | 0.2607 |
| Norte | (Intercept) | 0.6163 | 0.0961 | 6.4116 | 0.0000 |
| Norte | mujer | -0.1214 | 0.0193 | -6.2936 | 0.0000 |
| Norte | foraneo | -0.0251 | 0.0199 | -1.2645 | 0.2062 |
| Norte | IA | -0.0372 | 0.0038 | -9.7260 | 0.0000 |
| Norte | estu_inse_individual | -0.0034 | 0.0015 | -2.1996 | 0.0279 |
| Norte | oficial | -0.0541 | 0.0384 | -1.4070 | 0.1596 |
| Norte | rural | -0.0403 | 0.0278 | -1.4508 | 0.1470 |
| Pacifico | (Intercept) | 0.4421 | 0.0970 | 4.5572 | 0.0000 |
| Pacifico | mujer | -0.1494 | 0.0220 | -6.7930 | 0.0000 |
| Pacifico | foraneo | 0.0261 | 0.1133 | 0.2305 | 0.8178 |
| Pacifico | IA | -0.0490 | 0.0043 | -11.3207 | 0.0000 |
| Pacifico | estu_inse_individual | -0.0016 | 0.0017 | -0.9540 | 0.3402 |
| Pacifico | oficial | -0.0938 | 0.0279 | -3.3586 | 0.0008 |
| Pacifico | rural | 0.0413 | 0.0512 | 0.8078 | 0.4193 |
| Sur | (Intercept) | 0.4391 | 0.0965 | 4.5496 | 0.0000 |
| Sur | mujer | -0.2094 | 0.0216 | -9.6959 | 0.0000 |
| Sur | foraneo | -0.0520 | 0.0212 | -2.4540 | 0.0142 |
| Sur | IA | -0.0339 | 0.0043 | -7.9579 | 0.0000 |
| Sur | estu_inse_individual | 0.0037 | 0.0016 | 2.2558 | 0.0242 |
| Sur | oficial | -0.0604 | 0.0300 | -2.0115 | 0.0444 |
| Sur | rural | 0.0374 | 0.0314 | 1.1908 | 0.2339 |
Los coeficientes robustos del LPM permiten leer la dirección y magnitud aproximada de la relación entre cada variable de ingreso y la probabilidad de deserción. Su principal aporte en este informe es interpretativo: expresa los cambios en puntos de probabilidad de manera directa, lo que facilita comunicar los resultados a nivel institucional. Sin embargo, sus conclusiones deben contrastarse con Logit y Probit, porque la naturaleza binaria de la variable dependiente hace que el LPM sea menos adecuado como modelo probabilístico puro.
Table: Efectos Parciales Promedio del modelo Logit por región
Los efectos parciales promedio del Logit traducen los coeficientes no lineales a cambios promedio en la probabilidad de deserción. Esta tabla es central para la interpretación sustantiva del modelo, porque permite identificar qué características de ingreso aumentan o reducen el riesgo estimado en cada región. Cuando el signo y la significancia de una variable se mantienen entre regiones, puede hablarse de una asociación más estable; cuando cambian, aparece evidencia de heterogeneidad territorial.
Table: Efectos Parciales Promedio del modelo Probit por región
La comparación con Probit funciona como una prueba de robustez. Si los efectos marginales del Probit son cercanos a los del Logit, la interpretación no depende de elegir una distribución logística o normal para el componente latente del modelo. En este ejercicio, la similitud general entre métricas y efectos respalda la idea de que los resultados principales provienen de la estructura de los datos y no de una especificación particular.
Las matrices de confusión permiten analizar el desempeño clasificatorio de los modelos. En este informe, el LPM y el Probit se evalúan con umbral de 0.5, mientras que para el Logit se emplea el umbral óptimo de Youden calculado en cada región.
| Region | Modelo | Accuracy | Sensibilidad | Especificidad | Precision | F1 |
|---|---|---|---|---|---|---|
| Cali | LPM | 0.631 | 0.024 | 0.987 | 0.512 | 0.045 |
| Cali | Logit | 0.563 | 0.599 | 0.542 | 0.434 | 0.504 |
| Cali | Probit | 0.631 | 0.028 | 0.985 | 0.523 | 0.053 |
| Centro | LPM | 0.606 | 0.532 | 0.670 | 0.581 | 0.555 |
| Centro | Logit | 0.603 | 0.722 | 0.501 | 0.554 | 0.627 |
| Centro | Probit | 0.606 | 0.530 | 0.672 | 0.582 | 0.555 |
| Norte | LPM | 0.623 | 0.314 | 0.844 | 0.590 | 0.409 |
| Norte | Logit | 0.590 | 0.659 | 0.541 | 0.507 | 0.573 |
| Norte | Probit | 0.623 | 0.315 | 0.843 | 0.589 | 0.410 |
| Pacifico | LPM | 0.671 | 0.312 | 0.876 | 0.591 | 0.409 |
| Pacifico | Logit | 0.656 | 0.561 | 0.710 | 0.526 | 0.543 |
| Pacifico | Probit | 0.667 | 0.318 | 0.867 | 0.578 | 0.411 |
| Sur | LPM | 0.626 | 0.708 | 0.532 | 0.634 | 0.669 |
| Sur | Logit | 0.630 | 0.640 | 0.618 | 0.658 | 0.649 |
| Sur | Probit | 0.624 | 0.707 | 0.529 | 0.633 | 0.668 |
Las matrices de confusión muestran el costo operativo de convertir probabilidades en decisiones de clasificación. Para un sistema de alerta temprana, el indicador más sensible no es únicamente la exactitud global, sino la capacidad de identificar estudiantes que efectivamente desertan. Por eso, la sensibilidad y el F1 son especialmente importantes: una alerta institucional con alta exactitud, pero baja detección de desertores, tendría poca utilidad práctica para prevenir abandono.
| Region | Modelo | Estadistico_HL | P_valor |
|---|---|---|---|
| Cali | Logit | 9.966 | 0.2674 |
| Cali | Probit | 10.886 | 0.2082 |
| Centro | Logit | 3.194 | 0.9216 |
| Centro | Probit | 3.451 | 0.9030 |
| Norte | Logit | 10.909 | 0.2069 |
| Norte | Probit | 9.266 | 0.3203 |
| Pacifico | Logit | 6.168 | 0.6284 |
| Pacifico | Probit | 6.284 | 0.6155 |
| Sur | Logit | 6.665 | 0.5731 |
| Sur | Probit | 7.074 | 0.5287 |
La calibración permite evaluar si las probabilidades estimadas son institucionalmente utilizables. No basta con ordenar estudiantes de mayor a menor riesgo; también importa que una probabilidad estimada como alta corresponda efectivamente a una mayor frecuencia observada de deserción. La prueba de Hosmer-Lemeshow aporta esta lectura, aunque debe complementarse con el Brier Score porque es sensible al tamaño de muestra y al número de grupos definidos.
Los resultados muestran que la deserción estudiantil en el ciclo básico tiene un comportamiento territorialmente diferenciado. La región con mejor desempeño predictivo es Pacífico, mientras que Cali presenta la menor capacidad de discriminación. Esta diferencia sugiere que las variables de ingreso no tienen la misma capacidad explicativa en todos los contextos de la Universidad del Valle.
La similitud entre LPM, Logit y Probit es uno de los hallazgos metodológicos más importantes del informe. Las tres especificaciones producen métricas prácticamente equivalentes, lo cual indica que el problema no se resuelve simplemente cambiando la forma funcional del modelo. En otras palabras, el límite predictivo está más asociado al conjunto de variables disponibles al ingreso que al tipo de modelo binario utilizado.
Desde la perspectiva económica, los resultados son consistentes con la teoría del capital humano. El Índice Académico muestra diferencias relevantes entre desertores y no desertores, lo que sugiere que el capital académico previo incide en la capacidad de adaptación al ciclo básico universitario. Los estudiantes con menor preparación inicial pueden enfrentar mayores costos académicos de permanencia, especialmente si no reciben acompañamiento temprano.
Desde la perspectiva institucional, el modelo de ingreso funciona como una primera herramienta de alerta, pero no como un sistema completo de predicción de abandono. Su utilidad principal está en identificar perfiles iniciales de riesgo y orientar acciones tempranas. Sin embargo, la capacidad predictiva moderada indica que la Universidad debe incorporar variables dinámicas del primer semestre para mejorar la detección: rendimiento académico, créditos aprobados, cancelaciones, asistencia, alertas docentes y participación en estrategias de apoyo.
El análisis también muestra que una política uniforme de permanencia puede ser insuficiente. Las regiones con mejor desempeño del modelo permiten usar la información de matrícula con mayor confianza para priorizar intervención. En las regiones con menor AUC o mayor Brier Score, la alerta debe actualizarse rápidamente con información académica posterior, porque las condiciones iniciales no explican completamente el riesgo de abandono.
A partir del análisis, se recomienda fortalecer las estrategias de alerta temprana con un enfoque territorial diferenciado. En Pacífico, donde el modelo presenta mayor capacidad discriminante, las variables disponibles desde matrícula pueden utilizarse para priorizar acompañamiento académico, psicosocial y socioeconómico desde las primeras semanas del semestre.
En Cali, donde el desempeño predictivo es más bajo, conviene complementar la caracterización inicial con información dinámica del primer semestre: asistencia, créditos matriculados y aprobados, promedio parcial, cancelaciones, reportes de bajo rendimiento y participación en actividades de acompañamiento. Esta recomendación no contradice el modelo de ingreso; lo fortalece mediante seguimiento progresivo.
También se recomienda desarrollar programas de nivelación académica para estudiantes con menor Índice Académico de ingreso, especialmente en competencias básicas como matemáticas, lectura crítica y escritura académica. Asimismo, es pertinente fortalecer la articulación con colegios oficiales y rurales para reducir brechas previas al ingreso universitario.
Finalmente, el sistema de alerta temprana no debería usarse como mecanismo de etiquetamiento del estudiante, sino como herramienta de priorización institucional. Un estudiante clasificado como de alto riesgo no debe ser tratado como un caso perdido, sino como una persona que requiere acompañamiento oportuno y diferenciado.
El análisis microeconométrico regionalizado permite concluir que la deserción estudiantil en el ciclo básico de la Universidad del Valle no se comporta como un fenómeno homogéneo. Las diferencias entre regiones justifican la estimación de modelos separados y el diseño de estrategias de permanencia adaptadas a cada territorio.
Los modelos LPM, Logit y Probit presentan desempeños muy similares en términos de AUC y Brier Score. Esto indica que, para las variables consideradas en el modelo de ingreso, la elección entre estas tres especificaciones no modifica sustancialmente la capacidad predictiva. La información contenida en las variables de matrícula es el componente que realmente determina el alcance del modelo.
El Índice Académico se confirma como una variable relevante en la caracterización inicial del riesgo. Los estudiantes que permanecen presentan, en promedio, un IA superior al de quienes desertan, lo cual respalda su inclusión en sistemas de alerta temprana. Sin embargo, su efecto debe leerse junto con las demás variables socioeconómicas e institucionales, evitando interpretaciones causales simplistas.
En conjunto, la evidencia respalda la implementación de sistemas de alerta temprana regionalizados. El modelo de ingreso debe entenderse como una primera capa de detección, útil para focalizar acompañamiento desde el inicio, pero debe complementarse con información académica generada durante el primer semestre para mejorar la precisión y la oportunidad de las intervenciones.
Andrade-Girón, D., et al. (2023). Modelado predictivo de la deserción universitaria mediante técnicas de aprendizaje automático. Revista Iberoamericana de Educación Superior, 14(40), 112-131.
Bean, J. P. (1980). Dropouts and turnovers: The synthesis and test of a causal model of student attrition. Research in Higher Education, 12(2), 155-187.
Becker, G. S. (1964). Human Capital: A Theoretical and Empirical Analysis, with Special Reference to Education. National Bureau of Economic Research.
Castaño, E., Gallón, S., Gómez, K., & Vásquez, J. (2004). En búsqueda de los determinantes de la deserción universitaria en Colombia. Lecturas de Economía, (61), 85-113.
Castaño, E., Gallón, S., Gómez, K., & Vásquez, J. (2008). Análisis de los factores asociados a la deserción estudiantil en la educación superior colombiana. Revista de Educación, (347), 333-354.
Castaño Macana, M. A. (2019). Determinantes socioeconómicos y académicos de la permanencia estudiantil en la educación pública superior subregional. Centro de Investigaciones y Documentación Socioeconómica, Universidad del Valle.
Escobar Martínez, J., Castaño Macana, M. A., & Castro Rodríguez, A. (2021). Desafíos de la regionalización universitaria: un análisis de las condiciones de vida y rendimiento académico en las sedes regionales de la Universidad del Valle. Sociedad y Economía, (43), e201.
Londoño, F. (2009). Territorio y educación superior: el impacto de la regionalización de la Universidad del Valle en el desarrollo local. Programa Editorial Universidad del Valle.
Lucas, R. E. (1988). On the mechanics of economic development. Journal of Monetary Economics, 22(1), 3-42.
Ministerio de Educación Nacional [MEN]. (2015). Estrategias para la permanencia en la educación superior: experiencias significativas. MEN.
Montoya, L. (2008). Análisis comparativo de la población estudiantil multicampus: Cali y sedes regionales. Dirección de Planeación Institucional, Universidad del Valle.
Nelson, R. R., & Phelps, E. S. (1966). Investment in humans, technological diffusion, and economic growth. The American Economic Review, 56(1/2), 69-75.
Observatorio de Éxito Académico, Permanencia y Graduación [DEXIA]. (2022). Informe estadístico de caracterización socioeconómica y alertas tempranas en la Universidad del Valle. Vicerrectoría Académica, Universidad del Valle.
Osorio, A., et al. (2012). Equidad territorial y brechas de calidad en la educación media en Colombia. Desarrollo y Sociedad, (69), 157-191.
Psacharopoulos, G. (1985). Returns to education: A further international update and implications. Journal of Human Resources, 20(4), 583-604.
Psacharopoulos, G., & Patrinos, H. A. (2002). Returns to investment in education: a further update. Education Economics, 12(2), 111-134.
Sánchez Torres, F., & Márquez Zúñiga, J. (2013). Evaluación del impacto de los costos de la deserción universitaria sobre el crecimiento económico y la equidad en Colombia. Documentos CEDE, (2013-42), Universidad de los Andes.
Schultz, T. W. (1961). Investment in human capital. The American Economic Review, 51(1), 1-17.
Spady, W. G. (1970). Dropouts from higher education: an interdisciplinary review and synthesis. Interchange, 1(1), 64-85.
Tinto, V. (1975). Dropout from higher education: a theoretical synthesis of recent research. Review of Educational Research, 45(1), 89-125.
Tinto, V. (1989). Leaving college: rethinking the causes and cures of student attrition. Journal of Higher Education, 60(4), 437-454.
Ujkani, S., et al. (2022). Machine learning applications in higher education: predicting student attrition using lasso and elastic net regularization. Computers & Education, (182), 104-121.
El código original entregado por el grupo fue integrado, depurado y reorganizado dentro de este RMarkdown. Los principales ajustes técnicos fueron:
Data_set_tesis_vf exista antes de tejer el documento.