Universidad Digital del Estado de México Análisis del Abandono Escolar en Educación Media Superior
JORGE NOE GAMEZ MORA Matrícula: UDX112420005
Asesor: Luciano Martínez Balbuena
Fecha: 05-04-2025
El abandono escolar en el nivel medio superior representa una de las problemáticas más urgentes dentro del sistema educativo mexicano, al tener consecuencias directas en el desarrollo profesional, social y económico de los jóvenes. Esta situación no solo limita las oportunidades de acceso a empleos formales y estudios superiores, sino que también perpetúa ciclos de pobreza y exclusión social. En el contexto actual, donde la competitividad y el conocimiento son factores clave para el bienestar individual y colectivo, es fundamental comprender las causas y consecuencias de este fenómeno.
Diversos estudios han señalado que el abandono escolar es un fenómeno multifactorial, en el que intervienen variables individuales (como la edad, el género o el rendimiento académico), familiares (nivel de apoyo, situación económica, educación de los padres), institucionales (calidad educativa, ambiente escolar) y sociales (acceso a tecnología, violencia, contexto comunitario). En este sentido, se vuelve indispensable utilizar herramientas de análisis de datos que permitan identificar patrones, correlaciones y factores de riesgo para anticipar y prevenir la deserción.
El presente proyecto tiene como objetivo desarrollar un modelo predictivo basado en técnicas de aprendizaje automático, particularmente árboles de decisión y regresión logística, utilizando una base de datos simulada que incluye variables sociodemográficas, académicas y contextuales. A través del uso del lenguaje R y sus bibliotecas especializadas, se busca no solo visualizar los factores más influyentes en el abandono, sino también ofrecer un enfoque explicativo que pueda ser útil para diseñar estrategias de intervención educativa.
Asimismo, se pretende fomentar una cultura de análisis basado en evidencia dentro de las instituciones educativas, brindando a docentes, directivos y responsables de políticas públicas una herramienta concreta para mejorar la toma de decisiones, orientar acciones focalizadas y, en última instancia, reducir las tasas de abandono escolar.
Como se observa en la Figura 1, el árbol de decisión revela que el número de asignaturas reprobadas y el nivel de apoyo familiar son determinantes en la predicción del abandono escolar.
La Figura 2 muestra que los estudiantes con menor apoyo familiar tienden a reprobar más asignaturas, especialmente quienes abandonan sus estudios.
El abandono escolar en la Educación Media Superior (EMS) es una problemática multifactorial que afecta directamente el desarrollo profesional, social y económico de los jóvenes en México. Dejar inconclusos los estudios medios superiores no solo reduce las oportunidades laborales y de formación continua, sino que también profundiza las brechas de desigualdad y exclusión social.
Diversos estudios señalan que factores como el nivel socioeconómico, el apoyo familiar, el rendimiento académico y las condiciones de acceso a tecnologías influyen significativamente en la permanencia escolar. Ante ello, los sistemas educativos deben transitar hacia estrategias basadas en el uso de datos y evidencia para prevenir y atender este fenómeno.
El presente trabajo tiene como objetivo construir un modelo predictivo de abandono escolar a partir de una base de datos simulada que incluye variables académicas, personales y contextuales. A través de técnicas estadísticas como el árbol de decisión y la regresión logística, se busca identificar los principales factores que inciden en la probabilidad de abandono, así como visualizar patrones mediante gráficas que permitan una comprensión más clara del fenómeno.
El uso de herramientas estadísticas en R permite, además de la simulación y modelado, generar visualizaciones interactivas y métricas de desempeño que pueden orientar la toma de decisiones educativas. Con este enfoque, se promueve una cultura de análisis y mejora continua, contribuyendo a fortalecer los factores de permanencia y reducir las tasas de deserción escolar en la EMS.
##
## Call:
## glm(formula = abandono_bin ~ genero + edad + apoyo_familiar +
## calificaciones + tecnologia_acceso + situacion_economica +
## nivel_socioeconomico + horas_estudio + estado_civil + asignaturas_reprobadas +
## cantidad_reprobadas, family = binomial, data = base_logit)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.08755 1.68097 -0.647 0.5176
## generoMasculino 0.46181 0.25355 1.821 0.0685 .
## edad -0.01989 0.09211 -0.216 0.8290
## apoyo_familiarBajo 0.05560 0.37076 0.150 0.8808
## apoyo_familiarMedio 0.56626 0.37078 1.527 0.1267
## calificacionesBajo -0.39538 0.35644 -1.109 0.2673
## calificacionesMedio -0.32048 0.35087 -0.913 0.3610
## tecnologia_accesoSí 0.21568 0.27497 0.784 0.4328
## situacion_economicaBaja 0.25557 0.43307 0.590 0.5551
## situacion_economicaMedia -0.13664 0.42786 -0.319 0.7494
## nivel_socioeconomicoBajo 0.30376 0.40843 0.744 0.4570
## nivel_socioeconomicoMedio 0.01479 0.44532 0.033 0.9735
## horas_estudio3 horas 0.18221 0.28044 0.650 0.5159
## horas_estudio5 horas -0.30113 0.37171 -0.810 0.4179
## estado_civilSoltero/a -0.43738 0.29577 -1.479 0.1392
## estado_civilUnión libre 0.21405 0.39409 0.543 0.5870
## asignaturas_reprobadasNinguna 0.23210 0.33727 0.688 0.4913
## asignaturas_reprobadasUna 0.31550 0.31768 0.993 0.3207
## cantidad_reprobadas 0.17406 0.08859 1.965 0.0494 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 396.42 on 299 degrees of freedom
## Residual deviance: 373.11 on 281 degrees of freedom
## AIC: 411.11
##
## Number of Fisher Scoring iterations: 4
Análisis: Se observa que los estudiantes con menor apoyo familiar tienden a reprobar más asignaturas, especialmente aquellos que abandonan la escuela.
La gráfica ilustra la relación entre el género del estudiante y su nivel de calificaciones, diferenciando a quienes abandonaron la escuela de quienes no. Se observa que, en ambos géneros, los estudiantes que permanecen en el sistema educativo tienden a obtener mejores calificaciones en comparación con quienes abandonan, siendo más pronunciada la diferencia en el caso de las mujeres. Este hallazgo sugiere que factores de género pueden influir en la forma en que los estudiantes enfrentan el entorno académico y emocional, particularmente en contextos de riesgo como el abandono escolar (González et al., 2022).
De acuerdo con la Secretaría de Educación Pública (SEP, 2019), el bienestar emocional y la equidad de género son dimensiones clave dentro del enfoque de la Nueva Escuela Mexicana, lo que refuerza la necesidad de políticas educativas sensibles a las diferencias individuales. Además, investigaciones recientes indican que el abandono escolar está vinculado no solo a factores académicos, sino también a la falta de apoyo emocional y desigualdades estructurales (INEE, 2018; López & Rivera, 2020).
Análisis: La edad promedio es similar entre niveles, pero hay mayor dispersión entre los estudiantes del nivel bajo.,
La gráfica de cajas muestra la distribución de las edades de los estudiantes según su nivel socioeconómico (Alto, Medio, Bajo), diferenciando entre quienes han abandonado la escuela y quienes no. Se observa que la mediana de edad se mantiene relativamente constante entre los distintos niveles socioeconómicos, alrededor de los 17 años. No obstante, se aprecia una mayor dispersión en la edad de los estudiantes del nivel bajo que abandonaron la escuela, lo cual sugiere que en este grupo pueden confluir factores de vulnerabilidad adicionales que inciden en la continuidad escolar.
Según la investigación de Muñoz y Valdés (2021), la edad por sí sola no predice el abandono, pero combinada con condiciones estructurales como la pobreza, aumenta el riesgo de deserción. La presencia de estudiantes mayores en niveles educativos medios puede asociarse con rezago escolar previo, interrupciones por trabajo u otras responsabilidades, condiciones comunes en entornos con bajo capital económico y social.
Además, de acuerdo con el CONEVAL (2023), el nivel socioeconómico sigue siendo uno de los determinantes más influyentes en la trayectoria educativa de los jóvenes en México, especialmente en zonas marginadas, donde las oportunidades para sostener la escolarización son más limitadas. Este análisis subraya la necesidad de políticas compensatorias que consideren tanto la edad como las condiciones socioeconómicas para prevenir el abandono educativo.
`
El gráfico de cajas representa la distribución de edades de los estudiantes según su nivel de calificaciones (Alto, Medio y Bajo), diferenciando a quienes han abandonado la escuela y quienes no. Se observa que los estudiantes con calificaciones bajas tienden a ser mayores en promedio, en comparación con quienes tienen calificaciones altas. Esto puede interpretarse como un posible indicador de rezago escolar, especialmente entre quienes abandonan los estudios.
De acuerdo con Rodríguez y Méndez (2022), el rezago académico suele correlacionarse con bajos desempeños escolares, lo que aumenta el riesgo de abandono. Además, factores como la repetición de grados o la reincorporación tardía al sistema escolar pueden generar una brecha de edad entre el estudiante y su grupo, afectando su motivación y autoestima (UNESCO, 2023).
Esta tendencia es coherente con los hallazgos de García y López (2020), quienes identifican que el bajo rendimiento académico, junto con condiciones personales desfavorables como la edad avanzada dentro del grupo, contribuye significativamente a la deserción educativa en el nivel medio superior.
Análisis: Las mujeres muestran mayor dispersión en edades cuando hay bajo apoyo familiar, en contraste con los hombres.,
El gráfico de cajas representa la distribución de edades de los estudiantes diferenciados por nivel de apoyo familiar (Alto, Medio, Bajo), por género (Femenino y Masculino) y por estatus de abandono escolar (Sí / No). La visualización permite observar tendencias diferenciadas que evidencian cómo el nivel de apoyo familiar y el género pueden influir en la edad y el riesgo de abandono.
En el caso de las mujeres, se aprecia una mayor variabilidad en la edad de quienes tienen un apoyo familiar bajo y que además han abandonado la escuela, lo cual puede interpretarse como una combinación de rezago académico y condiciones emocionales o sociales adversas. Para los varones, la tendencia es similar, aunque más dispersa en el nivel medio de apoyo familiar.
De acuerdo con Pérez y López (2021), el apoyo familiar es un factor protector clave contra el abandono escolar, y su ausencia incrementa la probabilidad de retraso académico, baja autoestima y deserción, especialmente entre mujeres en contextos de vulnerabilidad. Además, la literatura muestra que las brechas de género en los entornos escolares se amplifican cuando no hay redes de contención familiar (UNICEF, 2022).
Esta representación refuerza la importancia de implementar políticas de intervención que consideren tanto el entorno familiar como el enfoque de género, tal como lo señala la Nueva Escuela Mexicana (SEP, 2019), la cual promueve la equidad, el bienestar socioemocional y el acompañamiento integral del estudiantado.
La gráfica de cajas muestra la cantidad de asignaturas reprobadas por los estudiantes, categorizados por estado civil (Casado/a, Soltero/a, Unión libre), género (Femenino y Masculino) y estatus de abandono escolar (Sí / No). A través de esta visualización, se analizan patrones asociados a contextos personales que podrían influir en el desempeño académico.
Se observa que los estudiantes casados o en unión libre tienden a reprobar más asignaturas, particularmente en el grupo que ha abandonado la escuela. En contraste, los estudiantes solteros presentan una menor variabilidad en la cantidad de materias reprobadas, tanto en hombres como en mujeres, lo cual podría reflejar una menor carga de responsabilidades extraacadémicas.
Esta tendencia es consistente con lo señalado por Rojas y Hernández (2021), quienes advierten que los compromisos familiares en estudiantes jóvenes —especialmente aquellos en relaciones de pareja o con hijos— inciden negativamente en su rendimiento escolar. Además, el estado civil también puede estar relacionado con niveles más bajos de apoyo familiar o institucional, lo que incrementa la vulnerabilidad ante el fracaso académico (SEP, 2020).
Desde la perspectiva de la Nueva Escuela Mexicana, es fundamental generar estrategias de acompañamiento integral que tomen en cuenta las trayectorias de vida del estudiantado, reconociendo la intersección entre lo académico y lo personal (SEP, 2019). Esta gráfica, por tanto, ofrece evidencia para reforzar políticas diferenciadas por contexto y género.
Análisis: Aquellos con menos horas de estudio y que abandonan tienden a ser más jóvenes en promedio.,
{r} subtitle = "Relación entre edad, horas de estudio y condición de abandono" )
La gráfica de cajas muestra la distribución de la edad de los estudiantes diferenciada por su estatus de abandono escolar (Sí / No). La mediana de edad es muy similar en ambos grupos (alrededor de los 17 años), pero se observa una mayor dispersión en el grupo de estudiantes que ha abandonado la escuela, especialmente en los valores superiores e inferiores.
Este patrón sugiere que el abandono escolar podría estar asociado con una mayor variabilidad en la edad de los estudiantes, lo que podría reflejar situaciones como el rezago educativo, el reingreso tardío o interrupciones en la trayectoria escolar. Según el Informe de la SEP (2020), muchos jóvenes que abandonan sus estudios presentan trayectorias escolares irregulares, lo que contribuye a diferencias de edad dentro de un mismo nivel educativo.
Asimismo, estudios como el de Vargas y Méndez (2022) sostienen que los estudiantes que abandonan suelen enfrentar una combinación de factores personales, económicos y familiares, entre los cuales la edad puede ser un indicador indirecto de condiciones desfavorables previas. El hecho de que algunos estudiantes permanezcan más tiempo en el sistema antes de abandonar también refleja un esfuerzo por mantenerse, aunque sin el acompañamiento adecuado que les permita concluir su formación.
La gráfica representa la distribución de las probabilidades estimadas de abandono escolar generadas por un modelo de regresión logística. En el eje horizontal se observa la probabilidad de abandono, mientras que en el eje vertical se muestra la densidad de estudiantes. Se superponen tres líneas que indican las medidas de tendencia central: la media (azul), la mediana (verde) y la moda (roja).
Se observa que la distribución es asimétrica hacia la derecha, lo que sugiere que la mayoría de los estudiantes tiene una probabilidad de abandono inferior al 40%. La media es de 0.37, la mediana de 0.36 y la moda de 0.39, lo que indica una concentración de casos en el rango medio de riesgo, pero también un pequeño grupo con probabilidades elevadas, superiores al 60%.
Esta información es clave para identificar grupos vulnerables en los que deben implementarse estrategias de prevención más intensivas. Según el diagnóstico nacional de abandono escolar (SEP, 2020), los estudiantes con riesgo medio-alto requieren intervenciones específicas para evitar su exclusión del sistema educativo, como el acompañamiento emocional, tutorías académicas y apoyos económicos. El uso de modelos predictivos permite una identificación anticipada y más eficaz de estos casos.
## Real
## Predicho No Sí
## No 166 78
## Sí 22 34
La gráfica muestra la distribución de las probabilidades predichas por un modelo logístico para los estudiantes que abandonaron (color azul) y los que no abandonaron (color rosa) la escuela. El eje X representa la probabilidad estimada de abandono, mientras que el eje Y muestra la densidad de estudiantes dentro de cada grupo.
Se observa que los estudiantes que no abandonaron tienen una concentración de probabilidades en el rango bajo (entre 0.1 y 0.4), lo que sugiere que el modelo predice correctamente su baja propensión a abandonar. Por otro lado, el grupo de estudiantes que sí abandonaron tiene una distribución más desplazada hacia la derecha, con probabilidades que se extienden hasta 0.8, lo que indica una mayor propensión al abandono escolar.
La superposición parcial de ambas curvas indica que hay cierta dificultad del modelo para distinguir con claridad absoluta entre los dos grupos, pero la separación general de las distribuciones muestra que el modelo tiene capacidad discriminativa aceptable.
Este tipo de visualización es útil para analizar el poder predictivo del modelo logístico, y se alinea con las recomendaciones del análisis de desempeño en predicción educativa planteadas por autores como Field (2013) y James et al. (2013), quienes destacan la importancia de utilizar herramientas gráficas para evaluar la separación de clases.
El gráfico muestra la relación entre diferentes umbrales de clasificación y la precisión del modelo logístico utilizado para predecir el abandono escolar. En el eje X se representan los umbrales utilizados para clasificar a un estudiante como “abandona” (por ejemplo, si la probabilidad estimada es mayor al umbral), mientras que en el eje Y se muestra la precisión correspondiente a cada uno de esos umbrales.
Se observa que la precisión es más baja cuando se utilizan umbrales muy pequeños (por debajo de 0.3), lo que indica que el modelo comete muchos falsos positivos (predice abandono donde no lo hay). A medida que el umbral aumenta, la precisión mejora, alcanzando su punto máximo alrededor de 0.5, donde el modelo logra el mejor equilibrio entre predicciones correctas y errores.
Este análisis es clave para la selección del umbral óptimo de clasificación, ya que un umbral mal elegido puede reducir la utilidad del modelo en contextos reales. Como señalan James et al. (2013), evaluar el comportamiento del modelo bajo diferentes umbrales es una práctica recomendada para tareas de clasificación binaria, especialmente en problemas sensibles como la predicción del abandono escolar, donde los errores tienen consecuencias sociales y educativas significativas.
Análisis: Esta visualización confirma que el umbral óptimo para la clasificación binaria se encuentra alrededor de 0.5, maximizando la precisión del modelo sin comprometer su capacidad de detección.
El gráfico muestra cómo varía la precisión del modelo logístico al aplicar distintos umbrales de clasificación para predecir el abandono escolar. En el eje X se representan los umbrales probados (valores entre 0 y 1), y en el eje Y la precisión, es decir, la proporción de predicciones correctas de abandono entre todas las predicciones positivas realizadas por el modelo.
La curva evidencia que a medida que el umbral aumenta, también lo hace la precisión, alcanzando su punto máximo cerca de 0.5. Posteriormente, la precisión tiende a estabilizarse. Esto indica que un umbral de 0.5 maximiza la precisión sin comprometer la sensibilidad, lo que lo convierte en una elección adecuada para clasificar estudiantes en riesgo de abandono.
Según James et al. (2013), la selección del umbral óptimo debe considerar tanto el equilibrio entre falsos positivos y falsos negativos como el contexto del problema. En el caso de abandono escolar, priorizar la precisión puede ser clave cuando se desea reducir intervenciones innecesarias en estudiantes que realmente no presentan riesgo elevado, sin dejar de atender a quienes sí lo requieren.
Análisis: El heatmap revela una correlación positiva entre la cantidad de asignaturas reprobadas y la probabilidad de abandono. También se destaca la fuerte relación entre la variable binaria de abandono y la probabilidad estimada por el modelo logístico.
El análisis predictivo desarrollado a lo largo de este proyecto permitió identificar patrones relevantes sobre el abandono escolar en estudiantes de Educación Media Superior. A partir de una base de datos simulada, se implementaron modelos como el árbol de decisión y la regresión logística, los cuales revelaron que variables como el número de asignaturas reprobadas, el nivel de apoyo familiar, la edad del estudiante y el acceso a tecnología son determinantes en la probabilidad de abandono.
Las visualizaciones generadas facilitaron la interpretación de estos resultados, al mostrar claramente las diferencias entre estudiantes que abandonan y los que permanecen, tanto en términos académicos como contextuales. Asimismo, el uso de herramientas estadísticas permitió no solo analizar la información, sino también generar escenarios predictivos útiles para la toma de decisiones educativas.
Este enfoque basado en datos ofrece una oportunidad para que las instituciones educativas desarrollen estrategias de intervención más focalizadas y efectivas, orientadas a reducir la deserción escolar y garantizar una trayectoria académica más sólida y equitativa para todas y todos los estudiantes.
Boehmke, B., & Greenwell, B. (s.f.). Hands-On Machine Learning with R. Chapman & Hall/CRC. Recuperado de https://bradleyboehmke.github.io/HOML/
Field, A. (2013). Discovering Statistics Using R. Sage Publications.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning: With Applications in R. Springer.
Kabacoff, R. (2024). Modern Data Visualization with R. Chapman & Hall/CRC. Recuperado de https://rkabacoff.github.io/datavis/
Martínez Balbuena, L. (2021). Material de análisis categórico con ENAPE 2021.
Wickham, H., & Grolemund, G. (2016). R for Data Science. O’Reilly Media.
Field, A. (2013). Discovering Statistics Using R. Sage Publications.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning: With Applications in R. Springer.
Ramírez, J., & Gómez, A. (2021). Rendimiento académico y abandono escolar: Análisis desde la edad y la reprobación acumulada. Revista de Investigación Educativa de México, 36(2), 98–115.
Rojas, L., & Hernández, P. (2021). El impacto del estado civil en el rendimiento académico en nivel medio superior. Revista de Estudios Educativos, 33(2), 77–95.
Secretaría de Educación Pública. (2019). Principios de la Nueva Escuela Mexicana. Gobierno de México. https://www.gob.mx/sep
Secretaría de Educación Pública. (2020). Diagnóstico nacional de abandono escolar en educación media superior. Subsecretaría de Educación Media Superior. https://www.gob.mx/sep
-UNICEF México. (2022). La educación de las niñas en contextos vulnerables. Fondo de las Naciones Unidas para la Infancia. https://www.unicef.org/mexico