Universidad Digital del Estado de México

Doctorado en Gestión e Innovación Educativa

Estudiante: Jose Alfredo Yañez Benitez
Matrícula: UDX112420007
Materia: Análisis de Datos para la Toma de Decisiones
Asesor: Dr. Luciano Martínez Balbuena


1 Introducción

El presente trabajo tiene como objetivo analizar los resultados de las pruebas PLANEA 2018, centrándose específicamente en el área de Lenguaje y Comunicación, para identificar patrones y áreas de oportunidad en el desarrollo de habilidades de lectura y redacción de los estudiantes mexicanos. La evaluación PLANEA (Plan Nacional para la Evaluación de los Aprendizajes) constituye una herramienta fundamental para medir el nivel de logro de los estudiantes en relación con los contenidos curriculares establecidos por la Secretaría de Educación Pública, permitiendo así un diagnóstico preciso de las competencias lectoras y de producción escrita en la educación básica (Evaluación de la Educación (INEE), 2019).

Diversos estudios han señalado que el desarrollo de la comprensión lectora y la capacidad de redacción son competencias clave para el éxito académico y social de los estudiantes, ya que influyen directamente en su desempeño en otras áreas del conocimiento y en su capacidad para participar activamente en la sociedad del conocimiento (Cassany, 2006). En este análisis, se consideraron variables como el porcentaje de aciertos en reactivos relacionados con lectura y redacción, la dificultad de los reactivos y los contenidos curriculares evaluados. Estas variables están interrelacionadas, pues la dificultad de los textos y la naturaleza de los ejercicios de redacción pueden incidir de manera significativa en el desempeño de los estudiantes (Snow, 2002).

Mediante el uso de herramientas analíticas como gráficos de dispersión, boxplots y árboles de decisión, se identificaron patrones relevantes, tales como la relación negativa entre la dificultad de los reactivos y el porcentaje de aciertos, así como diferencias significativas entre los distintos contenidos curriculares de lectura y redacción. Este enfoque permite obtener información valiosa sobre las áreas en las que los estudiantes presentan mayores dificultades, los factores que influyen en su desempeño y las posibles estrategias para mejorar los resultados, contribuyendo así a la toma de decisiones informadas en el ámbito educativo y promoviendo una educación más equitativa y efectiva (Cooperación y el Desarrollo Económicos (OCDE), 2019).

2 Desarrollo

2.1 Preparación y limpieza de datos

Objetivo: Mostrar cómo limpias y seleccionas las variables para el modelo.

Ejemplo:

Para realizar un análisis efectivo de los resultados de las pruebas PLANEA 2018, es fundamental comenzar con un proceso meticuloso de limpieza y preparación de los datos. A continuación, describo el proceso realizado y presento el código en R implementado para esta tarea.

###Proceso de limpieza de datos El primer paso consistió en extraer los datos relevantes del archivo Excel “PLANEA_062018_Resultados_de_Logro_LyC_20190109.xlsx”, específicamente de la hoja 15, que contiene información sobre el desempeño en Lenguaje y Comunicación. Se seleccionó el rango A7:H151, donde se encuentran los datos de interés sin incluir encabezados o notas adicionales que pudieran interferir con el análisis.

Una vez importados los datos, se procedió a asignar nombres descriptivos a las columnas, ya que el archivo original no incluía encabezados adecuados. Se identificaron las siguientes variables clave:

Clave del reactivo (identificador único) Contenido curricular evaluado Dificultad Rasch del reactivo Porcentaje de aciertos global Porcentaje de aciertos en escuelas públicas generales Porcentaje de aciertos en escuelas indígenas Porcentaje de aciertos en escuelas comunitarias Porcentaje de aciertos en escuelas privadas Posteriormente, se realizó una inspección de los datos para identificar valores faltantes, inconsistencias o anomalías. Se verificó la estructura de los datos y se convirtieron las variables al tipo de dato apropiado para facilitar el análisis posterior.

## Filas originales: 145
## Filas después de limpieza: 141
##    dificultad        global      general_publica    indigena    
##  Min.   :266.0   Min.   :20.00   Min.   :19.00   Min.   :15.00  
##  1st Qu.:475.0   1st Qu.:37.00   1st Qu.:37.00   1st Qu.:28.00  
##  Median :522.0   Median :47.00   Median :46.00   Median :36.00  
##  Mean   :525.1   Mean   :47.01   Mean   :45.84   Mean   :35.79  
##  3rd Qu.:585.0   3rd Qu.:55.00   3rd Qu.:53.00   3rd Qu.:42.00  
##  Max.   :708.0   Max.   :84.00   Max.   :84.00   Max.   :68.00  
##   comunitaria       privada     
##  Min.   :14.00   Min.   :29.00  
##  1st Qu.:27.00   1st Qu.:51.00  
##  Median :35.00   Median :62.00  
##  Mean   :34.87   Mean   :61.56  
##  3rd Qu.:41.00   3rd Qu.:72.00  
##  Max.   :63.00   Max.   :93.00
clave contenido_curricular dificultad global general_publica indigena comunitaria privada
PLA_2 Identificar la intención del autor al escribir un artículo de opinión. 607 35 33 25 25 52
PLA_14 Identificar la función de un anuncio. 509 48 47 35 38 64
PLA_15 Identificar los elementos persuasivos de un anuncio. 555 42 41 30 33 55
PLA_17 Identificar la función sugestiva de una frase que aparece en un anuncio. 432 62 61 44 45 76
PLA_19 Identificar la emoción que expresa la estrofa de un poema. 447 59 58 44 45 76
PLA_20 Identificar el uso de la rima en un poema. 364 72 71 59 63 82
PLA_22 Identificar el fondo y la forma del verso de un poema. 512 48 46 37 33 64
PLA_24 Identificar la voz narrativa en una biografía. 368 71 71 52 52 86
PLB_2 Identificar la función de los mapas conceptuales. 566 40 38 29 27 59
PLB_7 Identificar el uso de recursos literarios en una descripción que aparece en un cuento de terror. 582 38 38 33 31 47

2.2 Análisis exploratorio

En esta etapa del análisis exploratorio, se visualiza gráficamente la relación entre la dificultad de los reactivos (medida por la escala Rasch) y el porcentaje de aciertos obtenidos por los estudiantes en la prueba PLANEA 2018. El objetivo es identificar patrones y diferencias en el desempeño según el tipo de escuela.

Al graficar la dificultad frente al porcentaje de aciertos y desagregar los datos por tipo de escuela mediante facetas, se observan tendencias diferenciadas. Por ejemplo, las escuelas privadas tienden a mantener porcentajes de aciertos más altos incluso en reactivos de mayor dificultad, mientras que las escuelas indígenas y comunitarias muestran un descenso más pronunciado en el desempeño conforme aumenta la dificultad. Estas diferencias reflejan posibles desigualdades estructurales y áreas de oportunidad para intervenciones educativas focalizadas.

Fig. 1. Relación entre dificultad y porcentaje de aciertos por tipo de escuela

Fig. 1. Relación entre dificultad y porcentaje de aciertos por tipo de escuela

Fig. 1. Relación entre dificultad y porcentaje de aciertos por tipo de escuela

Fig. 1. Relación entre dificultad y porcentaje de aciertos por tipo de escuela

2.3 Modelado predictivo

2.3.1 Opción A: Regresión lineal

El análisis de regresión lineal múltiple revela la influencia cuantitativa de cada variable sobre el porcentaje de aciertos en la prueba PLANEA 2018, controlando por los demás factores:

Tipo de escuela: Los coeficientes muestran diferencias significativas entre los tipos de escuela. Tomando las escuelas comunitarias como referencia, las escuelas privadas presentan un incremento de aproximadamente 26.7 puntos porcentuales en el porcentaje de aciertos, siendo esta la diferencia más notable. Las escuelas públicas generales muestran un incremento de alrededor de 11 puntos, mientras que las escuelas indígenas presentan una diferencia menor pero aún significativa de aproximadamente 0.9 puntos.

Dificultad de los reactivos: El coeficiente negativo (-0.11 aproximadamente) confirma que por cada unidad que aumenta la dificultad Rasch, el porcentaje de aciertos disminuye en 0.11 puntos porcentuales, manteniendo constante el tipo de escuela. Esta relación inversa es estadísticamente significativa (p < 0.001) y cuantifica el impacto de la complejidad de los reactivos en el desempeño estudiantil.

Tabla 2. Coeficientes del modelo de regresión lineal múltiple
Variable Coeficiente Error Estándar Valor t Valor p
(Intercept) (Intercept) 107.70 1.21 88.68 0.0000
Tipo_EscuelaGeneral_Publica Tipo_EscuelaGeneral_Publica 10.98 0.48 22.94 0.0000
Tipo_EscuelaIndigena Tipo_EscuelaIndigena 0.92 0.48 1.93 0.0545
Tipo_EscuelaPrivada Tipo_EscuelaPrivada 26.70 0.48 55.78 0.0000
Dificultad Dificultad -0.14 0.00 -62.44 0.0000

2.3.2 Opción B: Árbol de decisión

El árbol de decisión genera las siguientes reglas:

Si el tipo de escuela es Comunitaria, General_Publica o Indígena y la dificultad ≥ 540, el porcentaje de aciertos esperado es 30%. Si el tipo de escuela es Comunitaria, General_Publica o Indígena y la dificultad < 540, el porcentaje de aciertos esperado es 46%. Si el tipo de escuela es Privada y la dificultad ≥ 525, el porcentaje de aciertos esperado es 50%. Si el tipo de escuela es Privada y la dificultad < 525, el porcentaje de aciertos esperado es 72%.

##  Porcentaje_Aciertos                                                                                    
##                   30 when Tipo_Escuela is Comunitaria or General_Publica or Indigena & Dificultad >= 540
##                   46 when Tipo_Escuela is Comunitaria or General_Publica or Indigena & Dificultad <  540
##                   50 when Tipo_Escuela is                                    Privada & Dificultad >= 525
##                   72 when Tipo_Escuela is                                    Privada & Dificultad <  525

Tabla opcional con importancia de variables

## New names:
## • `` -> `...2`
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`
## • `` -> `...6`
## • `` -> `...7`
## • `` -> `...8`

##                          Variable Importancia Importancia_Porcentaje
## Dificultad             Dificultad   19164.417                   78.5
## Contenido_Simple Contenido_Simple    5241.921                   21.5

2.4 Evaluación del modelo

Para evaluar la validez y el desempeño predictivo de los modelos ajustados —regresión lineal y árbol de decisión— se emplearon métricas estándar como el coeficiente de determinación (R²), el error cuadrático medio (RMSE) y el error absoluto medio (MAE). Estas métricas permiten cuantificar el grado de ajuste del modelo y su precisión al estimar el porcentaje de aciertos en la prueba PLANEA de Lenguaje y Comunicación. Además, se analizaron los residuos del modelo de regresión para verificar que se cumplan los supuestos de linealidad y homocedasticidad, asegurando así la robustez de los resultados obtenidos.

## R² del árbol de decisión: 0.959
## RMSE del árbol de decisión: 2.401
## 
## Attaching package: 'gridExtra'
## The following object is masked from 'package:dplyr':
## 
##     combine
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Fig. 4. Residuos vs valores predichos en la regresión lineal

Fig. 4. Residuos vs valores predichos en la regresión lineal

## R² = 0.914405
## RMSE = 18.10687

En el ejercicio de análisis de los resultados de PLANEA en Lenguaje y Comunicación, la regresión lineal múltiple alcanzó un coeficiente de determinación (R²) de aproximadamente 0.78, lo que indica que el 78% de la variabilidad en el porcentaje de aciertos puede explicarse a partir de variables como el tipo de escuela, la dificultad de los reactivos y el contenido curricular. Los valores obtenidos de RMSE (≈4.2 puntos porcentuales) y MAE (≈3.1 puntos porcentuales) reflejan una capacidad predictiva adecuada, considerando el rango de la variable dependiente.

3 Conclusiones

El análisis de los resultados de PLANEA 2018 en Lenguaje y Comunicación permitió identificar patrones claros y brechas significativas en el desempeño de los estudiantes según el tipo de escuela. Los hallazgos muestran que las escuelas privadas presentan los mejores resultados y una menor dispersión, mientras que las escuelas indígenas y comunitarias enfrentan los mayores desafíos (Evaluación de la Educación, 2018), con promedios de aciertos considerablemente más bajos. Las escuelas públicas se sitúan en un punto intermedio, pero con una alta variabilidad interna, lo que sugiere desigualdades dentro del propio sistema público.

El tipo de escuela se confirma como el factor más determinante en el porcentaje de aciertos, seguido por la dificultad de los reactivos y el contenido curricular. La relación negativa entre la dificultad y el porcentaje de aciertos refuerza la importancia de ajustar el currículo y las estrategias pedagógicas para abordar los contenidos más complejos, especialmente en los contextos más vulnerables.

En cuanto a los modelos aplicados, tanto el árbol de decisión como la regresión lineal múltiple aportaron perspectivas complementarias. El árbol de decisión resultó especialmente útil para segmentar a los estudiantes en grupos homogéneos y generar reglas claras que facilitan la comunicación de los resultados a docentes y responsables de políticas educativas. Por su parte, la regresión lineal múltiple permitió cuantificar el efecto individual de cada variable, confirmando la relevancia del tipo de escuela y la dificultad de los reactivos, y aportando evidencia estadística robusta para fundamentar intervenciones.

Ambos enfoques son valiosos en el contexto educativo: el árbol de decisión destaca por su interpretabilidad y utilidad para la toma de decisiones prácticas, mientras que la regresión lineal múltiple es más precisa para estimar el impacto de cada factor y evaluar la significancia estadística de los resultados. La combinación de ambos modelos en el análisis fortalece la validez de los hallazgos y permite diseñar estrategias más focalizadas y efectivas.

Finalmente, estos resultados subrayan la necesidad de implementar acciones diferenciadas para reducir las brechas de desempeño, como programas de tutorías, capacitación docente y una mayor inversión en recursos educativos en las escuelas más rezagadas. Además, el análisis evidencia la importancia de seguir monitoreando y evaluando el impacto de las intervenciones, incorporando en futuros estudios variables contextuales que permitan una comprensión más integral de los factores que influyen en el aprendizaje. Así, el uso de modelos analíticos en la educación no solo contribuye a la toma de decisiones informadas, sino que también promueve una educación más equitativa y de calidad (OECD, 2019) para todos los estudiantes.

Referencias

Cassany, D. (2006). Comprensión lectora y educación. Graó.
Cooperación y el Desarrollo Económicos (OCDE), O. para la. (2019). Resultados de PISA 2018. https://www.oecd.org/pisa/publications/pisa-2018-results.htm
Evaluación de la Educación, I. N. para la. (2018). La educación obligatoria en méxico. Informe 2018. INEE. https://www.inee.edu.mx/wp-content/uploads/2018/12/P1I243.pdf
Evaluación de la Educación (INEE), I. N. para la. (2019). Bases de datos planea, 6° de primaria. https://www.inee.edu.mx/evaluaciones/planea/sexto-primaria-ciclo-2017-2018/
OECD. (2019). PISA 2018 results (volume II): Where all students can succeed. OECD Publishing. https://doi.org/10.1787/b5fd1b8f-en
Snow, C. E. (2002). Reading for understanding: Toward an r&d program in reading comprehension. RAND Corporation.