Tras la etapa de preparación y limpieza de datos, se consolidó un dataset con información de las pruebas Saber 11 para los periodos 2015–2019 y 2022, excluyendo los años 2020 y 2021 debido a los efectos atípicos de la pandemia en el sistema educativo. Con esta base depurada, el presente análisis se centra en identificar patrones y relaciones entre variables académicas y socioeconómicas que inciden en el Puntaje Global (PUNT_GLOBAL). Para ello, se realizaron análisis descriptivos, pruebas de correlación entre variables numéricas y pruebas ANOVA con variables categóricas, seguidos de una comparación entre periodos pre y post pandemia.

Correlaciones numéricas con PUNT_GLOBAL

Se analizó la relación entre el puntaje global (PUNT_GLOBAL) y las demás variables numéricas de la prueba. Se utilizó el coeficiente de correlación de Pearson para identificar qué áreas aportan mayor explicación al desempeño global.

Resumen estadístico de variables numéricas (muestra)
Variable Media Mediana Varianza
PERIODO PERIODO 20183.22389 20181 842.8745684
PUNT_SOCIALES_CIUDADANAS PUNT_SOCIALES_CIUDADANAS 49.96218 50 134.1834786
PUNT_C_NATURALES PUNT_C_NATURALES 51.29218 51 107.3174009
PUNT_LECTURA_CRITICA PUNT_LECTURA_CRITICA 53.33525 53 101.7990100
PUNT_GLOBAL PUNT_GLOBAL 258.33380 255 2416.5034058
EDAD EDAD 17.47464 17 0.6237686

Las correlaciones más altas con el puntaje global se observan en Sociales y Ciudadanas (r ≈ 0.91) y Ciencias Naturales (r ≈ 0.90), seguidas de Lectura Crítica (r ≈ 0.89) y Matemáticas (r ≈ 0.87). El puntaje de Inglés presenta una correlación más baja (r ≈ 0.62).

Estos resultados evidencian que las competencias transversales en Ciencias Sociales, Naturales y Lectura Crítica tienen un peso determinante en el puntaje global, por encima de áreas específicas como Inglés. Esto sugiere que el rendimiento académico global depende en gran medida de habilidades críticas y analíticas, lo que deberá tenerse en cuenta en la selección de predictores para los modelos de predicción.

Correlaciones y ANOVA de variables categóricas

Se aplicó un análisis de varianza (ANOVA) para evaluar si existen diferencias significativas en el puntaje global según factores categóricos institucionales y socioeconómicos. Se analizaron la naturaleza del colegio (oficial vs no oficial) y el estrato socioeconómico reportado por los estudiantes.

## 
## 
## Table: Correlación de variables numéricas con PUNT_GLOBAL
## 
## |                         |Variable                 | Correlacion_PUNT_GLOBAL|
## |:------------------------|:------------------------|-----------------------:|
## |PERIODO                  |PERIODO                  |                  -0.036|
## |PUNT_SOCIALES_CIUDADANAS |PUNT_SOCIALES_CIUDADANAS |                   0.909|
## |PUNT_C_NATURALES         |PUNT_C_NATURALES         |                   0.911|
## |PUNT_LECTURA_CRITICA     |PUNT_LECTURA_CRITICA     |                   0.886|
## |EDAD                     |EDAD                     |                  -0.172|
## 
## 
## Table: ANOVA: PUNT_GLOBAL vs COLE_NATURALEZA
## 
## |          |      Df|     Sum Sq|      Mean Sq|  F value| Pr(>F)|
## |:---------|-------:|----------:|------------:|--------:|------:|
## |df[[var]] |       2|  599384431| 2.996922e+08| 132940.6|      0|
## |Residuals | 3695976| 8331958994| 2.254333e+03|       NA|     NA|
## 
## 
## Table: ANOVA: PUNT_GLOBAL vs FAMI_ESTRATOVIVIENDA
## 
## |          |      Df|     Sum Sq|      Mean Sq| F value| Pr(>F)|
## |:---------|-------:|----------:|------------:|-------:|------:|
## |df[[var]] |       6|  861278954| 1.435465e+08| 65742.2|      0|
## |Residuals | 3695972| 8070064471| 2.183476e+03|      NA|     NA|

En ambos casos se encontraron diferencias estadísticamente significativas (p < 0.001). Los estudiantes de colegios no oficiales obtuvieron en promedio mayores puntajes globales que los de colegios oficiales. Asimismo, se observó un aumento consistente en el puntaje global conforme aumenta el estrato socioeconómico.

Estos hallazgos confirman la influencia tanto del entorno socioeconómico como del tipo de institución en el rendimiento académico. La desigualdad en el acceso a recursos y oportunidades educativas se refleja directamente en los resultados de la prueba Saber 11, lo que justifica su inclusión como variables clave en el modelado predictivo.

Comparación pre vs post pandemia

Para evaluar el impacto de la pandemia en el desempeño académico, se compararon los puntajes globales en los periodos pre-pandemia (2015–2019) y post-pandemia (2022). Esta comparación busca identificar posibles cambios en el nivel de logro de los estudiantes tras la crisis sanitaria y las transformaciones en la modalidad educativa.

Resumen descriptivo de PUNT_GLOBAL pre (2015–2019) y post pandemia (2022)
Grupo Media Mediana Desviación estándar N
Post-pandemia 256.25 254 51.46 929457
Pre-pandemia 259.56 257 49.39 2324312

El análisis comparativo muestra que los puntajes globales en la prueba Saber 11 disminuyeron levemente en el periodo post-pandemia (2022) frente al periodo pre-pandemia (2015–2019). La media pasó de 259.6 a 256.3 puntos, con una mediana que bajó de 257 a 254 puntos. Aunque la diferencia numérica no es muy amplia, el boxplot evidencia una mayor dispersión y presencia de valores extremos en 2022, lo cual sugiere que los efectos de la pandemia generaron mayor heterogeneidad en el desempeño académico de los estudiantes. Estos hallazgos respaldan la decisión metodológica de analizar por separado los años de pandemia, pues los patrones de rendimiento presentan cambios relevantes.

Conclusiones del análisis exploratorio y definición del modelo

El análisis estadístico permitió identificar las principales variables académicas y socioeconómicas relacionadas con el puntaje global en la prueba Saber 11. Entre las numéricas, los puntajes por área (Matemáticas, Ciencias Naturales, Lectura Crítica y Sociales y Ciudadanas) presentan altas correlaciones con el desempeño general, mientras que factores categóricos como la naturaleza del colegio y el estrato de vivienda muestran diferencias significativas en los resultados. Asimismo, la comparación entre periodos pre y post pandemia evidenció una leve disminución en los puntajes y un aumento en la dispersión de los resultados, lo cual justifica el análisis diferenciado por periodos.

Con base en estos hallazgos, se definió el uso de Random Forest como modelo principal, por su capacidad de capturar relaciones no lineales y por la explicabilidad en la importancia de variables. Además, se planteará la comparación con algoritmos alternativos como XGBoost y regresión regularizada (Lasso/Ridge), de forma que se puedan evaluar métricas de desempeño (RMSE, MAE, R²) y garantizar la robustez de las conclusiones.