| Variable | Correlacion |
|---|---|
| PUNT_GLOBAL | 1.0000 |
| PUNT_C_NATURALES | 0.9114 |
| PUNT_SOCIALES_CIUDADANAS | 0.9085 |
| PUNT_MATEMATICAS | 0.8960 |
| PUNT_LECTURA_CRITICA | 0.8863 |
| PUNT_INGLES | 0.7839 |
| EDAD | -0.1719 |
El análisis de correlación se realizó con el propósito de evaluar la relación lineal entre las variables numéricas del dataset, considerando los puntajes obtenidos en cada una de las áreas evaluadas por el ICFES, la edad de los estudiantes y el puntaje global como variable principal de referencia (PUNT_GLOBAL).
Las correlaciones superiores a 0.8 confirman que las cinco áreas evaluadas por el ICFES aportan fuertemente al PUNT_GLOBAL, lo cual valida la coherencia del modelo de calificación..
Por otro lado, la variable Edad presenta una correlación negativa débil (r = -0.17), lo cual sugiere que los estudiantes con edades superiores al rango promedio de la educación media (16–18 años) tienden a obtener puntajes ligeramente más bajos.
En conjunto, los resultados confirman la coherencia interna de la prueba, ya que el Puntaje Global refleja adecuadamente el desempeño general en las diferentes áreas evaluadas. Las variables numéricas presentan correlaciones elevadas, pero sin alcanzar niveles que indiquen colinealidad excesiva, por lo que todas pueden ser consideradas en etapas posteriores del modelado predictivo.
| Variable | p_valor | Normalidad |
|---|---|---|
| PUNT_INGLES | 0 | No (no es normal) |
| PUNT_MATEMATICAS | 0 | No (no es normal) |
| PUNT_SOCIALES_CIUDADANAS | 0 | No (no es normal) |
| PUNT_C_NATURALES | 0 | No (no es normal) |
| PUNT_LECTURA_CRITICA | 0 | No (no es normal) |
| PUNT_GLOBAL | 0 | No (no es normal) |
| Variable | Min | Q1 | Mediana | Media | Q3 | Max |
|---|---|---|---|---|---|---|
| PUNT_INGLES | 0 | 43 | 50 | 51.47 | 58 | 100 |
| PUNT_MATEMATICAS | 0 | 44 | 52 | 52.15 | 60 | 100 |
| PUNT_SOCIALES_CIUDADANAS | 0 | 41 | 50 | 49.97 | 58 | 100 |
| PUNT_C_NATURALES | 0 | 44 | 51 | 51.30 | 58 | 100 |
| PUNT_LECTURA_CRITICA | 0 | 46 | 53 | 53.34 | 60 | 100 |
| PUNT_GLOBAL | 6 | 222 | 255 | 258.36 | 292 | 494 |
Los histogramas con curvas de densidad (línea roja) muestran que los puntajes presentan una distribución asimétrica leve, con una concentración alrededor de los valores medios y una ligera cola hacia la izquierda, especialmente en la prueba de Inglés.
Para confirmar la normalidad de los datos se aplicó la prueba de Shapiro-Wilk, cuyos resultados arrojaron valores de p < 0.05 en todas las variables. Esto indica que ninguna de las distribuciones sigue una forma normal, lo que sugiere la presencia de cierta asimetría o sesgo en los resultados de los estudiantes.
A pesar de no cumplir con la normalidad estricta, los tamaños muestrales elevados (más de 3 millones de registros) permiten aplicar técnicas estadísticas robustas, ya que el Teorema del Límite Central asegura que las medias se aproximan a una distribución normal.
El resumen estadístico muestra valores medios entre 50 y 52 puntos para las pruebas por área, coherentes con la escala estandarizada del ICFES (0–100), y una media de 258 puntos en el Puntaje Global, que varía entre 6 y 494.
En conclusión, las variables numéricas presentan un comportamiento consistente y representativo de los resultados reales del examen Saber 11, siendo adecuadas para su uso posterior en el modelado predictivo, aunque requerirán técnicas no paramétricas o transformaciones si se aplican pruebas de hipótesis sensibles a la normalidad.
| p_value | significativo | |
|---|---|---|
| COLE_AREA_UBICACION | 0 | Sí |
| COLE_BILINGUE | 0 | Sí |
| COLE_CALENDARIO | 0 | Sí |
| COLE_CARACTER | 0 | Sí |
| COLE_DEPTO_UBICACION | 0 | Sí |
| COLE_GENERO | 0 | Sí |
| COLE_JORNADA | 0 | Sí |
| COLE_MCPIO_UBICACION | 0 | Sí |
| COLE_NATURALEZA | 0 | Sí |
| ESTU_TIPODOCUMENTO | 0 | Sí |
| ESTU_DEPTO_PRESENTACION | 0 | Sí |
| ESTU_MCPIO_PRESENTACION | 0 | Sí |
| ESTU_DEPTO_RESIDE | 0 | Sí |
| ESTU_MCPIO_RESIDE | 0 | Sí |
| ESTU_GENERO | 0 | Sí |
| FAMI_CUARTOSHOGAR | 0 | Sí |
| FAMI_EDUCACIONMADRE | 0 | Sí |
| FAMI_EDUCACIONPADRE | 0 | Sí |
| FAMI_ESTRATOVIVIENDA | 0 | Sí |
| FAMI_PERSONASHOGAR | 0 | Sí |
| FAMI_TIENEAUTOMOVIL | 0 | Sí |
| FAMI_TIENECOMPUTADOR | 0 | Sí |
| FAMI_TIENEINTERNET | 0 | Sí |
| FAMI_TIENELAVADORA | 0 | Sí |
| ESTU_PRIVADO_LIBERTAD | 0 | Sí |
Los resultados de la prueba de Kruskal–Wallis evidencian que todas las variables categóricas presentan diferencias estadísticamente significativas con respecto al puntaje global (p < 0.05). Esto sugiere que existen asociaciones entre los factores institucionales, familiares y sociodemográficos y el rendimiento académico medido por el puntaje global.
El hallazgo indica que el desempeño de los estudiantes varía según las características del colegio, las condiciones del hogar y la información sociodemográfica reportada. Estos resultados se tendrán en cuenta en la fase de modelado para analizar su contribución conjunta en la predicción del desempeño académico.
El análisis exploratorio se enfocó en identificar la relación entre variables categóricas y el desempeño académico medido por el Puntaje Global (PUNT_GLOBAL). Se aplicó la prueba no paramétrica de Kruskal–Wallis, dado que las variables numéricas no siguen una distribución normal según la prueba de Shapiro–Wilk.
Todas las variables categóricas analizadas mostraron diferencias estadísticamente significativas con respecto al Puntaje Global (p < 0.05), lo que indica que los grupos dentro de cada categoría presentan variaciones relevantes en los resultados del examen.
Los diagramas de caja permiten observar dichas diferencias de manera visual. En particular:
Género del estudiante (ESTU_GENERO): se observa una ligera diferencia en la mediana del puntaje entre hombres y mujeres.
Naturaleza del colegio (COLE_NATURALEZA): los estudiantes de instituciones no oficiales presentan, en promedio, puntajes globales superiores a los de colegios oficiales.
Jornada (COLE_JORNADA): la jornada completa y única presentan los puntajes medianos más altos, mientras que las jornadas nocturna y sabatina tienden a concentrar los valores más bajos.
Estrato socioeconómico (FAMI_ESTRATOVIVIENDA): existe una tendencia ascendente entre el nivel socioeconómico y el puntaje global, lo que sugiere una posible asociación entre las condiciones familiares y el rendimiento académico.
Finalmente, el histograma del Puntaje Global muestra una distribución aproximadamente simétrica, aunque no perfectamente normal, concentrada entre los 200 y 300 puntos, con pocos valores extremos en los rangos inferiores y superiores.