El examen SABER 11 del ICFES es una prueba estandarizada que evalúa competencias en lectura crítica, matemáticas, ciencias naturales, sociales e inglés. Debido al gran volumen de registros disponibles, se realiza un muestreo estratificado por período, con el fin de conservar la estructura temporal de los datos y facilitar los análisis de visualización y técnicas multivariadas.
¿Qué diferencias territoriales existen en el desempeño académico de la prueba SABER 11 entre los departamentos de Colombia durante el período 2018–2021, y cómo se asocian dichas diferencias con las condiciones socioeconómicas del hogar de los estudiantes?
La base de datos utilizada en este trabajo fue extraída de Kaggle y se titula “ICFES COLOMBIA 2018–2021”. Este conjunto de datos contiene información histórica de los estudiantes que presentaron la prueba SABER 11 durante el período analizado, incluyendo características sociodemográficas, condiciones del hogar, variables del establecimiento educativo y resultados académicos.
En total, la base de datos cuenta con 84 variables, las cuales se agrupan en las siguientes categorías:
Variables de desempeño académico:
Incluyen los puntajes obtenidos por los estudiantes en cada uno de los
componentes evaluados por la prueba, así como sus respectivos
percentiles. Entre estas variables se encuentran el puntaje en lectura
crítica, matemáticas, ciencias naturales, sociales y ciudadanas, inglés
y el puntaje global, además de los percentiles asociados a cada
componente.
Variables socioeconómicas del hogar:
Describen las condiciones generales del entorno familiar del estudiante,
tales como el estrato de la vivienda, el número de personas que
conforman el hogar, la cantidad de cuartos disponibles y el número de
libros en casa.
Variables de acceso a bienes y servicios:
Permiten caracterizar las condiciones materiales y el acceso a recursos
tecnológicos del hogar del estudiante. Incluyen indicadores asociados a
la disponibilidad de bienes y servicios como internet, computador,
servicio de televisión, lavadora, automóvil y motocicleta.
Variables de educación de los padres:
Corresponden al nivel educativo alcanzado por el padre y la madre del
estudiante.
Variables de caracterización del
estudiante:
Incluyen información demográfica y de contexto, como el género, la fecha
de nacimiento, la pertenencia étnica y la participación en programas o
beneficios educativos cuando aplica, tales como Generación E o Pilo
Paga.
Variables de caracterización del colegio:
Describen las características del establecimiento educativo al que
pertenece el estudiante, incluyendo su naturaleza (oficial o no
oficial), la jornada académica, el calendario escolar, el área de
ubicación (urbana o rural) y la localización geográfica a nivel de
municipio y departamento.
Adicionalmente, el conjunto de datos contiene 1.650.063 registros correspondientes a estudiantes que presentaron la prueba en el período analizado. Este elevado volumen de información se explica porque se trata de un examen que usualmente se presenta al finalizar el bachillerato y que abarca instituciones educativas de todo el territorio nacional.
| Periodo | Número de estudiantes | Proporción |
|---|---|---|
| 20181 | 12527 | 0.008 |
| 20182 | 549934 | 0.333 |
| 20191 | 21083 | 0.013 |
| 20194 | 546212 | 0.331 |
| 20201 | 15435 | 0.009 |
| 20204 | 504872 | 0.306 |
No obstante, trabajar con la totalidad de los registros resulta computacionalmente costoso para algunas técnicas estadísticas y multivariadas, como la reducción de dimensionalidad, el análisis de correlaciones o los métodos de clustering. Por esta razón, se optó por realizar un muestreo estratificado, con el fin de reducir el tamaño del conjunto de datos sin perder representatividad.
El muestreo se realizó teniendo en cuenta la variable
PERIODO, de manera que los registros
seleccionados conservaran la misma proporción temporal observada en el
dataset original. Para este proceso, se filtraron únicamente los
registros con información en PERIODO, manteniendo el resto
de las variables, incluidos los valores faltantes (NA). Finalmente, se
seleccionó una muestra de 15.000 registros, la cual
será utilizada para todos los análisis posteriores desarrollados en este
trabajo.
| Periodo | Número de estudiantes | Proporción |
|---|---|---|
| 20181 | 114 | 0.008 |
| 20182 | 4999 | 0.333 |
| 20191 | 192 | 0.013 |
| 20194 | 4965 | 0.331 |
| 20201 | 140 | 0.009 |
| 20204 | 4590 | 0.306 |
Se revisan las variables que presentan valores faltantes y la cantidad de registros ausentes en cada una de ellas, considerando únicamente aquellas variables cuya cantidad de datos faltantes es mayor a cero.
| Variable | Cantidad | % |
|---|---|---|
| ESTU_INSE_INDIVIDUAL | 562 | 3.75 |
| ESTU_NSE_ESTABLECIMIENTO | 147 | 0.98 |
| ESTU_COD_RESIDE_DEPTO | 12 | 0.08 |
| ESTU_COD_RESIDE_MCPIO | 12 | 0.08 |
| ESTU_COD_MCPIO_PRESENTACION | 4 | 0.03 |
| ESTU_COD_DEPTO_PRESENTACION | 4 | 0.03 |
| PUNT_INGLES | 2 | 0.01 |
Del total de variables analizadas, únicamente siete presentan valores faltantes, todas con una proporción baja de datos ausentes. La baja proporción de valores faltantes sugiere que el conjunto de datos cuenta con un alto nivel de completitud.
Con el fin de explorar la variabilidad del desempeño académico y analizar posibles diferencias asociadas a condiciones socioeconómicas e institucionales, se emplean diagramas de caja (boxplots), que permiten visualizar la mediana del desempeño, la dispersión de los puntajes y entender la presencia de valores atípicos.
Se observa una tendencia creciente en la mediana del puntaje global a medida que aumenta el estrato socioeconómico, lo que sugiere una relación positiva entre las condiciones del hogar y el desempeño académico.
El diagrama de caja evidencia diferencias en la distribución del puntaje global según la naturaleza del colegio, con valores medianos más altos en colegios no oficiales en comparación con los oficiales.
El gráfico de radar muestra el perfil académico promedio de los estudiantes que presentaron la prueba SABER 11 durante el período 2018–2021, desagregado por estrato socioeconómico del hogar. Para cada estrato se muestran los valores promedio normalizados de las competencias evaluadas en lectura crítica, matemáticas, ciencias naturales, sociales e inglés, con el fin de facilitar la comparación relativa entre áreas.
En términos generales, se observa un patrón homogéneo en la forma del perfil académico entre los distintos estratos, lo cual indica que las competencias evaluadas tienden a comportarse de manera similar al interior de cada grupo. Sin embargo, se evidencia un gradiente claro en el nivel general de desempeño, puesto que a medida que aumenta el estrato socioeconómico, los valores promedio normalizados son consistentemente mayores en todas las áreas evaluadas.
Con el fin de analizar el desempeño académico desde una perspectiva territorial, se construyen mapas coropléticos que representan el puntaje global promedio de la prueba SABER 11 por departamento de residencia del estudiante.
El mapa agregado del período 2018–2021 evidencia heterogeneidad territorial en el desempeño académico medido a través del puntaje global promedio. Se observan departamentos con niveles de desempeño sistemáticamente más altos, principalmente concentrados en la región central y andina del país, mientras que algunos departamentos periféricos presentan promedios relativamente más bajos.
Al analizar los mapas desagregados por año, se observa que los patrones espaciales tienden a mantenerse relativamente estables a lo largo del tiempo. Los departamentos que presentan puntajes promedio más altos en el período agregado suelen conservar posiciones similares en los distintos años, mientras que aquellos con puntajes más bajos no muestran cambios sustanciales en su desempeño relativo.
Esta estabilidad temporal indica que las brechas territoriales en el desempeño académico son persistentes y no responden a fluctuaciones coyunturales de corto plazo.
Con el fin de explorar la relación lineal entre los puntajes obtenidos en las diferentes áreas evaluadas por la prueba SABER 11, se construyó un correlograma a partir de la matriz de correlaciones de Pearson. Este gráfico permite identificar la intensidad y dirección de la asociación entre variables. En este caso se observa una correlación positiva alta entre los puntajes por componente y el puntaje global, lo cual es coherente con la estructura del examen, ya que el puntaje global resume el desempeño general del estudiante.
Los resultados del PCA muestran que la primera componente principal (PC1) explica aproximadamente el 90.9% de la variabilidad entre departamentos, lo que sugiere la existencia de una dimensión dominante asociada con el desempeño general. La segunda componente (PC2) aporta un 5.3% adicional, capturando variaciones secundarias entre áreas. Así pues, ambas componentes explican el 96.2% de la variabilidad.
La gráfica de contribución muestra el aporte de las variables académicas a la primera componente principal. La línea de referencia indica la contribución promedio esperada en caso de aportes equitativos entre las cinco áreas evaluadas (20%).
Se observa que las áreas de ciencias sociales y ciudadanas y ciencias naturales presentan las mayores contribuciones, superando ligeramente el valor promedio, mientras que matemáticas y lectura crítica aportan de manera cercana al promedio. Por su parte, inglés tiene la menor contribución relativa.
La gráfica de departamentos en el espacio está definido por las dos primeras componentes principales, obtenidas a partir de los promedios departamentales de las áreas evaluadas en la prueba SABER 11. La primera componente (PC1) representa un eje de desempeño académico general, mientras que la segunda componente (PC2) captura variaciones secundarias en la composición del perfil académico.
Se observa que los departamentos se distribuyen principalmente a lo largo de PC1, lo que indica que el nivel general de desempeño constituye la principal fuente de diferenciación territorial. Departamentos cercanos en el plano presentan perfiles académicos promedio similares, mientras que aquellos ubicados en posiciones extremas, como Guainía y San Andrés Islas, reflejan diferencias más marcadas.
A partir de las coordenadas de los departamentos en este espacio reducido se aplicó clustering jerárquico utilizando el método de enlace Ward. El dendrograma resultante evidencia agrupamientos de departamentos con perfiles académicos similares, cuya estructura está principalmente determinada por el nivel general de desempeño. Uniones a menor altura representan departamentos altamente similares en sus promedios por área, mientras que uniones a mayor altura reflejan conglomerados con diferencias más marcadas en el desempeño académico agregado.
En el contexto de las pruebas SABER 11 (2018-2021), el dendrograma muestra que su estructura está dominada por el nivel general de desempeño académico, consistente con la interpretación de la primera componente principal.
Dado que la estructura del dendrograma está fuertemente determinada por el nivel general de desempeño académico, la primera componente principal se utiliza posteriormente para construir un ranking departamental que sintetiza estas diferencias territoriales.
Se observa que departamentos como Bogotá D.C., Santander y Boyacá presentan los valores más altos de PC1, lo que indica un desempeño promedio superior en el conjunto de competencias evaluadas. En contraste, departamentos ubicados en posiciones inferiores del ranking muestran niveles relativamente más bajos de desempeño académico general.
Es importante resaltar que este ranking no corresponde a un simple ordenamiento por puntaje global, sino a una medida sintética que incorpora simultáneamente la información de todas las áreas académicas, reduciendo la dimensionalidad y evitando redundancias entre variables altamente correlacionadas.
Finalmente, se analiza la asociación entre el desempeño académico territorial, sintetizado mediante la primera componente principal (PC1), y el Índice Socioeconómico (INSE). El INSE es un indicador sintético del nivel socioeconómico del hogar calculado por el ICFES, que resume información relacionada con las condiciones educativas y materiales del entorno familiar.
En este trabajo se emplea el promedio departamental del INSE individual con el fin de caracterizar las condiciones socioeconómicas agregadas por territorio. Este indicador permite complementar el ranking departamental basado en la PC1, incorporando explícitamente el contexto socioeconómico del hogar en la interpretación de las diferencias territoriales observadas en el desempeño académico.
El gráfico muestra la asociación entre el desempeño académico territorial, sintetizado mediante la primera componente principal (PC1), y el INSE promedio por departamento. Se observa una tendencia positiva, lo que indica que los departamentos con mayores niveles socioeconómicos agregados tienden a presentar un mejor perfil académico general.
El análisis del desempeño académico en la prueba SABER 11 para el período 2018–2021 evidencia diferencias territoriales claras entre los departamentos de Colombia. Los resultados exploratorios muestran una relación positiva entre el puntaje global y el estrato socioeconómico del hogar, así como diferencias según la naturaleza del colegio, lo que sugiere la influencia del contexto socioeconómico e institucional en los resultados académicos.
Desde una perspectiva territorial, los mapas y el análisis multivariado revelan una heterogeneidad espacial persistente en el desempeño académico promedio. El Análisis de Componentes Principales permitió sintetizar la información de las distintas áreas evaluadas en un eje dominante de desempeño académico general (PC1), a partir del cual se construyó un ranking departamental y se identificaron grupos de departamentos con perfiles académicos similares.
Finalmente, la asociación positiva entre el desempeño académico territorial sintetizado por PC1 y el INSE promedio departamental indica que las diferencias territoriales observadas están estrechamente asociadas a desigualdades socioeconómicas del hogar. De esta manera, es posible confirmar que el contexto socioeconómico constituye un factor clave para comprender las brechas territoriales en el desempeño académico, aunque deben interpretarse de manera descriptiva y no causal.