##1. Introducción
Los datos utilizados corresponden a los resultados de las pruebas Saber 11 calendario A del año 2016-2, aplicadas por el Instituto Colombiano para la Evaluación de la Educación (ICFES) en Colombia.
Para el presente estudio se seleccionó el departamento de Norte de Santander, con el objetivo de realizar un análisis descriptivo multivariado.
library(readxl)
datos <- read_excel("C:/Users/valen/Downloads/Saber11_20162.xlsx")
head(datos)
## # A tibble: 6 × 20
## CODINST NOMBREINSTITUCION CODIGOMUNICIPIO NOMBREMUNICIPIO DEPARTAMENTO
## <chr> <chr> <chr> <chr> <chr>
## 1 000059 INST EDUC CEFA 05001 MEDELLIN ANTIOQUIA
## 2 000075 INST EDUC SANTOS ANGELES… 05001 MEDELLIN ANTIOQUIA
## 3 000083 COL BARBARA MICARELLI 05001 MEDELLIN ANTIOQUIA
## 4 000091 COL BETHLEMITAS 05001 MEDELLIN ANTIOQUIA
## 5 000125 COL CALASANZ FEMENINO 05001 MEDELLIN ANTIOQUIA
## 6 000141 COL CALASANZ 05001 MEDELLIN ANTIOQUIA
## # ℹ 15 more variables: CALENDARIO <chr>, NATURALEZA <chr>, JORNADA <chr>,
## # EVALUADOS <dbl>, PROMLECTURACRITICA <dbl>, PROMMATEMATICA <dbl>,
## # PROMSOCIALESYCIUDADANAS <dbl>, PROMCIENCIASNATURALES <dbl>,
## # PROMINGLES <dbl>, DESVLECTURACRITICA <dbl>, DESVMATEMATICA <dbl>,
## # DESVSOCIALESYCIUDADANAS <dbl>, DESVCIENCIASNATURALES <dbl>,
## # DESVINGLES <dbl>, PERIODO <chr>
names(datos)
## [1] "CODINST" "NOMBREINSTITUCION"
## [3] "CODIGOMUNICIPIO" "NOMBREMUNICIPIO"
## [5] "DEPARTAMENTO" "CALENDARIO"
## [7] "NATURALEZA" "JORNADA"
## [9] "EVALUADOS" "PROMLECTURACRITICA"
## [11] "PROMMATEMATICA" "PROMSOCIALESYCIUDADANAS"
## [13] "PROMCIENCIASNATURALES" "PROMINGLES"
## [15] "DESVLECTURACRITICA" "DESVMATEMATICA"
## [17] "DESVSOCIALESYCIUDADANAS" "DESVCIENCIASNATURALES"
## [19] "DESVINGLES" "PERIODO"
grep("DEP", names(datos), value = TRUE)
## [1] "DEPARTAMENTO"
##2. Construcción de la matriz de datos
datos_dep <- subset(datos, DEPARTAMENTO== "NORTE SANTANDER")
La matriz construida tiene dimensión 330 × 8, compuesta por 5 variables numéricas y 3 categóricas.
# Variables numéricas
numericas <- datos_dep[, sapply(datos_dep, is.numeric)]
numericas <- numericas[, 1:5]
# Variables categóricas
# Variables categóricas (selección controlada y relevante)
categoricas <- datos_dep[, c("NATURALEZA", "JORNADA", "CALENDARIO")]
categoricas <- data.frame(lapply(categoricas, as.factor))
# Matriz final
matriz_datos <- cbind(numericas, categoricas)
dim(matriz_datos)
## [1] 330 8
head(matriz_datos)
## EVALUADOS PROMLECTURACRITICA PROMMATEMATICA PROMSOCIALESYCIUDADANAS
## 1 78 69.29 77.71 69.93
## 2 30 63.03 62.23 59.73
## 3 67 60.89 59.38 59.70
## 4 125 55.65 53.24 52.39
## 5 35 68.80 72.65 67.60
## 6 56 52.67 52.83 52.08
## PROMCIENCIASNATURALES NATURALEZA JORNADA CALENDARIO
## 1 72.80 NO OFICIAL MAÑANA A
## 2 62.80 NO OFICIAL MAÑANA A
## 3 59.23 NO OFICIAL MAÑANA A
## 4 52.95 OFICIAL MAÑANA A
## 5 71.34 NO OFICIAL MAÑANA A
## 6 55.51 OFICIAL COMPLETA A
tail(matriz_datos)
## EVALUADOS PROMLECTURACRITICA PROMMATEMATICA PROMSOCIALESYCIUDADANAS
## 325 8 43.00 37.75 42.25
## 326 9 52.55 52.66 55.33
## 327 8 51.25 43.62 46.75
## 328 16 46.31 42.43 44.87
## 329 17 45.94 43.58 42.47
## 330 33 52.78 50.03 45.93
## PROMCIENCIASNATURALES NATURALEZA JORNADA CALENDARIO
## 325 47.62 OFICIAL MAÑANA A
## 326 55.22 NO OFICIAL MAÑANA A
## 327 52.62 NO OFICIAL FIN DE SEMANA A
## 328 48.00 OFICIAL MAÑANA A
## 329 46.82 OFICIAL MAÑANA A
## 330 53.42 OFICIAL MAÑANA A
colMeans(numericas, na.rm = TRUE)
## EVALUADOS PROMLECTURACRITICA PROMMATEMATICA
## 45.43030 52.85912 52.01248
## PROMSOCIALESYCIUDADANAS PROMCIENCIASNATURALES
## 50.54033 53.43576
El vector de medias evidencia un comportamiento relativamente homogéneo en los puntajes promedio de las distintas áreas evaluadas. Los valores se concentran alrededor de la escala media del instrumento, con diferencias marginales entre competencias.
El mayor promedio se registra en Ciencias Naturales (≈53.44), seguido por Lectura Crítica (≈52.86) y Matemáticas (≈52.01), mientras que Sociales y Ciudadanas (≈50.54) presenta el nivel promedio más bajo.
Esta proximidad entre medias sugiere la ausencia de brechas sustanciales de desempeño entre áreas y es consistente con un perfil de rendimiento académico relativamente equilibrado a nivel institucional. Desde una perspectiva multivariada, la similitud en las medias indica que las variables se encuentran en escalas comparables y no presentan sesgos estructurales extremos que distorsionen la comparación conjunta.
###4.2 Matriz de varianza–covarianza
var(numericas, na.rm = TRUE)
## EVALUADOS PROMLECTURACRITICA PROMMATEMATICA
## EVALUADOS 1459.93586 27.56536 38.72701
## PROMLECTURACRITICA 27.56536 32.85092 40.41752
## PROMMATEMATICA 38.72701 40.41752 54.58566
## PROMSOCIALESYCIUDADANAS 24.48040 33.98815 43.04734
## PROMCIENCIASNATURALES 22.91481 31.02630 40.48737
## PROMSOCIALESYCIUDADANAS PROMCIENCIASNATURALES
## EVALUADOS 24.48040 22.91481
## PROMLECTURACRITICA 33.98815 31.02630
## PROMMATEMATICA 43.04734 40.48737
## PROMSOCIALESYCIUDADANAS 38.28329 33.41127
## PROMCIENCIASNATURALES 33.41127 32.69276
Los elementos diagonales de la matriz de varianza–covarianza indican una dispersión moderada en los puntajes de las distintas áreas, siendo Matemáticas la variable con mayor varianza, lo cual sugiere una mayor heterogeneidad en el desempeño entre instituciones en esta competencia.
Las covarianzas positivas entre todas las áreas evaluadas evidencian un patrón de co-movimiento conjunto: instituciones con altos puntajes en una competencia tienden sistemáticamente a registrar puntajes elevados en las demás.
Desde el punto de vista estructural, esta configuración de la matriz sugiere la presencia de un factor latente de rendimiento académico general, que induce dependencia positiva entre las variables.
La magnitud relativamente alta de algunas covarianzas (especialmente entre Matemáticas, Lectura Crítica y Ciencias Naturales) anticipa una posible estructura de correlación fuerte que será confirmada en la matriz de correlaciones y que resulta relevante para posteriores análisis de reducción dimensional.
###4.3 Matriz de correlaciones
cor(numericas, use = "complete.obs")
## EVALUADOS PROMLECTURACRITICA PROMMATEMATICA
## EVALUADOS 1.0000000 0.1258702 0.1371854
## PROMLECTURACRITICA 0.1258702 1.0000000 0.9544574
## PROMMATEMATICA 0.1371854 0.9544574 1.0000000
## PROMSOCIALESYCIUDADANAS 0.1035493 0.9584052 0.9416780
## PROMCIENCIASNATURALES 0.1048875 0.9467394 0.9584170
## PROMSOCIALESYCIUDADANAS PROMCIENCIASNATURALES
## EVALUADOS 0.1035493 0.1048875
## PROMLECTURACRITICA 0.9584052 0.9467394
## PROMMATEMATICA 0.9416780 0.9584170
## PROMSOCIALESYCIUDADANAS 1.0000000 0.9444142
## PROMCIENCIASNATURALES 0.9444142 1.0000000
La matriz de correlaciones revela asociaciones lineales positivas de alta magnitud entre todas las áreas evaluadas, con coeficientes superiores a 0.94 en la mayoría de los casos.
Destaca particularmente la correlación entre Matemáticas y Ciencias Naturales (≈0.96), así como entre Lectura Crítica y Sociales (≈0.96), lo cual sugiere una fuerte coherencia interna del desempeño académico institucional.
Este patrón de correlaciones elevadas indica una estructura de dependencia multivariada intensa y sugiere la presencia de multicolinealidad entre las variables de puntaje. En términos sustantivos, es plausible la existencia de un factor común subyacente asociado al rendimiento académico general de las instituciones.
Por otra parte, la variable EVALUADOS presenta correlaciones bajas (≈0.10–0.13) con los puntajes promedio, lo cual sugiere que el tamaño de la institución o número de estudiantes evaluados no guarda una relación lineal fuerte con el desempeño promedio institucional.
En conjunto, la matriz sugiere que técnicas como Análisis de Componentes Principales (ACP) o Análisis Factorial serían apropiadas para sintetizar la información y explorar la dimensionalidad subyacente del sistema de variables.
##5. Análisis de variables categóricas
lapply(categoricas, table)
## $NATURALEZA
##
## NO OFICIAL OFICIAL
## 121 209
##
## $JORNADA
##
## COMPLETA FIN DE SEMANA MAÑANA NOCTURNA TARDE
## 65 28 185 18 34
##
## $CALENDARIO
##
## A
## 330
barplot(prop.table(table(categoricas$NATURALEZA))*100,
col="skyblue",
main="NATURALEZA (%)",
ylab="Porcentaje",
xlab="Tipo de institución")
Las tablas de frecuencia evidencian una distribución categórica no
balanceada entre las instituciones del departamento. En particular, se
observa una mayor proporción de instituciones oficiales (63%) frente a
no oficiales (37%), así como una marcada concentración en la jornada de
la mañana, que agrupa más de la mitad de las observaciones.
Esta asimetría en la estructura de frecuencias implica que las categorías predominantes ejercen un mayor peso en la estimación de los estadísticos globales, especialmente en los promedios de desempeño académico. En consecuencia, los resultados agregados deben interpretarse considerando la sobrerrepresentación de determinados tipos de institución y jornada.
Desde una perspectiva descriptiva multivariada, la predominancia de ciertas categorías sugiere la posible existencia de diferencias estructurales en el sistema educativo departamental, las cuales podrían asociarse con variaciones en el desempeño académico institucional. No obstante, la verificación formal de estas diferencias requeriría análisis inferenciales adicionales.
names(datos)[sapply(datos, function(x) is.factor(x) | is.character(x))]
## [1] "CODINST" "NOMBREINSTITUCION" "CODIGOMUNICIPIO"
## [4] "NOMBREMUNICIPIO" "DEPARTAMENTO" "CALENDARIO"
## [7] "NATURALEZA" "JORNADA" "PERIODO"
El análisis gráfico mediante diagramas de caja permite explorar la distribución de los puntajes en función de la variable categórica considerada. Se observan diferencias en la mediana y en la dispersión entre categorías, lo cual sugiere heterogeneidad en el desempeño académico según el tipo de institución o jornada.
Aunque este análisis es de carácter exploratorio y no inferencial, los patrones observados indican que la variable categórica podría estar asociada con cambios en la localización y variabilidad de los puntajes.
Esto sugiere la pertinencia de futuros análisis inferenciales (ANOVA multivariado o modelos lineales) para evaluar formalmente la significancia estadística de dichas diferencias.
##6. Cruce entre variables numéricas y categóricas
y <- numericas[[1]]
x <- categoricas[[1]]
boxplot(y ~ x,
col="lightblue",
main="Distribución del puntaje según categoría",
xlab="Categoría",
ylab="Puntaje")
El análisis gráfico muestra diferencias en la dispersión y tendencia central del puntaje según la categoría considerada, lo cual sugiere posibles desigualdades estructurales que podrían estudiarse con técnicas inferenciales.
E análisis descriptivo multivariado de los resultados de las pruebas Saber 11 para el departamento de Norte de Santander permite identificar varios rasgos estructurales relevantes.
En primer lugar, los puntajes promedio de las distintas áreas presentan niveles similares, lo cual sugiere un perfil de desempeño académico relativamente equilibrado entre competencias.
En segundo lugar, se evidencia una estructura de correlaciones positivas y elevadas entre las áreas evaluadas, lo cual indica una fuerte asociación lineal y la posible existencia de un factor latente de rendimiento académico general.
En tercer lugar, la variable asociada al número de evaluados muestra baja correlación con los puntajes, sugiriendo que el tamaño institucional no es un determinante lineal directo del desempeño promedio.
Finalmente, la distribución de las variables categóricas y su relación con los puntajes sugiere posibles diferencias estructurales entre tipos de instituciones y jornadas, lo cual abre la posibilidad de aplicar técnicas inferenciales y multivariadas más avanzadas (ACP, análisis factorial o MANOVA) en estudios posteriores.
En conjunto, los resultados evidencian una estructura de dependencia multivariada consistente y justifican la aplicación de metodologías de reducción dimensional y modelación multivariada para comprender de manera más profunda la dinámica del rendimiento académico institucional.
##8. Referencias
Instituto Colombiano para la Evaluación de la Educación (ICFES). (2016). Resultados Pruebas Saber 11.
Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis. Pearson.
Peña, D. (2002). Análisis de Datos Multivariantes. McGraw-Hill.