##1. Introducción

Los datos utilizados corresponden a los resultados de las pruebas Saber 11 calendario A del año 2016-2, aplicadas por el Instituto Colombiano para la Evaluación de la Educación (ICFES) en Colombia.

Para el presente estudio se seleccionó el departamento de Norte de Santander, con el objetivo de realizar un análisis descriptivo multivariado.

library(readxl)

datos <- read_excel("C:/Users/valen/Downloads/Saber11_20162.xlsx")

head(datos)
## # A tibble: 6 × 20
##   CODINST NOMBREINSTITUCION         CODIGOMUNICIPIO NOMBREMUNICIPIO DEPARTAMENTO
##   <chr>   <chr>                     <chr>           <chr>           <chr>       
## 1 000059  INST EDUC CEFA            05001           MEDELLIN        ANTIOQUIA   
## 2 000075  INST EDUC SANTOS ANGELES… 05001           MEDELLIN        ANTIOQUIA   
## 3 000083  COL BARBARA MICARELLI     05001           MEDELLIN        ANTIOQUIA   
## 4 000091  COL BETHLEMITAS           05001           MEDELLIN        ANTIOQUIA   
## 5 000125  COL CALASANZ FEMENINO     05001           MEDELLIN        ANTIOQUIA   
## 6 000141  COL CALASANZ              05001           MEDELLIN        ANTIOQUIA   
## # ℹ 15 more variables: CALENDARIO <chr>, NATURALEZA <chr>, JORNADA <chr>,
## #   EVALUADOS <dbl>, PROMLECTURACRITICA <dbl>, PROMMATEMATICA <dbl>,
## #   PROMSOCIALESYCIUDADANAS <dbl>, PROMCIENCIASNATURALES <dbl>,
## #   PROMINGLES <dbl>, DESVLECTURACRITICA <dbl>, DESVMATEMATICA <dbl>,
## #   DESVSOCIALESYCIUDADANAS <dbl>, DESVCIENCIASNATURALES <dbl>,
## #   DESVINGLES <dbl>, PERIODO <chr>
names(datos)
##  [1] "CODINST"                 "NOMBREINSTITUCION"      
##  [3] "CODIGOMUNICIPIO"         "NOMBREMUNICIPIO"        
##  [5] "DEPARTAMENTO"            "CALENDARIO"             
##  [7] "NATURALEZA"              "JORNADA"                
##  [9] "EVALUADOS"               "PROMLECTURACRITICA"     
## [11] "PROMMATEMATICA"          "PROMSOCIALESYCIUDADANAS"
## [13] "PROMCIENCIASNATURALES"   "PROMINGLES"             
## [15] "DESVLECTURACRITICA"      "DESVMATEMATICA"         
## [17] "DESVSOCIALESYCIUDADANAS" "DESVCIENCIASNATURALES"  
## [19] "DESVINGLES"              "PERIODO"
grep("DEP", names(datos), value = TRUE)
## [1] "DEPARTAMENTO"

##2. Construcción de la matriz de datos

datos_dep <- subset(datos, DEPARTAMENTO== "NORTE SANTANDER")

La matriz construida tiene dimensión 330 × 8, compuesta por 5 variables numéricas y 3 categóricas.

# Variables numéricas
numericas <- datos_dep[, sapply(datos_dep, is.numeric)]
numericas <- numericas[, 1:5]

# Variables categóricas
# Variables categóricas (selección controlada y relevante)
categoricas <- datos_dep[, c("NATURALEZA", "JORNADA", "CALENDARIO")]
categoricas <- data.frame(lapply(categoricas, as.factor))

# Matriz final
matriz_datos <- cbind(numericas, categoricas)

dim(matriz_datos)
## [1] 330   8

1 3. Encabezado y cola de la matriz

head(matriz_datos)
##   EVALUADOS PROMLECTURACRITICA PROMMATEMATICA PROMSOCIALESYCIUDADANAS
## 1        78              69.29          77.71                   69.93
## 2        30              63.03          62.23                   59.73
## 3        67              60.89          59.38                   59.70
## 4       125              55.65          53.24                   52.39
## 5        35              68.80          72.65                   67.60
## 6        56              52.67          52.83                   52.08
##   PROMCIENCIASNATURALES NATURALEZA  JORNADA CALENDARIO
## 1                 72.80 NO OFICIAL   MAÑANA          A
## 2                 62.80 NO OFICIAL   MAÑANA          A
## 3                 59.23 NO OFICIAL   MAÑANA          A
## 4                 52.95    OFICIAL   MAÑANA          A
## 5                 71.34 NO OFICIAL   MAÑANA          A
## 6                 55.51    OFICIAL COMPLETA          A
tail(matriz_datos)
##     EVALUADOS PROMLECTURACRITICA PROMMATEMATICA PROMSOCIALESYCIUDADANAS
## 325         8              43.00          37.75                   42.25
## 326         9              52.55          52.66                   55.33
## 327         8              51.25          43.62                   46.75
## 328        16              46.31          42.43                   44.87
## 329        17              45.94          43.58                   42.47
## 330        33              52.78          50.03                   45.93
##     PROMCIENCIASNATURALES NATURALEZA       JORNADA CALENDARIO
## 325                 47.62    OFICIAL        MAÑANA          A
## 326                 55.22 NO OFICIAL        MAÑANA          A
## 327                 52.62 NO OFICIAL FIN DE SEMANA          A
## 328                 48.00    OFICIAL        MAÑANA          A
## 329                 46.82    OFICIAL        MAÑANA          A
## 330                 53.42    OFICIAL        MAÑANA          A

2 4. Estadísticas descriptivas

2.1 4.1 Vector de medias

colMeans(numericas, na.rm = TRUE)
##               EVALUADOS      PROMLECTURACRITICA          PROMMATEMATICA 
##                45.43030                52.85912                52.01248 
## PROMSOCIALESYCIUDADANAS   PROMCIENCIASNATURALES 
##                50.54033                53.43576

El vector de medias evidencia un comportamiento relativamente homogéneo en los puntajes promedio de las distintas áreas evaluadas. Los valores se concentran alrededor de la escala media del instrumento, con diferencias marginales entre competencias.

El mayor promedio se registra en Ciencias Naturales (≈53.44), seguido por Lectura Crítica (≈52.86) y Matemáticas (≈52.01), mientras que Sociales y Ciudadanas (≈50.54) presenta el nivel promedio más bajo.

Esta proximidad entre medias sugiere la ausencia de brechas sustanciales de desempeño entre áreas y es consistente con un perfil de rendimiento académico relativamente equilibrado a nivel institucional. Desde una perspectiva multivariada, la similitud en las medias indica que las variables se encuentran en escalas comparables y no presentan sesgos estructurales extremos que distorsionen la comparación conjunta.

###4.2 Matriz de varianza–covarianza

var(numericas, na.rm = TRUE)
##                          EVALUADOS PROMLECTURACRITICA PROMMATEMATICA
## EVALUADOS               1459.93586           27.56536       38.72701
## PROMLECTURACRITICA        27.56536           32.85092       40.41752
## PROMMATEMATICA            38.72701           40.41752       54.58566
## PROMSOCIALESYCIUDADANAS   24.48040           33.98815       43.04734
## PROMCIENCIASNATURALES     22.91481           31.02630       40.48737
##                         PROMSOCIALESYCIUDADANAS PROMCIENCIASNATURALES
## EVALUADOS                              24.48040              22.91481
## PROMLECTURACRITICA                     33.98815              31.02630
## PROMMATEMATICA                         43.04734              40.48737
## PROMSOCIALESYCIUDADANAS                38.28329              33.41127
## PROMCIENCIASNATURALES                  33.41127              32.69276

Los elementos diagonales de la matriz de varianza–covarianza indican una dispersión moderada en los puntajes de las distintas áreas, siendo Matemáticas la variable con mayor varianza, lo cual sugiere una mayor heterogeneidad en el desempeño entre instituciones en esta competencia.

Las covarianzas positivas entre todas las áreas evaluadas evidencian un patrón de co-movimiento conjunto: instituciones con altos puntajes en una competencia tienden sistemáticamente a registrar puntajes elevados en las demás.

Desde el punto de vista estructural, esta configuración de la matriz sugiere la presencia de un factor latente de rendimiento académico general, que induce dependencia positiva entre las variables.

La magnitud relativamente alta de algunas covarianzas (especialmente entre Matemáticas, Lectura Crítica y Ciencias Naturales) anticipa una posible estructura de correlación fuerte que será confirmada en la matriz de correlaciones y que resulta relevante para posteriores análisis de reducción dimensional.

###4.3 Matriz de correlaciones

cor(numericas, use = "complete.obs")
##                         EVALUADOS PROMLECTURACRITICA PROMMATEMATICA
## EVALUADOS               1.0000000          0.1258702      0.1371854
## PROMLECTURACRITICA      0.1258702          1.0000000      0.9544574
## PROMMATEMATICA          0.1371854          0.9544574      1.0000000
## PROMSOCIALESYCIUDADANAS 0.1035493          0.9584052      0.9416780
## PROMCIENCIASNATURALES   0.1048875          0.9467394      0.9584170
##                         PROMSOCIALESYCIUDADANAS PROMCIENCIASNATURALES
## EVALUADOS                             0.1035493             0.1048875
## PROMLECTURACRITICA                    0.9584052             0.9467394
## PROMMATEMATICA                        0.9416780             0.9584170
## PROMSOCIALESYCIUDADANAS               1.0000000             0.9444142
## PROMCIENCIASNATURALES                 0.9444142             1.0000000

La matriz de correlaciones revela asociaciones lineales positivas de alta magnitud entre todas las áreas evaluadas, con coeficientes superiores a 0.94 en la mayoría de los casos.

Destaca particularmente la correlación entre Matemáticas y Ciencias Naturales (≈0.96), así como entre Lectura Crítica y Sociales (≈0.96), lo cual sugiere una fuerte coherencia interna del desempeño académico institucional.

Este patrón de correlaciones elevadas indica una estructura de dependencia multivariada intensa y sugiere la presencia de multicolinealidad entre las variables de puntaje. En términos sustantivos, es plausible la existencia de un factor común subyacente asociado al rendimiento académico general de las instituciones.

Por otra parte, la variable EVALUADOS presenta correlaciones bajas (≈0.10–0.13) con los puntajes promedio, lo cual sugiere que el tamaño de la institución o número de estudiantes evaluados no guarda una relación lineal fuerte con el desempeño promedio institucional.

En conjunto, la matriz sugiere que técnicas como Análisis de Componentes Principales (ACP) o Análisis Factorial serían apropiadas para sintetizar la información y explorar la dimensionalidad subyacente del sistema de variables.

##5. Análisis de variables categóricas

lapply(categoricas, table)
## $NATURALEZA
## 
## NO OFICIAL    OFICIAL 
##        121        209 
## 
## $JORNADA
## 
##      COMPLETA FIN DE SEMANA        MAÑANA      NOCTURNA         TARDE 
##            65            28           185            18            34 
## 
## $CALENDARIO
## 
##   A 
## 330
barplot(prop.table(table(categoricas$NATURALEZA))*100,
        col="skyblue",
        main="NATURALEZA (%)",
        ylab="Porcentaje",
        xlab="Tipo de institución")

Las tablas de frecuencia evidencian una distribución categórica no balanceada entre las instituciones del departamento. En particular, se observa una mayor proporción de instituciones oficiales (63%) frente a no oficiales (37%), así como una marcada concentración en la jornada de la mañana, que agrupa más de la mitad de las observaciones.

Esta asimetría en la estructura de frecuencias implica que las categorías predominantes ejercen un mayor peso en la estimación de los estadísticos globales, especialmente en los promedios de desempeño académico. En consecuencia, los resultados agregados deben interpretarse considerando la sobrerrepresentación de determinados tipos de institución y jornada.

Desde una perspectiva descriptiva multivariada, la predominancia de ciertas categorías sugiere la posible existencia de diferencias estructurales en el sistema educativo departamental, las cuales podrían asociarse con variaciones en el desempeño académico institucional. No obstante, la verificación formal de estas diferencias requeriría análisis inferenciales adicionales.

names(datos)[sapply(datos, function(x) is.factor(x) | is.character(x))]
## [1] "CODINST"           "NOMBREINSTITUCION" "CODIGOMUNICIPIO"  
## [4] "NOMBREMUNICIPIO"   "DEPARTAMENTO"      "CALENDARIO"       
## [7] "NATURALEZA"        "JORNADA"           "PERIODO"

El análisis gráfico mediante diagramas de caja permite explorar la distribución de los puntajes en función de la variable categórica considerada. Se observan diferencias en la mediana y en la dispersión entre categorías, lo cual sugiere heterogeneidad en el desempeño académico según el tipo de institución o jornada.

Aunque este análisis es de carácter exploratorio y no inferencial, los patrones observados indican que la variable categórica podría estar asociada con cambios en la localización y variabilidad de los puntajes.

Esto sugiere la pertinencia de futuros análisis inferenciales (ANOVA multivariado o modelos lineales) para evaluar formalmente la significancia estadística de dichas diferencias.


##6. Cruce entre variables numéricas y categóricas


y <- numericas[[1]]
x <- categoricas[[1]]

boxplot(y ~ x,
        col="lightblue",
        main="Distribución del puntaje según categoría",
        xlab="Categoría",
        ylab="Puntaje")


El análisis gráfico muestra diferencias en la dispersión y tendencia central del puntaje según la categoría considerada, lo cual sugiere posibles desigualdades estructurales que podrían estudiarse con técnicas inferenciales.


3 7. Conclusiones

E análisis descriptivo multivariado de los resultados de las pruebas Saber 11 para el departamento de Norte de Santander permite identificar varios rasgos estructurales relevantes.

En primer lugar, los puntajes promedio de las distintas áreas presentan niveles similares, lo cual sugiere un perfil de desempeño académico relativamente equilibrado entre competencias.

En segundo lugar, se evidencia una estructura de correlaciones positivas y elevadas entre las áreas evaluadas, lo cual indica una fuerte asociación lineal y la posible existencia de un factor latente de rendimiento académico general.

En tercer lugar, la variable asociada al número de evaluados muestra baja correlación con los puntajes, sugiriendo que el tamaño institucional no es un determinante lineal directo del desempeño promedio.

Finalmente, la distribución de las variables categóricas y su relación con los puntajes sugiere posibles diferencias estructurales entre tipos de instituciones y jornadas, lo cual abre la posibilidad de aplicar técnicas inferenciales y multivariadas más avanzadas (ACP, análisis factorial o MANOVA) en estudios posteriores.

En conjunto, los resultados evidencian una estructura de dependencia multivariada consistente y justifican la aplicación de metodologías de reducción dimensional y modelación multivariada para comprender de manera más profunda la dinámica del rendimiento académico institucional.

##8. Referencias

Instituto Colombiano para la Evaluación de la Educación (ICFES). (2016). Resultados Pruebas Saber 11.

Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis. Pearson.

Peña, D. (2002). Análisis de Datos Multivariantes. McGraw-Hill.