“Proyecto Final Estadística Descriptiva I - Grupo E2”

📌Introducción

El rendimiento académico de los estudiantes en el examen Saber 11 es un indicador crucial de la calidad de la educación en Colombia. Este examen, administrado por el Instituto Colombiano para la Evaluación de la Educación (ICFES), evalúa el nivel de conocimientos y habilidades adquiridos por los estudiantes al final de su educación media.

Para abordar este problema, se utiliza los datos del examen Saber 11 del segundo semestre de 2019. El conjunto de datos incluye variables como puntajes en diferentes áreas (matemáticas, lectura crítica, ciencias naturales, sociales y ciudadanas, e inglés), así como información demográfica y socioeconómica de los estudiantes.

Planteamiento del problema

El objetivo de este proyecto es explorar el conjunto de datos de las pruebas Saber 11° del segundo semestre de 2019 y busca responder la siguiente pregunta: ¿De qué manera influyen en el rendimiento académico de los estudiantes los factores relacionados con el entorno familiar, el acceso a la información, la gestión del tiempo y el contexto escolar, y qué estrategias pueden implementarse para mitigar sus efectos negativos?

Metodología

La metodología empleada se llevo acabo mediante las siguientes etapas:

  • Recolección y Filtrado de Datos: Obtención y filtrado de los datos específicos de los estudiantes para cada factor.

  • Limpieza de Datos: Selección de las variables clave asociadas a los factores que influyen en el rendimiento académico.

  • Análisis Descriptivo: Cálculo de estadísticas descriptivas y visualización de la distribución de los puntajes.

  • Visualización de Resultados: Representación gráfica de los hallazgos para facilitar la interpretación y comunicación de los resultados.

Consumidores

Los resultados ayudarán a los siguientes consumidores de diferentes maneras:

  • Educadores y administradores escolares: Podrán identificar áreas de mejora y diseñar intervenciones específicas para apoyar a los estudiantes con menor rendimiento.

  • Formuladores de políticas: Obtendrán datos concretos para desarrollar políticas educativas más equitativas y efectivas, enfocadas en reducir las desigualdades socioeconómicas y mejorar el acceso a recursos educativos.

  • Padres y estudiantes: Tendrán una mejor comprensión de cómo los factores socioeconómicos y demográficos afectan el rendimiento académico.

  • Investigadores: El análisis proporcionará una base para estudios futuros, permitiendo una comparación con otras regiones y la evaluación de la efectividad de diferentes intervenciones educativas.


📦Paquetes utilizados de R

Nombre del paquete Función
library(readr) Es una librería diseñada para la importación rápida y eficiente de datos en R. Se utiliza principalmente para leer archivos de texto y CSV.
library(dplyr) Es una librería para la manipulación de datos. Ofrece una gramática coherente y fácil de usar para realizar operaciones comunes de transformación de datos, como filtrar filas según condiciones.
library(ggplot2) Se basa en la gramática de gráficos, lo que permite crear visualizaciones de datos complejas de manera eficiente y con una sintaxis coherente.
library(plotly) Es una librería para crear gráficos interactivos y dinámicos. Está basada en la biblioteca JavaScript Plotly y se puede integrar con ggplot2 para añadir interactividad a los gráficos creados con esta última.
library(scales) Se utiliza para escalar, manipular y formatear datos para visualizaciones. Es especialmente útil con ggplot2 para aplicar transformaciones matemáticas, formatear etiquetas en ejes, manejar paletas de colores y ajustar límites de gráficos.

📋Preparación de los datos

Importación de datos

La base de datos del “Examen de Estado de la Educación Media, Saber 11” cuenta con 82 variables, las cuales tienen el propósito de evaluar la calidad de la educación a nivel nacional, con un contexto social y económico a quienes finalizan su educación media en segundo semestre del 2019.

Se resalta la existencia de diferentes versiones de esta prueba para personas con discapacidad y personas de poblaciones étnicas cuya segunda lengua sea el español, por lo cuál ciertos datos estarán incompletos.

Se toma la base de datos de resultados anonimizados de las pruebas de Saber 11 del segundo semestre del año 2019:

https://www.datos.gov.co/Educaci-n/Saber-11-2019-2/ynam-yc42/about_data

Se importa el archivo CSV y se evalúa las 82 columnas.

 #Importar csv
  saber2019 <- read_csv("C:/Users/kmate/OneDrive/Escritorio/Saber_11__2019-2_20240523.csv")
>     colnames(saber2019)
 [1] "ESTU_TIPODOCUMENTO"            [2] "ESTU_NACIONALIDAD"            
 [3] "ESTU_GENERO"                   [4] "ESTU_FECHANACIMIENTO"         
 [5] "PERIODO"                       [6] "ESTU_CONSECUTIVO"             
 [7] "ESTU_ESTUDIANTE"               [8] "ESTU_TIENEETNIA"              
 [9] "ESTU_PAIS_RESIDE"              [10] "ESTU_ETNIA"                   
[11] "ESTU_DEPTO_RESIDE"             [12] "ESTU_COD_RESIDE_DEPTO"        
[13] "ESTU_MCPIO_RESIDE"             [14] "ESTU_COD_RESIDE_MCPIO"        
[15] "FAMI_ESTRATOVIVIENDA"          [16] "FAMI_PERSONASHOGAR"           
[17] "FAMI_CUARTOSHOGAR"             [18] "FAMI_EDUCACIONPADRE"          
[19] "FAMI_EDUCACIONMADRE"           [20] "FAMI_TRABAJOLABORPADRE"       
[21] "FAMI_TRABAJOLABORMADRE"        [22] "FAMI_TIENEINTERNET"           
[23] "FAMI_TIENESERVICIOTV"          [24] "FAMI_TIENECOMPUTADOR"         
[25] "FAMI_TIENELAVADORA"            [26] "FAMI_TIENEHORNOMICROOGAS"     
[27] "FAMI_TIENEAUTOMOVIL"           [28] "FAMI_TIENEMOTOCICLETA"        
[29] "FAMI_TIENECONSOLAVIDEOJUEGOS"  [30] "FAMI_NUMLIBROS"               
[31] "FAMI_COMELECHEDERIVADOS"       [32] "FAMI_COMECARNEPESCADOHUEVO"   
[33] "FAMI_COMECEREALFRUTOSLEGUMBRE" [34] "FAMI_SITUACIONECONOMICA"      
[35] "ESTU_DEDICACIONLECTURADIARIA"  [36] "ESTU_DEDICACIONINTERNET"      
[37] "ESTU_HORASSEMANATRABAJA"       [38] "ESTU_TIPOREMUNERACION"        
[39] "COLE_CODIGO_ICFES"             [40] "COLE_COD_DANE_ESTABLECIMIENTO"
[41] "COLE_NOMBRE_ESTABLECIMIENTO"   [42] "COLE_GENERO"                  
[43] "COLE_NATURALEZA"               [44] "COLE_CALENDARIO"              
[45] "COLE_BILINGUE"                 [46] "COLE_CARACTER"                
[47] "COLE_COD_DANE_SEDE"            [48] "COLE_NOMBRE_SEDE"             
[49] "COLE_SEDE_PRINCIPAL"           [50] "COLE_AREA_UBICACION"          
[51] "COLE_JORNADA"                  [52] "COLE_COD_MCPIO_UBICACION"     
[53] "COLE_MCPIO_UBICACION"          [54] "COLE_COD_DEPTO_UBICACION"     
[55] "COLE_DEPTO_UBICACION"          [56] "ESTU_PRIVADO_LIBERTAD"        
[57] "ESTU_COD_MCPIO_PRESENTACION"   [58] "ESTU_MCPIO_PRESENTACION"      
[59] "ESTU_DEPTO_PRESENTACION"       [60] "ESTU_COD_DEPTO_PRESENTACION"  
[61] "PUNT_LECTURA_CRITICA"          [62] "PERCENTIL_LECTURA_CRITICA"    
[63] "DESEMP_LECTURA_CRITICA"        [64] "PUNT_MATEMATICAS"             
[65] "PERCENTIL_MATEMATICAS"         [66] "DESEMP_MATEMATICAS"           
[67] "PUNT_C_NATURALES"              [68] "PERCENTIL_C_NATURALES"        
[69] "DESEMP_C_NATURALES"            [70] "PUNT_SOCIALES_CIUDADANAS"     
[71] "PERCENTIL_SOCIALES_CIUDADANAS" [72] "DESEMP_SOCIALES_CIUDADANAS"   
[73] "PUNT_INGLES"                   [74] "PERCENTIL_INGLES"             
[75] "DESEMP_INGLES"                 [76] "PUNT_GLOBAL"                  
[77] "PERCENTIL_GLOBAL"              [78] "ESTU_INSE_INDIVIDUAL"         
[79] "ESTU_NSE_INDIVIDUAL"           [80] "ESTU_NSE_ESTABLECIMIENTO"     
[81] "ESTU_ESTADOINVESTIGACION"      [82] "ESTU_GENERACION-E"            

Limpieza de datos

Este bloque de código se encarga de realizar una limpieza básica del conjunto de datos saber2019limpio.

#Limpieza
    saber2019limpio <- saber2019 %>%
      select(
        ESTU_NSE_INDIVIDUAL,
        FAMI_ESTRATOVIVIENDA,
        FAMI_EDUCACIONPADRE,
        FAMI_EDUCACIONMADRE,
        FAMI_TIENEINTERNET,
        FAMI_TIENECOMPUTADOR,
        FAMI_NUMLIBROS,
        ESTU_DEDICACIONLECTURADIARIA,
        ESTU_DEDICACIONINTERNET,
        ESTU_HORASSEMANATRABAJA,
        COLE_BILINGUE,
        COLE_AREA_UBICACION,
        COLE_DEPTO_UBICACION,
        COLE_JORNADA,
        ESTU_NSE_ESTABLECIMIENTO,
        PUNT_INGLES,
        PUNT_GLOBAL
      )         

La limpieza redujo de 82 variables a 17, la cual se realiza en base a las variables más relevantes que permitan evaluar los 4 factores que afectan el rendimiento del estudiante:

  1. Datos sobre la familia:
  • Información socioeconómica, nivel educativo de padres, el estrato de la vivienda. Estas variables son cruciales para entender el entorno familiar del estudiante.
  1. Recursos de la familia:
  • Disponibilidad de internet y computador en el hogar, y la cantidad de libros. El acceso a estos recursos influyen significativamente en el rendimiento académico del estudiante.
  1. Uso del tiempo del estudiante:
  • Tiempo dedicado a la lectura diaria, uso de internet y horas de trabajo semanal. Estos factores ayudan a entender cómo los estudiantes distribuyen su tiempo entre actividades educativas y no educativas.
  1. Datos del colegio:
  • Información sobre si el colegio es bilingüe, su ubicación (rural o urbano),la jornada escolar, ubicación departamental y nivel socieconómico de la institución. Estas variables proporcionan contexto sobre el entorno educativo del estudiante y modelos de las instituciones.
  1. Resultados de la prueba:
  • Puntuacion global, medida clave del rendimiento académico de los estudiantes y puntuación en el área de inglés para evaluar el modelo de instituciones bilingües.

Este proceso de limpieza y la selección de variables aseguran que el conjunto de datos esté listo para un análisis detallado y significativo, centrado en las áreas más relevantes para el estudio.

A continuación, se describe la manera en qué se filtró los datos para cada sección en el análisis:

-Filtrado por factores: *

Para cada sección se examinan los valores únicos de cada variable y se realiza un filtrado específico de acuerdo a los valores únicos encontrados, evitando para algunos casos datos como “NA” y “-” , y por consiguiente no generar inconsistencias o errores.

Descripción de datos

A continuación se describe las variables utilizadas:

N Nombre Descripción Tipo de dato
1 ESTU_NSE_INDIVIDUAL Nivel socioeconómico del examinado Número
2 FAMI_ESTRATOVIVIENDA Estrato socioeconómico de la vivienda Texto
3 FAMI_EDUCACIONPADRE Nivel educativo del padre Texto
4 FAMI_EDUCACIONMADRE Nivel educativo de la madre Texto
5 FAMI_TIENEINTERNET Indica si tiene internet en el hogar Texto
6 FAMI_TIENECOMPUTADOR Indica si tiene computador en el hogar Texto
7 FAMI_NUMLIBROS Cantidad de libros que hay en el hogar Texto
8 ESTU_DEDICACIONLECTURA DIARIA Tiempo de lectura diaria Texto
9 ESTU_DEDICACIONINTERNET Tiempo de navegación en internet Texto
10 ESTU_HORASSEMANATRABAJA Horas de trabajo por semana Texto
11 COLE_BILINGUE Indica si el colegio es bilingüe Texto
12 COLE_AREA_UBICACION Área de ubicación de la sede (rural o urbana) Texto
13 COLE_JORNADA Jornada de la sede Texto
14 ESTU_NSE_ESTABLECIMIENTO Nivel socioeconómico del establecimiento Número
15 COLE_DEPTO_UBICACION Ubicación departamental del colegio Texto
16 PUNT_INGLES Puntaje en inglés Número
17 PUNT_GLOBAL Puntaje global Número

Vista previa de datos

A continuación se muestra un previsualización de los primeros 100 registros:

Muestra de los primeros 100 registros
ESTU_NSE_INDIVIDUAL FAMI_ESTRATOVIVIENDA FAMI_EDUCACIONPADRE FAMI_EDUCACIONMADRE FAMI_TIENEINTERNET FAMI_TIENECOMPUTADOR FAMI_NUMLIBROS ESTU_DEDICACIONLECTURADIARIA ESTU_DEDICACIONINTERNET ESTU_HORASSEMANATRABAJA COLE_BILINGUE COLE_AREA_UBICACION COLE_DEPTO_UBICACION COLE_JORNADA ESTU_NSE_ESTABLECIMIENTO PUNT_INGLES PUNT_GLOBAL
2 Estrato 3 Educación profesional completa Secundaria (Bachillerato) completa Si No MÁS DE 100 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos Menos de 10 horas N URBANO MAGDALENA MAÑANA 2 54 208
3 Estrato 3 Técnica o tecnológica completa Técnica o tecnológica completa Si Si MÁS DE 100 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos Menos de 10 horas
URBANO BOGOTÁ COMPLETA 4 63 299
2 Estrato 1 Secundaria (Bachillerato) completa Secundaria (Bachillerato) completa No No 26 A 100 LIBROS Entre 30 y 60 minutos Más de 3 horas 0 N URBANO BOLIVAR MAÑANA 3 64 299
2 Estrato 3 Primaria incompleta Secundaria (Bachillerato) completa No Si 11 A 25 LIBROS 30 minutos o menos Entre 30 y 60 minutos Más de 30 horas
URBANO BOGOTÁ MAÑANA 3 53 309
3 Estrato 3 Secundaria (Bachillerato) completa Secundaria (Bachillerato) incompleta Si Si 26 A 100 LIBROS No leo por entretenimiento Más de 3 horas Más de 30 horas N URBANO BOGOTÁ MAÑANA 3 52 288
2
NA
Si
NA Menos de 10 horas
URBANO ATLANTICO NOCHE 2 35 198
4 Estrato 4 Técnica o tecnológica completa Postgrado Si Si MÁS DE 100 LIBROS 30 minutos o menos Entre 30 y 60 minutos 0 S URBANO VALLE MAÑANA 3 72 355
3 Estrato 3 Educación profesional completa Educación profesional completa Si Si MÁS DE 100 LIBROS Entre 1 y 2 horas Más de 3 horas Menos de 10 horas N URBANO SANTANDER UNICA 3 60 313
3 Estrato 3 No sabe Secundaria (Bachillerato) completa Si Si 26 A 100 LIBROS No leo por entretenimiento Entre 1 y 3 horas 0 N URBANO CUNDINAMARCA TARDE 2 63 288
3 Estrato 3 Secundaria (Bachillerato) completa Técnica o tecnológica completa Si Si 11 A 25 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos 0
URBANO SUCRE MAÑANA 3 51 336
2 Estrato 1 Secundaria (Bachillerato) incompleta Secundaria (Bachillerato) incompleta No No 0 A 10 LIBROS Entre 30 y 60 minutos No Navega Internet Menos de 10 horas N URBANO BOLIVAR MAÑANA 2 38 187
3 Estrato 3 Primaria completa Educación profesional completa Si Si MÁS DE 100 LIBROS 30 minutos o menos Entre 30 y 60 minutos Menos de 10 horas
RURAL MAGDALENA MAÑANA 2 24 166
4 Estrato 4 No sabe No sabe Si Si 26 A 100 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos 0
URBANO BOGOTÁ MAÑANA 3 68 302
4 Estrato 3 Secundaria (Bachillerato) completa Postgrado Si Si 26 A 100 LIBROS No leo por entretenimiento Entre 1 y 3 horas 0 N URBANO BOGOTÁ COMPLETA 3 58 281
2 Estrato 3 Secundaria (Bachillerato) incompleta Secundaria (Bachillerato) incompleta No Si 0 A 10 LIBROS No leo por entretenimiento Entre 1 y 3 horas Más de 30 horas N URBANO ANTIOQUIA NOCHE 3 44 220
3 Estrato 1 Secundaria (Bachillerato) completa Educación profesional incompleta Si Si 0 A 10 LIBROS No leo por entretenimiento 30 minutos o menos 0 N RURAL CESAR MAÑANA 2 46 269
NA Estrato 3 Secundaria (Bachillerato) incompleta Secundaria (Bachillerato) completa Si
26 A 100 LIBROS Entre 30 y 60 minutos 30 minutos o menos
N URBANO BOYACA MAÑANA 2 67 319
3 Estrato 2 Primaria completa Educación profesional completa Si Si MÁS DE 100 LIBROS 30 minutos o menos Entre 1 y 3 horas 0 N URBANO HUILA COMPLETA 3 55 263
NA
NA
NA NA NA
NA
N URBANO VALLE MAÑANA 2 44 234
NA
NA
Si
NA 0 N URBANO ATLANTICO MAÑANA 3 54 238
4 Estrato 2 Educación profesional incompleta Educación profesional completa Si Si 26 A 100 LIBROS Entre 1 y 2 horas Más de 3 horas 0 N URBANO BOGOTÁ COMPLETA 3 59 292
3 Estrato 2 Técnica o tecnológica completa Secundaria (Bachillerato) completa Si Si 0 A 10 LIBROS 30 minutos o menos Entre 1 y 3 horas 0 N URBANO BOGOTÁ MAÑANA 2 56 242
3 Estrato 2 Técnica o tecnológica completa Técnica o tecnológica completa Si Si 0 A 10 LIBROS 30 minutos o menos Entre 1 y 3 horas 0
URBANO ATLANTICO UNICA 3 64 262
NA
NA
NA NA NA
NA
N URBANO ATLANTICO UNICA 2 24 170
4 Estrato 3 Educación profesional completa Técnica o tecnológica completa Si Si 26 A 100 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos Menos de 10 horas
URBANO CASANARE COMPLETA 4 69 298
1 Estrato 4 Postgrado Ninguno No No 0 A 10 LIBROS Entre 30 y 60 minutos 30 minutos o menos Más de 30 horas N URBANO BOGOTÁ NOCHE 3 64 350
2 Estrato 2 Secundaria (Bachillerato) completa Técnica o tecnológica completa Si Si 0 A 10 LIBROS 30 minutos o menos Entre 1 y 3 horas 0 N URBANO ATLANTICO UNICA 2 64 276
3 Estrato 2 Secundaria (Bachillerato) completa Secundaria (Bachillerato) completa Si Si 26 A 100 LIBROS 30 minutos o menos Entre 30 y 60 minutos 0 N URBANO BOGOTÁ COMPLETA 3 46 237
NA
NA
NA NA NA
NA
S RURAL CAUCA SABATINA 1 36 200
3 Estrato 2 Educación profesional completa Educación profesional completa Si Si 11 A 25 LIBROS Entre 1 y 2 horas Entre 1 y 3 horas Menos de 10 horas N RURAL CASANARE MAÑANA 2 78 318
2 Estrato 1 Primaria incompleta Secundaria (Bachillerato) completa No Si 26 A 100 LIBROS 30 minutos o menos 30 minutos o menos 0
URBANO ATLANTICO MAÑANA 2 51 211
1 Estrato 1 Primaria completa Ninguno No No 0 A 10 LIBROS 30 minutos o menos 30 minutos o menos 0 N URBANO CORDOBA MAÑANA 2 42 254
2 Estrato 2 Secundaria (Bachillerato) incompleta Secundaria (Bachillerato) incompleta Si Si 0 A 10 LIBROS Entre 1 y 2 horas Entre 1 y 3 horas Menos de 10 horas N URBANO NORTE SANTANDER UNICA 2 68 309
2 Estrato 1 Secundaria (Bachillerato) completa Secundaria (Bachillerato) completa No No 0 A 10 LIBROS 30 minutos o menos No Navega Internet 0 N RURAL CORDOBA UNICA 2 51 256
3 Estrato 3 Educación profesional completa Educación profesional completa Si No 0 A 10 LIBROS No leo por entretenimiento Más de 3 horas 0 N URBANO CUNDINAMARCA MAÑANA 2 49 258
3 Estrato 3 Secundaria (Bachillerato) incompleta Secundaria (Bachillerato) completa Si No 0 A 10 LIBROS Entre 30 y 60 minutos Entre 1 y 3 horas 0
URBANO ATLANTICO COMPLETA 3 40 266
2 Estrato 1 Secundaria (Bachillerato) completa Secundaria (Bachillerato) completa No No 0 A 10 LIBROS 30 minutos o menos Más de 3 horas 0
RURAL ATLANTICO MAÑANA 2 35 155
NA Estrato 2 Secundaria (Bachillerato) incompleta Técnica o tecnológica incompleta No
26 A 100 LIBROS Entre 1 y 2 horas 30 minutos o menos
N URBANO BOGOTÁ UNICA 3 64 313
3 Estrato 1 Secundaria (Bachillerato) completa Educación profesional completa Si Si 0 A 10 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos 0 N URBANO CESAR TARDE 2 66 283
2 Estrato 5 Secundaria (Bachillerato) incompleta Primaria incompleta Si No 0 A 10 LIBROS 30 minutos o menos Entre 1 y 3 horas 0
URBANO BOLIVAR MAÑANA 3 33 179
2 Estrato 3 Secundaria (Bachillerato) incompleta Técnica o tecnológica completa No No
30 minutos o menos Entre 30 y 60 minutos Entre 21 y 30 horas N URBANO CUNDINAMARCA MAÑANA 2 67 305
3 Estrato 3 Educación profesional incompleta Técnica o tecnológica incompleta Si Si MÁS DE 100 LIBROS Más de 2 horas Más de 3 horas 0 N RURAL QUINDIO MAÑANA 3 82 318
3 Estrato 1 No sabe Educación profesional completa Si Si 0 A 10 LIBROS 30 minutos o menos Más de 3 horas Menos de 10 horas
URBANO ARAUCA COMPLETA 3 50 242
3 Estrato 2 Secundaria (Bachillerato) incompleta Educación profesional completa Si Si 11 A 25 LIBROS Entre 30 y 60 minutos Entre 1 y 3 horas 0
URBANO ATLANTICO UNICA 3 72 321
4 Estrato 3 Educación profesional incompleta Técnica o tecnológica completa Si Si 26 A 100 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos 0 N URBANO ANTIOQUIA UNICA 3 50 250
3 Estrato 3 Técnica o tecnológica completa Secundaria (Bachillerato) completa Si Si 11 A 25 LIBROS Entre 30 y 60 minutos Más de 3 horas Entre 11 y 20 horas N URBANO NORTE SANTANDER MAÑANA 2 69 333
3 Estrato 3 No sabe Secundaria (Bachillerato) completa Si Si 11 A 25 LIBROS Entre 1 y 2 horas Más de 3 horas Menos de 10 horas N URBANO ATLANTICO UNICA 3 72 293
3 Estrato 2 Secundaria (Bachillerato) completa Técnica o tecnológica completa Si Si 26 A 100 LIBROS 30 minutos o menos Más de 3 horas 0 N URBANO BOGOTÁ MAÑANA 3 70 357
3 Estrato 2 Secundaria (Bachillerato) completa Técnica o tecnológica incompleta Si Si 11 A 25 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos Menos de 10 horas N URBANO SANTANDER MAÑANA 3 59 318
3 Estrato 2 Técnica o tecnológica incompleta Técnica o tecnológica completa Si Si 26 A 100 LIBROS Entre 30 y 60 minutos Entre 1 y 3 horas Entre 21 y 30 horas N URBANO META TARDE 2 53 250
1 Estrato 4 Primaria incompleta Primaria incompleta No No 0 A 10 LIBROS 30 minutos o menos Entre 30 y 60 minutos 0
RURAL SUCRE MAÑANA 1 40 227
3 Estrato 4 Secundaria (Bachillerato) incompleta Secundaria (Bachillerato) completa Si Si 0 A 10 LIBROS No leo por entretenimiento Entre 1 y 3 horas 0
URBANO ATLANTICO COMPLETA 2 54 284
2 Estrato 1 No Aplica Secundaria (Bachillerato) completa No Si 0 A 10 LIBROS 30 minutos o menos Más de 3 horas 0 N URBANO CESAR MAÑANA 2 30 212
2 Estrato 2 Primaria completa Secundaria (Bachillerato) incompleta Si Si 11 A 25 LIBROS Entre 1 y 2 horas Entre 30 y 60 minutos 0 N URBANO CUNDINAMARCA MAÑANA 3 50 232
3 Estrato 1 Técnica o tecnológica completa Educación profesional incompleta Si Si 26 A 100 LIBROS 30 minutos o menos Entre 1 y 3 horas 0 N URBANO BOLIVAR MAÑANA 2 59 280
2 Estrato 1 Secundaria (Bachillerato) completa Primaria completa Si Si 0 A 10 LIBROS Entre 30 y 60 minutos 30 minutos o menos Más de 30 horas N RURAL SUCRE UNICA 2 34 202
3 Estrato 2 No sabe Técnica o tecnológica completa Si Si MÁS DE 100 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos Menos de 10 horas N URBANO HUILA MAÑANA 3 67 344
2 Estrato 2 Técnica o tecnológica incompleta Secundaria (Bachillerato) incompleta No No 26 A 100 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos Menos de 10 horas
RURAL CORDOBA MAÑANA 2 50 245
3 Estrato 3 Técnica o tecnológica completa Secundaria (Bachillerato) completa Si Si 26 A 100 LIBROS Entre 1 y 2 horas Más de 3 horas 0 N URBANO BOGOTÁ COMPLETA 3 58 260
4 Estrato 4 Educación profesional completa Educación profesional completa Si Si 0 A 10 LIBROS Entre 30 y 60 minutos Más de 3 horas 0 N URBANO SANTANDER COMPLETA 3 73 330
2 Estrato 3 Educación profesional completa Técnica o tecnológica completa No Si 26 A 100 LIBROS Más de 2 horas Más de 3 horas Menos de 10 horas
URBANO ANTIOQUIA SABATINA 3 75 329
4 Estrato 4 Educación profesional completa Educación profesional completa Si Si MÁS DE 100 LIBROS No leo por entretenimiento Más de 3 horas 0 N URBANO ATLANTICO COMPLETA 3 81 316
2 Estrato 1 Primaria incompleta Secundaria (Bachillerato) completa Si No 11 A 25 LIBROS Entre 1 y 2 horas 30 minutos o menos 0
URBANO VALLE MAÑANA 3 63 339
2 Estrato 2 Secundaria (Bachillerato) completa Secundaria (Bachillerato) completa Si No 11 A 25 LIBROS Más de 2 horas Entre 1 y 3 horas Entre 11 y 20 horas N URBANO NORTE SANTANDER MAÑANA 3 66 336
3 Estrato 3 Educación profesional completa Educación profesional completa Si Si 11 A 25 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos 0 N URBANO CESAR COMPLETA 3 68 301
3 Estrato 4 Educación profesional incompleta Postgrado Si Si 11 A 25 LIBROS Entre 30 y 60 minutos 30 minutos o menos 0 N URBANO BOGOTÁ NOCHE 3 44 190
3 Estrato 3 No sabe Secundaria (Bachillerato) completa Si Si 26 A 100 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos Entre 11 y 20 horas N URBANO BOGOTÁ TARDE 3 59 318
2 Estrato 4 Primaria incompleta Secundaria (Bachillerato) incompleta No No 11 A 25 LIBROS Entre 1 y 2 horas Entre 1 y 3 horas Entre 21 y 30 horas
RURAL META MAÑANA 2 48 203
1 Estrato 1 Primaria completa Secundaria (Bachillerato) completa No No MÁS DE 100 LIBROS Entre 1 y 2 horas Más de 3 horas Menos de 10 horas N URBANO META MAÑANA 2 46 321
1 Estrato 1 Primaria incompleta Primaria incompleta No No 0 A 10 LIBROS 30 minutos o menos Entre 1 y 3 horas Entre 11 y 20 horas
URBANO ARAUCA SABATINA 1 37 200
1 Estrato 1 Primaria incompleta Primaria incompleta No No 26 A 100 LIBROS 30 minutos o menos Entre 1 y 3 horas 0 N URBANO SUCRE MAÑANA 2 56 278
2 Estrato 1 Técnica o tecnológica completa Técnica o tecnológica completa No No 26 A 100 LIBROS Entre 1 y 2 horas 30 minutos o menos 0 N URBANO ATLANTICO MAÑANA 3 70 348
3 Estrato 2 Primaria incompleta Secundaria (Bachillerato) incompleta Si Si 26 A 100 LIBROS 30 minutos o menos Entre 1 y 3 horas Menos de 10 horas N URBANO BOGOTÁ MAÑANA 3 32 202
3 Estrato 2 Secundaria (Bachillerato) incompleta Primaria completa Si Si 0 A 10 LIBROS 30 minutos o menos Entre 30 y 60 minutos Menos de 10 horas N URBANO ANTIOQUIA NOCHE 2 53 262
3 Estrato 2 Técnica o tecnológica completa Postgrado Si Si 26 A 100 LIBROS 30 minutos o menos 30 minutos o menos Entre 11 y 20 horas N URBANO SUCRE MAÑANA 3 54 228
2 Estrato 2 Primaria completa Secundaria (Bachillerato) incompleta No No 11 A 25 LIBROS 30 minutos o menos No Navega Internet 0 N URBANO NORTE SANTANDER TARDE 2 56 294
2 Estrato 2 Secundaria (Bachillerato) incompleta Técnica o tecnológica incompleta Si Si 11 A 25 LIBROS Entre 1 y 2 horas Entre 1 y 3 horas Más de 30 horas N URBANO CUNDINAMARCA MAÑANA 2 44 297
4 Estrato 3 Educación profesional completa Educación profesional incompleta Si Si MÁS DE 100 LIBROS Entre 30 y 60 minutos Más de 3 horas Entre 11 y 20 horas N URBANO CESAR MAÑANA 3 62 307
3 Estrato 3 Educación profesional completa Educación profesional incompleta Si Si 11 A 25 LIBROS Entre 30 y 60 minutos Más de 3 horas 0
URBANO CHOCO MAÑANA 3 61 295
3 Estrato 4 Secundaria (Bachillerato) incompleta No sabe Si Si 0 A 10 LIBROS No leo por entretenimiento Entre 1 y 3 horas 0 N URBANO BOGOTÁ MAÑANA 4 82 321
1 Estrato 1 Primaria incompleta Primaria completa No No 0 A 10 LIBROS 30 minutos o menos Más de 3 horas 0 N URBANO VALLE UNICA 2 35 196
3 Sin Estrato Técnica o tecnológica incompleta Secundaria (Bachillerato) completa No No 11 A 25 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos 0 N URBANO ATLANTICO MAÑANA 3 61 289
1 Estrato 1 Secundaria (Bachillerato) completa Primaria completa No No 26 A 100 LIBROS Entre 30 y 60 minutos No Navega Internet 0 S RURAL LA GUAJIRA COMPLETA 1 36 196
2 Estrato 1 Primaria completa Primaria incompleta Si Si 0 A 10 LIBROS 30 minutos o menos Más de 3 horas Menos de 10 horas N URBANO CESAR MAÑANA 2 31 216
2 Estrato 3 Técnica o tecnológica completa Técnica o tecnológica completa No No 26 A 100 LIBROS Entre 30 y 60 minutos Entre 1 y 3 horas 0 N URBANO CESAR MAÑANA 3 50 233
4 Estrato 3 Técnica o tecnológica completa Educación profesional completa Si Si 11 A 25 LIBROS No leo por entretenimiento Más de 3 horas 0 N URBANO BOGOTÁ COMPLETA 3 61 259
NA Estrato 2 Secundaria (Bachillerato) incompleta Técnica o tecnológica incompleta Si
0 A 10 LIBROS Entre 30 y 60 minutos Entre 30 y 60 minutos
N URBANO SUCRE MAÑANA 2 62 259
2 Estrato 2 Secundaria (Bachillerato) incompleta Secundaria (Bachillerato) completa No No 0 A 10 LIBROS 30 minutos o menos Entre 30 y 60 minutos Menos de 10 horas N URBANO CORDOBA MAÑANA 2 43 237
3 Estrato 1 Secundaria (Bachillerato) incompleta Secundaria (Bachillerato) completa Si Si 0 A 10 LIBROS Entre 30 y 60 minutos Entre 1 y 3 horas 0 N URBANO ATLANTICO MAÑANA 3 68 296
3 Estrato 4 Educación profesional incompleta Técnica o tecnológica completa Si No 0 A 10 LIBROS No leo por entretenimiento Más de 3 horas 0 N URBANO ATLANTICO COMPLETA 3 61 269
1 Estrato 4 Secundaria (Bachillerato) incompleta Técnica o tecnológica incompleta No No 0 A 10 LIBROS No leo por entretenimiento No Navega Internet 0 N RURAL ARAUCA MAÑANA 2 44 172
1 Estrato 2 Primaria completa Primaria incompleta No No 0 A 10 LIBROS No leo por entretenimiento 30 minutos o menos Menos de 10 horas
RURAL CORDOBA MAÑANA 1 40 233
2
NA
Si
NA Más de 30 horas N URBANO CUNDINAMARCA SABATINA 2 32 158
2 Estrato 2 Secundaria (Bachillerato) completa Educación profesional completa No Si 0 A 10 LIBROS 30 minutos o menos 30 minutos o menos 0 N URBANO LA GUAJIRA MAÑANA 2 43 173
2 Estrato 2 No sabe Primaria incompleta No Si 0 A 10 LIBROS 30 minutos o menos 30 minutos o menos 0
URBANO CORDOBA UNICA 2 54 300
2 Estrato 1 Primaria incompleta Primaria incompleta Si Si 0 A 10 LIBROS 30 minutos o menos Entre 1 y 3 horas Menos de 10 horas N URBANO SUCRE MAÑANA 2 38 220
2 Estrato 3 Primaria incompleta Primaria incompleta No Si 11 A 25 LIBROS Entre 30 y 60 minutos Entre 1 y 3 horas 0 N URBANO META MAÑANA 2 45 275
1 Estrato 2 Ninguno Primaria incompleta No Si
No leo por entretenimiento Entre 30 y 60 minutos Más de 30 horas N URBANO CUNDINAMARCA SABATINA 2 25 202
1 Estrato 1 Secundaria (Bachillerato) completa Secundaria (Bachillerato) incompleta No No 0 A 10 LIBROS No leo por entretenimiento 30 minutos o menos 0 N RURAL SANTANDER TARDE 2 48 280
1 Estrato 1 Primaria incompleta Primaria incompleta No No 0 A 10 LIBROS Entre 30 y 60 minutos 30 minutos o menos 0 N URBANO BOLIVAR MAÑANA 2 29 222

📊 Análisis exploratorio de datos

- Entorno Familiar 👨‍👩‍👧‍👦

Nivel Socioeconómico 📎

Se observa que al tener un menor nivel socioeconómico se obtiene un menor puntaje en la PRUEBA SABER 11, esto se debe posiblemente a varios factores, uno de los principales puede ser que no cuenten con los recursos necesarios para acceder a una educación digna. Además, recursos como libros e internet son precarios en este nivel socioeconómico. Si analizamos el puntaje para el nivel socioeconómico 2 (234.53), estos individuos viven en lugares con acceso a algunos electrodomésticos que ayudan a mejorar su rendimiento académico. Con respecto al nivel socioeconómico 3 y 4, estos individuos cuentan con acceso a libros, internet, computador, clases personalizadas, entre otros (Instituto Colombiano para la Evaluación de la Educación, 2022) que ayudan a obtener mejores resultados en las PRUEBAS SABER 11. Si comparamos los promedios de puntajes entre los niveles socioeconómicos 1 y 4, observamos que el puntaje del nivel 4 es un 26.33% mayor que el del nivel 1.

 #Filtro
        promedios_por_socind <- saber2019limpio %>%
          filter(!is.na(ESTU_NSE_INDIVIDUAL)) %>%
          group_by(ESTU_NSE_INDIVIDUAL) %>%
          summarise(prom_socind = mean(PUNT_GLOBAL)) %>%
          arrange(-prom_socind)

#Convertir a factor y ordenar según los promedios
        promedios_por_socind$ESTU_NSE_INDIVIDUAL <-
          factor(promedios_por_socind$ESTU_NSE_INDIVIDUAL,
                 levels = promedios_por_socind$ESTU_NSE_INDIVIDUAL)

#Grafica diagrama de barras
        ggplot(
          promedios_por_socind,
          aes(
            fill = promedios_por_socind$ESTU_NSE_INDIVIDUAL,
            y = promedios_por_socind$prom_socind,
            x = promedios_por_socind$ESTU_NSE_INDIVIDUAL
          )
        ) +
          geom_bar(position = "dodge", stat = "identity") +
          geom_text(
            aes(label = round(prom_socind, 2)),
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            size = 3
          ) +
          labs(title = "Promedio de puntajes segun el nivel socioeconomico del individuo",
               x = "Nivel socieconomico",
               y = "Promedio de puntajes",
               fill = "Nivel socieconomico del individuo") 

Estrato 💵

Con respecto al estrato del individuo, se observa que hay una diferencia si se compara con lo obtenido en la gráfica de nivel socioeconómico. Se evidencia que los individuos de estrato 4 obtuvieron mejores resultados que el estrato 6, un 7.97% mayor. Cabe recalcar que solo 3711 individuos de estrato 6 presentaron la PRUEBA SABER 11. Con lo anterior podemos concluir que los individuos del estrato 6 no se preocupan tanto por obtener un resultado.

      #Filtro
        promedios_por_estrato <- saber2019limpio %>%
          filter(!is.na(FAMI_ESTRATOVIVIENDA) &
                   FAMI_ESTRATOVIVIENDA != "-") %>%
          group_by(FAMI_ESTRATOVIVIENDA) %>%
          summarise(prom_estrato = mean(PUNT_GLOBAL)) %>%
          arrange(-prom_estrato)
   
      #Convertir a factor y ordenar según los promedios
        promedios_por_estrato$FAMI_ESTRATOVIVIENDA <-
          factor(promedios_por_estrato$FAMI_ESTRATOVIVIENDA,
                 levels = promedios_por_estrato$FAMI_ESTRATOVIVIENDA)
        
      #Gráfica diagrama de barras
        ggplot(
          promedios_por_estrato,
          aes(
            fill = promedios_por_estrato$FAMI_ESTRATOVIVIENDA,
            y = promedios_por_estrato$prom_estrato,
            x = promedios_por_estrato$FAMI_ESTRATOVIVIENDA
          )
        ) +
          geom_bar(position = "dodge", stat = "identity") +
          geom_text(
            aes(label = round(prom_estrato, 2)),
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            size = 3
          ) +
          labs(title = "Promedio de puntajes según el estrato",
               x = "Estrato",
               y = "Promedio de puntajes",
               fill = "Nivel de estrato") 

Educación padres 👩‍🎓👨‍🎓

EDUCACIÓN BACHILLER🙋🏻

La gráfica ilustra la distribución de puntajes globales para estudiantes cuyos padres tienen educación bachiller o superior. Se observa una curva en forma de una distribución normal, donde la mayoría de los puntajes se agrupan entre 200 y 350.

      #Filtro educacion bachiller
        frecuencia_padres_bachiller <- saber2019limpio %>%
          filter(
            FAMI_EDUCACIONPADRE %in% c(
              "Postgrado",
              "Educacion profesional completa",
              "Educacion profesional incompleta",
              "Tecnica o tecnologica completa",
              "Tecnica o tecnologica incompleta",
              "Secundaria (Bachillerato) completa"
            )
          ) %>%
          filter(
            FAMI_EDUCACIONMADRE %in% c(
              "Postgrado",
              "Educacion profesional completa",
              "Educacion profesional incompleta",
              "Tecnica o tecnologica completa",
              "Tecnica o tecnologica incompleta",
              "Secundaria (Bachillerato) completa"
            )
          ) %>%
          select(FAMI_EDUCACIONMADRE, FAMI_EDUCACIONPADRE, PUNT_GLOBAL)
        
   
      #Grafica histograma educacion bachiller  
        ggplot(frecuencia_padres_bachiller, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "skyblue",
            color = "darkblue",
            alpha = 0.7
          ) +
          geom_vline(
            xintercept = 250,
            color = "red",
            size = 1,
            linetype = "dashed"
          ) +
          labs(
            title = "Padres con educacion bachiller o superior",
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(
              hjust = 0.5,
              face = "bold",
              size = 14
            ),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

EDUCACIÓN NO BACHILLER🙇🏻

En esta gráfica se muestra la distribución de puntajes globales para estudiantes cuyos padres tienen educación inferior a bachiller. La muestra aumentó en comparación de la anterior gráfica, además la mayoría de los puntajes se agrupan entre 170 y 270 puntos, evidenciándose con una inclinación hacia puntajes más bajos (Simetría positiva).

      #Filtro no bachiller
        frecuencia_padres_no_bachiller <- saber2019limpio %>%
          filter(
            FAMI_EDUCACIONPADRE %in% c(
              "Secundaria (Bachillerato) incompleta",
              "Primaria completa",
              "Primaria incompleta",
              "Ninguno"
            )
          ) %>%
          filter(
            FAMI_EDUCACIONMADRE %in% c(
              "Secundaria (Bachillerato) incompleta",
              "Primaria completa",
              "Primaria incompleta",
              "Ninguno"
            )
          ) %>%
          select(FAMI_EDUCACIONMADRE, FAMI_EDUCACIONPADRE, PUNT_GLOBAL)
        
      #Grafica histograma no bachiller
        ggplot(frecuencia_padres_no_bachiller, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "skyblue",
            color = "darkblue",
            alpha = 0.7
          ) +
          geom_vline(
            xintercept = 250,
            color = "red",
            size = 1,
            linetype = "dashed"
          ) +
          labs(
            title = "Padres con educacion inferior a bachiller",
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(
              hjust = 0.5,
              face = "bold",
              size = 14
            ),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

- Recursos disponibles hogar 🏡

Tiene internet 👾

Como se puede observar, se obtiene un puntaje más alto en la PRUEBA SABER 11 cuando se tiene acceso a internet. El promedio de puntaje para las personas con acceso a internet es de 259.36, lo que representa un 11.47% más en comparación con los estudiantes que no tienen acceso a estos recursos. Además, los estudiantes que disponen de internet 12.6% más de probabilidad de obtener mejores resultados.

      #Filtro
        promedios_por_internet <- saber2019limpio %>%
          filter(!is.na(FAMI_TIENEINTERNET) &
                   FAMI_TIENEINTERNET != "-") %>%
          group_by(FAMI_TIENEINTERNET) %>%
          summarise(prom_internet = mean(PUNT_GLOBAL)) %>%
          arrange(-prom_internet)
        
      #Gráfica diagrama de barras
        ggplot(
          promedios_por_internet,
          aes(
            fill = promedios_por_internet$FAMI_TIENEINTERNET,
            y = promedios_por_internet$prom_internet,
            x = promedios_por_internet$FAMI_TIENEINTERNET
          )
        ) +
          geom_bar(position = "dodge", stat = "identity") +
          geom_text(
            aes(label = round(prom_internet, 2)),
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            size = 3
          ) +
          labs(title = "Promedio de puntajes por tener internet",
               x = "Tiene internet",
               y = "Promedio de puntajes",
               fill = "Tiene internet") 

Tiene Computador 💻

Se obtiene un puntaje más alto en la PRUEBA SABER 11 cuando se tiene acceso a un computador. El promedio de puntaje para las personas con acceso a un computador es de 259.84, lo que representa un 11.45% más en comparación con los estudiantes que no tienen acceso a estos recursos. Además, los estudiantes disponen de un computador tienen un 12.6% más de probabilidad de obtener mejores resultados.

      #Filtro
        promedios_por_computador <- saber2019limpio %>%
          filter(!is.na(FAMI_TIENECOMPUTADOR) & 
                   FAMI_TIENECOMPUTADOR != "-") %>%
          group_by(FAMI_TIENECOMPUTADOR) %>%
          summarise(prom_computador = mean(PUNT_GLOBAL)) %>%
        arrange(-prom_computador)
        
      #Gráfica diagrama de barras
        ggplot(
          promedios_por_computador,
          aes(
            fill = promedios_por_computador$FAMI_TIENECOMPUTADOR,
            y = promedios_por_computador$prom_computador,
            x = promedios_por_computador$FAMI_TIENECOMPUTADOR
          )
        ) +
          geom_bar(position = "dodge", stat = "identity") +
          geom_text(
            aes(label = round(prom_computador, 2)),
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            size = 3
          ) +
          labs(title = "Promedio de puntajes por tener computador",
               x = "Tiene computador",
               y = "Promedio de puntajes",
               fill = "Tiene computador") 

Tiene Libros 📚

Se evidencia en la siguiente gráfica que la cantidad de libros influye de manera positiva en el desempeño de los estudiantes en las PRUEBAS SABER 11. Los estudiantes que tienen más de 100 libros obtuvieron un puntaje de 276.49 como resultado, resultados similares a los obtenidos en las PRUEBAS SABER 11 del año 2017 y 2018 (Rodríguez et al., 2021).

      #Filtro
        promedios_por_libros <- saber2019limpio %>%
          filter(!is.na(FAMI_NUMLIBROS) &
                   FAMI_NUMLIBROS != "-") %>%
          select(FAMI_NUMLIBROS, PUNT_GLOBAL) %>%
          group_by(FAMI_NUMLIBROS) %>%
          summarise(prom_libro = mean(PUNT_GLOBAL)) %>%
          arrange(-prom_libro)
       
      #Gráfica diagrama de barras
        ggplot(promedios_por_libros, aes(fill=promedios_por_libros$FAMI_NUMLIBROS, y=promedios_por_libros$prom_libro, x=promedios_por_libros$FAMI_NUMLIBROS)) + 
          geom_bar(position="dodge", stat="identity")+
          geom_text(aes(label = round(prom_libro,2)), 
                    position = position_dodge(width = 0.9), 
                    vjust = -0.5, 
                    size = 3) +
          labs(title = "Promedio de Puntajes por cantidad de libros que tiene",
               x = "Cantidad de libros",
               y = "Promedio de puntajes",
               fill = "Cantidad de libros") 

- Uso del tiempo ⏲️

Tiempo en lectura 🙇🏻

  1. Mayor tiempo de lectura, mayor puntaje: Se observa una clara tendencia donde los estudiantes que dedican más tiempo a la lectura obtienen mejores puntajes. Los que leen más de 2 horas tienen el puntaje promedio más alto (266.26), seguido por aquellos que leen entre 1 y 2 horas (258.05).

  2. Impacto negativo de no leer: Los estudiantes que no leen por entretenimiento tienen el puntaje promedio más bajo (237.3), lo que indica una posible relación positiva entre la lectura y el rendimiento académico.

      #Filtro promedio por tiempo de lectura
        promedios_por_lectura <- saber2019limpio %>%
          filter(!is.na(ESTU_DEDICACIONLECTURADIARIA) &
                   ESTU_DEDICACIONLECTURADIARIA != "-") %>%
          group_by(ESTU_DEDICACIONLECTURADIARIA) %>%
          summarise(prom_lectura = mean(PUNT_GLOBAL)) %>%
          arrange(-prom_lectura)
        
      #Convertir a factor y ordenar según los promedios
        promedios_por_lectura$ESTU_DEDICACIONLECTURADIARIA <-
          factor(
            promedios_por_lectura$ESTU_DEDICACIONLECTURADIARIA,
            levels = c(
              "Más de 2 horas",
              "Entre 1 y 2 horas",
              "Entre 30 y 60 minutos",
              "30 minutos o menos",
              "No leo por entretenimiento"
            )
          )
        
    #Gráfica diagrama de barras
        ggplot(
          promedios_por_lectura,
          aes(
            fill = promedios_por_lectura$ESTU_DEDICACIONLECTURADIARIA,
            y = promedios_por_lectura$prom_lectura,
            x = promedios_por_lectura$ESTU_DEDICACIONLECTURADIARIA
          )
        ) +
          geom_bar(position = "dodge", stat = "identity") +
          geom_text(
            aes(label = round(prom_lectura, 2)),
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            size = 3
          ) +
          labs(title = "Promedio de puntajes por tiempo de lectura",
               x = "Tiempo de lectura",
               y = "Promedio de puntajes",
               fill = "Tiempo de lectura") +
          theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = 0.5))

Tiempo Navegando en Internet👩‍💻

  1. Mayor tiempo en internet, mejor puntaje: Al igual que con la lectura, hay una tendencia en la que los estudiantes que dedican más tiempo a navegar en internet tienden a obtener mejores puntajes. Los que navegan más de 3 horas tienen el puntaje promedio más alto (259.51).

  2. No usar internet correlaciona con menor puntaje: Los estudiantes que no navegan en internet tienen el puntaje promedio más bajo (221.35), sugiriendo que el acceso y uso del internet podría estar relacionado con un mejor desempeño académico.

      #Filtro promedio por tiempo en internet
          promedios_por_navegar <- saber2019limpio %>%
          filter(!is.na(ESTU_DEDICACIONINTERNET) &
                   ESTU_DEDICACIONINTERNET != "-") %>%
          group_by(ESTU_DEDICACIONINTERNET) %>%
          summarise(prom_internet = mean(PUNT_GLOBAL)) %>%
          arrange(-prom_internet)
        
        
      #Convertir a factor y ordenar según los promedios
          promedios_por_navegar$ESTU_DEDICACIONINTERNET <-
          factor(promedios_por_navegar$ESTU_DEDICACIONINTERNET,
                 levels = promedios_por_navegar$ESTU_DEDICACIONINTERNET)
        
        
      #Gráfica diagrama de barras
          ggplot(
            promedios_por_navegar,
            aes(
              fill = promedios_por_navegar$ESTU_DEDICACIONINTERNET,
              y = promedios_por_navegar$prom_internet,
              x = promedios_por_navegar$ESTU_DEDICACIONINTERNET
            )
          ) +
          geom_bar(position = "dodge", stat = "identity") +
          geom_text(
            aes(label = round(prom_internet, 2)),
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            size = 3
          ) +
          labs(title = "Promedio de puntajes por tiempo en internet",
               x = "Tiempo en internet",
               y = "Promedio de puntajes",
               fill = "Tiempo en internet") +
          theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = 0.5))

Tiempo en trabajo ⌛

Los estudiantes que no trabajan tienen el promedio de puntaje más alto en las pruebas ICFES. Esto sugiere que dedicar todo el tiempo al estudio y otras actividades académicas puede estar asociado con un mejor desempeño en las pruebas.

La gráfica demuestra que hay una relación inversamente proporcional entre el tiempo dedicado al trabajo y el puntaje en las pruebas ICFES. Los estudiantes que no trabajan o trabajan menos horas tienden a obtener mejores puntajes en las pruebas, mientras que aquellos que trabajan más horas muestran una disminución en su rendimiento académico. Estos resultados indican la importancia de equilibrar el tiempo entre el trabajo y el estudio para maximizar el rendimiento en las pruebas académicas.

        #Filtro
        promedios_por_trabajo <- saber2019limpio %>%
          filter(!is.na(ESTU_HORASSEMANATRABAJA) &
                   ESTU_HORASSEMANATRABAJA != "-") %>%
          group_by(ESTU_HORASSEMANATRABAJA) %>%
          summarise(prom_trabajo = mean(PUNT_GLOBAL)) %>%
          arrange(-prom_trabajo)
        
        #Convertir a factor y ordenar según los promedios
        promedios_por_trabajo$ESTU_HORASSEMANATRABAJA <-
          factor(promedios_por_trabajo$ESTU_HORASSEMANATRABAJA ,
                 levels = promedios_por_trabajo$ESTU_HORASSEMANATRABAJA)
        
        #Gráfica diagrama de barras
        ggplot(
            promedios_por_trabajo,
            aes(
              fill = promedios_por_trabajo$ESTU_HORASSEMANATRABAJA,
              y = promedios_por_trabajo$prom_trabajo,
              x = promedios_por_trabajo$ESTU_HORASSEMANATRABAJA
            )
          ) +
          geom_bar(position = "dodge", stat = "identity") +
          geom_text(
            aes(label = round(prom_trabajo, 2)),
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            size = 3
          ) +
          labs(title = "Promedio de puntajes por tiempo en el trabajo",
               x = "Tiempo en el trabajo",
               y = "Promedio de puntajes",
               fill = "Tiempo en el trabajo") +
          theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = 0.5)) 

- Entorno del Colegio 🏫

Colegio Bilingüe 🗣

A primera vista, no hay una diferencia significativa en las medianas de los puntajes de inglés entre los estudiantes de colegios bilingües y no bilingües. Ambos grupos tienen una mediana alrededor de 50. Los estudiantes de colegios bilingües parecen tener una mayor variabilidad en los puntajes, con algunos alcanzando niveles superiores a 75, lo que indica que algunos estudiantes se benefician significativamente del entorno bilingüe. La gráfica muestra que, en promedio, los estudiantes de colegios bilingües y no bilingües tienen rendimientos similares en inglés en la Prueba ICFES. Sin embargo, los colegios bilingües presentan una mayor dispersión en los puntajes, con algunos estudiantes logrando puntajes significativamente más altos. Esto sugiere que la educación bilingüe puede ofrecer ventajas adicionales a ciertos estudiantes, permitiéndoles destacarse más en la evaluación de inglés.

      #Filtro
        datos_bilingue <- saber2019limpio %>%
          filter(!is.na(COLE_BILINGUE) & COLE_BILINGUE != "-") %>%
          select(COLE_BILINGUE, PUNT_INGLES) %>%
          arrange(PUNT_INGLES)
        
      #Gráfica diagrama de cajas
        ggplot(
          datos_bilingue = mpg,
          mapping = aes(
            x = datos_bilingue$COLE_BILINGUE,
            y = datos_bilingue$PUNT_INGLES,
            fill = datos_bilingue$COLE_BILINGUE
          )
        ) +
          geom_boxplot() +
          labs(title = "Puntaje en inglés según si es o no colegio bilingüe",
               x = "Colegio bilingüe",
               y = "Puntaje inglés",
               fill = "Es bilingue")

Rural 🏘️/ Urbano 🏙️

La gráfica muestra el promedio de puntajes en la Prueba ICFES de acuerdo con la zona escolar del colegio, diferenciando entre colegios ubicados en zonas rurales y urbanas. Los estudiantes que asisten a colegios urbanos tienen, en promedio, un mejor desempeño en las pruebas ICFES en comparación con los estudiantes de colegios rurales. La diferencia en los puntajes promedio es notable, siendo de aproximadamente 23.69 puntos.

La gráfica evidencia una clara disparidad en el rendimiento de los estudiantes en la Prueba ICFES basada en la zona del colegio. Los estudiantes de colegios urbanos tienen un promedio de puntaje considerablemente más alto que los de colegios rurales. Esto subraya la necesidad de implementar políticas y estrategias educativas que aborden las desigualdades entre las zonas rurales y urbanas, asegurando que todos los estudiantes tengan acceso a los recursos y oportunidades necesarios para alcanzar su máximo potencial académico.

      #Filtro
        promedios_por_area <- saber2019limpio %>%
          group_by(COLE_AREA_UBICACION) %>%
          summarise(prom_area = mean(PUNT_GLOBAL)) %>%
          arrange(-prom_area)
        
      #Gráfica diagrama de barras
        ggplot(
          promedios_por_area,
          aes(
            fill = promedios_por_area$COLE_AREA_UBICACION,
            y = promedios_por_area$prom_area,
            x = promedios_por_area$COLE_AREA_UBICACION
          )
        ) +
          geom_bar(position = "dodge", stat = "identity") +
          geom_text(
            aes(label = round(prom_area, 2)),
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            size = 3
          ) +
          labs(title = "Promedio de puntaje según la zona del colegio",
               x = "Zona escolar",
               y = "Promedio de puntajes",
               fill = "Zona escolar") 

Jornada 🌗

La jornada completa presenta los puntajes más altos en términos de la mediana y de los valores atípicos. Esto sugiere que los estudiantes que asisten a esta jornada tienen, en general, un mejor rendimiento en el ICFES. La jornada UNICA y MAÑANA ambas tienen una mediana similar y presentan un rango de puntajes amplio, aunque la jornada MAÑANA tiene una concentración más alta de puntajes en el rango intercuartílico. La jornada TARDE muestra un rendimiento intermedio, con una mediana más baja que COMPLETA y MAÑANA, pero con una variabilidad similar a la de la jornada UNICA. La jornada SABATINA tiene la mediana más baja y una caja más pequeña, indicando que la mayoría de los puntajes se encuentran en un rango más estrecho y bajo comparado con otras jornadas. Los puntajes en la jornada NOCTURNA también son bajos en términos de la mediana, pero con una mayor dispersión que la jornada SABATINA.

En resumen, la jornada COMPLETA parece estar asociada con los puntajes más altos en el ICFES, mientras que las jornadas SABATINA y NOCHE muestran los puntajes más bajos. Las jornadas UNICA y MAÑANA tienen puntajes similares, aunque la jornada MAÑANA presenta una concentración de puntajes más alta en el rango medio. La jornada TARDE tiene un rendimiento intermedio con una amplia dispersión de puntajes.

        #Filtro
        datos_jornada <- saber2019limpio %>%
          filter(!is.na(COLE_JORNADA) & COLE_JORNADA != "-") %>%
          select(COLE_JORNADA, PUNT_GLOBAL) %>%
          arrange(PUNT_GLOBAL)
        
        #Convertir a factor y ordenar según los promedio
        datos_jornada$COLE_JORNADA <-
          factor(
            datos_jornada$COLE_JORNADA,
            levels = c("COMPLETA", "UNICA", "MAÑANA", "TARDE", "SABATINA", "NOCHE")
          )
        
        #Gráfica diagrama de cajas
        ggplot(
          datos_jornada = mpg,
          mapping = aes(
            x = datos_jornada$COLE_JORNADA,
            y = datos_jornada$PUNT_GLOBAL,
            fill = datos_jornada$COLE_JORNADA
          )
        ) +
          geom_boxplot() +
          labs(title = "Promedio de puntajes por jornada",
               x = "Jornada",
               y = "Promedio de puntajes",
               fill = "Tipo de jornada")

Nivel socioeconómico establecimiento 🏬

Hay una clara tendencia descendente en los puntajes promedio a medida que se baja en el nivel socioeconómico del establecimiento.

Nivel 4: Este nivel tiene el puntaje promedio más alto, indicando que los estudiantes de establecimientos con el nivel socioeconómico más alto tienden a obtener mejores resultados en el ICFES.

Nivel 1: Este nivel tiene el puntaje promedio más bajo, lo que sugiere que los estudiantes de establecimientos con el nivel socioeconómico más bajo tienen, en general, un desempeño menor en el ICFES en comparación con los otros niveles.

La diferencia entre el nivel 4 y el nivel 1 es bastante pronunciada, con una diferencia de casi 100 puntos en el promedio de puntajes (316.6 vs. 217.08).

La gráfica sugiere una fuerte correlación positiva entre el nivel socioeconómico del establecimiento educativo y el rendimiento promedio en el ICFES. Los estudiantes de instituciones con niveles socioeconómicos más altos tienden a obtener mejores puntajes en el examen. Esto podría deberse a varios factores, como mejor infraestructura, acceso a recursos educativos de mayor calidad, y posiblemente un entorno socioeconómico que facilita el aprendizaje y preparación para el examen. Esta información es crucial para entender cómo las desigualdades socioeconómicas pueden influir en el desempeño académico y puede ser un punto de partida para desarrollar políticas educativas que busquen mitigar estas disparidades.

        #Promedio por establecimiento
        promedios_por_socest <- saber2019limpio %>%
          filter(!is.na(ESTU_NSE_ESTABLECIMIENTO)) %>%
          group_by(ESTU_NSE_ESTABLECIMIENTO) %>%
          summarise(prom_socest = mean(PUNT_GLOBAL)) %>%
          arrange(-prom_socest)
        
        #Convertir a factor y ordenar según los promedio
        promedios_por_socest$ESTU_NSE_ESTABLECIMIENTO <-
          factor(promedios_por_socest$ESTU_NSE_ESTABLECIMIENTO,
                 levels = promedios_por_socest$ESTU_NSE_ESTABLECIMIENTO)
        
        #Gráfica diagrama de barras
        ggplot(
          promedios_por_socest,
          aes(
            fill = promedios_por_socest$ESTU_NSE_ESTABLECIMIENTO,
            y = promedios_por_socest$prom_socest,
            x = promedios_por_socest$ESTU_NSE_ESTABLECIMIENTO
          )
        ) +
          geom_bar(position = "dodge", stat = "identity") +
          geom_text(
            aes(label = round(prom_socest, 2)),
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            size = 3
          ) +
          labs(title = "Promedio de puntajes según el nivel socioeconómico del establecimiento",
               x = "Nivel socieconómico",
               y = "Promedio de puntajes",
               fill = "Nivel socieconómico del establecimiento")

Ubicación del Departamento 🗾

En esta gráfica se muestra el promedio global de los colegios ubicado por departamentos, liderada por Bogotá,Santander y Boyacá. Por otro lado los peores promedios son colegios de los departamentos como Chocó, Vaupes y Amazonas. Lo cual coincide con el nivel de abandono del estado en estos territorios.

    #Promedio por departamentos
    promedios_por_departamentoCol <- saber2019limpio %>%
      group_by(COLE_DEPTO_UBICACION) %>% 
      summarise(prom_dep = mean(PUNT_GLOBAL)) %>% 
      arrange(prom_dep)
    
    # Crear el diagrama de barras interactivo con plotly
    plot_ly(data = promedios_por_departamentoCol, x = ~reorder(COLE_DEPTO_UBICACION, -prom_dep), y = ~prom_dep, type = "bar",
            text = ~paste(round(prom_dep, 2)),
            hoverinfo = "text",
            marker = list(color = "lightblue")) %>%
      layout(title = "Promedio de puntajes por ubicación del colegio",
             xaxis = list(title = "Departamento"),
             yaxis = list(title = "Promedio de puntajes"),
             hoverlabel = list(bgcolor = "white"))

Acumulación de factores

- Desfavorables 👎🏻

La acumulación de factores desfavorables en el entorno educativo tiene un impacto significativo en el desarrollo y rendimiento académico de los estudiantes. Estos factores pueden provenir de diversos ámbitos, como el entorno familiar, los recursos disponibles y el colegio. A continuación, se detallan algunos de estos factores desfavorables:

Entorno Familiar

PRIMER FILTRO

La gráfica ilustra la distribución de puntajes globales para estudiantes de nivel socioeconómico bajo,con solo un primer factor de riesgo.Esta distribución muestra una ligera asimetría, con una cola más prolongada hacia la izquierda, indicando una tendencia hacia puntajes más bajos. La mayor concentración de estudiantes se encuentra entre los 150 y 270 puntos, con una moda aproximada de 210 puntos para aproximadamente 48,000 casos.

        #Filtro 1
        frecuencia_primerFactor_des <- saber2019limpio %>%
          filter(!is.na(ESTU_NSE_INDIVIDUAL)) %>%
          select(ESTU_NSE_INDIVIDUAL,
                 PUNT_GLOBAL) %>%
          filter(ESTU_NSE_INDIVIDUAL == "1" |
                   ESTU_NSE_INDIVIDUAL == "2")
        
         
        #Histograma 1
        ggplot(frecuencia_primerFactor_des, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "red",
            color = "red",
            alpha = 0.7
          ) +  # Barras y bordes rojos
          geom_vline(
            xintercept = 250,
            color = "blue",
            size = 1,
            linetype = "dashed"
          ) +  # Línea vertical azul
          labs(
            title = "1 factor de riesgo",
            subtitle = "(Nivel socioeconómico bajo)",
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
            plot.subtitle = element_text(hjust = 0.5, size = 12),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

SEGUNDO FILTRO

Esta gráfica representa la aculumación de dos factores de riesgo, NSE bajo y padres con un nivel de educación menor al bachiller.En esta nueva distribución se puede notar un cambio respecto a la anterior, donde la cola de la izquierda tiene una mayor de concentración, tendiendo aún más a puntajes bajos.

        #Filtro 2
        frecuencia_segundoFactor_des <- saber2019limpio %>%
          filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
          select(ESTU_NSE_INDIVIDUAL,
                 PUNT_GLOBAL,
                 FAMI_EDUCACIONPADRE,
                 FAMI_EDUCACIONMADRE) %>%
          filter((ESTU_NSE_INDIVIDUAL == "1" |
                    ESTU_NSE_INDIVIDUAL == "2") &
                   FAMI_EDUCACIONPADRE %in% c(
                     "Secundaria (Bachillerato) incompleta",
                     "Primaria completa",
                     "Primaria incompleta",
                     "Ninguno"
                   ) &
                   FAMI_EDUCACIONMADRE %in% c(
                     "Secundaria (Bachillerato) incompleta",
                     "Primaria completa",
                     "Primaria incompleta",
                     "Ninguno"
                   )
          )
        
        #Histograma 2
        ggplot(frecuencia_segundoFactor_des, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "red",
            color = "red",
            alpha = 0.7
          ) +  # Barras y bordes rojos
          geom_vline(
            xintercept = 250,
            color = "blue",
            size = 1,
            linetype = "dashed"
          ) +  # Línea vertical azul
          labs(
            title = "2 factores de riesgo",
            subtitle = "(Padres bachiller incompleto)",
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
            plot.subtitle = element_text(hjust = 0.5, size = 12),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

Recursos

TERCER FILTRO

Esta gráfica representa la aculumación de tres factores de riesgo, NSE bajo,padres con un nivel de educación menor al bachiller y no acceso a la tecnología.Donde se observa el mismo comportamiento de las anteriores gráficas, un aumento ligero de la concentración en puntajes bajos.

        #Filtro 3
        frecuencia_tercerFactor_des <- saber2019limpio %>%
          filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
          select(
            ESTU_NSE_INDIVIDUAL,
            PUNT_GLOBAL,
            FAMI_EDUCACIONPADRE,
            FAMI_EDUCACIONMADRE,
            FAMI_TIENEINTERNET,
            FAMI_TIENECOMPUTADOR
          ) %>%
          filter((ESTU_NSE_INDIVIDUAL == "1" |
                    ESTU_NSE_INDIVIDUAL == "2") &
                   FAMI_EDUCACIONPADRE %in% c(
                     "Secundaria (Bachillerato) incompleta",
                     "Primaria completa",
                     "Primaria incompleta",
                     "Ninguno"
                   ) &
                   FAMI_EDUCACIONMADRE %in% c(
                     "Secundaria (Bachillerato) incompleta",
                     "Primaria completa",
                     "Primaria incompleta",
                     "Ninguno"
                   ) &
                   FAMI_TIENEINTERNET == "No" &
                   FAMI_TIENECOMPUTADOR == "No"
          )
        
        #Histograma 3
        ggplot(frecuencia_tercerFactor_des, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "red",
            color = "red",
            alpha = 0.7
          ) +  # Barras y bordes rojos
          geom_vline(
            xintercept = 250,
            color = "blue",
            size = 1,
            linetype = "dashed"
          ) +  # Línea vertical azul
          labs(
            title = "3 factores de riesgo",
            subtitle = "(No tecnología)",
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
            plot.subtitle = element_text(hjust = 0.5, size = 12),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

CUARTO FILTRO

Esta gráfica representa la aculumación de cuatro factores de riesgo, NSE bajo,padres con un nivel de educación menor al bachiller, no acceso a la tecnología y no acceso a la información.El comportamiento de está gráfica sigue el patrón de las gráficas anteriores.

        #Filtro 4
        frecuencia_cuartoFactor_des <- saber2019limpio %>%
          filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
          select(
            ESTU_NSE_INDIVIDUAL,
            PUNT_GLOBAL,
            FAMI_EDUCACIONPADRE,
            FAMI_EDUCACIONMADRE,
            FAMI_TIENEINTERNET,
            FAMI_TIENECOMPUTADOR,
            FAMI_NUMLIBROS
          ) %>%
          filter((ESTU_NSE_INDIVIDUAL == "1" |
                    ESTU_NSE_INDIVIDUAL == "2") &
                   FAMI_EDUCACIONPADRE %in% c(
                     "Secundaria (Bachillerato) incompleta",
                     "Primaria completa",
                     "Primaria incompleta",
                     "Ninguno"
                   ) &
                   FAMI_EDUCACIONMADRE %in% c(
                     "Secundaria (Bachillerato) incompleta",
                     "Primaria completa",
                     "Primaria incompleta",
                     "Ninguno"
                   ) &
                   FAMI_TIENEINTERNET == "No" &
                   FAMI_TIENECOMPUTADOR == "No" &
                   FAMI_NUMLIBROS == "0 A 10 LIBROS"
          )
        
        #Histograma 4
        ggplot(frecuencia_cuartoFactor_des, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "red",
            color = "red",
            alpha = 0.7
          ) +  # Barras y bordes rojos
          geom_vline(
            xintercept = 250,
            color = "blue",
            size = 1,
            linetype = "dashed"
          ) +  # Línea vertical azul
          labs(
            title = "4 factores de riesgo",
            subtitle = "(No acceso a la información)",
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
            plot.subtitle = element_text(hjust = 0.5, size = 12),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

Colegio

QUINTO FILTRO

Esta gráfica representa la aculumación de cinco factores factores de riesgo, NSE bajo,padres con un nivel de educación menor al bachiller, no acceso a la tecnología,no acceso a la información y NSE del colegio bajo.El comportamiento de está gráfica sigue ligeramente elpatrón de las gráficas anteriores.

        #Filtro 5
        frecuencia_quintoFactor_des <- saber2019limpio %>%
          filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
          select(
            ESTU_NSE_INDIVIDUAL,
            PUNT_GLOBAL,
            FAMI_EDUCACIONPADRE,
            FAMI_EDUCACIONMADRE,
            FAMI_TIENEINTERNET,
            FAMI_TIENECOMPUTADOR,
            FAMI_NUMLIBROS,
            ESTU_NSE_ESTABLECIMIENTO
          ) %>%
          filter((ESTU_NSE_INDIVIDUAL == "1" |
                    ESTU_NSE_INDIVIDUAL == "2") &
                   FAMI_EDUCACIONPADRE %in% c(
                     "Secundaria (Bachillerato) incompleta",
                     "Primaria completa",
                     "Primaria incompleta",
                     "Ninguno"
                   ) &
                   FAMI_EDUCACIONMADRE %in% c(
                     "Secundaria (Bachillerato) incompleta",
                     "Primaria completa",
                     "Primaria incompleta",
                     "Ninguno"
                   ) &
                   FAMI_TIENEINTERNET == "No" &
                   FAMI_TIENECOMPUTADOR == "No" &
                   FAMI_NUMLIBROS == "0 A 10 LIBROS" &
                   (
                     ESTU_NSE_ESTABLECIMIENTO == "1" | ESTU_NSE_ESTABLECIMIENTO == "2"
                   )
          )
        
        #Histograma 5
        ggplot(frecuencia_quintoFactor_des, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "red",
            color = "red",
            alpha = 0.7
          ) +  # Barras y bordes rojos
          geom_vline(
            xintercept = 250,
            color = "blue",
            size = 1,
            linetype = "dashed"
          ) +  # Línea vertical azul
          labs(
            title = "5 factores de riesgo",
            subtitle = "(Colegio NSE bajo)",
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
            plot.subtitle = element_text(hjust = 0.5, size = 12),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

- Favorables 👍🏻

La acumulación de factores favorables en el entorno educativo puede potenciar el desarrollo y rendimiento académico de los estudiantes. Estos factores positivos pueden surgir del entorno familiar, los recursos disponibles y el colegio. A continuación, se detallan algunos de estos factores favorables:

Entorno Familiar

PRIMER FILTRO

La gráfica ilustra la distribución de puntajes globales para estudiantes de nivel socioeconómico 3 y 4,con solo un primer factor de beneficio.Esta distribución muestra una ligera asimetría, con una cola más prolongada hacia la derecha, indicando una tendencia hacia puntajes más altos. La mayor concentración de estudiantes se encuentra entre los 225 y 325 puntos, con una moda aproximada de 275 puntos para aproximadamente 32,000 casos.

        #Filtro 1
        frecuencia_primerFactor <- saber2019limpio %>%
          filter(!is.na(ESTU_NSE_INDIVIDUAL)) %>%
          select(ESTU_NSE_INDIVIDUAL,
                 PUNT_GLOBAL
                 ) %>%
          filter(ESTU_NSE_INDIVIDUAL == "4" |
                   ESTU_NSE_INDIVIDUAL == "3")
        
        
        #Histograma 1
        ggplot(frecuencia_primerFactor, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "#7AC142",
            color = "#7AC142",
            alpha = 0.7
          ) +  # Barras y bordes verde claro
          geom_vline(
            xintercept = 250,
            color = "red",
            size = 1,
            linetype = "dashed"
          ) +  # Línea vertical roja punteada
          labs(
            title = "1 factor de beneficio",
            subtitle = "(NSE 3 y 4)",
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
            plot.subtitle = element_text(hjust = 0.5, size = 12),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

SEGUNDO FILTRO

Esta gráfica representa la aculumación de dos factores de beneficio, NSE (3 y 4) y padres con un nivel de educación bachiller o mayor.En esta nueva distribución se puede notar un cambio pronunciado respecto a la anterior, donde la cola de la derecha tiene una mayor de concentración, tendiendo aún más a puntajes altos.

        #Filtro 2
        frecuencia_segundoFactor <- saber2019limpio %>%
          filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
          select(ESTU_NSE_INDIVIDUAL,
                 PUNT_GLOBAL,
                 FAMI_EDUCACIONPADRE,
                 FAMI_EDUCACIONMADRE) %>%
          filter((ESTU_NSE_INDIVIDUAL == "4" |
                    ESTU_NSE_INDIVIDUAL == "3") &
                   FAMI_EDUCACIONPADRE %in% c(
                     "Postgrado",
                     "Educación profesional completa",
                     "Educación profesional incompleta",
                     "Técnica o tecnológica completa",
                     "Técnica o tecnológica incompleta",
                     "Secundaria (Bachillerato) completa"
                   ) &
                   FAMI_EDUCACIONMADRE %in% c(
                     "Postgrado",
                     "Educación profesional completa",
                     "Educación profesional incompleta",
                     "Técnica o tecnológica completa",
                     "Técnica o tecnológica incompleta",
                     "Secundaria (Bachillerato) completa"
                   )
          )
        
        #Histograma 2
        ggplot(frecuencia_segundoFactor, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "#7AC142",
            color = "#7AC142",
            alpha = 0.7
          ) +  # Barras y bordes verde claro
          geom_vline(
            xintercept = 250,
            color = "red",
            size = 1,
            linetype = "dashed"
          ) +  # Línea vertical roja punteada
          labs(
            title = "2 factores de beneficio",
            subtitle = "(Educación padres bachiller o superior)",
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
            plot.subtitle = element_text(hjust = 0.5, size = 12),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

Recursos

Esta gráfica representa la aculumación de tres factores de beneficio, NSE (3 y 4),padres con un nivel de educación bachiller o mayor y acceso a la tecnología.Donde se observa el mismo comportamiento de las anteriores gráficas, un aumento ligero de la concentración en puntajes altos.

        #Filtro 3
        frecuencia_tercerFactor <- saber2019limpio %>%
          filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
          select(
            ESTU_NSE_INDIVIDUAL,
            PUNT_GLOBAL,
            FAMI_EDUCACIONPADRE,
            FAMI_EDUCACIONMADRE,
            FAMI_TIENEINTERNET,
            FAMI_TIENECOMPUTADOR
          ) %>%
          filter((ESTU_NSE_INDIVIDUAL == "4" |
                    ESTU_NSE_INDIVIDUAL == "3") &
                   FAMI_EDUCACIONPADRE %in% c(
                     "Postgrado",
                     "Educación profesional completa",
                     "Educación profesional incompleta",
                     "Técnica o tecnológica completa",
                     "Técnica o tecnológica incompleta",
                     "Secundaria (Bachillerato) completa"
                   ) &
                   FAMI_EDUCACIONMADRE %in% c(
                     "Postgrado",
                     "Educación profesional completa",
                     "Educación profesional incompleta",
                     "Técnica o tecnológica completa",
                     "Técnica o tecnológica incompleta",
                     "Secundaria (Bachillerato) completa"
                   ) &
                   FAMI_TIENEINTERNET == "Si" &
                   FAMI_TIENECOMPUTADOR == "Si"
          )
        
        #Histograma 3
        ggplot(frecuencia_tercerFactor, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "#7AC142",
            color = "#7AC142",
            alpha = 0.7
          ) +  # Barras y bordes verde claro
          geom_vline(
            xintercept = 250,
            color = "red",
            size = 1,
            linetype = "dashed"
          ) +  # Línea vertical roja punteada
          labs(
            title = "3 factores de beneficio",
            subtitle = "(Tiene tecnología)",
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
            plot.subtitle = element_text(hjust = 0.5, size = 12),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

CUARTO FILTRO

Esta gráfica representa la aculumación de cuatro factores de beneficio, NSE (3 y 4),padres con un nivel de educación bachiller o superior, acceso a la tecnología y acceso a la información.El comportamiento de está gráfica no mostró un cambio signiticativo, respecto a la anterior.

        frecuencia_cuartoFactor <- saber2019limpio %>%
          filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
          select(
            ESTU_NSE_INDIVIDUAL,
            PUNT_GLOBAL,
            FAMI_EDUCACIONPADRE,
            FAMI_EDUCACIONMADRE,
            FAMI_TIENEINTERNET,
            FAMI_TIENECOMPUTADOR,
            FAMI_NUMLIBROS
          ) %>%
          filter((ESTU_NSE_INDIVIDUAL == "4" |
                    ESTU_NSE_INDIVIDUAL == "3") &
                   FAMI_EDUCACIONPADRE %in% c(
                     "Postgrado",
                     "Educación profesional completa",
                     "Educación profesional incompleta",
                     "Técnica o tecnológica completa",
                     "Técnica o tecnológica incompleta",
                     "Secundaria (Bachillerato) completa"
                   ) &
                   FAMI_EDUCACIONMADRE %in% c(
                     "Postgrado",
                     "Educación profesional completa",
                     "Educación profesional incompleta",
                     "Técnica o tecnológica completa",
                     "Técnica o tecnológica incompleta",
                     "Secundaria (Bachillerato) completa"
                   ) &
                   FAMI_TIENEINTERNET == "Si" &
                   FAMI_TIENECOMPUTADOR == "Si" &
                   (
                     FAMI_NUMLIBROS == "MÁS DE 100 LIBROS" |
                       FAMI_NUMLIBROS == "26 A 100 LIBROS"  |
                       FAMI_NUMLIBROS == "11 A 25 LIBROS" |
                       FAMI_NUMLIBROS == "0 A 10 LIBROS"
                   )
          )
        
        #Histograma 4
        ggplot(frecuencia_cuartoFactor, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "#7AC142",
            color = "#7AC142",
            alpha = 0.7
          ) +  # Barras y bordes verde claro
          geom_vline(
            xintercept = 250,
            color = "red",
            size = 1,
            linetype = "dashed"
          ) +  # Línea vertical roja punteada
          labs(
            title = "4 factores de beneficio",
            subtitle = "(Tiene acceso a la información)",
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
            plot.subtitle = element_text(hjust = 0.5, size = 12),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

Colegio

QUINTO FILTRO

Esta gráfica representa la aculumación de cinco factores factores de beneficio, NSE (3 y 4),padres con un nivel de educación bachiller o superior, acceso a la tecnología, acceso a la información y NSE del colegio alto.El comportamiento de está gráfica muestra un cambio notable en el aumento de la concentración de puntajes mayores.

        #Filtro 5
        frecuencia_quintoFactor <- saber2019limpio %>%
          filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
          select(
            ESTU_NSE_INDIVIDUAL,
            PUNT_GLOBAL,
            FAMI_EDUCACIONPADRE,
            FAMI_EDUCACIONMADRE,
            FAMI_TIENEINTERNET,
            FAMI_TIENECOMPUTADOR,
            FAMI_NUMLIBROS,
            ESTU_NSE_ESTABLECIMIENTO
          ) %>%
          filter((ESTU_NSE_INDIVIDUAL == "4" |
                    ESTU_NSE_INDIVIDUAL == "3") &
                   FAMI_EDUCACIONPADRE %in% c(
                     "Postgrado",
                     "Educación profesional completa",
                     "Educación profesional incompleta",
                     "Técnica o tecnológica completa",
                     "Técnica o tecnológica incompleta",
                     "Secundaria (Bachillerato) completa"
                   ) &
                   FAMI_EDUCACIONMADRE %in% c(
                     "Postgrado",
                     "Educación profesional completa",
                     "Educación profesional incompleta",
                     "Técnica o tecnológica completa",
                     "Técnica o tecnológica incompleta",
                     "Secundaria (Bachillerato) completa"
                   ) &
                   FAMI_TIENEINTERNET == "Si" &
                   FAMI_TIENECOMPUTADOR == "Si" &
                   (
                     FAMI_NUMLIBROS == "MÁS DE 100 LIBROS" |
                       FAMI_NUMLIBROS == "26 A 100 LIBROS"  |
                       FAMI_NUMLIBROS == "11 A 25 LIBROS" |
                       FAMI_NUMLIBROS == "0 A 10 LIBROS"
                   ) &
                   (
                     ESTU_NSE_ESTABLECIMIENTO == "4" | ESTU_NSE_ESTABLECIMIENTO == "3"
                   )
          )
        
        #Histograma 5
        ggplot(frecuencia_quintoFactor, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "#7AC142",
            color = "#7AC142",
            alpha = 0.7
          ) +  # Barras y bordes verde claro
          geom_vline(
            xintercept = 250,
            color = "red",
            size = 1,
            linetype = "dashed"
          ) +  # Línea vertical roja punteada
          labs(
            title = "5 factores de beneficio",
            subtitle = "(Colegio NSE alto)",
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
            plot.subtitle = element_text(hjust = 0.5, size = 12),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

Protectores

Los factores protectores son elementos que pueden mitigar o compensar los efectos negativos de un entorno desfavorable, proporcionando apoyo y oportunidades que promueven el desarrollo y el bienestar de los individuos.

Individual NSE bajo (Acceso a internet y lectura)

PRIMER FILTRO

La gráfica ilustra la distribución de puntajes globales para estudiantes de nivel socioeconómico bajo y que accede poco tiempo en la información.Esta distribución muestra una asimetría, con una cola prolongada hacia la izquierda, indicando una tendencia hacia puntajes más bajos. La mayor concentración de estudiantes se encuentra entre los 170 y 270 puntos, con una moda aproximada de 200 puntos para aproximadamente 10,000 estudiantes.

    #Filtro 1
        protector_nse_ind <- saber2019limpio %>%
          filter(!is.na(ESTU_NSE_INDIVIDUAL)) %>%
          select(
            ESTU_NSE_INDIVIDUAL,
            PUNT_GLOBAL,
            ESTU_DEDICACIONINTERNET,
            ESTU_DEDICACIONLECTURADIARIA
          ) %>%
          filter(
            (ESTU_NSE_INDIVIDUAL == "1" | ESTU_NSE_INDIVIDUAL == "2") &
              (
                ESTU_DEDICACIONINTERNET == "No Navega Internet" |
                  ESTU_DEDICACIONINTERNET == "30 minutos o menos"
              ) &
              (
                ESTU_DEDICACIONLECTURADIARIA == "No leo por entretenimiento" |
                  ESTU_DEDICACIONLECTURADIARIA == "30 minutos o menos"
              )
          )
        
    #Histograma  1
        ggplot(protector_nse_ind, aes(x = PUNT_GLOBAL)) +
          geom_histogram(
            breaks = seq(0, 500, by = 20),
            fill = "skyblue",
            color = "darkblue",
            alpha = 0.7
          ) +
          geom_vline(
            xintercept = 250,
            color = "red",
            size = 1,
            linetype = "dashed"
          ) +
          labs(
            title = paste("NSE BAJO", "\n", "(Pero accede poco tiempo a la información)"),
            x = "Puntaje global",
            y = "Frecuencia"
          ) +
          theme_minimal() +
          theme(
            plot.title = element_text(
              hjust = 0.5,
              face = "bold",
              size = 14,
              lineheight = 0.8
            ),
            axis.title = element_text(face = "bold"),
            panel.grid.minor = element_blank()
          ) +
          scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
          scale_y_continuous(labels = comma)

SEGUNDO FILTRO

Esta gráfica representa el mismo entorno que la anterior gráfica, pero con un aumento en el tiempo de acceso a la información. Se evidencia como su asimetría no es tan pronunciada,mostrando unos mejores puntajes.También se resalta que son menos los estudiantes que acceden a la información moderamente frente a este entorno.

    #Filtro 2
    protector_nse_ind_2 <- saber2019limpio %>%
      filter(!is.na(ESTU_NSE_INDIVIDUAL)) %>%
      select(
        ESTU_NSE_INDIVIDUAL,
        PUNT_GLOBAL,
        ESTU_DEDICACIONINTERNET,
        ESTU_DEDICACIONLECTURADIARIA
      ) %>%
      filter(
        (ESTU_NSE_INDIVIDUAL == "1" | ESTU_NSE_INDIVIDUAL == "2") &
          (
            ESTU_DEDICACIONINTERNET == "Entre 30 y 60 minutos" |
              ESTU_DEDICACIONINTERNET == "Entre 1 y 3 horas"
          ) &
          (
            ESTU_DEDICACIONLECTURADIARIA == "Entre 30 y 60 minutos" |
              ESTU_DEDICACIONLECTURADIARIA == "Entre 1 y 2 horas"
          )
      )
    
    
    #Histograma 2
    
    ggplot(protector_nse_ind_2, aes(x = PUNT_GLOBAL)) +
      geom_histogram(
        breaks = seq(0, 500, by = 20),
        fill = "skyblue",
        color = "darkblue",
        alpha = 0.7
      ) +
      geom_vline(
        xintercept = 250,
        color = "red",
        size = 1,
        linetype = "dashed"
      ) +
      labs(
        title = paste("NSE BAJO", "\n", "(Pero accede moderadamente a la información)"),
        x = "Puntaje global",
        y = "Frecuencia"
      ) +
      theme_minimal() +
      theme(
        plot.title = element_text(
          hjust = 0.5,
          face = "bold",
          size = 14,
          lineheight = 0.8
        ),
        axis.title = element_text(face = "bold"),
        panel.grid.minor = element_blank()
      ) +
      scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
      scale_y_continuous(labels = comma)

TERCER FILTRO

Finalmente esta gráfica representa el mismo entorno que la anterior gráfica, pero que accede a la infomación aún más tiempo. Se evidencia como empieza tomar una forma más simétrica y son aun menos los estudiantes que accede intesamente a la información en este entorno.

    #Filtro 3
    protector_nse_ind_3 <- saber2019limpio %>%
      filter(!is.na(ESTU_NSE_INDIVIDUAL)) %>%
      select(
        ESTU_NSE_INDIVIDUAL,
        PUNT_GLOBAL,
        ESTU_DEDICACIONINTERNET,
        ESTU_DEDICACIONLECTURADIARIA
      ) %>%
      filter(
        (ESTU_NSE_INDIVIDUAL == "1" | ESTU_NSE_INDIVIDUAL == "2") &
          ESTU_DEDICACIONINTERNET == "Más de 3 horas"  &
          ESTU_DEDICACIONLECTURADIARIA == "Más de 2 horas"
      )
    
    
    #Histograma 3
    ggplot(protector_nse_ind_3, aes(x = PUNT_GLOBAL)) +
      geom_histogram(
        breaks = seq(0, 500, by = 20),
        fill = "skyblue",
        color = "darkblue",
        alpha = 0.7
      ) +
      geom_vline(
        xintercept = 250,
        color = "red",
        size = 1,
        linetype = "dashed"
      ) +
      labs(
        title = paste("NSE BAJO", "\n", "(Pero accede intensamente a la información)"),
        x = "Puntaje global",
        y = "Frecuencia"
      ) +
      theme_minimal() +
      theme(
        plot.title = element_text(
          hjust = 0.5,
          face = "bold",
          size = 14,
          lineheight = 0.8
        ),
        axis.title = element_text(face = "bold"),
        panel.grid.minor = element_blank()
      ) +
      scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
      scale_y_continuous(labels = comma)

Educación padres baja(Acceso a internet y lectura)

PRIMER FILTRO

La gráfica ilustra la distribución de puntajes globales para estudiantes con padres con educación menor a bachiller y que accede poco tiempo en la información.Esta distribución muestra nuevamente una asimetría, con una cola prolongada hacia la izquierda, indicando una tendencia hacia puntajes más bajos. La mayor concentración de estudiantes se encuentra entre los 160 y 240 puntos, con una moda aproximada de 200 puntos para aproximadamente 6,000 estudiantes.

    #Filtro 1
    protector_eduPadres <- saber2019limpio %>%
      filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
      select(PUNT_GLOBAL,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_DEDICACIONLECTURADIARIA,ESTU_DEDICACIONINTERNET) %>% 
      filter( (FAMI_EDUCACIONPADRE %in% c("Secundaria (Bachillerato) incompleta", "Primaria completa", "Primaria incompleta", "Ninguno")) &
              (FAMI_EDUCACIONMADRE %in% c("Secundaria (Bachillerato) incompleta", "Primaria completa", "Primaria incompleta", "Ninguno")) &
              (ESTU_DEDICACIONINTERNET == "No Navega Internet" | ESTU_DEDICACIONINTERNET == "30 minutos o menos") &
              (ESTU_DEDICACIONLECTURADIARIA == "No leo por entretenimiento" | ESTU_DEDICACIONLECTURADIARIA == "30 minutos o menos"))
    
    #Histograma 1
    ggplot(protector_eduPadres, aes(x = PUNT_GLOBAL)) +
      geom_histogram(breaks = seq(0, 500, by = 20), 
                     fill = "skyblue", color = "darkblue", alpha = 0.7) +
      geom_vline(xintercept = 250, color = "red", size = 1, linetype = "dashed") +
      labs(title = paste("Padres bajo nivel de educación", "\n", "(Pero accede poco tiempo a la información)"),
           x = "Puntaje global",
           y = "Frecuencia") +
      theme_minimal() +
      theme(
        plot.title = element_text(hjust = 0.5, face = "bold", size = 14, lineheight = 0.8),
        axis.title = element_text(face = "bold"),
        panel.grid.minor = element_blank()
      ) +
      scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
      scale_y_continuous(labels = comma)

SEGUNDO FILTRO

Esta gráfica representa el mismo entorno que la anterior gráfica, pero nuevamente con un aumento en el tiempo de acceso a la información. Se evidencia como su asimetría no es tan pronunciada,mostrando unos mejores puntajes.También se resalta que son menos los estudiantes que acceden a la información moderamente frente a este entorno.

    #Filtro 2
    protector_eduPadres_2 <- saber2019limpio %>%
      filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
      select(PUNT_GLOBAL,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_DEDICACIONLECTURADIARIA,ESTU_DEDICACIONINTERNET) %>% 
      filter( (FAMI_EDUCACIONPADRE %in% c("Secundaria (Bachillerato) incompleta", "Primaria completa", "Primaria incompleta", "Ninguno")) &
                (FAMI_EDUCACIONMADRE %in% c("Secundaria (Bachillerato) incompleta", "Primaria completa", "Primaria incompleta", "Ninguno")) &
                (ESTU_DEDICACIONINTERNET == "Entre 30 y 60 minutos" | ESTU_DEDICACIONINTERNET == "Entre 1 y 3 horas") &
                (ESTU_DEDICACIONLECTURADIARIA == "Entre 30 y 60 minutos" | ESTU_DEDICACIONLECTURADIARIA == "Entre 1 y 2 horas"))
    
    #Histograma 2
    ggplot(protector_eduPadres_2, aes(x = PUNT_GLOBAL)) +
      geom_histogram(breaks = seq(0, 500, by = 20), 
                     fill = "skyblue", color = "darkblue", alpha = 0.7) +
      geom_vline(xintercept = 250, color = "red", size = 1, linetype = "dashed") +
      labs(title = paste("Padres bajo nivel de educación", "\n", "(Pero accede moderadamente a la información)"),
           x = "Puntaje global",
           y = "Frecuencia") +
      theme_minimal() +
      theme(
        plot.title = element_text(hjust = 0.5, face = "bold", size = 14, lineheight = 0.8),
        axis.title = element_text(face = "bold"),
        panel.grid.minor = element_blank()
      ) +
      scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
      scale_y_continuous(labels = comma)

TERCER FILTRO

Finalmente esta gráfica representa el mismo entorno que la anterior gráfica, pero que accede a la infomación aún más tiempo. Se evidencia como empieza tomar una forma más simétrica y con menos concentración. Se resalta que la muestra disminuye drasticamente.

    #Filtro 3
    protector_eduPadres_3 <- saber2019limpio %>%
      filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
      select(PUNT_GLOBAL,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_DEDICACIONLECTURADIARIA,ESTU_DEDICACIONINTERNET) %>% 
      filter( (FAMI_EDUCACIONPADRE %in% c("Secundaria (Bachillerato) incompleta", "Primaria completa", "Primaria incompleta", "Ninguno")) &
                (FAMI_EDUCACIONMADRE %in% c("Secundaria (Bachillerato) incompleta", "Primaria completa", "Primaria incompleta", "Ninguno")) &
                ESTU_DEDICACIONINTERNET == "Más de 3 horas"  & ESTU_DEDICACIONLECTURADIARIA == "Más de 2 horas")
    
    #Histograma 3
    ggplot(protector_eduPadres_3, aes(x = PUNT_GLOBAL)) +
      geom_histogram(breaks = seq(0, 500, by = 20), 
                     fill = "skyblue", color = "darkblue", alpha = 0.7) +
      geom_vline(xintercept = 250, color = "red", size = 1, linetype = "dashed") +
      labs(title = paste("Padres bajo nivel de educación", "\n", "(Pero accede intensamente a la información)"),
           x = "Puntaje global",
           y = "Frecuencia") +
      theme_minimal() +
      theme(
        plot.title = element_text(hjust = 0.5, face = "bold", size = 14, lineheight = 0.8),
        axis.title = element_text(face = "bold"),
        panel.grid.minor = element_blank()
      ) +
      scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
      scale_y_continuous(labels = comma)

Colegio NSE bajo (Acceso a internet y lectura)

PRIMER FILTRO

La gráfica ilustra la distribución de puntajes globales para estudiantes en un colegio con un nivel socioeconómico bajo y que accede poco tiempo en la información.Esta distribución muestra, al igual que los otros entorno,una asimetría con una cola prolongada hacia la izquierda, indicando una tendencia hacia puntajes más bajos. La mayor concentración de estudiantes se encuentra entre los 160 y 240 puntos, con una moda aproximada de 230 puntos para aproximadamente 30,000 estudiantes.

    #Filtro 1
    protector_nse_col <- saber2019limpio %>%
      filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
      select(
        PUNT_GLOBAL,
        ESTU_NSE_ESTABLECIMIENTO,
        ESTU_DEDICACIONLECTURADIARIA,
        ESTU_DEDICACIONINTERNET
      ) %>%
      filter(
        (
          ESTU_NSE_ESTABLECIMIENTO == "1" |
            ESTU_NSE_ESTABLECIMIENTO == "2"
        ) &
          (
            ESTU_DEDICACIONLECTURADIARIA == "No leo por entretenimiento" |
              ESTU_DEDICACIONLECTURADIARIA == "30 minutos o menos"
          )
      )
    
    #Histograma 1
    ggplot(protector_nse_col, aes(x = PUNT_GLOBAL)) +
      geom_histogram(
        breaks = seq(0, 500, by = 20),
        fill = "skyblue",
        color = "darkblue",
        alpha = 0.7
      ) +
      geom_vline(
        xintercept = 250,
        color = "red",
        size = 1,
        linetype = "dashed"
      ) +
      labs(
        title = paste(
          "Colegio NSE bajo",
          "\n",
          "(Pero accede poco tiempo a la información)"
        ),
        x = "Puntaje global",
        y = "Frecuencia"
      ) +
      theme_minimal() +
      theme(
        plot.title = element_text(
          hjust = 0.5,
          face = "bold",
          size = 14,
          lineheight = 0.8
        ),
        axis.title = element_text(face = "bold"),
        panel.grid.minor = element_blank()
      ) +
      scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
      scale_y_continuous(labels = comma)

SEGUNDO FILTRO Esta gráfica representa el mismo entorno que la anterior gráfica, pero con un aumento en el tiempo de acceso a la información. Se evidencia, al igual que en los otros dos entornos desfavorables, como su asimetría no es tan pronunciada,mostrando unos mejores puntajes, con una menor muestra de estos.

    #Filtro 2
    protector_nse_col2 <- saber2019limpio %>%
      filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
      select(
        PUNT_GLOBAL,
        ESTU_NSE_ESTABLECIMIENTO,
        ESTU_DEDICACIONLECTURADIARIA,
        ESTU_DEDICACIONINTERNET
      ) %>%
      filter(
        (
          ESTU_NSE_ESTABLECIMIENTO == "1" |
            ESTU_NSE_ESTABLECIMIENTO == "2"
        ) &
          (
            ESTU_DEDICACIONINTERNET == "Entre 30 y 60 minutos" |
              ESTU_DEDICACIONINTERNET == "Entre 1 y 3 horas"
          ) &
          (
            ESTU_DEDICACIONLECTURADIARIA == "Entre 30 y 60 minutos" |
              ESTU_DEDICACIONLECTURADIARIA == "Entre 1 y 2 horas"
          )
      )

    #Histograma 2
    ggplot(protector_nse_col2, aes(x = PUNT_GLOBAL)) +
      geom_histogram(
        breaks = seq(0, 500, by = 20),
        fill = "skyblue",
        color = "darkblue",
        alpha = 0.7
      ) +
      geom_vline(
        xintercept = 250,
        color = "red",
        size = 1,
        linetype = "dashed"
      ) +
      labs(
        title = paste(
          "Colegio NSE bajo",
          "\n",
          "(Pero accede moderadamente a la información)"
        ),
        x = "Puntaje global",
        y = "Frecuencia"
      ) +
      theme_minimal() +
      theme(
        plot.title = element_text(
          hjust = 0.5,
          face = "bold",
          size = 14,
          lineheight = 0.8
        ),
        axis.title = element_text(face = "bold"),
        panel.grid.minor = element_blank()
      ) +
      scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
      scale_y_continuous(labels = comma)

TERCER FILTRO Finalmente esta gráfica representa el mismo entorno que la anterior gráfica, pero que accede a la infomación aún más tiempo. Al igual que en los demás entornos, se evidencia como empieza tomar una forma más simétrica,con menos concentración y menor toma muestral.

    #Filtro 3
        protector_nse_col3 <- saber2019limpio %>%
          filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
          select(
            PUNT_GLOBAL,
            ESTU_NSE_ESTABLECIMIENTO,
            ESTU_DEDICACIONLECTURADIARIA,
            ESTU_DEDICACIONINTERNET
          ) %>%
          filter(
            (
              ESTU_NSE_ESTABLECIMIENTO == "1" |
                ESTU_NSE_ESTABLECIMIENTO == "2"
            ) &
              ESTU_DEDICACIONINTERNET == "Más de 3 horas"  &
              ESTU_DEDICACIONLECTURADIARIA == "Más de 2 horas"
          )
        
    #Histograma 3
    ggplot(protector_nse_col3, aes(x = PUNT_GLOBAL)) +
      geom_histogram(
        breaks = seq(0, 500, by = 20),
        fill = "skyblue",
        color = "darkblue",
        alpha = 0.7
      ) +
      geom_vline(
        xintercept = 250,
        color = "red",
        size = 1,
        linetype = "dashed"
      ) +
      labs(
        title = paste(
          "Colegio NSE bajo",
          "\n",
          "(Pero accede intensamente a la información)"
        ),
        x = "Puntaje global",
        y = "Frecuencia"
      ) +
      theme_minimal() +
      theme(
        plot.title = element_text(
          hjust = 0.5,
          face = "bold",
          size = 14,
          lineheight = 0.8
        ),
        axis.title = element_text(face = "bold"),
        panel.grid.minor = element_blank()
      ) +
      scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
      scale_y_continuous(labels = comma)

🗒Discusiones

Análisis exploratorio de datos

Al evaluar como afecta individualmente cada factor en los resultados de la prueba SABER 11, muestra las diferentes formas y maneras en que se puede afectar el rendimiento de un estudiante, resaltando principalmente a los asociados en el nivel socioeconómico, nivel de educación de los padres y acceso a los recursos.Estos a su vez se ven reflejado en la distribución del tiempo que tienen para educarse y trabajar.

Por otro lado, el tipo de jornada de la instituciones educativas muestran efectividad de aprendizaje según la franja horaria e intensidad, su ubicación como determinante de acceso a los recursos e inversión y como el modelo de las intituciones biligües en Colombia no logra evidenciar una mejora significativa en esta área.

Acumulación de Factores

La acumulación de los factores ayuda a estimar como realmente son las condiciones de vida de un estudiante, al tener presente que no lo afecta un único factor a la vez. Por tanto en esta sección se reflejó distribuciones muy marcadas para los casos de los desfavorables y favorables,trazando una gran brecha de desigualdad en el estudiantado.

Protectores

El hábito de lectura y acceso a internet con una intensidad entre 2 a 3 horas diarias, en presencia de un factor desfavorable muestra mitigar la brecha de desigualdad, pero que pocos estudiantes logran desarrollar. Naciendo así la necesidad de que las instituciones educativas brinden herramientas que puedan promover el desarrollo personal.

✏️ Conclusión general

En síntesis, se revela que las desigualdades socioeconómicas y la disponibilidad de recursos educativos tienen un impacto significativo en los resultados académicos. Factores como el nivel socioeconómico, educación de los padres, acceso a la tecnología y modelos de algunas instituciones son determinantes clave del rendimiento en la PRUEBA SABER 11. Es fundamental abordar estas desigualdades mediante políticas educativas inclusivas y equitativas que brinden a todos los estudiantes las oportunidades y recursos necesarios para alcanzar su máximo potencial académico.

Se demuestra que la acumulación de factores desfavorables puede crear brechas significativas para los estudiantes, limitando sus oportunidades educativas y afectando su desarrollo personal, por el contrario, la acumulación de factores favorables potencializa el desempeño académico, indicando así que la presencialidad de al menos uno de estos factores en entornos desfavorables puede generar grandes cambios en los resultados de rendimiento.

Finalmente, el buen uso del tiempo frente a entornos desfavorables evidencia ser un protector que ayuda a mejorar el rendimiento del estudiante, hábitos que pocos de ellos logran desarrollar, por lo tanto, es crucial implementar estrategias integradoras y apoyar iniciativas que fortalezcan los factores protectores para abarcar efectivamente un desarrollo social, emocional, cognitivo y académico que permitan afrontar y adaptarse a un entorno desfavorable, con el objetivo de reducir la brecha que muestra afectar el rendimiento de los estudiantes.

📓 Referencias

[1] Icfes (2019). Informe Nacional de resultados del Examen Saber 11° 2019. Recuperado de https://www.icfes.gov.co/documents/39286/2656516/3-Informe+nacional+de+resultados+Saber+11-2019.pdf/e771f477-b3f3-3193-732e-7c43da1766b9?version=1.0&t=1650317549762

[2]Plataforma Nacional de Datos Abiertos de Colombia. Recuperado de https://www.datos.gov.co/Educaci-n/Saber-11-2019-2/ynam-yc42/about_data

[3] Chong González, E. G. (2019). Factores que inciden en el rendimiento académico de los estudiantes de la Universidad Politécnica del Valle de Toluca. Revista Latinoamericana de Estudios Educativos, 47(1), 91-108. https://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S0185-26982019000200118#aff1