El rendimiento académico de los estudiantes en el examen Saber 11 es un indicador crucial de la calidad de la educación en Colombia. Este examen, administrado por el Instituto Colombiano para la Evaluación de la Educación (ICFES), evalúa el nivel de conocimientos y habilidades adquiridos por los estudiantes al final de su educación media.
Para abordar este problema, se utiliza los datos del examen Saber 11 del segundo semestre de 2019. El conjunto de datos incluye variables como puntajes en diferentes áreas (matemáticas, lectura crítica, ciencias naturales, sociales y ciudadanas, e inglés), así como información demográfica y socioeconómica de los estudiantes.
El objetivo de este proyecto es explorar el conjunto de datos de las pruebas Saber 11° del segundo semestre de 2019 y busca responder la siguiente pregunta: ¿De qué manera influyen en el rendimiento académico de los estudiantes los factores relacionados con el entorno familiar, el acceso a la información, la gestión del tiempo y el contexto escolar, y qué estrategias pueden implementarse para mitigar sus efectos negativos?
La metodología empleada se llevo acabo mediante las siguientes etapas:
Recolección y Filtrado de Datos: Obtención y filtrado de los datos específicos de los estudiantes para cada factor.
Limpieza de Datos: Selección de las variables clave asociadas a los factores que influyen en el rendimiento académico.
Análisis Descriptivo: Cálculo de estadísticas descriptivas y visualización de la distribución de los puntajes.
Visualización de Resultados: Representación gráfica de los hallazgos para facilitar la interpretación y comunicación de los resultados.
Los resultados ayudarán a los siguientes consumidores de diferentes maneras:
Educadores y administradores escolares: Podrán identificar áreas de mejora y diseñar intervenciones específicas para apoyar a los estudiantes con menor rendimiento.
Formuladores de políticas: Obtendrán datos concretos para desarrollar políticas educativas más equitativas y efectivas, enfocadas en reducir las desigualdades socioeconómicas y mejorar el acceso a recursos educativos.
Padres y estudiantes: Tendrán una mejor comprensión de cómo los factores socioeconómicos y demográficos afectan el rendimiento académico.
Investigadores: El análisis proporcionará una base para estudios futuros, permitiendo una comparación con otras regiones y la evaluación de la efectividad de diferentes intervenciones educativas.
| Nombre del paquete | Función |
|---|---|
| library(readr) | Es una librería diseñada para la importación rápida y eficiente de datos en R. Se utiliza principalmente para leer archivos de texto y CSV. |
| library(dplyr) | Es una librería para la manipulación de datos. Ofrece una gramática coherente y fácil de usar para realizar operaciones comunes de transformación de datos, como filtrar filas según condiciones. |
| library(ggplot2) | Se basa en la gramática de gráficos, lo que permite crear visualizaciones de datos complejas de manera eficiente y con una sintaxis coherente. |
| library(plotly) | Es una librería para crear gráficos interactivos y dinámicos. Está basada en la biblioteca JavaScript Plotly y se puede integrar con ggplot2 para añadir interactividad a los gráficos creados con esta última. |
| library(scales) | Se utiliza para escalar, manipular y formatear datos para visualizaciones. Es especialmente útil con ggplot2 para aplicar transformaciones matemáticas, formatear etiquetas en ejes, manejar paletas de colores y ajustar límites de gráficos. |
La base de datos del “Examen de Estado de la Educación Media, Saber 11” cuenta con 82 variables, las cuales tienen el propósito de evaluar la calidad de la educación a nivel nacional, con un contexto social y económico a quienes finalizan su educación media en segundo semestre del 2019.
Se resalta la existencia de diferentes versiones de esta prueba para personas con discapacidad y personas de poblaciones étnicas cuya segunda lengua sea el español, por lo cuál ciertos datos estarán incompletos.
Se toma la base de datos de resultados anonimizados de las pruebas de Saber 11 del segundo semestre del año 2019:
https://www.datos.gov.co/Educaci-n/Saber-11-2019-2/ynam-yc42/about_data
Se importa el archivo CSV y se evalúa las 82 columnas.
#Importar csv
saber2019 <- read_csv("C:/Users/kmate/OneDrive/Escritorio/Saber_11__2019-2_20240523.csv")> colnames(saber2019)
[1] "ESTU_TIPODOCUMENTO" [2] "ESTU_NACIONALIDAD"
[3] "ESTU_GENERO" [4] "ESTU_FECHANACIMIENTO"
[5] "PERIODO" [6] "ESTU_CONSECUTIVO"
[7] "ESTU_ESTUDIANTE" [8] "ESTU_TIENEETNIA"
[9] "ESTU_PAIS_RESIDE" [10] "ESTU_ETNIA"
[11] "ESTU_DEPTO_RESIDE" [12] "ESTU_COD_RESIDE_DEPTO"
[13] "ESTU_MCPIO_RESIDE" [14] "ESTU_COD_RESIDE_MCPIO"
[15] "FAMI_ESTRATOVIVIENDA" [16] "FAMI_PERSONASHOGAR"
[17] "FAMI_CUARTOSHOGAR" [18] "FAMI_EDUCACIONPADRE"
[19] "FAMI_EDUCACIONMADRE" [20] "FAMI_TRABAJOLABORPADRE"
[21] "FAMI_TRABAJOLABORMADRE" [22] "FAMI_TIENEINTERNET"
[23] "FAMI_TIENESERVICIOTV" [24] "FAMI_TIENECOMPUTADOR"
[25] "FAMI_TIENELAVADORA" [26] "FAMI_TIENEHORNOMICROOGAS"
[27] "FAMI_TIENEAUTOMOVIL" [28] "FAMI_TIENEMOTOCICLETA"
[29] "FAMI_TIENECONSOLAVIDEOJUEGOS" [30] "FAMI_NUMLIBROS"
[31] "FAMI_COMELECHEDERIVADOS" [32] "FAMI_COMECARNEPESCADOHUEVO"
[33] "FAMI_COMECEREALFRUTOSLEGUMBRE" [34] "FAMI_SITUACIONECONOMICA"
[35] "ESTU_DEDICACIONLECTURADIARIA" [36] "ESTU_DEDICACIONINTERNET"
[37] "ESTU_HORASSEMANATRABAJA" [38] "ESTU_TIPOREMUNERACION"
[39] "COLE_CODIGO_ICFES" [40] "COLE_COD_DANE_ESTABLECIMIENTO"
[41] "COLE_NOMBRE_ESTABLECIMIENTO" [42] "COLE_GENERO"
[43] "COLE_NATURALEZA" [44] "COLE_CALENDARIO"
[45] "COLE_BILINGUE" [46] "COLE_CARACTER"
[47] "COLE_COD_DANE_SEDE" [48] "COLE_NOMBRE_SEDE"
[49] "COLE_SEDE_PRINCIPAL" [50] "COLE_AREA_UBICACION"
[51] "COLE_JORNADA" [52] "COLE_COD_MCPIO_UBICACION"
[53] "COLE_MCPIO_UBICACION" [54] "COLE_COD_DEPTO_UBICACION"
[55] "COLE_DEPTO_UBICACION" [56] "ESTU_PRIVADO_LIBERTAD"
[57] "ESTU_COD_MCPIO_PRESENTACION" [58] "ESTU_MCPIO_PRESENTACION"
[59] "ESTU_DEPTO_PRESENTACION" [60] "ESTU_COD_DEPTO_PRESENTACION"
[61] "PUNT_LECTURA_CRITICA" [62] "PERCENTIL_LECTURA_CRITICA"
[63] "DESEMP_LECTURA_CRITICA" [64] "PUNT_MATEMATICAS"
[65] "PERCENTIL_MATEMATICAS" [66] "DESEMP_MATEMATICAS"
[67] "PUNT_C_NATURALES" [68] "PERCENTIL_C_NATURALES"
[69] "DESEMP_C_NATURALES" [70] "PUNT_SOCIALES_CIUDADANAS"
[71] "PERCENTIL_SOCIALES_CIUDADANAS" [72] "DESEMP_SOCIALES_CIUDADANAS"
[73] "PUNT_INGLES" [74] "PERCENTIL_INGLES"
[75] "DESEMP_INGLES" [76] "PUNT_GLOBAL"
[77] "PERCENTIL_GLOBAL" [78] "ESTU_INSE_INDIVIDUAL"
[79] "ESTU_NSE_INDIVIDUAL" [80] "ESTU_NSE_ESTABLECIMIENTO"
[81] "ESTU_ESTADOINVESTIGACION" [82] "ESTU_GENERACION-E" Este bloque de código se encarga de realizar una limpieza básica del conjunto de datos saber2019limpio.
#Limpieza
saber2019limpio <- saber2019 %>%
select(
ESTU_NSE_INDIVIDUAL,
FAMI_ESTRATOVIVIENDA,
FAMI_EDUCACIONPADRE,
FAMI_EDUCACIONMADRE,
FAMI_TIENEINTERNET,
FAMI_TIENECOMPUTADOR,
FAMI_NUMLIBROS,
ESTU_DEDICACIONLECTURADIARIA,
ESTU_DEDICACIONINTERNET,
ESTU_HORASSEMANATRABAJA,
COLE_BILINGUE,
COLE_AREA_UBICACION,
COLE_DEPTO_UBICACION,
COLE_JORNADA,
ESTU_NSE_ESTABLECIMIENTO,
PUNT_INGLES,
PUNT_GLOBAL
) La limpieza redujo de 82 variables a 17, la cual se realiza en base a las variables más relevantes que permitan evaluar los 4 factores que afectan el rendimiento del estudiante:
Este proceso de limpieza y la selección de variables aseguran que el conjunto de datos esté listo para un análisis detallado y significativo, centrado en las áreas más relevantes para el estudio.
A continuación, se describe la manera en qué se filtró los datos para cada sección en el análisis:
-Filtrado por factores: *
Para cada sección se examinan los valores únicos de cada variable y se realiza un filtrado específico de acuerdo a los valores únicos encontrados, evitando para algunos casos datos como “NA” y “-” , y por consiguiente no generar inconsistencias o errores.
A continuación se describe las variables utilizadas:
| N | Nombre | Descripción | Tipo de dato |
|---|---|---|---|
| 1 | ESTU_NSE_INDIVIDUAL | Nivel socioeconómico del examinado | Número |
| 2 | FAMI_ESTRATOVIVIENDA | Estrato socioeconómico de la vivienda | Texto |
| 3 | FAMI_EDUCACIONPADRE | Nivel educativo del padre | Texto |
| 4 | FAMI_EDUCACIONMADRE | Nivel educativo de la madre | Texto |
| 5 | FAMI_TIENEINTERNET | Indica si tiene internet en el hogar | Texto |
| 6 | FAMI_TIENECOMPUTADOR | Indica si tiene computador en el hogar | Texto |
| 7 | FAMI_NUMLIBROS | Cantidad de libros que hay en el hogar | Texto |
| 8 | ESTU_DEDICACIONLECTURA DIARIA | Tiempo de lectura diaria | Texto |
| 9 | ESTU_DEDICACIONINTERNET | Tiempo de navegación en internet | Texto |
| 10 | ESTU_HORASSEMANATRABAJA | Horas de trabajo por semana | Texto |
| 11 | COLE_BILINGUE | Indica si el colegio es bilingüe | Texto |
| 12 | COLE_AREA_UBICACION | Área de ubicación de la sede (rural o urbana) | Texto |
| 13 | COLE_JORNADA | Jornada de la sede | Texto |
| 14 | ESTU_NSE_ESTABLECIMIENTO | Nivel socioeconómico del establecimiento | Número |
| 15 | COLE_DEPTO_UBICACION | Ubicación departamental del colegio | Texto |
| 16 | PUNT_INGLES | Puntaje en inglés | Número |
| 17 | PUNT_GLOBAL | Puntaje global | Número |
A continuación se muestra un previsualización de los primeros 100 registros:
| ESTU_NSE_INDIVIDUAL | FAMI_ESTRATOVIVIENDA | FAMI_EDUCACIONPADRE | FAMI_EDUCACIONMADRE | FAMI_TIENEINTERNET | FAMI_TIENECOMPUTADOR | FAMI_NUMLIBROS | ESTU_DEDICACIONLECTURADIARIA | ESTU_DEDICACIONINTERNET | ESTU_HORASSEMANATRABAJA | COLE_BILINGUE | COLE_AREA_UBICACION | COLE_DEPTO_UBICACION | COLE_JORNADA | ESTU_NSE_ESTABLECIMIENTO | PUNT_INGLES | PUNT_GLOBAL |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2 | Estrato 3 | Educación profesional completa | Secundaria (Bachillerato) completa | Si | No | MÁS DE 100 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | Menos de 10 horas | N | URBANO | MAGDALENA | MAÑANA | 2 | 54 | 208 |
| 3 | Estrato 3 | Técnica o tecnológica completa | Técnica o tecnológica completa | Si | Si | MÁS DE 100 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | Menos de 10 horas |
|
URBANO | BOGOTÁ | COMPLETA | 4 | 63 | 299 |
| 2 | Estrato 1 | Secundaria (Bachillerato) completa | Secundaria (Bachillerato) completa | No | No | 26 A 100 LIBROS | Entre 30 y 60 minutos | Más de 3 horas | 0 | N | URBANO | BOLIVAR | MAÑANA | 3 | 64 | 299 |
| 2 | Estrato 3 | Primaria incompleta | Secundaria (Bachillerato) completa | No | Si | 11 A 25 LIBROS | 30 minutos o menos | Entre 30 y 60 minutos | Más de 30 horas |
|
URBANO | BOGOTÁ | MAÑANA | 3 | 53 | 309 |
| 3 | Estrato 3 | Secundaria (Bachillerato) completa | Secundaria (Bachillerato) incompleta | Si | Si | 26 A 100 LIBROS | No leo por entretenimiento | Más de 3 horas | Más de 30 horas | N | URBANO | BOGOTÁ | MAÑANA | 3 | 52 | 288 |
| 2 |
|
|
NA |
|
Si |
|
|
NA | Menos de 10 horas |
|
URBANO | ATLANTICO | NOCHE | 2 | 35 | 198 |
| 4 | Estrato 4 | Técnica o tecnológica completa | Postgrado | Si | Si | MÁS DE 100 LIBROS | 30 minutos o menos | Entre 30 y 60 minutos | 0 | S | URBANO | VALLE | MAÑANA | 3 | 72 | 355 |
| 3 | Estrato 3 | Educación profesional completa | Educación profesional completa | Si | Si | MÁS DE 100 LIBROS | Entre 1 y 2 horas | Más de 3 horas | Menos de 10 horas | N | URBANO | SANTANDER | UNICA | 3 | 60 | 313 |
| 3 | Estrato 3 | No sabe | Secundaria (Bachillerato) completa | Si | Si | 26 A 100 LIBROS | No leo por entretenimiento | Entre 1 y 3 horas | 0 | N | URBANO | CUNDINAMARCA | TARDE | 2 | 63 | 288 |
| 3 | Estrato 3 | Secundaria (Bachillerato) completa | Técnica o tecnológica completa | Si | Si | 11 A 25 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | 0 |
|
URBANO | SUCRE | MAÑANA | 3 | 51 | 336 |
| 2 | Estrato 1 | Secundaria (Bachillerato) incompleta | Secundaria (Bachillerato) incompleta | No | No | 0 A 10 LIBROS | Entre 30 y 60 minutos | No Navega Internet | Menos de 10 horas | N | URBANO | BOLIVAR | MAÑANA | 2 | 38 | 187 |
| 3 | Estrato 3 | Primaria completa | Educación profesional completa | Si | Si | MÁS DE 100 LIBROS | 30 minutos o menos | Entre 30 y 60 minutos | Menos de 10 horas |
|
RURAL | MAGDALENA | MAÑANA | 2 | 24 | 166 |
| 4 | Estrato 4 | No sabe | No sabe | Si | Si | 26 A 100 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | 0 |
|
URBANO | BOGOTÁ | MAÑANA | 3 | 68 | 302 |
| 4 | Estrato 3 | Secundaria (Bachillerato) completa | Postgrado | Si | Si | 26 A 100 LIBROS | No leo por entretenimiento | Entre 1 y 3 horas | 0 | N | URBANO | BOGOTÁ | COMPLETA | 3 | 58 | 281 |
| 2 | Estrato 3 | Secundaria (Bachillerato) incompleta | Secundaria (Bachillerato) incompleta | No | Si | 0 A 10 LIBROS | No leo por entretenimiento | Entre 1 y 3 horas | Más de 30 horas | N | URBANO | ANTIOQUIA | NOCHE | 3 | 44 | 220 |
| 3 | Estrato 1 | Secundaria (Bachillerato) completa | Educación profesional incompleta | Si | Si | 0 A 10 LIBROS | No leo por entretenimiento | 30 minutos o menos | 0 | N | RURAL | CESAR | MAÑANA | 2 | 46 | 269 |
| NA | Estrato 3 | Secundaria (Bachillerato) incompleta | Secundaria (Bachillerato) completa | Si |
|
26 A 100 LIBROS | Entre 30 y 60 minutos | 30 minutos o menos |
|
N | URBANO | BOYACA | MAÑANA | 2 | 67 | 319 |
| 3 | Estrato 2 | Primaria completa | Educación profesional completa | Si | Si | MÁS DE 100 LIBROS | 30 minutos o menos | Entre 1 y 3 horas | 0 | N | URBANO | HUILA | COMPLETA | 3 | 55 | 263 |
| NA |
|
NA |
|
NA | NA | NA |
|
NA |
|
N | URBANO | VALLE | MAÑANA | 2 | 44 | 234 |
| NA |
|
NA |
|
|
Si |
|
|
NA | 0 | N | URBANO | ATLANTICO | MAÑANA | 3 | 54 | 238 |
| 4 | Estrato 2 | Educación profesional incompleta | Educación profesional completa | Si | Si | 26 A 100 LIBROS | Entre 1 y 2 horas | Más de 3 horas | 0 | N | URBANO | BOGOTÁ | COMPLETA | 3 | 59 | 292 |
| 3 | Estrato 2 | Técnica o tecnológica completa | Secundaria (Bachillerato) completa | Si | Si | 0 A 10 LIBROS | 30 minutos o menos | Entre 1 y 3 horas | 0 | N | URBANO | BOGOTÁ | MAÑANA | 2 | 56 | 242 |
| 3 | Estrato 2 | Técnica o tecnológica completa | Técnica o tecnológica completa | Si | Si | 0 A 10 LIBROS | 30 minutos o menos | Entre 1 y 3 horas | 0 |
|
URBANO | ATLANTICO | UNICA | 3 | 64 | 262 |
| NA |
|
NA |
|
NA | NA | NA |
|
NA |
|
N | URBANO | ATLANTICO | UNICA | 2 | 24 | 170 |
| 4 | Estrato 3 | Educación profesional completa | Técnica o tecnológica completa | Si | Si | 26 A 100 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | Menos de 10 horas |
|
URBANO | CASANARE | COMPLETA | 4 | 69 | 298 |
| 1 | Estrato 4 | Postgrado | Ninguno | No | No | 0 A 10 LIBROS | Entre 30 y 60 minutos | 30 minutos o menos | Más de 30 horas | N | URBANO | BOGOTÁ | NOCHE | 3 | 64 | 350 |
| 2 | Estrato 2 | Secundaria (Bachillerato) completa | Técnica o tecnológica completa | Si | Si | 0 A 10 LIBROS | 30 minutos o menos | Entre 1 y 3 horas | 0 | N | URBANO | ATLANTICO | UNICA | 2 | 64 | 276 |
| 3 | Estrato 2 | Secundaria (Bachillerato) completa | Secundaria (Bachillerato) completa | Si | Si | 26 A 100 LIBROS | 30 minutos o menos | Entre 30 y 60 minutos | 0 | N | URBANO | BOGOTÁ | COMPLETA | 3 | 46 | 237 |
| NA |
|
NA |
|
NA | NA | NA |
|
NA |
|
S | RURAL | CAUCA | SABATINA | 1 | 36 | 200 |
| 3 | Estrato 2 | Educación profesional completa | Educación profesional completa | Si | Si | 11 A 25 LIBROS | Entre 1 y 2 horas | Entre 1 y 3 horas | Menos de 10 horas | N | RURAL | CASANARE | MAÑANA | 2 | 78 | 318 |
| 2 | Estrato 1 | Primaria incompleta | Secundaria (Bachillerato) completa | No | Si | 26 A 100 LIBROS | 30 minutos o menos | 30 minutos o menos | 0 |
|
URBANO | ATLANTICO | MAÑANA | 2 | 51 | 211 |
| 1 | Estrato 1 | Primaria completa | Ninguno | No | No | 0 A 10 LIBROS | 30 minutos o menos | 30 minutos o menos | 0 | N | URBANO | CORDOBA | MAÑANA | 2 | 42 | 254 |
| 2 | Estrato 2 | Secundaria (Bachillerato) incompleta | Secundaria (Bachillerato) incompleta | Si | Si | 0 A 10 LIBROS | Entre 1 y 2 horas | Entre 1 y 3 horas | Menos de 10 horas | N | URBANO | NORTE SANTANDER | UNICA | 2 | 68 | 309 |
| 2 | Estrato 1 | Secundaria (Bachillerato) completa | Secundaria (Bachillerato) completa | No | No | 0 A 10 LIBROS | 30 minutos o menos | No Navega Internet | 0 | N | RURAL | CORDOBA | UNICA | 2 | 51 | 256 |
| 3 | Estrato 3 | Educación profesional completa | Educación profesional completa | Si | No | 0 A 10 LIBROS | No leo por entretenimiento | Más de 3 horas | 0 | N | URBANO | CUNDINAMARCA | MAÑANA | 2 | 49 | 258 |
| 3 | Estrato 3 | Secundaria (Bachillerato) incompleta | Secundaria (Bachillerato) completa | Si | No | 0 A 10 LIBROS | Entre 30 y 60 minutos | Entre 1 y 3 horas | 0 |
|
URBANO | ATLANTICO | COMPLETA | 3 | 40 | 266 |
| 2 | Estrato 1 | Secundaria (Bachillerato) completa | Secundaria (Bachillerato) completa | No | No | 0 A 10 LIBROS | 30 minutos o menos | Más de 3 horas | 0 |
|
RURAL | ATLANTICO | MAÑANA | 2 | 35 | 155 |
| NA | Estrato 2 | Secundaria (Bachillerato) incompleta | Técnica o tecnológica incompleta | No |
|
26 A 100 LIBROS | Entre 1 y 2 horas | 30 minutos o menos |
|
N | URBANO | BOGOTÁ | UNICA | 3 | 64 | 313 |
| 3 | Estrato 1 | Secundaria (Bachillerato) completa | Educación profesional completa | Si | Si | 0 A 10 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | 0 | N | URBANO | CESAR | TARDE | 2 | 66 | 283 |
| 2 | Estrato 5 | Secundaria (Bachillerato) incompleta | Primaria incompleta | Si | No | 0 A 10 LIBROS | 30 minutos o menos | Entre 1 y 3 horas | 0 |
|
URBANO | BOLIVAR | MAÑANA | 3 | 33 | 179 |
| 2 | Estrato 3 | Secundaria (Bachillerato) incompleta | Técnica o tecnológica completa | No | No |
|
30 minutos o menos | Entre 30 y 60 minutos | Entre 21 y 30 horas | N | URBANO | CUNDINAMARCA | MAÑANA | 2 | 67 | 305 |
| 3 | Estrato 3 | Educación profesional incompleta | Técnica o tecnológica incompleta | Si | Si | MÁS DE 100 LIBROS | Más de 2 horas | Más de 3 horas | 0 | N | RURAL | QUINDIO | MAÑANA | 3 | 82 | 318 |
| 3 | Estrato 1 | No sabe | Educación profesional completa | Si | Si | 0 A 10 LIBROS | 30 minutos o menos | Más de 3 horas | Menos de 10 horas |
|
URBANO | ARAUCA | COMPLETA | 3 | 50 | 242 |
| 3 | Estrato 2 | Secundaria (Bachillerato) incompleta | Educación profesional completa | Si | Si | 11 A 25 LIBROS | Entre 30 y 60 minutos | Entre 1 y 3 horas | 0 |
|
URBANO | ATLANTICO | UNICA | 3 | 72 | 321 |
| 4 | Estrato 3 | Educación profesional incompleta | Técnica o tecnológica completa | Si | Si | 26 A 100 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | 0 | N | URBANO | ANTIOQUIA | UNICA | 3 | 50 | 250 |
| 3 | Estrato 3 | Técnica o tecnológica completa | Secundaria (Bachillerato) completa | Si | Si | 11 A 25 LIBROS | Entre 30 y 60 minutos | Más de 3 horas | Entre 11 y 20 horas | N | URBANO | NORTE SANTANDER | MAÑANA | 2 | 69 | 333 |
| 3 | Estrato 3 | No sabe | Secundaria (Bachillerato) completa | Si | Si | 11 A 25 LIBROS | Entre 1 y 2 horas | Más de 3 horas | Menos de 10 horas | N | URBANO | ATLANTICO | UNICA | 3 | 72 | 293 |
| 3 | Estrato 2 | Secundaria (Bachillerato) completa | Técnica o tecnológica completa | Si | Si | 26 A 100 LIBROS | 30 minutos o menos | Más de 3 horas | 0 | N | URBANO | BOGOTÁ | MAÑANA | 3 | 70 | 357 |
| 3 | Estrato 2 | Secundaria (Bachillerato) completa | Técnica o tecnológica incompleta | Si | Si | 11 A 25 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | Menos de 10 horas | N | URBANO | SANTANDER | MAÑANA | 3 | 59 | 318 |
| 3 | Estrato 2 | Técnica o tecnológica incompleta | Técnica o tecnológica completa | Si | Si | 26 A 100 LIBROS | Entre 30 y 60 minutos | Entre 1 y 3 horas | Entre 21 y 30 horas | N | URBANO | META | TARDE | 2 | 53 | 250 |
| 1 | Estrato 4 | Primaria incompleta | Primaria incompleta | No | No | 0 A 10 LIBROS | 30 minutos o menos | Entre 30 y 60 minutos | 0 |
|
RURAL | SUCRE | MAÑANA | 1 | 40 | 227 |
| 3 | Estrato 4 | Secundaria (Bachillerato) incompleta | Secundaria (Bachillerato) completa | Si | Si | 0 A 10 LIBROS | No leo por entretenimiento | Entre 1 y 3 horas | 0 |
|
URBANO | ATLANTICO | COMPLETA | 2 | 54 | 284 |
| 2 | Estrato 1 | No Aplica | Secundaria (Bachillerato) completa | No | Si | 0 A 10 LIBROS | 30 minutos o menos | Más de 3 horas | 0 | N | URBANO | CESAR | MAÑANA | 2 | 30 | 212 |
| 2 | Estrato 2 | Primaria completa | Secundaria (Bachillerato) incompleta | Si | Si | 11 A 25 LIBROS | Entre 1 y 2 horas | Entre 30 y 60 minutos | 0 | N | URBANO | CUNDINAMARCA | MAÑANA | 3 | 50 | 232 |
| 3 | Estrato 1 | Técnica o tecnológica completa | Educación profesional incompleta | Si | Si | 26 A 100 LIBROS | 30 minutos o menos | Entre 1 y 3 horas | 0 | N | URBANO | BOLIVAR | MAÑANA | 2 | 59 | 280 |
| 2 | Estrato 1 | Secundaria (Bachillerato) completa | Primaria completa | Si | Si | 0 A 10 LIBROS | Entre 30 y 60 minutos | 30 minutos o menos | Más de 30 horas | N | RURAL | SUCRE | UNICA | 2 | 34 | 202 |
| 3 | Estrato 2 | No sabe | Técnica o tecnológica completa | Si | Si | MÁS DE 100 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | Menos de 10 horas | N | URBANO | HUILA | MAÑANA | 3 | 67 | 344 |
| 2 | Estrato 2 | Técnica o tecnológica incompleta | Secundaria (Bachillerato) incompleta | No | No | 26 A 100 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | Menos de 10 horas |
|
RURAL | CORDOBA | MAÑANA | 2 | 50 | 245 |
| 3 | Estrato 3 | Técnica o tecnológica completa | Secundaria (Bachillerato) completa | Si | Si | 26 A 100 LIBROS | Entre 1 y 2 horas | Más de 3 horas | 0 | N | URBANO | BOGOTÁ | COMPLETA | 3 | 58 | 260 |
| 4 | Estrato 4 | Educación profesional completa | Educación profesional completa | Si | Si | 0 A 10 LIBROS | Entre 30 y 60 minutos | Más de 3 horas | 0 | N | URBANO | SANTANDER | COMPLETA | 3 | 73 | 330 |
| 2 | Estrato 3 | Educación profesional completa | Técnica o tecnológica completa | No | Si | 26 A 100 LIBROS | Más de 2 horas | Más de 3 horas | Menos de 10 horas |
|
URBANO | ANTIOQUIA | SABATINA | 3 | 75 | 329 |
| 4 | Estrato 4 | Educación profesional completa | Educación profesional completa | Si | Si | MÁS DE 100 LIBROS | No leo por entretenimiento | Más de 3 horas | 0 | N | URBANO | ATLANTICO | COMPLETA | 3 | 81 | 316 |
| 2 | Estrato 1 | Primaria incompleta | Secundaria (Bachillerato) completa | Si | No | 11 A 25 LIBROS | Entre 1 y 2 horas | 30 minutos o menos | 0 |
|
URBANO | VALLE | MAÑANA | 3 | 63 | 339 |
| 2 | Estrato 2 | Secundaria (Bachillerato) completa | Secundaria (Bachillerato) completa | Si | No | 11 A 25 LIBROS | Más de 2 horas | Entre 1 y 3 horas | Entre 11 y 20 horas | N | URBANO | NORTE SANTANDER | MAÑANA | 3 | 66 | 336 |
| 3 | Estrato 3 | Educación profesional completa | Educación profesional completa | Si | Si | 11 A 25 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | 0 | N | URBANO | CESAR | COMPLETA | 3 | 68 | 301 |
| 3 | Estrato 4 | Educación profesional incompleta | Postgrado | Si | Si | 11 A 25 LIBROS | Entre 30 y 60 minutos | 30 minutos o menos | 0 | N | URBANO | BOGOTÁ | NOCHE | 3 | 44 | 190 |
| 3 | Estrato 3 | No sabe | Secundaria (Bachillerato) completa | Si | Si | 26 A 100 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | Entre 11 y 20 horas | N | URBANO | BOGOTÁ | TARDE | 3 | 59 | 318 |
| 2 | Estrato 4 | Primaria incompleta | Secundaria (Bachillerato) incompleta | No | No | 11 A 25 LIBROS | Entre 1 y 2 horas | Entre 1 y 3 horas | Entre 21 y 30 horas |
|
RURAL | META | MAÑANA | 2 | 48 | 203 |
| 1 | Estrato 1 | Primaria completa | Secundaria (Bachillerato) completa | No | No | MÁS DE 100 LIBROS | Entre 1 y 2 horas | Más de 3 horas | Menos de 10 horas | N | URBANO | META | MAÑANA | 2 | 46 | 321 |
| 1 | Estrato 1 | Primaria incompleta | Primaria incompleta | No | No | 0 A 10 LIBROS | 30 minutos o menos | Entre 1 y 3 horas | Entre 11 y 20 horas |
|
URBANO | ARAUCA | SABATINA | 1 | 37 | 200 |
| 1 | Estrato 1 | Primaria incompleta | Primaria incompleta | No | No | 26 A 100 LIBROS | 30 minutos o menos | Entre 1 y 3 horas | 0 | N | URBANO | SUCRE | MAÑANA | 2 | 56 | 278 |
| 2 | Estrato 1 | Técnica o tecnológica completa | Técnica o tecnológica completa | No | No | 26 A 100 LIBROS | Entre 1 y 2 horas | 30 minutos o menos | 0 | N | URBANO | ATLANTICO | MAÑANA | 3 | 70 | 348 |
| 3 | Estrato 2 | Primaria incompleta | Secundaria (Bachillerato) incompleta | Si | Si | 26 A 100 LIBROS | 30 minutos o menos | Entre 1 y 3 horas | Menos de 10 horas | N | URBANO | BOGOTÁ | MAÑANA | 3 | 32 | 202 |
| 3 | Estrato 2 | Secundaria (Bachillerato) incompleta | Primaria completa | Si | Si | 0 A 10 LIBROS | 30 minutos o menos | Entre 30 y 60 minutos | Menos de 10 horas | N | URBANO | ANTIOQUIA | NOCHE | 2 | 53 | 262 |
| 3 | Estrato 2 | Técnica o tecnológica completa | Postgrado | Si | Si | 26 A 100 LIBROS | 30 minutos o menos | 30 minutos o menos | Entre 11 y 20 horas | N | URBANO | SUCRE | MAÑANA | 3 | 54 | 228 |
| 2 | Estrato 2 | Primaria completa | Secundaria (Bachillerato) incompleta | No | No | 11 A 25 LIBROS | 30 minutos o menos | No Navega Internet | 0 | N | URBANO | NORTE SANTANDER | TARDE | 2 | 56 | 294 |
| 2 | Estrato 2 | Secundaria (Bachillerato) incompleta | Técnica o tecnológica incompleta | Si | Si | 11 A 25 LIBROS | Entre 1 y 2 horas | Entre 1 y 3 horas | Más de 30 horas | N | URBANO | CUNDINAMARCA | MAÑANA | 2 | 44 | 297 |
| 4 | Estrato 3 | Educación profesional completa | Educación profesional incompleta | Si | Si | MÁS DE 100 LIBROS | Entre 30 y 60 minutos | Más de 3 horas | Entre 11 y 20 horas | N | URBANO | CESAR | MAÑANA | 3 | 62 | 307 |
| 3 | Estrato 3 | Educación profesional completa | Educación profesional incompleta | Si | Si | 11 A 25 LIBROS | Entre 30 y 60 minutos | Más de 3 horas | 0 |
|
URBANO | CHOCO | MAÑANA | 3 | 61 | 295 |
| 3 | Estrato 4 | Secundaria (Bachillerato) incompleta | No sabe | Si | Si | 0 A 10 LIBROS | No leo por entretenimiento | Entre 1 y 3 horas | 0 | N | URBANO | BOGOTÁ | MAÑANA | 4 | 82 | 321 |
| 1 | Estrato 1 | Primaria incompleta | Primaria completa | No | No | 0 A 10 LIBROS | 30 minutos o menos | Más de 3 horas | 0 | N | URBANO | VALLE | UNICA | 2 | 35 | 196 |
| 3 | Sin Estrato | Técnica o tecnológica incompleta | Secundaria (Bachillerato) completa | No | No | 11 A 25 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos | 0 | N | URBANO | ATLANTICO | MAÑANA | 3 | 61 | 289 |
| 1 | Estrato 1 | Secundaria (Bachillerato) completa | Primaria completa | No | No | 26 A 100 LIBROS | Entre 30 y 60 minutos | No Navega Internet | 0 | S | RURAL | LA GUAJIRA | COMPLETA | 1 | 36 | 196 |
| 2 | Estrato 1 | Primaria completa | Primaria incompleta | Si | Si | 0 A 10 LIBROS | 30 minutos o menos | Más de 3 horas | Menos de 10 horas | N | URBANO | CESAR | MAÑANA | 2 | 31 | 216 |
| 2 | Estrato 3 | Técnica o tecnológica completa | Técnica o tecnológica completa | No | No | 26 A 100 LIBROS | Entre 30 y 60 minutos | Entre 1 y 3 horas | 0 | N | URBANO | CESAR | MAÑANA | 3 | 50 | 233 |
| 4 | Estrato 3 | Técnica o tecnológica completa | Educación profesional completa | Si | Si | 11 A 25 LIBROS | No leo por entretenimiento | Más de 3 horas | 0 | N | URBANO | BOGOTÁ | COMPLETA | 3 | 61 | 259 |
| NA | Estrato 2 | Secundaria (Bachillerato) incompleta | Técnica o tecnológica incompleta | Si |
|
0 A 10 LIBROS | Entre 30 y 60 minutos | Entre 30 y 60 minutos |
|
N | URBANO | SUCRE | MAÑANA | 2 | 62 | 259 |
| 2 | Estrato 2 | Secundaria (Bachillerato) incompleta | Secundaria (Bachillerato) completa | No | No | 0 A 10 LIBROS | 30 minutos o menos | Entre 30 y 60 minutos | Menos de 10 horas | N | URBANO | CORDOBA | MAÑANA | 2 | 43 | 237 |
| 3 | Estrato 1 | Secundaria (Bachillerato) incompleta | Secundaria (Bachillerato) completa | Si | Si | 0 A 10 LIBROS | Entre 30 y 60 minutos | Entre 1 y 3 horas | 0 | N | URBANO | ATLANTICO | MAÑANA | 3 | 68 | 296 |
| 3 | Estrato 4 | Educación profesional incompleta | Técnica o tecnológica completa | Si | No | 0 A 10 LIBROS | No leo por entretenimiento | Más de 3 horas | 0 | N | URBANO | ATLANTICO | COMPLETA | 3 | 61 | 269 |
| 1 | Estrato 4 | Secundaria (Bachillerato) incompleta | Técnica o tecnológica incompleta | No | No | 0 A 10 LIBROS | No leo por entretenimiento | No Navega Internet | 0 | N | RURAL | ARAUCA | MAÑANA | 2 | 44 | 172 |
| 1 | Estrato 2 | Primaria completa | Primaria incompleta | No | No | 0 A 10 LIBROS | No leo por entretenimiento | 30 minutos o menos | Menos de 10 horas |
|
RURAL | CORDOBA | MAÑANA | 1 | 40 | 233 |
| 2 |
|
|
NA |
|
Si |
|
|
NA | Más de 30 horas | N | URBANO | CUNDINAMARCA | SABATINA | 2 | 32 | 158 |
| 2 | Estrato 2 | Secundaria (Bachillerato) completa | Educación profesional completa | No | Si | 0 A 10 LIBROS | 30 minutos o menos | 30 minutos o menos | 0 | N | URBANO | LA GUAJIRA | MAÑANA | 2 | 43 | 173 |
| 2 | Estrato 2 | No sabe | Primaria incompleta | No | Si | 0 A 10 LIBROS | 30 minutos o menos | 30 minutos o menos | 0 |
|
URBANO | CORDOBA | UNICA | 2 | 54 | 300 |
| 2 | Estrato 1 | Primaria incompleta | Primaria incompleta | Si | Si | 0 A 10 LIBROS | 30 minutos o menos | Entre 1 y 3 horas | Menos de 10 horas | N | URBANO | SUCRE | MAÑANA | 2 | 38 | 220 |
| 2 | Estrato 3 | Primaria incompleta | Primaria incompleta | No | Si | 11 A 25 LIBROS | Entre 30 y 60 minutos | Entre 1 y 3 horas | 0 | N | URBANO | META | MAÑANA | 2 | 45 | 275 |
| 1 | Estrato 2 | Ninguno | Primaria incompleta | No | Si |
|
No leo por entretenimiento | Entre 30 y 60 minutos | Más de 30 horas | N | URBANO | CUNDINAMARCA | SABATINA | 2 | 25 | 202 |
| 1 | Estrato 1 | Secundaria (Bachillerato) completa | Secundaria (Bachillerato) incompleta | No | No | 0 A 10 LIBROS | No leo por entretenimiento | 30 minutos o menos | 0 | N | RURAL | SANTANDER | TARDE | 2 | 48 | 280 |
| 1 | Estrato 1 | Primaria incompleta | Primaria incompleta | No | No | 0 A 10 LIBROS | Entre 30 y 60 minutos | 30 minutos o menos | 0 | N | URBANO | BOLIVAR | MAÑANA | 2 | 29 | 222 |
Se observa que al tener un menor nivel socioeconómico se obtiene un menor puntaje en la PRUEBA SABER 11, esto se debe posiblemente a varios factores, uno de los principales puede ser que no cuenten con los recursos necesarios para acceder a una educación digna. Además, recursos como libros e internet son precarios en este nivel socioeconómico. Si analizamos el puntaje para el nivel socioeconómico 2 (234.53), estos individuos viven en lugares con acceso a algunos electrodomésticos que ayudan a mejorar su rendimiento académico. Con respecto al nivel socioeconómico 3 y 4, estos individuos cuentan con acceso a libros, internet, computador, clases personalizadas, entre otros (Instituto Colombiano para la Evaluación de la Educación, 2022) que ayudan a obtener mejores resultados en las PRUEBAS SABER 11. Si comparamos los promedios de puntajes entre los niveles socioeconómicos 1 y 4, observamos que el puntaje del nivel 4 es un 26.33% mayor que el del nivel 1.
#Filtro
promedios_por_socind <- saber2019limpio %>%
filter(!is.na(ESTU_NSE_INDIVIDUAL)) %>%
group_by(ESTU_NSE_INDIVIDUAL) %>%
summarise(prom_socind = mean(PUNT_GLOBAL)) %>%
arrange(-prom_socind)
#Convertir a factor y ordenar según los promedios
promedios_por_socind$ESTU_NSE_INDIVIDUAL <-
factor(promedios_por_socind$ESTU_NSE_INDIVIDUAL,
levels = promedios_por_socind$ESTU_NSE_INDIVIDUAL)
#Grafica diagrama de barras
ggplot(
promedios_por_socind,
aes(
fill = promedios_por_socind$ESTU_NSE_INDIVIDUAL,
y = promedios_por_socind$prom_socind,
x = promedios_por_socind$ESTU_NSE_INDIVIDUAL
)
) +
geom_bar(position = "dodge", stat = "identity") +
geom_text(
aes(label = round(prom_socind, 2)),
position = position_dodge(width = 0.9),
vjust = -0.5,
size = 3
) +
labs(title = "Promedio de puntajes segun el nivel socioeconomico del individuo",
x = "Nivel socieconomico",
y = "Promedio de puntajes",
fill = "Nivel socieconomico del individuo") Con respecto al estrato del individuo, se observa que hay una diferencia si se compara con lo obtenido en la gráfica de nivel socioeconómico. Se evidencia que los individuos de estrato 4 obtuvieron mejores resultados que el estrato 6, un 7.97% mayor. Cabe recalcar que solo 3711 individuos de estrato 6 presentaron la PRUEBA SABER 11. Con lo anterior podemos concluir que los individuos del estrato 6 no se preocupan tanto por obtener un resultado.
#Filtro
promedios_por_estrato <- saber2019limpio %>%
filter(!is.na(FAMI_ESTRATOVIVIENDA) &
FAMI_ESTRATOVIVIENDA != "-") %>%
group_by(FAMI_ESTRATOVIVIENDA) %>%
summarise(prom_estrato = mean(PUNT_GLOBAL)) %>%
arrange(-prom_estrato)
#Convertir a factor y ordenar según los promedios
promedios_por_estrato$FAMI_ESTRATOVIVIENDA <-
factor(promedios_por_estrato$FAMI_ESTRATOVIVIENDA,
levels = promedios_por_estrato$FAMI_ESTRATOVIVIENDA)
#Gráfica diagrama de barras
ggplot(
promedios_por_estrato,
aes(
fill = promedios_por_estrato$FAMI_ESTRATOVIVIENDA,
y = promedios_por_estrato$prom_estrato,
x = promedios_por_estrato$FAMI_ESTRATOVIVIENDA
)
) +
geom_bar(position = "dodge", stat = "identity") +
geom_text(
aes(label = round(prom_estrato, 2)),
position = position_dodge(width = 0.9),
vjust = -0.5,
size = 3
) +
labs(title = "Promedio de puntajes según el estrato",
x = "Estrato",
y = "Promedio de puntajes",
fill = "Nivel de estrato") EDUCACIÓN BACHILLER🙋🏻
La gráfica ilustra la distribución de puntajes globales para estudiantes cuyos padres tienen educación bachiller o superior. Se observa una curva en forma de una distribución normal, donde la mayoría de los puntajes se agrupan entre 200 y 350.
#Filtro educacion bachiller
frecuencia_padres_bachiller <- saber2019limpio %>%
filter(
FAMI_EDUCACIONPADRE %in% c(
"Postgrado",
"Educacion profesional completa",
"Educacion profesional incompleta",
"Tecnica o tecnologica completa",
"Tecnica o tecnologica incompleta",
"Secundaria (Bachillerato) completa"
)
) %>%
filter(
FAMI_EDUCACIONMADRE %in% c(
"Postgrado",
"Educacion profesional completa",
"Educacion profesional incompleta",
"Tecnica o tecnologica completa",
"Tecnica o tecnologica incompleta",
"Secundaria (Bachillerato) completa"
)
) %>%
select(FAMI_EDUCACIONMADRE, FAMI_EDUCACIONPADRE, PUNT_GLOBAL)
#Grafica histograma educacion bachiller
ggplot(frecuencia_padres_bachiller, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "skyblue",
color = "darkblue",
alpha = 0.7
) +
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) +
labs(
title = "Padres con educacion bachiller o superior",
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(
hjust = 0.5,
face = "bold",
size = 14
),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)EDUCACIÓN NO BACHILLER🙇🏻
En esta gráfica se muestra la distribución de puntajes globales para estudiantes cuyos padres tienen educación inferior a bachiller. La muestra aumentó en comparación de la anterior gráfica, además la mayoría de los puntajes se agrupan entre 170 y 270 puntos, evidenciándose con una inclinación hacia puntajes más bajos (Simetría positiva).
#Filtro no bachiller
frecuencia_padres_no_bachiller <- saber2019limpio %>%
filter(
FAMI_EDUCACIONPADRE %in% c(
"Secundaria (Bachillerato) incompleta",
"Primaria completa",
"Primaria incompleta",
"Ninguno"
)
) %>%
filter(
FAMI_EDUCACIONMADRE %in% c(
"Secundaria (Bachillerato) incompleta",
"Primaria completa",
"Primaria incompleta",
"Ninguno"
)
) %>%
select(FAMI_EDUCACIONMADRE, FAMI_EDUCACIONPADRE, PUNT_GLOBAL)
#Grafica histograma no bachiller
ggplot(frecuencia_padres_no_bachiller, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "skyblue",
color = "darkblue",
alpha = 0.7
) +
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) +
labs(
title = "Padres con educacion inferior a bachiller",
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(
hjust = 0.5,
face = "bold",
size = 14
),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)Como se puede observar, se obtiene un puntaje más alto en la PRUEBA SABER 11 cuando se tiene acceso a internet. El promedio de puntaje para las personas con acceso a internet es de 259.36, lo que representa un 11.47% más en comparación con los estudiantes que no tienen acceso a estos recursos. Además, los estudiantes que disponen de internet 12.6% más de probabilidad de obtener mejores resultados.
#Filtro
promedios_por_internet <- saber2019limpio %>%
filter(!is.na(FAMI_TIENEINTERNET) &
FAMI_TIENEINTERNET != "-") %>%
group_by(FAMI_TIENEINTERNET) %>%
summarise(prom_internet = mean(PUNT_GLOBAL)) %>%
arrange(-prom_internet)
#Gráfica diagrama de barras
ggplot(
promedios_por_internet,
aes(
fill = promedios_por_internet$FAMI_TIENEINTERNET,
y = promedios_por_internet$prom_internet,
x = promedios_por_internet$FAMI_TIENEINTERNET
)
) +
geom_bar(position = "dodge", stat = "identity") +
geom_text(
aes(label = round(prom_internet, 2)),
position = position_dodge(width = 0.9),
vjust = -0.5,
size = 3
) +
labs(title = "Promedio de puntajes por tener internet",
x = "Tiene internet",
y = "Promedio de puntajes",
fill = "Tiene internet") Se obtiene un puntaje más alto en la PRUEBA SABER 11 cuando se tiene acceso a un computador. El promedio de puntaje para las personas con acceso a un computador es de 259.84, lo que representa un 11.45% más en comparación con los estudiantes que no tienen acceso a estos recursos. Además, los estudiantes disponen de un computador tienen un 12.6% más de probabilidad de obtener mejores resultados.
#Filtro
promedios_por_computador <- saber2019limpio %>%
filter(!is.na(FAMI_TIENECOMPUTADOR) &
FAMI_TIENECOMPUTADOR != "-") %>%
group_by(FAMI_TIENECOMPUTADOR) %>%
summarise(prom_computador = mean(PUNT_GLOBAL)) %>%
arrange(-prom_computador)
#Gráfica diagrama de barras
ggplot(
promedios_por_computador,
aes(
fill = promedios_por_computador$FAMI_TIENECOMPUTADOR,
y = promedios_por_computador$prom_computador,
x = promedios_por_computador$FAMI_TIENECOMPUTADOR
)
) +
geom_bar(position = "dodge", stat = "identity") +
geom_text(
aes(label = round(prom_computador, 2)),
position = position_dodge(width = 0.9),
vjust = -0.5,
size = 3
) +
labs(title = "Promedio de puntajes por tener computador",
x = "Tiene computador",
y = "Promedio de puntajes",
fill = "Tiene computador") Se evidencia en la siguiente gráfica que la cantidad de libros influye de manera positiva en el desempeño de los estudiantes en las PRUEBAS SABER 11. Los estudiantes que tienen más de 100 libros obtuvieron un puntaje de 276.49 como resultado, resultados similares a los obtenidos en las PRUEBAS SABER 11 del año 2017 y 2018 (Rodríguez et al., 2021).
#Filtro
promedios_por_libros <- saber2019limpio %>%
filter(!is.na(FAMI_NUMLIBROS) &
FAMI_NUMLIBROS != "-") %>%
select(FAMI_NUMLIBROS, PUNT_GLOBAL) %>%
group_by(FAMI_NUMLIBROS) %>%
summarise(prom_libro = mean(PUNT_GLOBAL)) %>%
arrange(-prom_libro)
#Gráfica diagrama de barras
ggplot(promedios_por_libros, aes(fill=promedios_por_libros$FAMI_NUMLIBROS, y=promedios_por_libros$prom_libro, x=promedios_por_libros$FAMI_NUMLIBROS)) +
geom_bar(position="dodge", stat="identity")+
geom_text(aes(label = round(prom_libro,2)),
position = position_dodge(width = 0.9),
vjust = -0.5,
size = 3) +
labs(title = "Promedio de Puntajes por cantidad de libros que tiene",
x = "Cantidad de libros",
y = "Promedio de puntajes",
fill = "Cantidad de libros") Mayor tiempo de lectura, mayor puntaje: Se observa una clara tendencia donde los estudiantes que dedican más tiempo a la lectura obtienen mejores puntajes. Los que leen más de 2 horas tienen el puntaje promedio más alto (266.26), seguido por aquellos que leen entre 1 y 2 horas (258.05).
Impacto negativo de no leer: Los estudiantes que no leen por entretenimiento tienen el puntaje promedio más bajo (237.3), lo que indica una posible relación positiva entre la lectura y el rendimiento académico.
#Filtro promedio por tiempo de lectura
promedios_por_lectura <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONLECTURADIARIA) &
ESTU_DEDICACIONLECTURADIARIA != "-") %>%
group_by(ESTU_DEDICACIONLECTURADIARIA) %>%
summarise(prom_lectura = mean(PUNT_GLOBAL)) %>%
arrange(-prom_lectura)
#Convertir a factor y ordenar según los promedios
promedios_por_lectura$ESTU_DEDICACIONLECTURADIARIA <-
factor(
promedios_por_lectura$ESTU_DEDICACIONLECTURADIARIA,
levels = c(
"Más de 2 horas",
"Entre 1 y 2 horas",
"Entre 30 y 60 minutos",
"30 minutos o menos",
"No leo por entretenimiento"
)
)
#Gráfica diagrama de barras
ggplot(
promedios_por_lectura,
aes(
fill = promedios_por_lectura$ESTU_DEDICACIONLECTURADIARIA,
y = promedios_por_lectura$prom_lectura,
x = promedios_por_lectura$ESTU_DEDICACIONLECTURADIARIA
)
) +
geom_bar(position = "dodge", stat = "identity") +
geom_text(
aes(label = round(prom_lectura, 2)),
position = position_dodge(width = 0.9),
vjust = -0.5,
size = 3
) +
labs(title = "Promedio de puntajes por tiempo de lectura",
x = "Tiempo de lectura",
y = "Promedio de puntajes",
fill = "Tiempo de lectura") +
theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = 0.5))Los estudiantes que no trabajan tienen el promedio de puntaje más alto en las pruebas ICFES. Esto sugiere que dedicar todo el tiempo al estudio y otras actividades académicas puede estar asociado con un mejor desempeño en las pruebas.
La gráfica demuestra que hay una relación inversamente proporcional entre el tiempo dedicado al trabajo y el puntaje en las pruebas ICFES. Los estudiantes que no trabajan o trabajan menos horas tienden a obtener mejores puntajes en las pruebas, mientras que aquellos que trabajan más horas muestran una disminución en su rendimiento académico. Estos resultados indican la importancia de equilibrar el tiempo entre el trabajo y el estudio para maximizar el rendimiento en las pruebas académicas.
#Filtro
promedios_por_trabajo <- saber2019limpio %>%
filter(!is.na(ESTU_HORASSEMANATRABAJA) &
ESTU_HORASSEMANATRABAJA != "-") %>%
group_by(ESTU_HORASSEMANATRABAJA) %>%
summarise(prom_trabajo = mean(PUNT_GLOBAL)) %>%
arrange(-prom_trabajo)
#Convertir a factor y ordenar según los promedios
promedios_por_trabajo$ESTU_HORASSEMANATRABAJA <-
factor(promedios_por_trabajo$ESTU_HORASSEMANATRABAJA ,
levels = promedios_por_trabajo$ESTU_HORASSEMANATRABAJA)
#Gráfica diagrama de barras
ggplot(
promedios_por_trabajo,
aes(
fill = promedios_por_trabajo$ESTU_HORASSEMANATRABAJA,
y = promedios_por_trabajo$prom_trabajo,
x = promedios_por_trabajo$ESTU_HORASSEMANATRABAJA
)
) +
geom_bar(position = "dodge", stat = "identity") +
geom_text(
aes(label = round(prom_trabajo, 2)),
position = position_dodge(width = 0.9),
vjust = -0.5,
size = 3
) +
labs(title = "Promedio de puntajes por tiempo en el trabajo",
x = "Tiempo en el trabajo",
y = "Promedio de puntajes",
fill = "Tiempo en el trabajo") +
theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = 0.5)) A primera vista, no hay una diferencia significativa en las medianas de los puntajes de inglés entre los estudiantes de colegios bilingües y no bilingües. Ambos grupos tienen una mediana alrededor de 50. Los estudiantes de colegios bilingües parecen tener una mayor variabilidad en los puntajes, con algunos alcanzando niveles superiores a 75, lo que indica que algunos estudiantes se benefician significativamente del entorno bilingüe. La gráfica muestra que, en promedio, los estudiantes de colegios bilingües y no bilingües tienen rendimientos similares en inglés en la Prueba ICFES. Sin embargo, los colegios bilingües presentan una mayor dispersión en los puntajes, con algunos estudiantes logrando puntajes significativamente más altos. Esto sugiere que la educación bilingüe puede ofrecer ventajas adicionales a ciertos estudiantes, permitiéndoles destacarse más en la evaluación de inglés.
#Filtro
datos_bilingue <- saber2019limpio %>%
filter(!is.na(COLE_BILINGUE) & COLE_BILINGUE != "-") %>%
select(COLE_BILINGUE, PUNT_INGLES) %>%
arrange(PUNT_INGLES)
#Gráfica diagrama de cajas
ggplot(
datos_bilingue = mpg,
mapping = aes(
x = datos_bilingue$COLE_BILINGUE,
y = datos_bilingue$PUNT_INGLES,
fill = datos_bilingue$COLE_BILINGUE
)
) +
geom_boxplot() +
labs(title = "Puntaje en inglés según si es o no colegio bilingüe",
x = "Colegio bilingüe",
y = "Puntaje inglés",
fill = "Es bilingue")La gráfica muestra el promedio de puntajes en la Prueba ICFES de acuerdo con la zona escolar del colegio, diferenciando entre colegios ubicados en zonas rurales y urbanas. Los estudiantes que asisten a colegios urbanos tienen, en promedio, un mejor desempeño en las pruebas ICFES en comparación con los estudiantes de colegios rurales. La diferencia en los puntajes promedio es notable, siendo de aproximadamente 23.69 puntos.
La gráfica evidencia una clara disparidad en el rendimiento de los estudiantes en la Prueba ICFES basada en la zona del colegio. Los estudiantes de colegios urbanos tienen un promedio de puntaje considerablemente más alto que los de colegios rurales. Esto subraya la necesidad de implementar políticas y estrategias educativas que aborden las desigualdades entre las zonas rurales y urbanas, asegurando que todos los estudiantes tengan acceso a los recursos y oportunidades necesarios para alcanzar su máximo potencial académico.
#Filtro
promedios_por_area <- saber2019limpio %>%
group_by(COLE_AREA_UBICACION) %>%
summarise(prom_area = mean(PUNT_GLOBAL)) %>%
arrange(-prom_area)
#Gráfica diagrama de barras
ggplot(
promedios_por_area,
aes(
fill = promedios_por_area$COLE_AREA_UBICACION,
y = promedios_por_area$prom_area,
x = promedios_por_area$COLE_AREA_UBICACION
)
) +
geom_bar(position = "dodge", stat = "identity") +
geom_text(
aes(label = round(prom_area, 2)),
position = position_dodge(width = 0.9),
vjust = -0.5,
size = 3
) +
labs(title = "Promedio de puntaje según la zona del colegio",
x = "Zona escolar",
y = "Promedio de puntajes",
fill = "Zona escolar") La jornada completa presenta los puntajes más altos en términos de la mediana y de los valores atípicos. Esto sugiere que los estudiantes que asisten a esta jornada tienen, en general, un mejor rendimiento en el ICFES. La jornada UNICA y MAÑANA ambas tienen una mediana similar y presentan un rango de puntajes amplio, aunque la jornada MAÑANA tiene una concentración más alta de puntajes en el rango intercuartílico. La jornada TARDE muestra un rendimiento intermedio, con una mediana más baja que COMPLETA y MAÑANA, pero con una variabilidad similar a la de la jornada UNICA. La jornada SABATINA tiene la mediana más baja y una caja más pequeña, indicando que la mayoría de los puntajes se encuentran en un rango más estrecho y bajo comparado con otras jornadas. Los puntajes en la jornada NOCTURNA también son bajos en términos de la mediana, pero con una mayor dispersión que la jornada SABATINA.
En resumen, la jornada COMPLETA parece estar asociada con los puntajes más altos en el ICFES, mientras que las jornadas SABATINA y NOCHE muestran los puntajes más bajos. Las jornadas UNICA y MAÑANA tienen puntajes similares, aunque la jornada MAÑANA presenta una concentración de puntajes más alta en el rango medio. La jornada TARDE tiene un rendimiento intermedio con una amplia dispersión de puntajes.
#Filtro
datos_jornada <- saber2019limpio %>%
filter(!is.na(COLE_JORNADA) & COLE_JORNADA != "-") %>%
select(COLE_JORNADA, PUNT_GLOBAL) %>%
arrange(PUNT_GLOBAL)
#Convertir a factor y ordenar según los promedio
datos_jornada$COLE_JORNADA <-
factor(
datos_jornada$COLE_JORNADA,
levels = c("COMPLETA", "UNICA", "MAÑANA", "TARDE", "SABATINA", "NOCHE")
)
#Gráfica diagrama de cajas
ggplot(
datos_jornada = mpg,
mapping = aes(
x = datos_jornada$COLE_JORNADA,
y = datos_jornada$PUNT_GLOBAL,
fill = datos_jornada$COLE_JORNADA
)
) +
geom_boxplot() +
labs(title = "Promedio de puntajes por jornada",
x = "Jornada",
y = "Promedio de puntajes",
fill = "Tipo de jornada")Hay una clara tendencia descendente en los puntajes promedio a medida que se baja en el nivel socioeconómico del establecimiento.
Nivel 4: Este nivel tiene el puntaje promedio más alto, indicando que los estudiantes de establecimientos con el nivel socioeconómico más alto tienden a obtener mejores resultados en el ICFES.
Nivel 1: Este nivel tiene el puntaje promedio más bajo, lo que sugiere que los estudiantes de establecimientos con el nivel socioeconómico más bajo tienen, en general, un desempeño menor en el ICFES en comparación con los otros niveles.
La diferencia entre el nivel 4 y el nivel 1 es bastante pronunciada, con una diferencia de casi 100 puntos en el promedio de puntajes (316.6 vs. 217.08).
La gráfica sugiere una fuerte correlación positiva entre el nivel socioeconómico del establecimiento educativo y el rendimiento promedio en el ICFES. Los estudiantes de instituciones con niveles socioeconómicos más altos tienden a obtener mejores puntajes en el examen. Esto podría deberse a varios factores, como mejor infraestructura, acceso a recursos educativos de mayor calidad, y posiblemente un entorno socioeconómico que facilita el aprendizaje y preparación para el examen. Esta información es crucial para entender cómo las desigualdades socioeconómicas pueden influir en el desempeño académico y puede ser un punto de partida para desarrollar políticas educativas que busquen mitigar estas disparidades.
#Promedio por establecimiento
promedios_por_socest <- saber2019limpio %>%
filter(!is.na(ESTU_NSE_ESTABLECIMIENTO)) %>%
group_by(ESTU_NSE_ESTABLECIMIENTO) %>%
summarise(prom_socest = mean(PUNT_GLOBAL)) %>%
arrange(-prom_socest)
#Convertir a factor y ordenar según los promedio
promedios_por_socest$ESTU_NSE_ESTABLECIMIENTO <-
factor(promedios_por_socest$ESTU_NSE_ESTABLECIMIENTO,
levels = promedios_por_socest$ESTU_NSE_ESTABLECIMIENTO)
#Gráfica diagrama de barras
ggplot(
promedios_por_socest,
aes(
fill = promedios_por_socest$ESTU_NSE_ESTABLECIMIENTO,
y = promedios_por_socest$prom_socest,
x = promedios_por_socest$ESTU_NSE_ESTABLECIMIENTO
)
) +
geom_bar(position = "dodge", stat = "identity") +
geom_text(
aes(label = round(prom_socest, 2)),
position = position_dodge(width = 0.9),
vjust = -0.5,
size = 3
) +
labs(title = "Promedio de puntajes según el nivel socioeconómico del establecimiento",
x = "Nivel socieconómico",
y = "Promedio de puntajes",
fill = "Nivel socieconómico del establecimiento")En esta gráfica se muestra el promedio global de los colegios ubicado por departamentos, liderada por Bogotá,Santander y Boyacá. Por otro lado los peores promedios son colegios de los departamentos como Chocó, Vaupes y Amazonas. Lo cual coincide con el nivel de abandono del estado en estos territorios.
#Promedio por departamentos
promedios_por_departamentoCol <- saber2019limpio %>%
group_by(COLE_DEPTO_UBICACION) %>%
summarise(prom_dep = mean(PUNT_GLOBAL)) %>%
arrange(prom_dep)
# Crear el diagrama de barras interactivo con plotly
plot_ly(data = promedios_por_departamentoCol, x = ~reorder(COLE_DEPTO_UBICACION, -prom_dep), y = ~prom_dep, type = "bar",
text = ~paste(round(prom_dep, 2)),
hoverinfo = "text",
marker = list(color = "lightblue")) %>%
layout(title = "Promedio de puntajes por ubicación del colegio",
xaxis = list(title = "Departamento"),
yaxis = list(title = "Promedio de puntajes"),
hoverlabel = list(bgcolor = "white"))
La acumulación de factores desfavorables en el entorno educativo tiene un impacto significativo en el desarrollo y rendimiento académico de los estudiantes. Estos factores pueden provenir de diversos ámbitos, como el entorno familiar, los recursos disponibles y el colegio. A continuación, se detallan algunos de estos factores desfavorables:
PRIMER FILTRO
La gráfica ilustra la distribución de puntajes globales para estudiantes de nivel socioeconómico bajo,con solo un primer factor de riesgo.Esta distribución muestra una ligera asimetría, con una cola más prolongada hacia la izquierda, indicando una tendencia hacia puntajes más bajos. La mayor concentración de estudiantes se encuentra entre los 150 y 270 puntos, con una moda aproximada de 210 puntos para aproximadamente 48,000 casos.
#Filtro 1
frecuencia_primerFactor_des <- saber2019limpio %>%
filter(!is.na(ESTU_NSE_INDIVIDUAL)) %>%
select(ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL) %>%
filter(ESTU_NSE_INDIVIDUAL == "1" |
ESTU_NSE_INDIVIDUAL == "2")
#Histograma 1
ggplot(frecuencia_primerFactor_des, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "red",
color = "red",
alpha = 0.7
) + # Barras y bordes rojos
geom_vline(
xintercept = 250,
color = "blue",
size = 1,
linetype = "dashed"
) + # Línea vertical azul
labs(
title = "1 factor de riesgo",
subtitle = "(Nivel socioeconómico bajo)",
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
plot.subtitle = element_text(hjust = 0.5, size = 12),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)SEGUNDO FILTRO
Esta gráfica representa la aculumación de dos factores de riesgo, NSE bajo y padres con un nivel de educación menor al bachiller.En esta nueva distribución se puede notar un cambio respecto a la anterior, donde la cola de la izquierda tiene una mayor de concentración, tendiendo aún más a puntajes bajos.
#Filtro 2
frecuencia_segundoFactor_des <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL,
FAMI_EDUCACIONPADRE,
FAMI_EDUCACIONMADRE) %>%
filter((ESTU_NSE_INDIVIDUAL == "1" |
ESTU_NSE_INDIVIDUAL == "2") &
FAMI_EDUCACIONPADRE %in% c(
"Secundaria (Bachillerato) incompleta",
"Primaria completa",
"Primaria incompleta",
"Ninguno"
) &
FAMI_EDUCACIONMADRE %in% c(
"Secundaria (Bachillerato) incompleta",
"Primaria completa",
"Primaria incompleta",
"Ninguno"
)
)
#Histograma 2
ggplot(frecuencia_segundoFactor_des, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "red",
color = "red",
alpha = 0.7
) + # Barras y bordes rojos
geom_vline(
xintercept = 250,
color = "blue",
size = 1,
linetype = "dashed"
) + # Línea vertical azul
labs(
title = "2 factores de riesgo",
subtitle = "(Padres bachiller incompleto)",
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
plot.subtitle = element_text(hjust = 0.5, size = 12),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)TERCER FILTRO
Esta gráfica representa la aculumación de tres factores de riesgo, NSE bajo,padres con un nivel de educación menor al bachiller y no acceso a la tecnología.Donde se observa el mismo comportamiento de las anteriores gráficas, un aumento ligero de la concentración en puntajes bajos.
#Filtro 3
frecuencia_tercerFactor_des <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(
ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL,
FAMI_EDUCACIONPADRE,
FAMI_EDUCACIONMADRE,
FAMI_TIENEINTERNET,
FAMI_TIENECOMPUTADOR
) %>%
filter((ESTU_NSE_INDIVIDUAL == "1" |
ESTU_NSE_INDIVIDUAL == "2") &
FAMI_EDUCACIONPADRE %in% c(
"Secundaria (Bachillerato) incompleta",
"Primaria completa",
"Primaria incompleta",
"Ninguno"
) &
FAMI_EDUCACIONMADRE %in% c(
"Secundaria (Bachillerato) incompleta",
"Primaria completa",
"Primaria incompleta",
"Ninguno"
) &
FAMI_TIENEINTERNET == "No" &
FAMI_TIENECOMPUTADOR == "No"
)
#Histograma 3
ggplot(frecuencia_tercerFactor_des, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "red",
color = "red",
alpha = 0.7
) + # Barras y bordes rojos
geom_vline(
xintercept = 250,
color = "blue",
size = 1,
linetype = "dashed"
) + # Línea vertical azul
labs(
title = "3 factores de riesgo",
subtitle = "(No tecnología)",
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
plot.subtitle = element_text(hjust = 0.5, size = 12),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)CUARTO FILTRO
Esta gráfica representa la aculumación de cuatro factores de riesgo, NSE bajo,padres con un nivel de educación menor al bachiller, no acceso a la tecnología y no acceso a la información.El comportamiento de está gráfica sigue el patrón de las gráficas anteriores.
#Filtro 4
frecuencia_cuartoFactor_des <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(
ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL,
FAMI_EDUCACIONPADRE,
FAMI_EDUCACIONMADRE,
FAMI_TIENEINTERNET,
FAMI_TIENECOMPUTADOR,
FAMI_NUMLIBROS
) %>%
filter((ESTU_NSE_INDIVIDUAL == "1" |
ESTU_NSE_INDIVIDUAL == "2") &
FAMI_EDUCACIONPADRE %in% c(
"Secundaria (Bachillerato) incompleta",
"Primaria completa",
"Primaria incompleta",
"Ninguno"
) &
FAMI_EDUCACIONMADRE %in% c(
"Secundaria (Bachillerato) incompleta",
"Primaria completa",
"Primaria incompleta",
"Ninguno"
) &
FAMI_TIENEINTERNET == "No" &
FAMI_TIENECOMPUTADOR == "No" &
FAMI_NUMLIBROS == "0 A 10 LIBROS"
)
#Histograma 4
ggplot(frecuencia_cuartoFactor_des, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "red",
color = "red",
alpha = 0.7
) + # Barras y bordes rojos
geom_vline(
xintercept = 250,
color = "blue",
size = 1,
linetype = "dashed"
) + # Línea vertical azul
labs(
title = "4 factores de riesgo",
subtitle = "(No acceso a la información)",
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
plot.subtitle = element_text(hjust = 0.5, size = 12),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)QUINTO FILTRO
Esta gráfica representa la aculumación de cinco factores factores de riesgo, NSE bajo,padres con un nivel de educación menor al bachiller, no acceso a la tecnología,no acceso a la información y NSE del colegio bajo.El comportamiento de está gráfica sigue ligeramente elpatrón de las gráficas anteriores.
#Filtro 5
frecuencia_quintoFactor_des <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(
ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL,
FAMI_EDUCACIONPADRE,
FAMI_EDUCACIONMADRE,
FAMI_TIENEINTERNET,
FAMI_TIENECOMPUTADOR,
FAMI_NUMLIBROS,
ESTU_NSE_ESTABLECIMIENTO
) %>%
filter((ESTU_NSE_INDIVIDUAL == "1" |
ESTU_NSE_INDIVIDUAL == "2") &
FAMI_EDUCACIONPADRE %in% c(
"Secundaria (Bachillerato) incompleta",
"Primaria completa",
"Primaria incompleta",
"Ninguno"
) &
FAMI_EDUCACIONMADRE %in% c(
"Secundaria (Bachillerato) incompleta",
"Primaria completa",
"Primaria incompleta",
"Ninguno"
) &
FAMI_TIENEINTERNET == "No" &
FAMI_TIENECOMPUTADOR == "No" &
FAMI_NUMLIBROS == "0 A 10 LIBROS" &
(
ESTU_NSE_ESTABLECIMIENTO == "1" | ESTU_NSE_ESTABLECIMIENTO == "2"
)
)
#Histograma 5
ggplot(frecuencia_quintoFactor_des, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "red",
color = "red",
alpha = 0.7
) + # Barras y bordes rojos
geom_vline(
xintercept = 250,
color = "blue",
size = 1,
linetype = "dashed"
) + # Línea vertical azul
labs(
title = "5 factores de riesgo",
subtitle = "(Colegio NSE bajo)",
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
plot.subtitle = element_text(hjust = 0.5, size = 12),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)
La acumulación de factores favorables en el entorno educativo puede potenciar el desarrollo y rendimiento académico de los estudiantes. Estos factores positivos pueden surgir del entorno familiar, los recursos disponibles y el colegio. A continuación, se detallan algunos de estos factores favorables:
PRIMER FILTRO
La gráfica ilustra la distribución de puntajes globales para estudiantes de nivel socioeconómico 3 y 4,con solo un primer factor de beneficio.Esta distribución muestra una ligera asimetría, con una cola más prolongada hacia la derecha, indicando una tendencia hacia puntajes más altos. La mayor concentración de estudiantes se encuentra entre los 225 y 325 puntos, con una moda aproximada de 275 puntos para aproximadamente 32,000 casos.
#Filtro 1
frecuencia_primerFactor <- saber2019limpio %>%
filter(!is.na(ESTU_NSE_INDIVIDUAL)) %>%
select(ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL
) %>%
filter(ESTU_NSE_INDIVIDUAL == "4" |
ESTU_NSE_INDIVIDUAL == "3")
#Histograma 1
ggplot(frecuencia_primerFactor, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "#7AC142",
color = "#7AC142",
alpha = 0.7
) + # Barras y bordes verde claro
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) + # Línea vertical roja punteada
labs(
title = "1 factor de beneficio",
subtitle = "(NSE 3 y 4)",
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
plot.subtitle = element_text(hjust = 0.5, size = 12),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)SEGUNDO FILTRO
Esta gráfica representa la aculumación de dos factores de beneficio, NSE (3 y 4) y padres con un nivel de educación bachiller o mayor.En esta nueva distribución se puede notar un cambio pronunciado respecto a la anterior, donde la cola de la derecha tiene una mayor de concentración, tendiendo aún más a puntajes altos.
#Filtro 2
frecuencia_segundoFactor <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL,
FAMI_EDUCACIONPADRE,
FAMI_EDUCACIONMADRE) %>%
filter((ESTU_NSE_INDIVIDUAL == "4" |
ESTU_NSE_INDIVIDUAL == "3") &
FAMI_EDUCACIONPADRE %in% c(
"Postgrado",
"Educación profesional completa",
"Educación profesional incompleta",
"Técnica o tecnológica completa",
"Técnica o tecnológica incompleta",
"Secundaria (Bachillerato) completa"
) &
FAMI_EDUCACIONMADRE %in% c(
"Postgrado",
"Educación profesional completa",
"Educación profesional incompleta",
"Técnica o tecnológica completa",
"Técnica o tecnológica incompleta",
"Secundaria (Bachillerato) completa"
)
)
#Histograma 2
ggplot(frecuencia_segundoFactor, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "#7AC142",
color = "#7AC142",
alpha = 0.7
) + # Barras y bordes verde claro
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) + # Línea vertical roja punteada
labs(
title = "2 factores de beneficio",
subtitle = "(Educación padres bachiller o superior)",
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
plot.subtitle = element_text(hjust = 0.5, size = 12),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)Esta gráfica representa la aculumación de tres factores de beneficio, NSE (3 y 4),padres con un nivel de educación bachiller o mayor y acceso a la tecnología.Donde se observa el mismo comportamiento de las anteriores gráficas, un aumento ligero de la concentración en puntajes altos.
#Filtro 3
frecuencia_tercerFactor <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(
ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL,
FAMI_EDUCACIONPADRE,
FAMI_EDUCACIONMADRE,
FAMI_TIENEINTERNET,
FAMI_TIENECOMPUTADOR
) %>%
filter((ESTU_NSE_INDIVIDUAL == "4" |
ESTU_NSE_INDIVIDUAL == "3") &
FAMI_EDUCACIONPADRE %in% c(
"Postgrado",
"Educación profesional completa",
"Educación profesional incompleta",
"Técnica o tecnológica completa",
"Técnica o tecnológica incompleta",
"Secundaria (Bachillerato) completa"
) &
FAMI_EDUCACIONMADRE %in% c(
"Postgrado",
"Educación profesional completa",
"Educación profesional incompleta",
"Técnica o tecnológica completa",
"Técnica o tecnológica incompleta",
"Secundaria (Bachillerato) completa"
) &
FAMI_TIENEINTERNET == "Si" &
FAMI_TIENECOMPUTADOR == "Si"
)
#Histograma 3
ggplot(frecuencia_tercerFactor, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "#7AC142",
color = "#7AC142",
alpha = 0.7
) + # Barras y bordes verde claro
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) + # Línea vertical roja punteada
labs(
title = "3 factores de beneficio",
subtitle = "(Tiene tecnología)",
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
plot.subtitle = element_text(hjust = 0.5, size = 12),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)CUARTO FILTRO
Esta gráfica representa la aculumación de cuatro factores de beneficio, NSE (3 y 4),padres con un nivel de educación bachiller o superior, acceso a la tecnología y acceso a la información.El comportamiento de está gráfica no mostró un cambio signiticativo, respecto a la anterior.
frecuencia_cuartoFactor <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(
ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL,
FAMI_EDUCACIONPADRE,
FAMI_EDUCACIONMADRE,
FAMI_TIENEINTERNET,
FAMI_TIENECOMPUTADOR,
FAMI_NUMLIBROS
) %>%
filter((ESTU_NSE_INDIVIDUAL == "4" |
ESTU_NSE_INDIVIDUAL == "3") &
FAMI_EDUCACIONPADRE %in% c(
"Postgrado",
"Educación profesional completa",
"Educación profesional incompleta",
"Técnica o tecnológica completa",
"Técnica o tecnológica incompleta",
"Secundaria (Bachillerato) completa"
) &
FAMI_EDUCACIONMADRE %in% c(
"Postgrado",
"Educación profesional completa",
"Educación profesional incompleta",
"Técnica o tecnológica completa",
"Técnica o tecnológica incompleta",
"Secundaria (Bachillerato) completa"
) &
FAMI_TIENEINTERNET == "Si" &
FAMI_TIENECOMPUTADOR == "Si" &
(
FAMI_NUMLIBROS == "MÁS DE 100 LIBROS" |
FAMI_NUMLIBROS == "26 A 100 LIBROS" |
FAMI_NUMLIBROS == "11 A 25 LIBROS" |
FAMI_NUMLIBROS == "0 A 10 LIBROS"
)
)
#Histograma 4
ggplot(frecuencia_cuartoFactor, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "#7AC142",
color = "#7AC142",
alpha = 0.7
) + # Barras y bordes verde claro
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) + # Línea vertical roja punteada
labs(
title = "4 factores de beneficio",
subtitle = "(Tiene acceso a la información)",
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
plot.subtitle = element_text(hjust = 0.5, size = 12),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)QUINTO FILTRO
Esta gráfica representa la aculumación de cinco factores factores de beneficio, NSE (3 y 4),padres con un nivel de educación bachiller o superior, acceso a la tecnología, acceso a la información y NSE del colegio alto.El comportamiento de está gráfica muestra un cambio notable en el aumento de la concentración de puntajes mayores.
#Filtro 5
frecuencia_quintoFactor <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(
ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL,
FAMI_EDUCACIONPADRE,
FAMI_EDUCACIONMADRE,
FAMI_TIENEINTERNET,
FAMI_TIENECOMPUTADOR,
FAMI_NUMLIBROS,
ESTU_NSE_ESTABLECIMIENTO
) %>%
filter((ESTU_NSE_INDIVIDUAL == "4" |
ESTU_NSE_INDIVIDUAL == "3") &
FAMI_EDUCACIONPADRE %in% c(
"Postgrado",
"Educación profesional completa",
"Educación profesional incompleta",
"Técnica o tecnológica completa",
"Técnica o tecnológica incompleta",
"Secundaria (Bachillerato) completa"
) &
FAMI_EDUCACIONMADRE %in% c(
"Postgrado",
"Educación profesional completa",
"Educación profesional incompleta",
"Técnica o tecnológica completa",
"Técnica o tecnológica incompleta",
"Secundaria (Bachillerato) completa"
) &
FAMI_TIENEINTERNET == "Si" &
FAMI_TIENECOMPUTADOR == "Si" &
(
FAMI_NUMLIBROS == "MÁS DE 100 LIBROS" |
FAMI_NUMLIBROS == "26 A 100 LIBROS" |
FAMI_NUMLIBROS == "11 A 25 LIBROS" |
FAMI_NUMLIBROS == "0 A 10 LIBROS"
) &
(
ESTU_NSE_ESTABLECIMIENTO == "4" | ESTU_NSE_ESTABLECIMIENTO == "3"
)
)
#Histograma 5
ggplot(frecuencia_quintoFactor, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "#7AC142",
color = "#7AC142",
alpha = 0.7
) + # Barras y bordes verde claro
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) + # Línea vertical roja punteada
labs(
title = "5 factores de beneficio",
subtitle = "(Colegio NSE alto)",
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14),
plot.subtitle = element_text(hjust = 0.5, size = 12),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)Los factores protectores son elementos que pueden mitigar o compensar los efectos negativos de un entorno desfavorable, proporcionando apoyo y oportunidades que promueven el desarrollo y el bienestar de los individuos.
PRIMER FILTRO
La gráfica ilustra la distribución de puntajes globales para estudiantes de nivel socioeconómico bajo y que accede poco tiempo en la información.Esta distribución muestra una asimetría, con una cola prolongada hacia la izquierda, indicando una tendencia hacia puntajes más bajos. La mayor concentración de estudiantes se encuentra entre los 170 y 270 puntos, con una moda aproximada de 200 puntos para aproximadamente 10,000 estudiantes.
#Filtro 1
protector_nse_ind <- saber2019limpio %>%
filter(!is.na(ESTU_NSE_INDIVIDUAL)) %>%
select(
ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL,
ESTU_DEDICACIONINTERNET,
ESTU_DEDICACIONLECTURADIARIA
) %>%
filter(
(ESTU_NSE_INDIVIDUAL == "1" | ESTU_NSE_INDIVIDUAL == "2") &
(
ESTU_DEDICACIONINTERNET == "No Navega Internet" |
ESTU_DEDICACIONINTERNET == "30 minutos o menos"
) &
(
ESTU_DEDICACIONLECTURADIARIA == "No leo por entretenimiento" |
ESTU_DEDICACIONLECTURADIARIA == "30 minutos o menos"
)
)
#Histograma 1
ggplot(protector_nse_ind, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "skyblue",
color = "darkblue",
alpha = 0.7
) +
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) +
labs(
title = paste("NSE BAJO", "\n", "(Pero accede poco tiempo a la información)"),
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(
hjust = 0.5,
face = "bold",
size = 14,
lineheight = 0.8
),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)SEGUNDO FILTRO
Esta gráfica representa el mismo entorno que la anterior gráfica, pero con un aumento en el tiempo de acceso a la información. Se evidencia como su asimetría no es tan pronunciada,mostrando unos mejores puntajes.También se resalta que son menos los estudiantes que acceden a la información moderamente frente a este entorno.
#Filtro 2
protector_nse_ind_2 <- saber2019limpio %>%
filter(!is.na(ESTU_NSE_INDIVIDUAL)) %>%
select(
ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL,
ESTU_DEDICACIONINTERNET,
ESTU_DEDICACIONLECTURADIARIA
) %>%
filter(
(ESTU_NSE_INDIVIDUAL == "1" | ESTU_NSE_INDIVIDUAL == "2") &
(
ESTU_DEDICACIONINTERNET == "Entre 30 y 60 minutos" |
ESTU_DEDICACIONINTERNET == "Entre 1 y 3 horas"
) &
(
ESTU_DEDICACIONLECTURADIARIA == "Entre 30 y 60 minutos" |
ESTU_DEDICACIONLECTURADIARIA == "Entre 1 y 2 horas"
)
)
#Histograma 2
ggplot(protector_nse_ind_2, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "skyblue",
color = "darkblue",
alpha = 0.7
) +
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) +
labs(
title = paste("NSE BAJO", "\n", "(Pero accede moderadamente a la información)"),
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(
hjust = 0.5,
face = "bold",
size = 14,
lineheight = 0.8
),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)TERCER FILTRO
Finalmente esta gráfica representa el mismo entorno que la anterior gráfica, pero que accede a la infomación aún más tiempo. Se evidencia como empieza tomar una forma más simétrica y son aun menos los estudiantes que accede intesamente a la información en este entorno.
#Filtro 3
protector_nse_ind_3 <- saber2019limpio %>%
filter(!is.na(ESTU_NSE_INDIVIDUAL)) %>%
select(
ESTU_NSE_INDIVIDUAL,
PUNT_GLOBAL,
ESTU_DEDICACIONINTERNET,
ESTU_DEDICACIONLECTURADIARIA
) %>%
filter(
(ESTU_NSE_INDIVIDUAL == "1" | ESTU_NSE_INDIVIDUAL == "2") &
ESTU_DEDICACIONINTERNET == "Más de 3 horas" &
ESTU_DEDICACIONLECTURADIARIA == "Más de 2 horas"
)
#Histograma 3
ggplot(protector_nse_ind_3, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "skyblue",
color = "darkblue",
alpha = 0.7
) +
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) +
labs(
title = paste("NSE BAJO", "\n", "(Pero accede intensamente a la información)"),
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(
hjust = 0.5,
face = "bold",
size = 14,
lineheight = 0.8
),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)
PRIMER FILTRO
La gráfica ilustra la distribución de puntajes globales para estudiantes con padres con educación menor a bachiller y que accede poco tiempo en la información.Esta distribución muestra nuevamente una asimetría, con una cola prolongada hacia la izquierda, indicando una tendencia hacia puntajes más bajos. La mayor concentración de estudiantes se encuentra entre los 160 y 240 puntos, con una moda aproximada de 200 puntos para aproximadamente 6,000 estudiantes.
#Filtro 1
protector_eduPadres <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(PUNT_GLOBAL,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_DEDICACIONLECTURADIARIA,ESTU_DEDICACIONINTERNET) %>%
filter( (FAMI_EDUCACIONPADRE %in% c("Secundaria (Bachillerato) incompleta", "Primaria completa", "Primaria incompleta", "Ninguno")) &
(FAMI_EDUCACIONMADRE %in% c("Secundaria (Bachillerato) incompleta", "Primaria completa", "Primaria incompleta", "Ninguno")) &
(ESTU_DEDICACIONINTERNET == "No Navega Internet" | ESTU_DEDICACIONINTERNET == "30 minutos o menos") &
(ESTU_DEDICACIONLECTURADIARIA == "No leo por entretenimiento" | ESTU_DEDICACIONLECTURADIARIA == "30 minutos o menos"))
#Histograma 1
ggplot(protector_eduPadres, aes(x = PUNT_GLOBAL)) +
geom_histogram(breaks = seq(0, 500, by = 20),
fill = "skyblue", color = "darkblue", alpha = 0.7) +
geom_vline(xintercept = 250, color = "red", size = 1, linetype = "dashed") +
labs(title = paste("Padres bajo nivel de educación", "\n", "(Pero accede poco tiempo a la información)"),
x = "Puntaje global",
y = "Frecuencia") +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14, lineheight = 0.8),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)SEGUNDO FILTRO
Esta gráfica representa el mismo entorno que la anterior gráfica, pero nuevamente con un aumento en el tiempo de acceso a la información. Se evidencia como su asimetría no es tan pronunciada,mostrando unos mejores puntajes.También se resalta que son menos los estudiantes que acceden a la información moderamente frente a este entorno.
#Filtro 2
protector_eduPadres_2 <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(PUNT_GLOBAL,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_DEDICACIONLECTURADIARIA,ESTU_DEDICACIONINTERNET) %>%
filter( (FAMI_EDUCACIONPADRE %in% c("Secundaria (Bachillerato) incompleta", "Primaria completa", "Primaria incompleta", "Ninguno")) &
(FAMI_EDUCACIONMADRE %in% c("Secundaria (Bachillerato) incompleta", "Primaria completa", "Primaria incompleta", "Ninguno")) &
(ESTU_DEDICACIONINTERNET == "Entre 30 y 60 minutos" | ESTU_DEDICACIONINTERNET == "Entre 1 y 3 horas") &
(ESTU_DEDICACIONLECTURADIARIA == "Entre 30 y 60 minutos" | ESTU_DEDICACIONLECTURADIARIA == "Entre 1 y 2 horas"))
#Histograma 2
ggplot(protector_eduPadres_2, aes(x = PUNT_GLOBAL)) +
geom_histogram(breaks = seq(0, 500, by = 20),
fill = "skyblue", color = "darkblue", alpha = 0.7) +
geom_vline(xintercept = 250, color = "red", size = 1, linetype = "dashed") +
labs(title = paste("Padres bajo nivel de educación", "\n", "(Pero accede moderadamente a la información)"),
x = "Puntaje global",
y = "Frecuencia") +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14, lineheight = 0.8),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)TERCER FILTRO
Finalmente esta gráfica representa el mismo entorno que la anterior gráfica, pero que accede a la infomación aún más tiempo. Se evidencia como empieza tomar una forma más simétrica y con menos concentración. Se resalta que la muestra disminuye drasticamente.
#Filtro 3
protector_eduPadres_3 <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(PUNT_GLOBAL,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_DEDICACIONLECTURADIARIA,ESTU_DEDICACIONINTERNET) %>%
filter( (FAMI_EDUCACIONPADRE %in% c("Secundaria (Bachillerato) incompleta", "Primaria completa", "Primaria incompleta", "Ninguno")) &
(FAMI_EDUCACIONMADRE %in% c("Secundaria (Bachillerato) incompleta", "Primaria completa", "Primaria incompleta", "Ninguno")) &
ESTU_DEDICACIONINTERNET == "Más de 3 horas" & ESTU_DEDICACIONLECTURADIARIA == "Más de 2 horas")
#Histograma 3
ggplot(protector_eduPadres_3, aes(x = PUNT_GLOBAL)) +
geom_histogram(breaks = seq(0, 500, by = 20),
fill = "skyblue", color = "darkblue", alpha = 0.7) +
geom_vline(xintercept = 250, color = "red", size = 1, linetype = "dashed") +
labs(title = paste("Padres bajo nivel de educación", "\n", "(Pero accede intensamente a la información)"),
x = "Puntaje global",
y = "Frecuencia") +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, face = "bold", size = 14, lineheight = 0.8),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)
PRIMER FILTRO
La gráfica ilustra la distribución de puntajes globales para estudiantes en un colegio con un nivel socioeconómico bajo y que accede poco tiempo en la información.Esta distribución muestra, al igual que los otros entorno,una asimetría con una cola prolongada hacia la izquierda, indicando una tendencia hacia puntajes más bajos. La mayor concentración de estudiantes se encuentra entre los 160 y 240 puntos, con una moda aproximada de 230 puntos para aproximadamente 30,000 estudiantes.
#Filtro 1
protector_nse_col <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(
PUNT_GLOBAL,
ESTU_NSE_ESTABLECIMIENTO,
ESTU_DEDICACIONLECTURADIARIA,
ESTU_DEDICACIONINTERNET
) %>%
filter(
(
ESTU_NSE_ESTABLECIMIENTO == "1" |
ESTU_NSE_ESTABLECIMIENTO == "2"
) &
(
ESTU_DEDICACIONLECTURADIARIA == "No leo por entretenimiento" |
ESTU_DEDICACIONLECTURADIARIA == "30 minutos o menos"
)
)
#Histograma 1
ggplot(protector_nse_col, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "skyblue",
color = "darkblue",
alpha = 0.7
) +
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) +
labs(
title = paste(
"Colegio NSE bajo",
"\n",
"(Pero accede poco tiempo a la información)"
),
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(
hjust = 0.5,
face = "bold",
size = 14,
lineheight = 0.8
),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)SEGUNDO FILTRO Esta gráfica representa el mismo entorno que la anterior gráfica, pero con un aumento en el tiempo de acceso a la información. Se evidencia, al igual que en los otros dos entornos desfavorables, como su asimetría no es tan pronunciada,mostrando unos mejores puntajes, con una menor muestra de estos.
#Filtro 2
protector_nse_col2 <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(
PUNT_GLOBAL,
ESTU_NSE_ESTABLECIMIENTO,
ESTU_DEDICACIONLECTURADIARIA,
ESTU_DEDICACIONINTERNET
) %>%
filter(
(
ESTU_NSE_ESTABLECIMIENTO == "1" |
ESTU_NSE_ESTABLECIMIENTO == "2"
) &
(
ESTU_DEDICACIONINTERNET == "Entre 30 y 60 minutos" |
ESTU_DEDICACIONINTERNET == "Entre 1 y 3 horas"
) &
(
ESTU_DEDICACIONLECTURADIARIA == "Entre 30 y 60 minutos" |
ESTU_DEDICACIONLECTURADIARIA == "Entre 1 y 2 horas"
)
)
#Histograma 2
ggplot(protector_nse_col2, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "skyblue",
color = "darkblue",
alpha = 0.7
) +
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) +
labs(
title = paste(
"Colegio NSE bajo",
"\n",
"(Pero accede moderadamente a la información)"
),
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(
hjust = 0.5,
face = "bold",
size = 14,
lineheight = 0.8
),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)TERCER FILTRO Finalmente esta gráfica representa el mismo entorno que la anterior gráfica, pero que accede a la infomación aún más tiempo. Al igual que en los demás entornos, se evidencia como empieza tomar una forma más simétrica,con menos concentración y menor toma muestral.
#Filtro 3
protector_nse_col3 <- saber2019limpio %>%
filter(!is.na(ESTU_DEDICACIONINTERNET)) %>%
select(
PUNT_GLOBAL,
ESTU_NSE_ESTABLECIMIENTO,
ESTU_DEDICACIONLECTURADIARIA,
ESTU_DEDICACIONINTERNET
) %>%
filter(
(
ESTU_NSE_ESTABLECIMIENTO == "1" |
ESTU_NSE_ESTABLECIMIENTO == "2"
) &
ESTU_DEDICACIONINTERNET == "Más de 3 horas" &
ESTU_DEDICACIONLECTURADIARIA == "Más de 2 horas"
)
#Histograma 3
ggplot(protector_nse_col3, aes(x = PUNT_GLOBAL)) +
geom_histogram(
breaks = seq(0, 500, by = 20),
fill = "skyblue",
color = "darkblue",
alpha = 0.7
) +
geom_vline(
xintercept = 250,
color = "red",
size = 1,
linetype = "dashed"
) +
labs(
title = paste(
"Colegio NSE bajo",
"\n",
"(Pero accede intensamente a la información)"
),
x = "Puntaje global",
y = "Frecuencia"
) +
theme_minimal() +
theme(
plot.title = element_text(
hjust = 0.5,
face = "bold",
size = 14,
lineheight = 0.8
),
axis.title = element_text(face = "bold"),
panel.grid.minor = element_blank()
) +
scale_x_continuous(breaks = seq(0, 500, by = 50), labels = comma) +
scale_y_continuous(labels = comma)Al evaluar como afecta individualmente cada factor en los resultados de la prueba SABER 11, muestra las diferentes formas y maneras en que se puede afectar el rendimiento de un estudiante, resaltando principalmente a los asociados en el nivel socioeconómico, nivel de educación de los padres y acceso a los recursos.Estos a su vez se ven reflejado en la distribución del tiempo que tienen para educarse y trabajar.
Por otro lado, el tipo de jornada de la instituciones educativas muestran efectividad de aprendizaje según la franja horaria e intensidad, su ubicación como determinante de acceso a los recursos e inversión y como el modelo de las intituciones biligües en Colombia no logra evidenciar una mejora significativa en esta área.
La acumulación de los factores ayuda a estimar como realmente son las condiciones de vida de un estudiante, al tener presente que no lo afecta un único factor a la vez. Por tanto en esta sección se reflejó distribuciones muy marcadas para los casos de los desfavorables y favorables,trazando una gran brecha de desigualdad en el estudiantado.
El hábito de lectura y acceso a internet con una intensidad entre 2 a 3 horas diarias, en presencia de un factor desfavorable muestra mitigar la brecha de desigualdad, pero que pocos estudiantes logran desarrollar. Naciendo así la necesidad de que las instituciones educativas brinden herramientas que puedan promover el desarrollo personal.
En síntesis, se revela que las desigualdades socioeconómicas y la disponibilidad de recursos educativos tienen un impacto significativo en los resultados académicos. Factores como el nivel socioeconómico, educación de los padres, acceso a la tecnología y modelos de algunas instituciones son determinantes clave del rendimiento en la PRUEBA SABER 11. Es fundamental abordar estas desigualdades mediante políticas educativas inclusivas y equitativas que brinden a todos los estudiantes las oportunidades y recursos necesarios para alcanzar su máximo potencial académico.
Se demuestra que la acumulación de factores desfavorables puede crear brechas significativas para los estudiantes, limitando sus oportunidades educativas y afectando su desarrollo personal, por el contrario, la acumulación de factores favorables potencializa el desempeño académico, indicando así que la presencialidad de al menos uno de estos factores en entornos desfavorables puede generar grandes cambios en los resultados de rendimiento.
Finalmente, el buen uso del tiempo frente a entornos desfavorables evidencia ser un protector que ayuda a mejorar el rendimiento del estudiante, hábitos que pocos de ellos logran desarrollar, por lo tanto, es crucial implementar estrategias integradoras y apoyar iniciativas que fortalezcan los factores protectores para abarcar efectivamente un desarrollo social, emocional, cognitivo y académico que permitan afrontar y adaptarse a un entorno desfavorable, con el objetivo de reducir la brecha que muestra afectar el rendimiento de los estudiantes.
[1] Icfes (2019). Informe Nacional de resultados del Examen Saber 11° 2019. Recuperado de https://www.icfes.gov.co/documents/39286/2656516/3-Informe+nacional+de+resultados+Saber+11-2019.pdf/e771f477-b3f3-3193-732e-7c43da1766b9?version=1.0&t=1650317549762
[2]Plataforma Nacional de Datos Abiertos de Colombia. Recuperado de https://www.datos.gov.co/Educaci-n/Saber-11-2019-2/ynam-yc42/about_data
[3] Chong González, E. G. (2019). Factores que inciden en el rendimiento académico de los estudiantes de la Universidad Politécnica del Valle de Toluca. Revista Latinoamericana de Estudios Educativos, 47(1), 91-108. https://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S0185-26982019000200118#aff1