Este informe presenta un análisis exploratorio, inferencial y predictivo de los resultados de las Pruebas TyT. Se utilizaron diversas herramientas estadísticas para describir la distribución de puntajes, identificar patrones y construir modelos que expliquen el desempeño global de los estudiantes. Se incluyen modelos de regresión lineal, árboles de decisión y pruebas de normalidad, acompañados de visualizaciones de alta calidad.
Las Pruebas TyT son evaluaciones estandarizadas que miden competencias genéricas de estudiantes de programas técnicos y tecnológicos en Colombia. Evalúan componentes como:
Analizar los factores que influyen en el puntaje global obtenido por los estudiantes en las Pruebas TyT, mediante un enfoque estadístico y predictivo.
Objetivos Generales
El análisis se realizó con un conjunto de datos proporcionado por el ICFES, correspondiente a los resultados de una aplicación reciente de las Pruebas TyT. Se limpiaron y transformaron variables como edad, estrato, si el estudiante trabaja, si realizó simulacros, si recibió refuerzos, y los puntajes en cada uno de los componentes evaluados.
En esta sección se examina la correlación entre la ubicación geográfica de los estudiantes y su rendimiento en las Pruebas TyT. En las cinco ciudades se identifican los puntajes globales promedio más altos y se examinan características demográficas como edad y estrato socioeconómico en estas regiones.
Este método facilita la observación de posibles concentraciones de alto desempeño académico en áreas urbanas concretas, lo que podría estar vinculado con fenómenos de gentrificación educativa, acceso inequitativo a recursos de capacitación o factores socioeconómicos distintivos.
Para dar inicio formal a nuestro estudio, empezaremos con la búsqueda de los grupos que tienen mejor puntaje. En este caso escalaremos desde ciudades hasta las condiciones personales que le pueden llegar a afectar en su puntaje, en este caso para tener un mejor puntaje.
Dentro de ello encontramos un dato atípico, en el caso de Cómbita, una sola persona presento el examen y obtuvo un puntaje sobre la media, lo cual lo marca con el municipio con el mejor puntaje promedio (aclaración no es el mejor puntaje del país), esto se debe a los términos y aplicación de la prueba, presentar la prueba en dicho lugar no implica que estudie allí, la prueba se realiza a conveniencia del estudiante, ya que la institución (ICFES) debe llegar a todos los lugares del país y por ende se hace la aproximación a realizar la prueba en la proximidad a la residencia.
| estu_mcpio_presentacion | Promedio_Puntaje | Total |
|---|---|---|
| CÓMBITA | 108.00000 | 1 |
| SOCORRO | 102.14286 | 49 |
| EL CARMEN DE VIBORAL | 99.53846 | 39 |
| SAN GIL | 99.00775 | 129 |
| BOGOTÁ D.C. | 97.94913 | 11912 |
| MONIQUIRÁ | 97.41176 | 17 |
| GIRÓN | 97.33971 | 209 |
| MOSQUERA | 96.91739 | 230 |
| BUCARAMANGA | 96.63644 | 1235 |
| PIEDECUESTA | 96.55967 | 243 |
Las Pruebas TyT evalúan cinco componentes fundamentales del saber: Lectura Crítica, Comunicación Escrita, Razonamiento Cuantitativo, Competencias Ciudadanas e Inglés. El análisis de estos componentes por separado permite identificar fortalezas y debilidades en la formación de los estudiantes, así como correlaciones entre desempeños específicos.
En esta sección se comparan los cinco componentes evaluados en las Pruebas TyT: Lectura Crítica, Comunicación Escrita, Razonamiento Cuantitativo, Competencias Ciudadanas e Inglés. Se exploran sus distribuciones, medidas centrales y dispersión, así como las posibles correlaciones entre ellos.
La siguiente tabla resume el puntaje promedio, la mediana, la desviación estándar y la cantidad de observaciones por componente.
| Componente | Promedio | Desviación | Mediana | N |
|---|---|---|---|---|
| Lectura_Critica | 95.6 | 21.7 | 96 | 53754 |
| Comunicacion_Escrita | 87.9 | 39.2 | 93 | 53754 |
| Razonamiento_Cuantitativo | 83.8 | 21.5 | 81 | 53754 |
| Competencias_Ciudadanas | 88.6 | 23.9 | 86 | 53754 |
| Ingles | 101.1 | 22.8 | 100 | 53754 |
Correlación entre componentes Es posible que existan relaciones lineales entre el rendimiento en los distintos componentes. Por ejemplo, un buen desempeño en Lectura Crítica puede estar asociado con resultados positivos en Competencias Ciudadanas o Comunicación Escrita.
Se explora si existe una asociación lineal entre los componentes evaluados. Esto puede indicar que un buen desempeño en una competencia está relacionado con resultados positivos en otras áreas.
La matriz de correlación muestra relaciones lineales moderadas entre algunos componentes de las Pruebas TyT. Los valores de correlación de Pearson se interpretan de la siguiente manera:
Lectura Crítica presenta correlaciones positivas moderadas con:
Comunicación Escrita muestra correlaciones débiles (r < 0.25) con los demás componentes. Esto puede indicar que esta habilidad, aunque relacionada con la comprensión lectora, no está fuertemente asociada con el desempeño en otras áreas evaluadas.
Razonamiento Cuantitativo se asocia moderadamente con Inglés (r = 0.45) y Competencias Ciudadanas (r = 0.42), lo que podría reflejar una base cognitiva común o estrategias de resolución de problemas similares.
En conclusión, los componentes individuales de las Pruebas TyT muestran correlaciones moderadas, lo que indica que el rendimiento en una habilidad específica puede ofrecer pistas sobre el desempeño general. No obstante, la presencia de relaciones débiles también sugiere que cada componente aporta una dimensión independiente al perfil académico del estudiante. Estas observaciones fundamentan la exploración de modelos predictivos que integren múltiples variables para estimar el puntaje global con mayor precisión.
En este bloque se aplican dos modelos de aprendizaje supervisado con fines explicativos: una regresión lineal múltiple y un árbol de decisión. Ambos modelos permiten identificar y comparar la influencia relativa de variables demográficas, académicas y socioeconómicas en el puntaje global obtenido en las Pruebas TyT.
Estos modelos buscan responder a la pregunta:
¿Qué características personales y contextuales predicen de forma más sólida el rendimiento académico en estas pruebas?
La regresión lineal permite modelar el puntaje global como una función lineal de múltiples variables independientes. Coeficientes principales: Todas las competencias tienen un peso casi idéntico y muy significativo: aproximadamente 0.2, lo que indica que:
Por cada punto adicional en alguna de esas competencias, el puntaje global sube 0.2 unidades.
El género y el estrato no son estadísticamente significativos (valores-p > 0.05). Esto implica que:
El modelo no detecta diferencias relevantes por género o nivel socioeconómico en el puntaje global una vez se controlan las competencias.
Ajuste del modelo: R² ajustado: 0.9997 ➝ el modelo explica prácticamente el 99.97% de la variabilidad en el puntaje global.
Residual standard error: 0.2845 ➝ muy bajo, lo que indica un excelente ajuste del modelo.
Anexo 2°
El atributo más importante para predecir el puntaje global (punt_global) es mod_lectura_critica_punt (lectura crítica), ya que es la primera variable que aparece en la raíz del árbol.
Le siguen como variables relevantes:
(comunicación escrita),
(inglés),
(competencias ciudadanas),
mlectura crítica nuevamente en niveles más profundos.
Ramas principales:
Si el puntaje de lectura crítica es menor a 100:
La comunicación escrita y el inglés tienen un fuerte peso en la predicción.
Para puntajes bajos en esas áreas, el resultado global también es menor (ej: nodo final con media 65).
Si el puntaje de lectura crítica es ≥ 100:
El inglés y las competencias ciudadanas diferencian los resultados.
En la rama derecha, los nodos terminales muestran puntajes globales más altos, llegando a 121.
Conclusión: Las competencias básicas (lectura crítica, comunicación escrita, competencias ciudadanas, inglés) son fuertemente predictivas.
Un aumento en el el area de lectura crítica, implica un impacto significativo en todas las areas y por ende en el puntaje global.
En este bloque se construyen modelos para predecir el puntaje global obtenido por los estudiantes en las Pruebas TyT, con base en variables demográficas y de contexto como edad, género, estrato socioeconómico, jornada académica y puntajes por componente. Se emplean modelos lineales y árboles de decisión para analizar la influencia de estas variables y evaluar su poder predictivo.
Primero se ajusta un modelo lineal múltiple para explicar el puntaje global en función de variables independientes seleccionadas. Este modelo permite interpretar la magnitud y dirección de los efectos individuales.
El análisis integral de los resultados de las Pruebas TyT permitió identificar patrones significativos en el desempeño académico de los estudiantes a partir de variables individuales, sociales y académicas. Entre los principales hallazgos se destacan:
Componentes clave en el puntaje global: Las competencias de Lectura Crítica, Comunicación Escrita, Competencias Ciudadanas, Inglés y Razonamiento Cuantitativo muestran una influencia significativa y consistente sobre el puntaje global. Esto fue validado tanto por la regresión lineal como por el árbol de decisión.
Regresión lineal múltiple: Todos los componentes evaluados presentan coeficientes muy similares (~0.2), lo que indica una contribución equitativa al puntaje global. El modelo tuvo un ajuste excelente (R² ajustado de 0.9997), y descartó significancia estadística en variables como el género y el estrato socioeconómico, una vez se controlan las competencias.
Árbol de decisión: El análisis visual mostró que el puntaje en Lectura Crítica es el principal determinante del resultado global. A partir de este, se ramifican otros factores como Comunicación Escrita, Inglés y Competencias Ciudadanas, reforzando su valor predictivo.
Efecto del contexto socioeconómico: Aunque en el análisis exploratorio se observó una tendencia ascendente entre estrato y puntaje hasta el estrato 4, los modelos predictivos no identificaron una relación significativa cuando se incluyen los puntajes por competencia.
Variación geográfica: Se encontraron diferencias regionales relevantes, con ciudades como Bogotá y San Gil destacándose en desempeño. También se identificaron posibles sesgos en municipios con baja participación, como Cómbita.
Este proyecto demuestra el poder del análisis estadístico como herramienta para comprender fenómenos educativos complejos. Al combinar enfoques exploratorios, inferenciales y predictivos, fue posible obtener una visión detallada de los factores que inciden en el desempeño académico medido por las Pruebas TyT.
Los resultados invitan a replantear las estrategias educativas, enfocándose en fortalecer las competencias fundamentales en los estudiantes, independientemente de su contexto social. A su vez, se destaca la importancia de contar con datos completos y representativos para evitar sesgos en la interpretación.
Finalmente, se valida que el uso complementario de modelos estadísticos (regresión y árboles) enriquece el análisis y permite tomar decisiones mejor informadas en contextos educativos.
El presente análisis tomó como guía metodológica y estructural el informe elaborado por el Laboratorio de Economía de la Educación (2024), sin basarse directamente en sus datos ni en su contenido específico.
Laboratorio de Economía de la Educación (LEE) de la Pontificia Universidad Javeriana. (2024). Informe No. 92. Pruebas Saber 11: una década de análisis. https://lee.javeriana.edu.co/publicaciones-y-documentos
Para este análisis se utilizaron los datos abiertos publicados por el ICFES (2025), correspondientes a la aplicación de las pruebas TyT en el segundo semestre de 2023.
ICFES. (2025, enero 3). Datos abiertos – Pruebas TyT 2023-2. Transparencia y acceso a la información pública. https://www.icfes.gov.co/web/guest/transparencia-y-acceso-a-la-informacion-publica
| Ciudad | Estrato | Total | Prop |
|---|---|---|---|
| BOGOTÁ D.C. | Estrato 1 | 1452 | 12.2 |
| BOGOTÁ D.C. | Estrato 2 | 6006 | 50.4 |
| BOGOTÁ D.C. | Estrato 3 | 3586 | 30.1 |
| BOGOTÁ D.C. | Estrato 4 | 311 | 2.6 |
| BOGOTÁ D.C. | Estrato 5 | 59 | 0.5 |
| BOGOTÁ D.C. | Estrato 6 | 22 | 0.2 |
| BOGOTÁ D.C. | Sin Estrato | 40 | 0.3 |
| BOGOTÁ D.C. | NA | 436 | 3.7 |
| BUCARAMANGA | Estrato 1 | 309 | 25.0 |
| BUCARAMANGA | Estrato 2 | 464 | 37.6 |
| BUCARAMANGA | Estrato 3 | 296 | 24.0 |
| BUCARAMANGA | Estrato 4 | 89 | 7.2 |
| BUCARAMANGA | Estrato 5 | 6 | 0.5 |
| BUCARAMANGA | Estrato 6 | 5 | 0.4 |
| BUCARAMANGA | Sin Estrato | 5 | 0.4 |
| BUCARAMANGA | NA | 61 | 4.9 |
| CÓMBITA | NA | 1 | 100.0 |
| EL CARMEN DE VIBORAL | Estrato 1 | 6 | 15.4 |
| EL CARMEN DE VIBORAL | Estrato 2 | 12 | 30.8 |
| EL CARMEN DE VIBORAL | Estrato 3 | 17 | 43.6 |
| EL CARMEN DE VIBORAL | Estrato 4 | 2 | 5.1 |
| EL CARMEN DE VIBORAL | Estrato 5 | 1 | 2.6 |
| EL CARMEN DE VIBORAL | NA | 1 | 2.6 |
| GIRÓN | Estrato 1 | 68 | 32.5 |
| GIRÓN | Estrato 2 | 71 | 34.0 |
| GIRÓN | Estrato 3 | 57 | 27.3 |
| GIRÓN | Estrato 4 | 2 | 1.0 |
| GIRÓN | Sin Estrato | 1 | 0.5 |
| GIRÓN | NA | 10 | 4.8 |
| MONIQUIRÁ | Estrato 1 | 10 | 58.8 |
| MONIQUIRÁ | Estrato 2 | 5 | 29.4 |
| MONIQUIRÁ | NA | 2 | 11.8 |
| MOSQUERA | Estrato 1 | 18 | 7.8 |
| MOSQUERA | Estrato 2 | 83 | 36.1 |
| MOSQUERA | Estrato 3 | 98 | 42.6 |
| MOSQUERA | Estrato 4 | 12 | 5.2 |
| MOSQUERA | Estrato 5 | 1 | 0.4 |
| MOSQUERA | Sin Estrato | 5 | 2.2 |
| MOSQUERA | NA | 13 | 5.7 |
| PIEDECUESTA | Estrato 1 | 37 | 15.2 |
| PIEDECUESTA | Estrato 2 | 92 | 37.9 |
| PIEDECUESTA | Estrato 3 | 97 | 39.9 |
| PIEDECUESTA | Estrato 4 | 2 | 0.8 |
| PIEDECUESTA | Estrato 5 | 1 | 0.4 |
| PIEDECUESTA | Sin Estrato | 2 | 0.8 |
| PIEDECUESTA | NA | 12 | 4.9 |
| SAN GIL | Estrato 1 | 38 | 29.5 |
| SAN GIL | Estrato 2 | 65 | 50.4 |
| SAN GIL | Estrato 3 | 21 | 16.3 |
| SAN GIL | NA | 5 | 3.9 |
| SOCORRO | Estrato 1 | 22 | 44.9 |
| SOCORRO | Estrato 2 | 22 | 44.9 |
| SOCORRO | Estrato 3 | 1 | 2.0 |
| SOCORRO | Estrato 5 | 1 | 2.0 |
| SOCORRO | Estrato 6 | 1 | 2.0 |
| SOCORRO | NA | 2 | 4.1 |
##
## Call:
## lm(formula = punt_global ~ fami_estratovivienda + mod_lectura_critica_punt +
## mod_comuni_escrita_punt + mod_razona_cuantitat_punt + mod_competen_ciudada_punt +
## mod_ingles_punt + estu_genero, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.41903 -0.20178 0.00061 0.20305 0.42734
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.480e-02 6.987e-03 -2.119 0.0341 *
## fami_estratoviviendaEstrato 2 8.814e-04 2.936e-03 0.300 0.7640
## fami_estratoviviendaEstrato 3 6.744e-04 3.636e-03 0.185 0.8529
## fami_estratoviviendaEstrato 4 1.266e-02 8.341e-03 1.518 0.1291
## fami_estratoviviendaEstrato 5 6.099e-03 1.753e-02 0.348 0.7279
## fami_estratoviviendaEstrato 6 7.012e-03 2.319e-02 0.302 0.7624
## fami_estratoviviendaSin Estrato -1.877e-02 1.376e-02 -1.364 0.1727
## mod_lectura_critica_punt 2.001e-01 8.309e-05 2408.465 <2e-16 ***
## mod_comuni_escrita_punt 2.000e-01 3.352e-05 5966.581 <2e-16 ***
## mod_razona_cuantitat_punt 2.000e-01 7.487e-05 2670.808 <2e-16 ***
## mod_competen_ciudada_punt 2.000e-01 6.820e-05 2932.392 <2e-16 ***
## mod_ingles_punt 2.000e-01 6.862e-05 2915.023 <2e-16 ***
## estu_generoM -8.924e-04 2.630e-03 -0.339 0.7343
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2845 on 51577 degrees of freedom
## (2164 observations deleted due to missingness)
## Multiple R-squared: 0.9997, Adjusted R-squared: 0.9997
## F-statistic: 1.689e+07 on 12 and 51577 DF, p-value: < 2.2e-16