1 Resumen

Este informe presenta un análisis exploratorio, inferencial y predictivo de los resultados de las Pruebas TyT. Se utilizaron diversas herramientas estadísticas para describir la distribución de puntajes, identificar patrones y construir modelos que expliquen el desempeño global de los estudiantes. Se incluyen modelos de regresión lineal, árboles de decisión y pruebas de normalidad, acompañados de visualizaciones de alta calidad.

2 Marco Teórico

Las Pruebas TyT son evaluaciones estandarizadas que miden competencias genéricas de estudiantes de programas técnicos y tecnológicos en Colombia. Evalúan componentes como:

  • Comunicación Escrita
  • Lectura Crítica
  • Competencias Ciudadanas
  • Razonamiento Cuantitativo
  • Inglés

3 Objetivo Principal

Analizar los factores que influyen en el puntaje global obtenido por los estudiantes en las Pruebas TyT, mediante un enfoque estadístico y predictivo.

Objetivos Generales

  • Describir la distribución de puntajes por componente
  • Evaluar la normalidad de los datos y relaciones entre variables
  • Estimar el impacto de variables socioeconómicas y académicas en el puntaje global
  • Construir modelos predictivos del desempeño
  • Identificar patrones mediante árboles de decisión

4 Presentación del Proyecto

El análisis se realizó con un conjunto de datos proporcionado por el ICFES, correspondiente a los resultados de una aplicación reciente de las Pruebas TyT. Se limpiaron y transformaron variables como edad, estrato, si el estudiante trabaja, si realizó simulacros, si recibió refuerzos, y los puntajes en cada uno de los componentes evaluados.

4.1 Gentrificación Educativa

En esta sección se examina la correlación entre la ubicación geográfica de los estudiantes y su rendimiento en las Pruebas TyT. En las cinco ciudades se identifican los puntajes globales promedio más altos y se examinan características demográficas como edad y estrato socioeconómico en estas regiones.

Este método facilita la observación de posibles concentraciones de alto desempeño académico en áreas urbanas concretas, lo que podría estar vinculado con fenómenos de gentrificación educativa, acceso inequitativo a recursos de capacitación o factores socioeconómicos distintivos.

Para dar inicio formal a nuestro estudio, empezaremos con la búsqueda de los grupos que tienen mejor puntaje. En este caso escalaremos desde ciudades hasta las condiciones personales que le pueden llegar a afectar en su puntaje, en este caso para tener un mejor puntaje.

Dentro de ello encontramos un dato atípico, en el caso de Cómbita, una sola persona presento el examen y obtuvo un puntaje sobre la media, lo cual lo marca con el municipio con el mejor puntaje promedio (aclaración no es el mejor puntaje del país), esto se debe a los términos y aplicación de la prueba, presentar la prueba en dicho lugar no implica que estudie allí, la prueba se realiza a conveniencia del estudiante, ya que la institución (ICFES) debe llegar a todos los lugares del país y por ende se hace la aproximación a realizar la prueba en la proximidad a la residencia.

1.1 – Selección de las ciudades con mejor puntaje
estu_mcpio_presentacion Promedio_Puntaje Total
CÓMBITA 108.00000 1
SOCORRO 102.14286 49
EL CARMEN DE VIBORAL 99.53846 39
SAN GIL 99.00775 129
BOGOTÁ D.C. 97.94913 11912
MONIQUIRÁ 97.41176 17
GIRÓN 97.33971 209
MOSQUERA 96.91739 230
BUCARAMANGA 96.63644 1235
PIEDECUESTA 96.55967 243

4.2 Factores Demográficos y Sociales

4.2.1 Edad vs Puntaje Global

Con una tendencia por la juventud a presentar estas pruebas, Bogotá se vuelve el epicentro de la diversificación, teniendo la mayor variedad a nivel nacional de personas con diferentes edades presentando pruebas TYT. En todo el país el foco está en personas entre los 17 y los 30 años.

4.2.2 Estrato vs Puntaje Global

Un dato importante a estudiar es la población que representa el estrato, dado que en estratos 4,5 y 6, tienen una menor población que presenta estos exámenes, por lo que se estudiará si por las divisiones por estrato se encuentra alguna mejora en los resultados de la prueba.

Como se observa en la gráfica anterior, los puntajes en todos los estratos se encuentran normalizados. Existe un escalonamiento ascendente desde el estrato 1 hasta el estrato 4, lo cual sugiere una relación positiva entre el estrato socioeconómico y el puntaje obtenido. Sin embargo, en los estratos 5 y 6 se evidencia una disminución notable en los puntajes.

Para profundizar en las posibles causas de este comportamiento, analizamos la distribución poblacional por estrato. Se encontró que, aunque hay un aumento general en los puntajes hasta el estrato 4, los estratos 4, 5 y 6 representan una porción mucho menor de la población evaluada. Esto podría estar sesgando los resultados.

Por lo tanto, para establecer una correlación más precisa en este escalonamiento, sería recomendable utilizar datos históricos y comparar el comportamiento de cada estrato consigo mismo a lo largo de los años, en lugar de hacer comparaciones entre estratos.

4.3 Componentes de la Prueba

Las Pruebas TyT evalúan cinco componentes fundamentales del saber: Lectura Crítica, Comunicación Escrita, Razonamiento Cuantitativo, Competencias Ciudadanas e Inglés. El análisis de estos componentes por separado permite identificar fortalezas y debilidades en la formación de los estudiantes, así como correlaciones entre desempeños específicos.

En esta sección se comparan los cinco componentes evaluados en las Pruebas TyT: Lectura Crítica, Comunicación Escrita, Razonamiento Cuantitativo, Competencias Ciudadanas e Inglés. Se exploran sus distribuciones, medidas centrales y dispersión, así como las posibles correlaciones entre ellos.

La siguiente tabla resume el puntaje promedio, la mediana, la desviación estándar y la cantidad de observaciones por componente.

Estadísticas descriptivas por componente
Componente Promedio Desviación Mediana N
Lectura_Critica 95.6 21.7 96 53754
Comunicacion_Escrita 87.9 39.2 93 53754
Razonamiento_Cuantitativo 83.8 21.5 81 53754
Competencias_Ciudadanas 88.6 23.9 86 53754
Ingles 101.1 22.8 100 53754

Correlación entre componentes Es posible que existan relaciones lineales entre el rendimiento en los distintos componentes. Por ejemplo, un buen desempeño en Lectura Crítica puede estar asociado con resultados positivos en Competencias Ciudadanas o Comunicación Escrita.

Se explora si existe una asociación lineal entre los componentes evaluados. Esto puede indicar que un buen desempeño en una competencia está relacionado con resultados positivos en otras áreas.

La matriz de correlación muestra relaciones lineales moderadas entre algunos componentes de las Pruebas TyT. Los valores de correlación de Pearson se interpretan de la siguiente manera:

  • Lectura Crítica presenta correlaciones positivas moderadas con:

    • Razonamiento Cuantitativo (r = 0.55)
    • Competencias Ciudadanas (r = 0.62)
    • Inglés (r = 0.50) Estas asociaciones sugieren que los estudiantes que comprenden bien textos también tienden a razonar mejor en contextos cuantitativos y a tener buen desempeño en habilidades ciudadanas e inglés.
  • Comunicación Escrita muestra correlaciones débiles (r < 0.25) con los demás componentes. Esto puede indicar que esta habilidad, aunque relacionada con la comprensión lectora, no está fuertemente asociada con el desempeño en otras áreas evaluadas.

  • Razonamiento Cuantitativo se asocia moderadamente con Inglés (r = 0.45) y Competencias Ciudadanas (r = 0.42), lo que podría reflejar una base cognitiva común o estrategias de resolución de problemas similares.

En conclusión, los componentes individuales de las Pruebas TyT muestran correlaciones moderadas, lo que indica que el rendimiento en una habilidad específica puede ofrecer pistas sobre el desempeño general. No obstante, la presencia de relaciones débiles también sugiere que cada componente aporta una dimensión independiente al perfil académico del estudiante. Estas observaciones fundamentan la exploración de modelos predictivos que integren múltiples variables para estimar el puntaje global con mayor precisión.

4.4 Modelos Estadísticos Predictivos

En este bloque se aplican dos modelos de aprendizaje supervisado con fines explicativos: una regresión lineal múltiple y un árbol de decisión. Ambos modelos permiten identificar y comparar la influencia relativa de variables demográficas, académicas y socioeconómicas en el puntaje global obtenido en las Pruebas TyT.

Estos modelos buscan responder a la pregunta:

¿Qué características personales y contextuales predicen de forma más sólida el rendimiento académico en estas pruebas?

4.4.1 Regresión lineal múltiple

La regresión lineal permite modelar el puntaje global como una función lineal de múltiples variables independientes. Coeficientes principales: Todas las competencias tienen un peso casi idéntico y muy significativo: aproximadamente 0.2, lo que indica que:

Por cada punto adicional en alguna de esas competencias, el puntaje global sube 0.2 unidades.

El género y el estrato no son estadísticamente significativos (valores-p > 0.05). Esto implica que:

El modelo no detecta diferencias relevantes por género o nivel socioeconómico en el puntaje global una vez se controlan las competencias.

Ajuste del modelo: R² ajustado: 0.9997 ➝ el modelo explica prácticamente el 99.97% de la variabilidad en el puntaje global.

Residual standard error: 0.2845 ➝ muy bajo, lo que indica un excelente ajuste del modelo.

Anexo 2°

4.4.2 Árboles de decisión

El atributo más importante para predecir el puntaje global (punt_global) es mod_lectura_critica_punt (lectura crítica), ya que es la primera variable que aparece en la raíz del árbol.

Le siguen como variables relevantes:

(comunicación escrita),

(inglés),

(competencias ciudadanas),

mlectura crítica nuevamente en niveles más profundos.

Ramas principales:

Si el puntaje de lectura crítica es menor a 100:

La comunicación escrita y el inglés tienen un fuerte peso en la predicción.

Para puntajes bajos en esas áreas, el resultado global también es menor (ej: nodo final con media 65).

Si el puntaje de lectura crítica es ≥ 100:

El inglés y las competencias ciudadanas diferencian los resultados.

En la rama derecha, los nodos terminales muestran puntajes globales más altos, llegando a 121.

Conclusión: Las competencias básicas (lectura crítica, comunicación escrita, competencias ciudadanas, inglés) son fuertemente predictivas.

Un aumento en el el area de lectura crítica, implica un impacto significativo en todas las areas y por ende en el puntaje global.

En este bloque se construyen modelos para predecir el puntaje global obtenido por los estudiantes en las Pruebas TyT, con base en variables demográficas y de contexto como edad, género, estrato socioeconómico, jornada académica y puntajes por componente. Se emplean modelos lineales y árboles de decisión para analizar la influencia de estas variables y evaluar su poder predictivo.

Primero se ajusta un modelo lineal múltiple para explicar el puntaje global en función de variables independientes seleccionadas. Este modelo permite interpretar la magnitud y dirección de los efectos individuales.

5 Conclusiones

El análisis integral de los resultados de las Pruebas TyT permitió identificar patrones significativos en el desempeño académico de los estudiantes a partir de variables individuales, sociales y académicas. Entre los principales hallazgos se destacan:

Componentes clave en el puntaje global: Las competencias de Lectura Crítica, Comunicación Escrita, Competencias Ciudadanas, Inglés y Razonamiento Cuantitativo muestran una influencia significativa y consistente sobre el puntaje global. Esto fue validado tanto por la regresión lineal como por el árbol de decisión.

Regresión lineal múltiple: Todos los componentes evaluados presentan coeficientes muy similares (~0.2), lo que indica una contribución equitativa al puntaje global. El modelo tuvo un ajuste excelente (R² ajustado de 0.9997), y descartó significancia estadística en variables como el género y el estrato socioeconómico, una vez se controlan las competencias.

Árbol de decisión: El análisis visual mostró que el puntaje en Lectura Crítica es el principal determinante del resultado global. A partir de este, se ramifican otros factores como Comunicación Escrita, Inglés y Competencias Ciudadanas, reforzando su valor predictivo.

Efecto del contexto socioeconómico: Aunque en el análisis exploratorio se observó una tendencia ascendente entre estrato y puntaje hasta el estrato 4, los modelos predictivos no identificaron una relación significativa cuando se incluyen los puntajes por competencia.

Variación geográfica: Se encontraron diferencias regionales relevantes, con ciudades como Bogotá y San Gil destacándose en desempeño. También se identificaron posibles sesgos en municipios con baja participación, como Cómbita.

6 Reflexión

Este proyecto demuestra el poder del análisis estadístico como herramienta para comprender fenómenos educativos complejos. Al combinar enfoques exploratorios, inferenciales y predictivos, fue posible obtener una visión detallada de los factores que inciden en el desempeño académico medido por las Pruebas TyT.

Los resultados invitan a replantear las estrategias educativas, enfocándose en fortalecer las competencias fundamentales en los estudiantes, independientemente de su contexto social. A su vez, se destaca la importancia de contar con datos completos y representativos para evitar sesgos en la interpretación.

Finalmente, se valida que el uso complementario de modelos estadísticos (regresión y árboles) enriquece el análisis y permite tomar decisiones mejor informadas en contextos educativos.

7 Referencias

El presente análisis tomó como guía metodológica y estructural el informe elaborado por el Laboratorio de Economía de la Educación (2024), sin basarse directamente en sus datos ni en su contenido específico.

Laboratorio de Economía de la Educación (LEE) de la Pontificia Universidad Javeriana. (2024). Informe No. 92. Pruebas Saber 11: una década de análisis. https://lee.javeriana.edu.co/publicaciones-y-documentos

Para este análisis se utilizaron los datos abiertos publicados por el ICFES (2025), correspondientes a la aplicación de las pruebas TyT en el segundo semestre de 2023.

ICFES. (2025, enero 3). Datos abiertos – Pruebas TyT 2023-2. Transparencia y acceso a la información pública. https://www.icfes.gov.co/web/guest/transparencia-y-acceso-a-la-informacion-publica

8 Anexos

8.0.1 Anexo 1°

Distribución porcentual de estratos por ciudad
Ciudad Estrato Total Prop
BOGOTÁ D.C. Estrato 1 1452 12.2
BOGOTÁ D.C. Estrato 2 6006 50.4
BOGOTÁ D.C. Estrato 3 3586 30.1
BOGOTÁ D.C. Estrato 4 311 2.6
BOGOTÁ D.C. Estrato 5 59 0.5
BOGOTÁ D.C. Estrato 6 22 0.2
BOGOTÁ D.C. Sin Estrato 40 0.3
BOGOTÁ D.C. NA 436 3.7
BUCARAMANGA Estrato 1 309 25.0
BUCARAMANGA Estrato 2 464 37.6
BUCARAMANGA Estrato 3 296 24.0
BUCARAMANGA Estrato 4 89 7.2
BUCARAMANGA Estrato 5 6 0.5
BUCARAMANGA Estrato 6 5 0.4
BUCARAMANGA Sin Estrato 5 0.4
BUCARAMANGA NA 61 4.9
CÓMBITA NA 1 100.0
EL CARMEN DE VIBORAL Estrato 1 6 15.4
EL CARMEN DE VIBORAL Estrato 2 12 30.8
EL CARMEN DE VIBORAL Estrato 3 17 43.6
EL CARMEN DE VIBORAL Estrato 4 2 5.1
EL CARMEN DE VIBORAL Estrato 5 1 2.6
EL CARMEN DE VIBORAL NA 1 2.6
GIRÓN Estrato 1 68 32.5
GIRÓN Estrato 2 71 34.0
GIRÓN Estrato 3 57 27.3
GIRÓN Estrato 4 2 1.0
GIRÓN Sin Estrato 1 0.5
GIRÓN NA 10 4.8
MONIQUIRÁ Estrato 1 10 58.8
MONIQUIRÁ Estrato 2 5 29.4
MONIQUIRÁ NA 2 11.8
MOSQUERA Estrato 1 18 7.8
MOSQUERA Estrato 2 83 36.1
MOSQUERA Estrato 3 98 42.6
MOSQUERA Estrato 4 12 5.2
MOSQUERA Estrato 5 1 0.4
MOSQUERA Sin Estrato 5 2.2
MOSQUERA NA 13 5.7
PIEDECUESTA Estrato 1 37 15.2
PIEDECUESTA Estrato 2 92 37.9
PIEDECUESTA Estrato 3 97 39.9
PIEDECUESTA Estrato 4 2 0.8
PIEDECUESTA Estrato 5 1 0.4
PIEDECUESTA Sin Estrato 2 0.8
PIEDECUESTA NA 12 4.9
SAN GIL Estrato 1 38 29.5
SAN GIL Estrato 2 65 50.4
SAN GIL Estrato 3 21 16.3
SAN GIL NA 5 3.9
SOCORRO Estrato 1 22 44.9
SOCORRO Estrato 2 22 44.9
SOCORRO Estrato 3 1 2.0
SOCORRO Estrato 5 1 2.0
SOCORRO Estrato 6 1 2.0
SOCORRO NA 2 4.1

8.0.2 Anexo 2°

## 
## Call:
## lm(formula = punt_global ~ fami_estratovivienda + mod_lectura_critica_punt + 
##     mod_comuni_escrita_punt + mod_razona_cuantitat_punt + mod_competen_ciudada_punt + 
##     mod_ingles_punt + estu_genero, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.41903 -0.20178  0.00061  0.20305  0.42734 
## 
## Coefficients:
##                                   Estimate Std. Error  t value Pr(>|t|)    
## (Intercept)                     -1.480e-02  6.987e-03   -2.119   0.0341 *  
## fami_estratoviviendaEstrato 2    8.814e-04  2.936e-03    0.300   0.7640    
## fami_estratoviviendaEstrato 3    6.744e-04  3.636e-03    0.185   0.8529    
## fami_estratoviviendaEstrato 4    1.266e-02  8.341e-03    1.518   0.1291    
## fami_estratoviviendaEstrato 5    6.099e-03  1.753e-02    0.348   0.7279    
## fami_estratoviviendaEstrato 6    7.012e-03  2.319e-02    0.302   0.7624    
## fami_estratoviviendaSin Estrato -1.877e-02  1.376e-02   -1.364   0.1727    
## mod_lectura_critica_punt         2.001e-01  8.309e-05 2408.465   <2e-16 ***
## mod_comuni_escrita_punt          2.000e-01  3.352e-05 5966.581   <2e-16 ***
## mod_razona_cuantitat_punt        2.000e-01  7.487e-05 2670.808   <2e-16 ***
## mod_competen_ciudada_punt        2.000e-01  6.820e-05 2932.392   <2e-16 ***
## mod_ingles_punt                  2.000e-01  6.862e-05 2915.023   <2e-16 ***
## estu_generoM                    -8.924e-04  2.630e-03   -0.339   0.7343    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2845 on 51577 degrees of freedom
##   (2164 observations deleted due to missingness)
## Multiple R-squared:  0.9997, Adjusted R-squared:  0.9997 
## F-statistic: 1.689e+07 on 12 and 51577 DF,  p-value: < 2.2e-16