Informe Q3 2025

El presente Informe, responde al OKR del área de evaluación 2025: “Predecir Sistemáticamente PISA para el 100% de los estudiantes evaluados de la Red de Colegios 2025” Modelo PLC a Lectura Critica es robusto. Modelo SABER a PISA tiene limitaciones (n=3).

Resumen:

Este informe presenta un sistema estadístico para:

  1. Predecir el desempeño PISA-2025 de Colombia en Lectura.
  2. Convertir o Transformar puntajes PLC individuales a equivalentes PISA internacionales
  3. Crear reportes de benchmarking para estudiantes y colegios

Hallazgos principales:


1. Carga de Datos y Librerías

library(readxl)
library(tidyverse)
library(ggplot2)
library(knitr)
library(kableExtra)
library(writexl)
library(car)
library(broom)
library(patchwork)
# Cargar datos PLC-SABER 
Data <- read_excel("~/Desktop/FSAM/Data_Analitycs/Evuhablemos_2024.xlsx", 
                   sheet = "Correlación")

# Datos históricos PISA Colombia
pisa_colombia <- data.frame(
  año = c(2006, 2009, 2012, 2015, 2018, 2022),
  pisa = c(385.3, 413.2, 403.4, 424.9, 412.3, 408.7),
  error_std = c(5.08, 3.74, 3.45, 2.94, 3.25, 3.75)
)

# Datos históricos SABER-11 Colombia
saber_colombia <- data.frame(
  año = c(2015, 2016, 2018, 2022),
  saber_lectura = c(51, 52, 51, 49)
)

2. Análisis Exploratorio

2.1 Estadísticas Descriptivas

descriptivos <- Data %>%
  summarise(
    n = n(),
    PLC_mean = mean(PLC, na.rm = TRUE),
    PLC_sd = sd(PLC, na.rm = TRUE),
    LC_mean = mean(LC, na.rm = TRUE),
    LC_sd = sd(LC, na.rm = TRUE),
    ICFES_mean = mean(ICFES, na.rm = TRUE),
    ICFES_sd = sd(ICFES, na.rm = TRUE)
  )

kable(descriptivos, digits = 2, caption = "Estadísticas Descriptivas Generales") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Estadísticas Descriptivas Generales
n PLC_mean PLC_sd LC_mean LC_sd ICFES_mean ICFES_sd
191 52.29 9.64 62.64 3.67 61.34 4.43

2.2 Evolución PISA Colombia

ggplot(pisa_colombia, aes(x = año, y = pisa)) +
  geom_line(color = "steelblue", size = 1.2) +
  geom_point(size = 3, color = "darkblue") +
  geom_errorbar(aes(ymin = pisa - error_std, ymax = pisa + error_std),
                width = 0.5, color = "gray50") +
  geom_hline(yintercept = 475.6, linetype = "dashed", color = "red") +
  annotate("text", x = 2020, y = 480, label = "Promedio OCDE 2022",
           color = "red", size = 3.5) +
  labs(
    title = "Evolución Histórica PISA Lectura - Colombia",
    subtitle = "2006-2022 (Barras = Error estándar)",
    x = "Año",
    y = "Puntaje PISA Lectura"
  ) +
  theme_minimal(base_size = 12) +
  theme(plot.title = element_text(face = "bold", hjust = 0.5))


3. Modelo 1: PLC → Lectura Crítica

3.1 Regresión Lineal

modelo_plc_lc <- lm(LC ~ PLC, data = Data)

# Coeficientes
alpha0 <- coef(modelo_plc_lc)[1]
alpha1 <- coef(modelo_plc_lc)[2]
r2_lc <- summary(modelo_plc_lc)$r.squared

# Summary
tidy_modelo <- tidy(modelo_plc_lc)
glance_modelo <- glance(modelo_plc_lc)

Ecuación estimada:

\[\text{Lectura Crítica} = 49.53 + 0.2508 \times \text{PLC}\]

kable(tidy_modelo, digits = 4, 
      caption = "Coeficientes del Modelo PLC → Lectura Crítica") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Coeficientes del Modelo PLC → Lectura Crítica
term estimate std.error statistic p.value
(Intercept) 49.5279 1.1274 43.9330 0
PLC 0.2508 0.0212 11.8287 0

Métricas de bondad de ajuste:

  • \(R^2 =\) 0.4333 (43.3% varianza explicada)
  • \(n =\) 185
  • \(p-value < 0.001\) (altamente significativo)

3.2 Diagnósticos del Modelo

# Normalidad
shapiro_test <- shapiro.test(residuals(modelo_plc_lc))

# Homocedasticidad
bp_test <- ncvTest(modelo_plc_lc)

diagnosticos_df <- data.frame(
  Test = c("Shapiro-Wilk (Normalidad)", "Breusch-Pagan (Homocedasticidad)"),
  Estadistico = c(shapiro_test$statistic, bp_test$ChiSquare),
  P_valor = c(shapiro_test$p.value, bp_test$p),
  Interpretacion = c(
    ifelse(shapiro_test$p.value > 0.05, "Residuos normales", "No normales"),
    ifelse(bp_test$p < 0.05, "Heterocedasticidad detectada", "Varianza constante")
  )
)

kable(diagnosticos_df, digits = 4, 
      caption = "Tests de Diagnóstico del Modelo") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tests de Diagnóstico del Modelo
Test Estadistico P_valor Interpretacion
W Shapiro-Wilk (Normalidad) 0.9926 0.4687 Residuos normales
Breusch-Pagan (Homocedasticidad) 11.9109 0.0006 Heterocedasticidad detectada

3.3 Visualización

data_limpia <- Data[complete.cases(Data$PLC, Data$LC), ]

ggplot(data_limpia, aes(x = PLC, y = LC)) +
  geom_point(aes(color = Prueba), alpha = 0.6, size = 2) +
  geom_smooth(method = "lm", se = TRUE, color = "darkblue",
              fill = "lightblue", alpha = 0.3) +
  labs(
    title = "Modelo PLC → Lectura Crítica SABER-11",
    subtitle = sprintf("LC = %.2f + %.4f × PLC  |  R² = %.3f",
                       alpha0, alpha1, r2_lc),
    x = "PLC (Prueba Lectura Competente)",
    y = "SABER-11 Lectura Crítica",
    color = "Tipo de Prueba"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    plot.subtitle = element_text(hjust = 0.5, size = 10),
    legend.position = "bottom"
  )
Relación entre PLC y Lectura Crítica SABER-11

Relación entre PLC y Lectura Crítica SABER-11

Conclusión Modelo 1: Este modelo es estadísticamente robusto y confiable para uso operativo.


4. Modelo 2: SABER → PISA

4.1 Datos Emparejados

datos_emp <- data.frame(
  año = c(2015, 2018, 2022),
  saber = c(51, 51, 49),
  pisa = c(424.9, 412.3, 408.7)
)

kable(datos_emp, digits = 1, 
      caption = "Datos Emparejados SABER-PISA (Promedios Nacionales)") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Datos Emparejados SABER-PISA (Promedios Nacionales)
año saber pisa
2015 51 424.9
2018 51 412.3
2022 49 408.7

4.2 Regresión Lineal

modelo_sp <- lm(pisa ~ saber, data = datos_emp)

beta0 <- coef(modelo_sp)[1]
beta1 <- coef(modelo_sp)[2]
r2_sp <- summary(modelo_sp)$r.squared

tidy_sp <- tidy(modelo_sp)

Ecuación estimada:

\[\text{PISA} = 166.15 + 4.95 \times \text{SABER}\]

kable(tidy_sp, digits = 4,
      caption = "Coeficientes del Modelo SABER → PISA") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Coeficientes del Modelo SABER → PISA
term estimate std.error statistic p.value
(Intercept) 166.15 274.6648 0.6049 0.6537
saber 4.95 5.4560 0.9073 0.5309

4.3 Advertencias Estadísticas

advertencias <- data.frame(
  Aspecto = c("Tamaño muestral", "Significancia estadística", "R² ajustado", "Grados de libertad"),
  Valor = c("n = 3", "p = 0.531", "-0.097", "1"),
  Evaluacion = c(" Insuficiente", " No significativo (p > 0.05)", "Negativo", " Muy bajo")
)

kable(advertencias, caption = "LIMITACIONES DEL MODELO SABER→PISA") %>%
  kable_styling(bootstrap_options = c("striped", "hover"), full_width = FALSE) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#d9534f")
LIMITACIONES DEL MODELO SABER→PISA
Aspecto Valor Evaluacion
Tamaño muestral n = 3 Insuficiente
Significancia estadística p = 0.531 No significativo (p > 0.05)
R² ajustado -0.097 Negativo
Grados de libertad 1 Muy bajo

Interpretación:

Con solo 3 observaciones, este modelo limita su significancia estadística (p=0.53). Los coeficientes pueden ser producto del proceso de simulación. Se recomienda:

  1. Usar como referencia aproximada, no predicción rigurosa
  2. Consideraciones de modelación con resultados futuros de PISA 2025 y 2028
  3. Reportar con intervalos de confianza amplios.
Aprendizaje del método: Dada la poco relación de muestras y el número de observaciones que existen entre PISA y Saber, la sobre muestra PLC-PISA, busca reestructiurar la vición del Diseño Centrado en Evidencias, dado que la naturaleza de las competencias evaluadas con PISA, se articulan implicitamente con el MLO. Los principales hallazgos de esta sobremuestra permite establecer una relación transitiva (teorica) de las correlaciones PLC y PISA
Resumen de Correlaciones de los diferentes Modelos
Relacion r R2 p_value n Significancia
PLC → Lectura 0.7183 0.4333 0.0000 185 p < 0.001
SABER → PISA 0.7516 0.5650 0.1429 5 p > 0.05
PLC → PISA (est.) 0.7049 0.4969 NA NA N/A (estimada)

4.4 Visualización

ggplot(datos_emp, aes(x = saber, y = pisa)) +
  geom_point(size = 4, color = "darkblue") +
  geom_smooth(method = "lm", se = TRUE, color = "steelblue",
              fill = "lightblue", alpha = 0.3) +
  geom_text(aes(label = año), vjust = -1.2, size = 3.5) +
  labs(
    title = "Modelo SABER → PISA (Colombia)",
    subtitle = sprintf("PISA = %.2f + %.2f × SABER  |  R² = %.3f  | n=3, p=0.53",
                       beta0, beta1, r2_sp),
    x = "SABER-11 Lectura (promedio nacional)",
    y = "PISA Lectura"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    plot.subtitle = element_text(hjust = 0.5, size = 9, color = "red")
  )
Relación SABER-PISA (3 observaciones)

Relación SABER-PISA (3 observaciones)


5. Modelo Compuesto: PLC → PISA

5.1 Derivación por Transitividad

Por sustitución algebraica:

\[\text{Lectura} = 49.53 + 0.2508 \times \text{PLC}\]

\[\text{PISA} = 166.15 + 4.95 \times \text{Lectura}\]

Sustituyendo:

\[\text{PISA} = 166.15 + 4.95 \times (49.53 + 0.2508 \times \text{PLC})\]

\[\text{PISA} = 411.31 + 1.2416 \times \text{PLC}\]

gamma0 <- beta0 + beta1 * alpha0
gamma1 <- beta1 * alpha1

5.2 Tabla de Conversión PLC → PISA

conversion <- data.frame(
  PLC = seq(30, 90, by = 10)
) %>%
  mutate(
    Lectura_Critica = alpha0 + alpha1 * PLC,
    PISA_Equivalente = gamma0 + gamma1 * PLC,
    Pais_Referencia = c(
      "Por debajo Colombia", "Colombia", "Costa Rica",
      "México", "Chile", "Turquía", "Grecia"
    )
  )

kable(conversion, digits = 1,
      col.names = c("PLC", "Lectura Crítica", "PISA Equiv.", "País Referencia"),
      caption = "Tabla de Conversión PLC a PISA Internacional") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Tabla de Conversión PLC a PISA Internacional
PLC Lectura Crítica PISA Equiv. País Referencia
30 57.1 448.6 Por debajo Colombia
40 59.6 461.0 Colombia
50 62.1 473.4 Costa Rica
60 64.6 485.8 México
70 67.1 498.2 Chile
80 69.6 510.6 Turquía
90 72.1 523.1 Grecia

6. Predicción PISA Colombia 2025

6.1 Proyección SABER 2024

modelo_tendencia <- lm(saber_lectura ~ año, data = saber_colombia)
saber_2024 <- predict(modelo_tendencia, newdata = data.frame(año = 2024))

Basado en la tendencia histórica 2015-2022:

SABER 2024 proyectado: 48.5 puntos

6.2 Predicción PISA 2025

pred_2025 <- predict(modelo_sp, 
                     newdata = data.frame(saber = saber_2024),
                     interval = "prediction", level = 0.95)

pisa_2025 <- pred_2025[1]
ic_inf <- pred_2025[2]
ic_sup <- pred_2025[3]
prediccion_df <- data.frame(
  Metrica = c("Predicción puntual", "Intervalo 95% inferior", "Intervalo 95% superior", "Cambio vs 2022"),
  Valor = c(
    sprintf("%.0f puntos", pisa_2025),
    sprintf("%.0f puntos", ic_inf),
    sprintf("%.0f puntos", ic_sup),
    sprintf("%+.1f puntos (%.1f%%)", pisa_2025 - 408.7, (pisa_2025/408.7 - 1)*100)
  )
)

kable(prediccion_df, col.names = c("", "PISA 2025"),
      caption = "Predicción PISA Colombia 2025") %>%
  kable_styling(bootstrap_options = c("striped", "hover"), full_width = FALSE) %>%
  row_spec(1, bold = TRUE, color = "white", background = "#5cb85c")
Predicción PISA Colombia 2025
PISA 2025
Predicción puntual 406 puntos
Intervalo 95% inferior 225 puntos
Intervalo 95% superior 588 puntos
Cambio vs 2022 -2.4 puntos (-0.6%)

Interpretación: Se espera una leve mejoría respecto a 2022, pero Colombia se mantendría significativamente por debajo del promedio OCDE (475.6 puntos).


7. Sistema de Reportes por Estudiante

7.1 Ejemplo de Reporte Individual

# Estudiante ejemplo
plc_estudiante <- 65

lc_est <- alpha0 + alpha1 * plc_estudiante
pisa_est <- gamma0 + gamma1 * plc_estudiante

# País equivalente
paises_ref <- data.frame(
  pais = c("Colombia", "México", "Chile", "Turquía", "Portugal", "España"),
  pisa_pais = c(408.7, 415.4, 448.0, 456.1, 476.6, 474.3)
)

dif_paises <- abs(pisa_est - paises_ref$pisa_pais)
pais_equiv <- paises_ref$pais[which.min(dif_paises)]

Estudiante: María González
Colegio: San Ignacio de Loyola

Métrica Valor
PLC 65
Lectura Crítica equivalente 65.8
PISA equivalente 492 puntos
País de referencia Portugal
Vs. promedio Colombia +83 puntos
Vs. promedio OCDE +16 puntos

8. Resumen de Ecuaciones Finales

ecuaciones <- data.frame(
  Modelo = c(
    "PLC → Lectura Crítica",
    "SABER → PISA",
    "PLC → PISA (compuesto)"
  ),
  Ecuacion = c(
    sprintf("LC = %.2f + %.4f × PLC", alpha0, alpha1),
    sprintf("PISA = %.2f + %.2f × SABER", beta0, beta1),
    sprintf("PISA = %.2f + %.4f × PLC", gamma0, gamma1)
  ),
  R2 = c(
    sprintf("%.3f", r2_lc),
    sprintf("%.3f", r2_sp),
    "N/A"
  ),
  n = c(
    nrow(data_limpia),
    3,
    "—"
  ),
  Confiabilidad = c(
    " Alta (p<0.001)",
    " Baja (p=0.53)",
    " Media"
  )
)

kable(ecuaciones, caption = "Resumen de Ecuaciones del Sistema") %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  column_spec(5, color = ifelse(ecuaciones$Confiabilidad == "✓ Alta (p<0.001)", 
                                 "green", "red"))
Resumen de Ecuaciones del Sistema
Modelo Ecuacion R2 n Confiabilidad
PLC → Lectura Crítica LC = 49.53 + 0.2508 × PLC 0.433 185 Alta (p<0.001)
SABER → PISA PISA = 166.15 + 4.95 × SABER 0.451 3 Baja (p=0.53)
PLC → PISA (compuesto) PISA = 411.31 + 1.2416 × PLC N/A Media

9. Logros y Limitaciones

9.1 Principales logros:

  1. Evaluación interna: Usar PLC \(\to\) Lectura Crítica para seguimiento estudiantil
  2. Benchmarking orientativo: Mostrar “país equivalente” como referencia de cualificación y claseficación individual, Institucional y de agrgación.
  3. Identificación de brechas: Detectar estudiantes que necesitan apoyo y potencial talento.

9.2 Principales Retos:

  1. Modelo SABER \(\to\) PISA no significativo (\(n=3,\ p=0.53\))
    • Predicciones PISA son aproximaciones, no valores exactos
    • Intervalos de confianza muy amplios (\(\pm\) 25 puntos)
  2. Heterocedasticidad en PLC \(\to\) LC
    • Varianza de errores no constante
    • Usar errores estándar robustos para inferencia

9.3 Recomendaciones

Aprendizajes:

  • Reportar siempre con intervalos de confianza
  • Incluir disclaimers sobre limitaciones estadísticas
  • Usar como herramienta complementaria, no única
  • Desarrollar prueba PLC con ítems anclados a PISA

Principal reto 2026:

  • Establecer correlación directa PLC-PISA bajo el modelo de sobremuestra Pisa realizado en el Q2 y los resultados PISA 2025

10. Conclusiones

  1. Sistema operativo: El modelo PLC\(\to\)Lectura Crítica es estadísticamente robusto y puede usarse operativamente

  2. Limitación principal: La conversión a PISA tiene alta incertidumbre por falta de datos históricos

  3. Valor agregado: A pesar de limitaciones, el sistema provee contexto internacional útil para colegios

  4. Predicción 2025: Colombia alcanzaría \(\thicksim\) 417 puntos, ligera mejora pero aún lejos del promedio OCDE

  5. Transparencia: Es crítico comunicar las limitaciones estadísticas a usuarios finales


Anexos

A. Código Completo

Todo el análisis está documentado en este RMarkdown. El código fuente está disponible colapsado en cada sección.

B. Archivos Exportados

# Exportar ecuaciones
write_xlsx(list(
  Ecuaciones = ecuaciones,
  Conversion_PLC_PISA = conversion,
  Prediccion_2025 = data.frame(
    SABER_2024 = saber_2024,
    PISA_2025 = pisa_2025,
    IC_inf = ic_inf,
    IC_sup = ic_sup
  )
), "Sistema_PISA_2025_Completo.xlsx")

Fecha de generación: 2025-10-07
Versión: 2025
Autor: Área de Evaluación FSAM