Informe Q3 2025

El presente Informe, responde al OKR del área de evaluación 2025: “Predecir Sistemáticamente PISA para el 100% de los estudiantes evaluados de la Red de Colegios 2025” Modelo PLC a Lectura Critica es robusto. Modelo SABER a PISA tiene limitaciones (n=3).

Resumen:

Este informe presenta un sistema estadístico para:

Predecir el desempeño PISA-2025 de Colombia en Lectura.
Convertir o Transformar puntajes PLC individuales a equivalentes PISA internacionales
Crear reportes de benchmarking para estudiantes y colegios

Hallazgos principales:

Modelo PLC $\to$ Lectura Crítica: Estadísticamente robusto ($n=185,\ R^2=0.43,\ p<0.001$)
Modelo SABER $\to$ PISA: Limitado por datos ($n=3,\ p=0.53$, no significativo)
Predicción PISA 2025: 406 puntos [IC 95%: 394-434]

1. Carga de Datos y Librerías

library(readxl)
library(tidyverse)
library(ggplot2)
library(knitr)
library(kableExtra)
library(writexl)
library(car)
library(broom)
library(patchwork)

# Cargar datos PLC-SABER 
Data <- read_excel("~/Desktop/FSAM/Data_Analitycs/Evuhablemos_2024.xlsx", 
                   sheet = "Correlación")

# Datos históricos PISA Colombia
pisa_colombia <- data.frame(
  año = c(2006, 2009, 2012, 2015, 2018, 2022),
  pisa = c(385.3, 413.2, 403.4, 424.9, 412.3, 408.7),
  error_std = c(5.08, 3.74, 3.45, 2.94, 3.25, 3.75)
)

# Datos históricos SABER-11 Colombia
saber_colombia <- data.frame(
  año = c(2015, 2016, 2018, 2022),
  saber_lectura = c(51, 52, 51, 49)
)

2. Análisis Exploratorio

2.1 Estadísticas Descriptivas

descriptivos <- Data %>%
  summarise(
    n = n(),
    PLC_mean = mean(PLC, na.rm = TRUE),
    PLC_sd = sd(PLC, na.rm = TRUE),
    LC_mean = mean(LC, na.rm = TRUE),
    LC_sd = sd(LC, na.rm = TRUE),
    ICFES_mean = mean(ICFES, na.rm = TRUE),
    ICFES_sd = sd(ICFES, na.rm = TRUE)
  )

kable(descriptivos, digits = 2, caption = "Estadísticas Descriptivas Generales") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))

Estadísticas Descriptivas Generales
n	PLC_mean	PLC_sd	LC_mean	LC_sd	ICFES_mean	ICFES_sd
191	52.29	9.64	62.64	3.67	61.34	4.43

2.2 Evolución PISA Colombia

ggplot(pisa_colombia, aes(x = año, y = pisa)) +
  geom_line(color = "steelblue", size = 1.2) +
  geom_point(size = 3, color = "darkblue") +
  geom_errorbar(aes(ymin = pisa - error_std, ymax = pisa + error_std),
                width = 0.5, color = "gray50") +
  geom_hline(yintercept = 475.6, linetype = "dashed", color = "red") +
  annotate("text", x = 2020, y = 480, label = "Promedio OCDE 2022",
           color = "red", size = 3.5) +
  labs(
    title = "Evolución Histórica PISA Lectura - Colombia",
    subtitle = "2006-2022 (Barras = Error estándar)",
    x = "Año",
    y = "Puntaje PISA Lectura"
  ) +
  theme_minimal(base_size = 12) +
  theme(plot.title = element_text(face = "bold", hjust = 0.5))

3. Modelo 1: PLC → Lectura Crítica

3.1 Regresión Lineal

modelo_plc_lc <- lm(LC ~ PLC, data = Data)

# Coeficientes
alpha0 <- coef(modelo_plc_lc)[1]
alpha1 <- coef(modelo_plc_lc)[2]
r2_lc <- summary(modelo_plc_lc)$r.squared

# Summary
tidy_modelo <- tidy(modelo_plc_lc)
glance_modelo <- glance(modelo_plc_lc)

Ecuación estimada:

\[\text{Lectura Crítica} = 49.53 + 0.2508 \times \text{PLC}\]

kable(tidy_modelo, digits = 4, 
      caption = "Coeficientes del Modelo PLC → Lectura Crítica") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))

Coeficientes del Modelo PLC → Lectura Crítica
term	estimate	std.error	statistic	p.value
(Intercept)	49.5279	1.1274	43.9330	0
PLC	0.2508	0.0212	11.8287	0

Métricas de bondad de ajuste:

$R^2 =$ 0.4333 (43.3% varianza explicada)
$n =$ 185
$p-value < 0.001$ (altamente significativo)

3.2 Diagnósticos del Modelo

# Normalidad
shapiro_test <- shapiro.test(residuals(modelo_plc_lc))

# Homocedasticidad
bp_test <- ncvTest(modelo_plc_lc)

diagnosticos_df <- data.frame(
  Test = c("Shapiro-Wilk (Normalidad)", "Breusch-Pagan (Homocedasticidad)"),
  Estadistico = c(shapiro_test$statistic, bp_test$ChiSquare),
  P_valor = c(shapiro_test$p.value, bp_test$p),
  Interpretacion = c(
    ifelse(shapiro_test$p.value > 0.05, "Residuos normales", "No normales"),
    ifelse(bp_test$p < 0.05, "Heterocedasticidad detectada", "Varianza constante")
  )
)

kable(diagnosticos_df, digits = 4, 
      caption = "Tests de Diagnóstico del Modelo") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))

Tests de Diagnóstico del Modelo
	Test	Estadistico	P_valor	Interpretacion
W	Shapiro-Wilk (Normalidad)	0.9926	0.4687	Residuos normales
	Breusch-Pagan (Homocedasticidad)	11.9109	0.0006	Heterocedasticidad detectada

3.3 Visualización

data_limpia <- Data[complete.cases(Data$PLC, Data$LC), ]

ggplot(data_limpia, aes(x = PLC, y = LC)) +
  geom_point(aes(color = Prueba), alpha = 0.6, size = 2) +
  geom_smooth(method = "lm", se = TRUE, color = "darkblue",
              fill = "lightblue", alpha = 0.3) +
  labs(
    title = "Modelo PLC → Lectura Crítica SABER-11",
    subtitle = sprintf("LC = %.2f + %.4f × PLC  |  R² = %.3f",
                       alpha0, alpha1, r2_lc),
    x = "PLC (Prueba Lectura Competente)",
    y = "SABER-11 Lectura Crítica",
    color = "Tipo de Prueba"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    plot.subtitle = element_text(hjust = 0.5, size = 10),
    legend.position = "bottom"
  )

$Relación entre PLC y Lectura Crítica SABER-11$

Relación entre PLC y Lectura Crítica SABER-11

Conclusión Modelo 1: Este modelo es estadísticamente robusto y confiable para uso operativo.

4. Modelo 2: SABER → PISA

4.1 Datos Emparejados

datos_emp <- data.frame(
  año = c(2015, 2018, 2022),
  saber = c(51, 51, 49),
  pisa = c(424.9, 412.3, 408.7)
)

kable(datos_emp, digits = 1, 
      caption = "Datos Emparejados SABER-PISA (Promedios Nacionales)") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))

Datos Emparejados SABER-PISA (Promedios Nacionales)
año	saber	pisa
2015	51	424.9
2018	51	412.3
2022	49	408.7

4.2 Regresión Lineal

modelo_sp <- lm(pisa ~ saber, data = datos_emp)

beta0 <- coef(modelo_sp)[1]
beta1 <- coef(modelo_sp)[2]
r2_sp <- summary(modelo_sp)$r.squared

tidy_sp <- tidy(modelo_sp)

Ecuación estimada:

\[\text{PISA} = 166.15 + 4.95 \times \text{SABER}\]

kable(tidy_sp, digits = 4,
      caption = "Coeficientes del Modelo SABER → PISA") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))

Coeficientes del Modelo SABER → PISA
term	estimate	std.error	statistic	p.value
(Intercept)	166.15	274.6648	0.6049	0.6537
saber	4.95	5.4560	0.9073	0.5309

4.3 Advertencias Estadísticas

advertencias <- data.frame(
  Aspecto = c("Tamaño muestral", "Significancia estadística", "R² ajustado", "Grados de libertad"),
  Valor = c("n = 3", "p = 0.531", "-0.097", "1"),
  Evaluacion = c(" Insuficiente", " No significativo (p > 0.05)", "Negativo", " Muy bajo")
)

kable(advertencias, caption = "LIMITACIONES DEL MODELO SABER→PISA") %>%
  kable_styling(bootstrap_options = c("striped", "hover"), full_width = FALSE) %>%
  row_spec(0, bold = TRUE, color = "white", background = "#d9534f")

LIMITACIONES DEL MODELO SABER→PISA
Aspecto	Valor	Evaluacion
Tamaño muestral	n = 3	Insuficiente
Significancia estadística	p = 0.531	No significativo (p > 0.05)
R² ajustado	-0.097	Negativo
Grados de libertad	1	Muy bajo

Interpretación:

Con solo 3 observaciones, este modelo limita su significancia estadística (p=0.53). Los coeficientes pueden ser producto del proceso de simulación. Se recomienda:

Usar como referencia aproximada, no predicción rigurosa
Consideraciones de modelación con resultados futuros de PISA 2025 y 2028
Reportar con intervalos de confianza amplios.

Aprendizaje del método: Dada la poco relación de muestras y el número de observaciones que existen entre PISA y Saber, la sobre muestra PLC-PISA, busca reestructiurar la vición del Diseño Centrado en Evidencias, dado que la naturaleza de las competencias evaluadas con PISA, se articulan implicitamente con el MLO. Los principales hallazgos de esta sobremuestra permite establecer una relación transitiva (teorica) de las correlaciones PLC y PISA

Resumen de Correlaciones de los diferentes Modelos
Relacion	r	R2	p_value	n	Significancia
PLC → Lectura	0.7183	0.4333	0.0000	185	p < 0.001
SABER → PISA	0.7516	0.5650	0.1429	5	p > 0.05
PLC → PISA (est.)	0.7049	0.4969	NA	NA	N/A (estimada)

4.4 Visualización

ggplot(datos_emp, aes(x = saber, y = pisa)) +
  geom_point(size = 4, color = "darkblue") +
  geom_smooth(method = "lm", se = TRUE, color = "steelblue",
              fill = "lightblue", alpha = 0.3) +
  geom_text(aes(label = año), vjust = -1.2, size = 3.5) +
  labs(
    title = "Modelo SABER → PISA (Colombia)",
    subtitle = sprintf("PISA = %.2f + %.2f × SABER  |  R² = %.3f  | n=3, p=0.53",
                       beta0, beta1, r2_sp),
    x = "SABER-11 Lectura (promedio nacional)",
    y = "PISA Lectura"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    plot.subtitle = element_text(hjust = 0.5, size = 9, color = "red")
  )

Relación SABER-PISA (3 observaciones)

5. Modelo Compuesto: PLC → PISA

5.1 Derivación por Transitividad

Por sustitución algebraica:

\[\text{Lectura} = 49.53 + 0.2508 \times \text{PLC}\]

\[\text{PISA} = 166.15 + 4.95 \times \text{Lectura}\]

Sustituyendo:

\[\text{PISA} = 166.15 + 4.95 \times (49.53 + 0.2508 \times \text{PLC})\]

\[\text{PISA} = 411.31 + 1.2416 \times \text{PLC}\]

gamma0 <- beta0 + beta1 * alpha0
gamma1 <- beta1 * alpha1

5.2 Tabla de Conversión PLC → PISA

conversion <- data.frame(
  PLC = seq(30, 90, by = 10)
) %>%
  mutate(
    Lectura_Critica = alpha0 + alpha1 * PLC,
    PISA_Equivalente = gamma0 + gamma1 * PLC,
    Pais_Referencia = c(
      "Por debajo Colombia", "Colombia", "Costa Rica",
      "México", "Chile", "Turquía", "Grecia"
    )
  )

kable(conversion, digits = 1,
      col.names = c("PLC", "Lectura Crítica", "PISA Equiv.", "País Referencia"),
      caption = "Tabla de Conversión PLC a PISA Internacional") %>%
  kable_styling(bootstrap_options = c("striped", "hover"))

Tabla de Conversión PLC a PISA Internacional
PLC	Lectura Crítica	PISA Equiv.	País Referencia
30	57.1	448.6	Por debajo Colombia
40	59.6	461.0	Colombia
50	62.1	473.4	Costa Rica
60	64.6	485.8	México
70	67.1	498.2	Chile
80	69.6	510.6	Turquía
90	72.1	523.1	Grecia

6. Predicción PISA Colombia 2025

6.1 Proyección SABER 2024

modelo_tendencia <- lm(saber_lectura ~ año, data = saber_colombia)
saber_2024 <- predict(modelo_tendencia, newdata = data.frame(año = 2024))

Basado en la tendencia histórica 2015-2022:

SABER 2024 proyectado: 48.5 puntos

6.2 Predicción PISA 2025

pred_2025 <- predict(modelo_sp, 
                     newdata = data.frame(saber = saber_2024),
                     interval = "prediction", level = 0.95)

pisa_2025 <- pred_2025[1]
ic_inf <- pred_2025[2]
ic_sup <- pred_2025[3]

prediccion_df <- data.frame(
  Metrica = c("Predicción puntual", "Intervalo 95% inferior", "Intervalo 95% superior", "Cambio vs 2022"),
  Valor = c(
    sprintf("%.0f puntos", pisa_2025),
    sprintf("%.0f puntos", ic_inf),
    sprintf("%.0f puntos", ic_sup),
    sprintf("%+.1f puntos (%.1f%%)", pisa_2025 - 408.7, (pisa_2025/408.7 - 1)*100)
  )
)

kable(prediccion_df, col.names = c("", "PISA 2025"),
      caption = "Predicción PISA Colombia 2025") %>%
  kable_styling(bootstrap_options = c("striped", "hover"), full_width = FALSE) %>%
  row_spec(1, bold = TRUE, color = "white", background = "#5cb85c")

Predicción PISA Colombia 2025
	PISA 2025
Predicción puntual	406 puntos
Intervalo 95% inferior	225 puntos
Intervalo 95% superior	588 puntos
Cambio vs 2022	-2.4 puntos (-0.6%)

Interpretación: Se espera una leve mejoría respecto a 2022, pero Colombia se mantendría significativamente por debajo del promedio OCDE (475.6 puntos).

7. Sistema de Reportes por Estudiante

7.1 Ejemplo de Reporte Individual

# Estudiante ejemplo
plc_estudiante <- 65

lc_est <- alpha0 + alpha1 * plc_estudiante
pisa_est <- gamma0 + gamma1 * plc_estudiante

# País equivalente
paises_ref <- data.frame(
  pais = c("Colombia", "México", "Chile", "Turquía", "Portugal", "España"),
  pisa_pais = c(408.7, 415.4, 448.0, 456.1, 476.6, 474.3)
)

dif_paises <- abs(pisa_est - paises_ref$pisa_pais)
pais_equiv <- paises_ref$pais[which.min(dif_paises)]

Estudiante: María González
Colegio: San Ignacio de Loyola

Métrica	Valor
PLC	65
Lectura Crítica equivalente	65.8
PISA equivalente	492 puntos
País de referencia	Portugal
Vs. promedio Colombia	+83 puntos
Vs. promedio OCDE	+16 puntos

8. Resumen de Ecuaciones Finales

ecuaciones <- data.frame(
  Modelo = c(
    "PLC → Lectura Crítica",
    "SABER → PISA",
    "PLC → PISA (compuesto)"
  ),
  Ecuacion = c(
    sprintf("LC = %.2f + %.4f × PLC", alpha0, alpha1),
    sprintf("PISA = %.2f + %.2f × SABER", beta0, beta1),
    sprintf("PISA = %.2f + %.4f × PLC", gamma0, gamma1)
  ),
  R2 = c(
    sprintf("%.3f", r2_lc),
    sprintf("%.3f", r2_sp),
    "N/A"
  ),
  n = c(
    nrow(data_limpia),
    3,
    "—"
  ),
  Confiabilidad = c(
    " Alta (p<0.001)",
    " Baja (p=0.53)",
    " Media"
  )
)

kable(ecuaciones, caption = "Resumen de Ecuaciones del Sistema") %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  column_spec(5, color = ifelse(ecuaciones$Confiabilidad == "✓ Alta (p<0.001)", 
                                 "green", "red"))

Resumen de Ecuaciones del Sistema
Modelo	Ecuacion	R2	n	Confiabilidad
PLC → Lectura Crítica	LC = 49.53 + 0.2508 × PLC	0.433	185	Alta (p<0.001)
SABER → PISA	PISA = 166.15 + 4.95 × SABER	0.451	3	Baja (p=0.53)
PLC → PISA (compuesto)	PISA = 411.31 + 1.2416 × PLC	N/A	—	Media

9. Logros y Limitaciones

9.1 Principales logros:

Evaluación interna: Usar PLC $\to$ Lectura Crítica para seguimiento estudiantil
Benchmarking orientativo: Mostrar “país equivalente” como referencia de cualificación y claseficación individual, Institucional y de agrgación.
Identificación de brechas: Detectar estudiantes que necesitan apoyo y potencial talento.

9.2 Principales Retos:

Modelo SABER $\to$ PISA no significativo ($n=3,\ p=0.53$)
- Predicciones PISA son aproximaciones, no valores exactos
- Intervalos de confianza muy amplios ($\pm$ 25 puntos)
Heterocedasticidad en PLC $\to$ LC
- Varianza de errores no constante
- Usar errores estándar robustos para inferencia

9.3 Recomendaciones

Aprendizajes:

Reportar siempre con intervalos de confianza
Incluir disclaimers sobre limitaciones estadísticas
Usar como herramienta complementaria, no única
Desarrollar prueba PLC con ítems anclados a PISA

Principal reto 2026:

Establecer correlación directa PLC-PISA bajo el modelo de sobremuestra Pisa realizado en el Q2 y los resultados PISA 2025

10. Conclusiones

Sistema operativo: El modelo PLC$\to$Lectura Crítica es estadísticamente robusto y puede usarse operativamente
Limitación principal: La conversión a PISA tiene alta incertidumbre por falta de datos históricos
Valor agregado: A pesar de limitaciones, el sistema provee contexto internacional útil para colegios
Predicción 2025: Colombia alcanzaría $\thicksim$ 417 puntos, ligera mejora pero aún lejos del promedio OCDE
Transparencia: Es crítico comunicar las limitaciones estadísticas a usuarios finales

Anexos

A. Código Completo

Todo el análisis está documentado en este RMarkdown. El código fuente está disponible colapsado en cada sección.

B. Archivos Exportados

# Exportar ecuaciones
write_xlsx(list(
  Ecuaciones = ecuaciones,
  Conversion_PLC_PISA = conversion,
  Prediccion_2025 = data.frame(
    SABER_2024 = saber_2024,
    PISA_2025 = pisa_2025,
    IC_inf = ic_inf,
    IC_sup = ic_sup
  )
), "Sistema_PISA_2025_Completo.xlsx")

Fecha de generación: 2025-10-07
Versión: 2025
Autor: Área de Evaluación FSAM