Los datos utilizados corresponden a los resultados del examen Saber 11, específicamente las variables:
PUNT_GLOBAL: Puntaje global del estudiante.
PUNT_MATEMATICAS: Puntaje obtenido en el área de matemáticas.
El conjunto de datos contiene 99 observaciones, cada una correspondiente a un estudiante.
#Cargar datos
df <- read_excel("Resultados_Saber11_2025.xlsx")
head(df)
## # A tibble: 6 × 3
## PERIODO PUNT_MATEMATICAS PUNT_GLOBAL
## <dbl> <dbl> <dbl>
## 1 20194 66 339
## 2 20194 66 339
## 3 20194 43 199
## 4 20194 43 199
## 5 20162 57 272
## 6 20172 53 253
summary(df)
## PERIODO PUNT_MATEMATICAS PUNT_GLOBAL
## Min. :20142 Min. :28.00 Min. :159.0
## 1st Qu.:20152 1st Qu.:43.50 1st Qu.:213.0
## Median :20162 Median :50.00 Median :250.0
## Mean :20168 Mean :50.54 Mean :249.0
## 3rd Qu.:20194 3rd Qu.:57.00 3rd Qu.:277.5
## Max. :20194 Max. :79.00 Max. :353.0
Se seleccionó un modelo de regresión lineal simple, ya que:
Ambas variables son cuantitativas
Existe una relación lineal evidente en la gráfica de dispersión
El objetivo es determinar si el puntaje en matemáticas es un predictor significativo del puntaje global
El modelo estimado es:
PUNT_GLOBAL= β₀ + β₁ ⋅ PUNT_MATEMATICAS + ε
El diagrama de dispersión muestra una clara relación positiva:
-A mayor puntaje en matemáticas, mayor puntaje global.
La recta ajustada presenta una inclinación pronunciada, lo cual indica un efecto sustancial del puntaje de matemáticas sobre el puntaje global.
El análisis del modelo muestra:
La pendiente (β₁ = 3.99) indica que por cada punto adicional en Matemáticas, el puntaje global aumenta en promedio 3.99 puntos.
El intercepto (β₀ = 47.33) representa el puntaje global esperado cuando matemáticas es cero.
El coeficiente de determinación R² = 0.76 significa que el 76% de la variabilidad del puntaje global se explica por el puntaje de matemáticas.
El p-valor del modelo es menor a 2e−16, indicando que la relación es altamente significativa.
ggplot(df, aes(PUNT_MATEMATICAS, PUNT_GLOBAL)) +
geom_point(color="blue") +
geom_smooth(method="lm", se=TRUE, color="black") +
labs(title="Relación entre Matemáticas y Puntaje Global",
x="Puntaje Matemáticas",
y="Puntaje Global")
W = 0.984
p-value = 0.280
Como el p-value es mayor a 0.05, no se rechaza la normalidad.
Los residuos se comportan aproximadamente normales, por lo tanto este supuesto se cumple.
BP = 2.36
p-value = 0.12
El p-value > 0.05 indica que no existe evidencia de heterocedasticidad.
Los residuos muestran variabilidad constante → El supuesto de homocedasticidad se cumple.
DW = 1.57
p-value = 0.038
El p-value < 0.05 sugiere ligera autocorrelación positiva en los residuos.
modelo <- lm(PUNT_GLOBAL ~ PUNT_MATEMATICAS, data=df)
summary(modelo)
##
## Call:
## lm(formula = PUNT_GLOBAL ~ PUNT_MATEMATICAS, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -54.912 -15.473 0.088 11.657 67.062
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 47.3362 11.7373 4.033 0.00011 ***
## PUNT_MATEMATICAS 3.9913 0.2276 17.537 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 23.3 on 97 degrees of freedom
## Multiple R-squared: 0.7602, Adjusted R-squared: 0.7578
## F-statistic: 307.6 on 1 and 97 DF, p-value: < 2.2e-16
tidy(modelo)
## # A tibble: 2 × 5
## term estimate std.error statistic p.value
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 (Intercept) 47.3 11.7 4.03 1.10e- 4
## 2 PUNT_MATEMATICAS 3.99 0.228 17.5 7.68e-32
glance(modelo)
## # A tibble: 1 × 12
## r.squared adj.r.squared sigma statistic p.value df logLik AIC BIC
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0.760 0.758 23.3 308. 7.68e-32 1 -451. 908. 916.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
par(mfrow = c(2,2))
plot(modelo)
par(mfrow = c(1,1))
Muestra una nube de puntos relativamente uniforme, sin patrones definidos.
→ Indica linealidad y homocedasticidad aceptables.
Los puntos siguen la línea diagonal con leves desviaciones.
→ Compatibles con normalidad de residuos.
Los puntos se distribuyen sin tendencia clara.
→ Apoya la homocedasticidad.
No aparecen puntos influyentes con alto leverage.
→ No hay valores atípicos extremos que afecten al modelo.
shapiro.test(residuals(modelo))
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo)
## W = 0.98412, p-value = 0.2802
bptest(modelo)
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 2.3672, df = 1, p-value = 0.1239
durbinWatsonTest(modelo)
## lag Autocorrelation D-W Statistic p-value
## 1 0.2032287 1.574072 0.03
## Alternative hypothesis: rho != 0
Los resultados indican que el puntaje en matemáticas es un fuerte predictor del puntaje global del examen Saber 11. En términos prácticos, cada punto adicional en matemáticas aumenta el puntaje global en aproximadamente 4 puntos. Esto sugiere que mejorar el desempeño en esta área tiene un impacto significativo en el rendimiento total del examen.
Se realizaron predicciones del puntaje global para valores específicos de matemáticas. Por ejemplo, para un estudiante con 60 puntos en matemáticas:
predict(modelo, data.frame(PUNT_MATEMATICAS = 60))
## 1
## 286.8171
El modelo predice que un estudiante con 60 puntos en matemáticas obtendría aproximadamente 286 puntos de puntaje global.
# Crear tabla de valores para predecir
nuevos_valores <- data.frame(
PUNT_MATEMATICAS = c(30, 40, 50, 60, 70, 80)
)
# Obtener predicciones con intervalos de confianza
predicciones <- cbind(
nuevos_valores,
predict(modelo, nuevos_valores, interval = "confidence")
)
predicciones
## PUNT_MATEMATICAS fit lwr upr
## 1 30 167.0766 156.7017 177.4515
## 2 40 206.9901 200.3386 213.6417
## 3 50 246.9036 242.2502 251.5571
## 4 60 286.8171 280.5026 293.1317
## 5 70 326.7306 316.7858 336.6755
## 6 80 366.6441 352.5468 380.7414
fit: predicción del modelo
lwr: límite inferior (confianza 95%)
upr: límite superior (confianza 95%)
La tabla muestra las predicciones del puntaje global para distintos puntajes en matemáticas. Se observa que a medida que aumenta el puntaje en matemáticas, también aumenta significativamente el puntaje global. Los intervalos de confianza indican la precisión de las estimaciones, mostrando que el modelo es consistente en todos los niveles evaluados.
cat("Pendiente:", coef(modelo)[2], "\n")
## Pendiente: 3.991349
cat("Intercepto:", coef(modelo)[1], "\n")
## Intercepto: 47.33615
cat("R2:", summary(modelo)$r.squared, "\n")
## R2: 0.7602342
cat("R2 Ajustado:", summary(modelo)$adj.r.squared, "\n")
## R2 Ajustado: 0.7577624
Aunque el modelo presenta un buen ajuste, existen algunas limitaciones:
La ligera autocorrelación detectada por la prueba Durbin–Watson indica que los residuos no son completamente independientes.
El modelo solo incluye una variable predictora; es posible que otras áreas (lectura crítica, ciencias sociales, inglés) también influyan en el puntaje global.
El modelo asume una relación estrictamente lineal, lo cual podría no capturar relaciones más complejas.
El modelo de regresión lineal simple muestra que el puntaje de matemáticas es un excelente predictor del puntaje global del examen Saber 11.
Los principales hallazgos son:
Existe una relación positiva, fuerte y significativa entre ambas variables.
El modelo explica el 76% de la variabilidad del puntaje global.
Todos los supuestos estadísticos se cumplen adecuadamente, excepto una ligera autocorrelación en los residuos, que no invalida el modelo.
La pendiente del modelo muestra que el puntaje global aumenta en 3.99 puntos por cada punto adicional en matemáticas.
En conclusión, el modelo es válido, significativo y útil para predecir el puntaje global a partir del puntaje en matemáticas.