Descripción de los datos

Los datos utilizados corresponden a los resultados del examen Saber 11, específicamente las variables:

PUNT_GLOBAL: Puntaje global del estudiante.

PUNT_MATEMATICAS: Puntaje obtenido en el área de matemáticas.

El conjunto de datos contiene 99 observaciones, cada una correspondiente a un estudiante.

#Cargar datos
df <- read_excel("Resultados_Saber11_2025.xlsx")
head(df)
## # A tibble: 6 × 3
##   PERIODO PUNT_MATEMATICAS PUNT_GLOBAL
##     <dbl>            <dbl>       <dbl>
## 1   20194               66         339
## 2   20194               66         339
## 3   20194               43         199
## 4   20194               43         199
## 5   20162               57         272
## 6   20172               53         253
summary(df)
##     PERIODO      PUNT_MATEMATICAS  PUNT_GLOBAL   
##  Min.   :20142   Min.   :28.00    Min.   :159.0  
##  1st Qu.:20152   1st Qu.:43.50    1st Qu.:213.0  
##  Median :20162   Median :50.00    Median :250.0  
##  Mean   :20168   Mean   :50.54    Mean   :249.0  
##  3rd Qu.:20194   3rd Qu.:57.00    3rd Qu.:277.5  
##  Max.   :20194   Max.   :79.00    Max.   :353.0

Elección del modelo

Se seleccionó un modelo de regresión lineal simple, ya que:

El modelo estimado es:

                                    PUNT_GLOBAL= β₀ + β₁ ⋅ PUNT_MATEMATICAS + ε

Gráfico de dispersión e interpretación

El diagrama de dispersión muestra una clara relación positiva:

-A mayor puntaje en matemáticas, mayor puntaje global.

La recta ajustada presenta una inclinación pronunciada, lo cual indica un efecto sustancial del puntaje de matemáticas sobre el puntaje global.

El análisis del modelo muestra:

ggplot(df, aes(PUNT_MATEMATICAS, PUNT_GLOBAL)) +
geom_point(color="blue") +
geom_smooth(method="lm", se=TRUE, color="black") +
labs(title="Relación entre Matemáticas y Puntaje Global",
x="Puntaje Matemáticas",
y="Puntaje Global")

Residuos y validación del modelo

W = 0.984

p-value = 0.280

Como el p-value es mayor a 0.05, no se rechaza la normalidad.

Los residuos se comportan aproximadamente normales, por lo tanto este supuesto se cumple.

BP = 2.36

p-value = 0.12

El p-value > 0.05 indica que no existe evidencia de heterocedasticidad.

Los residuos muestran variabilidad constante → El supuesto de homocedasticidad se cumple.

DW = 1.57

p-value = 0.038

El p-value < 0.05 sugiere ligera autocorrelación positiva en los residuos.

modelo <- lm(PUNT_GLOBAL ~ PUNT_MATEMATICAS, data=df)
summary(modelo)
## 
## Call:
## lm(formula = PUNT_GLOBAL ~ PUNT_MATEMATICAS, data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -54.912 -15.473   0.088  11.657  67.062 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       47.3362    11.7373   4.033  0.00011 ***
## PUNT_MATEMATICAS   3.9913     0.2276  17.537  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 23.3 on 97 degrees of freedom
## Multiple R-squared:  0.7602, Adjusted R-squared:  0.7578 
## F-statistic: 307.6 on 1 and 97 DF,  p-value: < 2.2e-16
tidy(modelo)
## # A tibble: 2 × 5
##   term             estimate std.error statistic  p.value
##   <chr>               <dbl>     <dbl>     <dbl>    <dbl>
## 1 (Intercept)         47.3     11.7        4.03 1.10e- 4
## 2 PUNT_MATEMATICAS     3.99     0.228     17.5  7.68e-32
glance(modelo)
## # A tibble: 1 × 12
##   r.squared adj.r.squared sigma statistic  p.value    df logLik   AIC   BIC
##       <dbl>         <dbl> <dbl>     <dbl>    <dbl> <dbl>  <dbl> <dbl> <dbl>
## 1     0.760         0.758  23.3      308. 7.68e-32     1  -451.  908.  916.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
par(mfrow = c(2,2))
plot(modelo)

par(mfrow = c(1,1))

Gráficos de diagnóstico del modelo

Muestra una nube de puntos relativamente uniforme, sin patrones definidos.

→ Indica linealidad y homocedasticidad aceptables.

Los puntos siguen la línea diagonal con leves desviaciones.

→ Compatibles con normalidad de residuos.

Los puntos se distribuyen sin tendencia clara.

→ Apoya la homocedasticidad.

No aparecen puntos influyentes con alto leverage.

→ No hay valores atípicos extremos que afecten al modelo.

shapiro.test(residuals(modelo))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.98412, p-value = 0.2802
bptest(modelo)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 2.3672, df = 1, p-value = 0.1239
durbinWatsonTest(modelo)
##  lag Autocorrelation D-W Statistic p-value
##    1       0.2032287      1.574072    0.03
##  Alternative hypothesis: rho != 0

Interpretación práctica del modelo

Los resultados indican que el puntaje en matemáticas es un fuerte predictor del puntaje global del examen Saber 11. En términos prácticos, cada punto adicional en matemáticas aumenta el puntaje global en aproximadamente 4 puntos. Esto sugiere que mejorar el desempeño en esta área tiene un impacto significativo en el rendimiento total del examen.

Predicción de valores

Se realizaron predicciones del puntaje global para valores específicos de matemáticas. Por ejemplo, para un estudiante con 60 puntos en matemáticas:

predict(modelo, data.frame(PUNT_MATEMATICAS = 60))
##        1 
## 286.8171

El modelo predice que un estudiante con 60 puntos en matemáticas obtendría aproximadamente 286 puntos de puntaje global.

Tabla de predicciones

# Crear tabla de valores para predecir
nuevos_valores <- data.frame(
  PUNT_MATEMATICAS = c(30, 40, 50, 60, 70, 80)
)

# Obtener predicciones con intervalos de confianza
predicciones <- cbind(
  nuevos_valores,
  predict(modelo, nuevos_valores, interval = "confidence")
)

predicciones
##   PUNT_MATEMATICAS      fit      lwr      upr
## 1               30 167.0766 156.7017 177.4515
## 2               40 206.9901 200.3386 213.6417
## 3               50 246.9036 242.2502 251.5571
## 4               60 286.8171 280.5026 293.1317
## 5               70 326.7306 316.7858 336.6755
## 6               80 366.6441 352.5468 380.7414

La tabla muestra las predicciones del puntaje global para distintos puntajes en matemáticas. Se observa que a medida que aumenta el puntaje en matemáticas, también aumenta significativamente el puntaje global. Los intervalos de confianza indican la precisión de las estimaciones, mostrando que el modelo es consistente en todos los niveles evaluados.

cat("Pendiente:", coef(modelo)[2], "\n")
## Pendiente: 3.991349
cat("Intercepto:", coef(modelo)[1], "\n")
## Intercepto: 47.33615
cat("R2:", summary(modelo)$r.squared, "\n")
## R2: 0.7602342
cat("R2 Ajustado:", summary(modelo)$adj.r.squared, "\n")
## R2 Ajustado: 0.7577624

Limitaciones del modelo

Aunque el modelo presenta un buen ajuste, existen algunas limitaciones:

Conclusiones

El modelo de regresión lineal simple muestra que el puntaje de matemáticas es un excelente predictor del puntaje global del examen Saber 11.

Los principales hallazgos son:

En conclusión, el modelo es válido, significativo y útil para predecir el puntaje global a partir del puntaje en matemáticas.