Resultado_Saber_11

Descripción de los datos

Los datos utilizados corresponden a los resultados del examen Saber 11, específicamente las variables:

PUNT_GLOBAL: Puntaje global del estudiante.

PUNT_MATEMATICAS: Puntaje obtenido en el área de matemáticas.

El conjunto de datos contiene 99 observaciones, cada una correspondiente a un estudiante.

#Cargar datos
df <- read_excel("Resultados_Saber11_2025.xlsx")
head(df)

## # A tibble: 6 × 3
##   PERIODO PUNT_MATEMATICAS PUNT_GLOBAL
##     <dbl>            <dbl>       <dbl>
## 1   20194               66         339
## 2   20194               66         339
## 3   20194               43         199
## 4   20194               43         199
## 5   20162               57         272
## 6   20172               53         253

summary(df)

##     PERIODO      PUNT_MATEMATICAS  PUNT_GLOBAL   
##  Min.   :20142   Min.   :28.00    Min.   :159.0  
##  1st Qu.:20152   1st Qu.:43.50    1st Qu.:213.0  
##  Median :20162   Median :50.00    Median :250.0  
##  Mean   :20168   Mean   :50.54    Mean   :249.0  
##  3rd Qu.:20194   3rd Qu.:57.00    3rd Qu.:277.5  
##  Max.   :20194   Max.   :79.00    Max.   :353.0

Elección del modelo

Se seleccionó un modelo de regresión lineal simple, ya que:

Ambas variables son cuantitativas
Existe una relación lineal evidente en la gráfica de dispersión
El objetivo es determinar si el puntaje en matemáticas es un predictor significativo del puntaje global

El modelo estimado es:

                                    PUNT_GLOBAL= β₀ + β₁ ⋅ PUNT_MATEMATICAS + ε

Gráfico de dispersión e interpretación

El diagrama de dispersión muestra una clara relación positiva:

-A mayor puntaje en matemáticas, mayor puntaje global.

La recta ajustada presenta una inclinación pronunciada, lo cual indica un efecto sustancial del puntaje de matemáticas sobre el puntaje global.

El análisis del modelo muestra:

La pendiente (β₁ = 3.99) indica que por cada punto adicional en Matemáticas, el puntaje global aumenta en promedio 3.99 puntos.
El intercepto (β₀ = 47.33) representa el puntaje global esperado cuando matemáticas es cero.
El coeficiente de determinación R² = 0.76 significa que el 76% de la variabilidad del puntaje global se explica por el puntaje de matemáticas.
El p-valor del modelo es menor a 2e−16, indicando que la relación es altamente significativa.

ggplot(df, aes(PUNT_MATEMATICAS, PUNT_GLOBAL)) +
geom_point(color="blue") +
geom_smooth(method="lm", se=TRUE, color="black") +
labs(title="Relación entre Matemáticas y Puntaje Global",
x="Puntaje Matemáticas",
y="Puntaje Global")

Residuos y validación del modelo

Normalidad de los residuos: Shapiro-Wilk

W = 0.984

p-value = 0.280

Como el p-value es mayor a 0.05, no se rechaza la normalidad.

Los residuos se comportan aproximadamente normales, por lo tanto este supuesto se cumple.

Homocedasticidad: Prueba Breusch-Pagan

BP = 2.36

p-value = 0.12

El p-value > 0.05 indica que no existe evidencia de heterocedasticidad.

Los residuos muestran variabilidad constante → El supuesto de homocedasticidad se cumple.

Independencia de los residuos: Durbin–Watson

DW = 1.57

p-value = 0.038

El p-value < 0.05 sugiere ligera autocorrelación positiva en los residuos.

modelo <- lm(PUNT_GLOBAL ~ PUNT_MATEMATICAS, data=df)
summary(modelo)

## 
## Call:
## lm(formula = PUNT_GLOBAL ~ PUNT_MATEMATICAS, data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -54.912 -15.473   0.088  11.657  67.062 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       47.3362    11.7373   4.033  0.00011 ***
## PUNT_MATEMATICAS   3.9913     0.2276  17.537  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 23.3 on 97 degrees of freedom
## Multiple R-squared:  0.7602, Adjusted R-squared:  0.7578 
## F-statistic: 307.6 on 1 and 97 DF,  p-value: < 2.2e-16

tidy(modelo)

## # A tibble: 2 × 5
##   term             estimate std.error statistic  p.value
##   <chr>               <dbl>     <dbl>     <dbl>    <dbl>
## 1 (Intercept)         47.3     11.7        4.03 1.10e- 4
## 2 PUNT_MATEMATICAS     3.99     0.228     17.5  7.68e-32

glance(modelo)

## # A tibble: 1 × 12
##   r.squared adj.r.squared sigma statistic  p.value    df logLik   AIC   BIC
##       <dbl>         <dbl> <dbl>     <dbl>    <dbl> <dbl>  <dbl> <dbl> <dbl>
## 1     0.760         0.758  23.3      308. 7.68e-32     1  -451.  908.  916.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>

par(mfrow = c(2,2))
plot(modelo)

par(mfrow = c(1,1))

Gráficos de diagnóstico del modelo

Residuals vs Fitted

Muestra una nube de puntos relativamente uniforme, sin patrones definidos.

→ Indica linealidad y homocedasticidad aceptables.

Normal Q–Q Plot

Los puntos siguen la línea diagonal con leves desviaciones.

→ Compatibles con normalidad de residuos.

Scale–Location Plot

Los puntos se distribuyen sin tendencia clara.

→ Apoya la homocedasticidad.

Residuals vs Leverage

No aparecen puntos influyentes con alto leverage.

→ No hay valores atípicos extremos que afecten al modelo.

shapiro.test(residuals(modelo))

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.98412, p-value = 0.2802

bptest(modelo)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 2.3672, df = 1, p-value = 0.1239

durbinWatsonTest(modelo)

##  lag Autocorrelation D-W Statistic p-value
##    1       0.2032287      1.574072    0.03
##  Alternative hypothesis: rho != 0

Interpretación práctica del modelo

Los resultados indican que el puntaje en matemáticas es un fuerte predictor del puntaje global del examen Saber 11. En términos prácticos, cada punto adicional en matemáticas aumenta el puntaje global en aproximadamente 4 puntos. Esto sugiere que mejorar el desempeño en esta área tiene un impacto significativo en el rendimiento total del examen.

Predicción de valores

Se realizaron predicciones del puntaje global para valores específicos de matemáticas. Por ejemplo, para un estudiante con 60 puntos en matemáticas:

predict(modelo, data.frame(PUNT_MATEMATICAS = 60))

##        1 
## 286.8171

El modelo predice que un estudiante con 60 puntos en matemáticas obtendría aproximadamente 286 puntos de puntaje global.

Tabla de predicciones

# Crear tabla de valores para predecir
nuevos_valores <- data.frame(
  PUNT_MATEMATICAS = c(30, 40, 50, 60, 70, 80)
)

# Obtener predicciones con intervalos de confianza
predicciones <- cbind(
  nuevos_valores,
  predict(modelo, nuevos_valores, interval = "confidence")
)

predicciones

##   PUNT_MATEMATICAS      fit      lwr      upr
## 1               30 167.0766 156.7017 177.4515
## 2               40 206.9901 200.3386 213.6417
## 3               50 246.9036 242.2502 251.5571
## 4               60 286.8171 280.5026 293.1317
## 5               70 326.7306 316.7858 336.6755
## 6               80 366.6441 352.5468 380.7414

fit: predicción del modelo
lwr: límite inferior (confianza 95%)
upr: límite superior (confianza 95%)

La tabla muestra las predicciones del puntaje global para distintos puntajes en matemáticas. Se observa que a medida que aumenta el puntaje en matemáticas, también aumenta significativamente el puntaje global. Los intervalos de confianza indican la precisión de las estimaciones, mostrando que el modelo es consistente en todos los niveles evaluados.

cat("Pendiente:", coef(modelo)[2], "\n")

## Pendiente: 3.991349

cat("Intercepto:", coef(modelo)[1], "\n")

## Intercepto: 47.33615

cat("R2:", summary(modelo)$r.squared, "\n")

## R2: 0.7602342

cat("R2 Ajustado:", summary(modelo)$adj.r.squared, "\n")

## R2 Ajustado: 0.7577624

Limitaciones del modelo

Aunque el modelo presenta un buen ajuste, existen algunas limitaciones:

La ligera autocorrelación detectada por la prueba Durbin–Watson indica que los residuos no son completamente independientes.
El modelo solo incluye una variable predictora; es posible que otras áreas (lectura crítica, ciencias sociales, inglés) también influyan en el puntaje global.
El modelo asume una relación estrictamente lineal, lo cual podría no capturar relaciones más complejas.

Conclusiones

El modelo de regresión lineal simple muestra que el puntaje de matemáticas es un excelente predictor del puntaje global del examen Saber 11.

Los principales hallazgos son:

Existe una relación positiva, fuerte y significativa entre ambas variables.
El modelo explica el 76% de la variabilidad del puntaje global.
Todos los supuestos estadísticos se cumplen adecuadamente, excepto una ligera autocorrelación en los residuos, que no invalida el modelo.
La pendiente del modelo muestra que el puntaje global aumenta en 3.99 puntos por cada punto adicional en matemáticas.

En conclusión, el modelo es válido, significativo y útil para predecir el puntaje global a partir del puntaje en matemáticas.

Resultado_Saber_11_2025

Andres Yepes - Jorman Acosta - Junior Lora - Carolina Santiago

2025-11-18