Se realizó un análisis sobre las pruebas Saber 11 del 2019 en el departamento de Antioquia, con observaciones de 74,228 estudiantes, de los cuales se tomó una muestra de 100 estudiantes. Se busca predecir el puntaje global en el departamento, siendo este la variable de respuesta. Se dispone de una base de datos con las siguientes variables: puntaje de lectura crítica, puntaje de matemáticas, puntaje de ciencias naturales, puntaje de sociales y ciudadanas, puntaje de inglés y puntaje global.

Análisis de correlación para seleccionar variables

datos_puntajes <- regresionM1 %>%
  select(PUNT_LECTURA_CRITICA, PUNT_MATEMATICAS, 
         PUNT_C_NATURALES, PUNT_SOCIALES_CIUDADANAS, 
         PUNT_INGLES, PUNT_GLOBAL)

matriz_cor <- cor(datos_puntajes, use = "complete.obs")
corrplot(matriz_cor, method = "circle")

# Crear el modelo de regresión múltiple

En este caso, se empleará un modelo mixto, iniciando con todas las variables como predictores y realizando la predicción de los mejores predictores utilizando la métrica AIC.

# se crea el modelo de regresión múltiple
modelo_inicial <- lm(PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA + 
                      PUNT_MATEMATICAS + PUNT_C_NATURALES + 
                      PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES, 
                      data = regresionM1)

# resumen del modelo inicial
summary(modelo_inicial)

## 
## Call:
## lm(formula = PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA + PUNT_MATEMATICAS + 
##     PUNT_C_NATURALES + PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES, 
##     data = regresionM1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.67425 -0.22520  0.03603  0.23263  0.52930 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              -0.087973   0.143604  -0.613    0.542    
## PUNT_LECTURA_CRITICA      1.154895   0.004392 262.951   <2e-16 ***
## PUNT_MATEMATICAS          1.166307   0.004616 252.674   <2e-16 ***
## PUNT_C_NATURALES          1.147302   0.005021 228.499   <2e-16 ***
## PUNT_SOCIALES_CIUDADANAS  1.150657   0.004037 285.050   <2e-16 ***
## PUNT_INGLES               0.381600   0.003981  95.852   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2803 on 94 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 5.524e+05 on 5 and 94 DF,  p-value: < 2.2e-16

Selección de los mejores predictores

En este caso, se empleó la estrategia stepwise mixto, y el valor matemático utilizado para determinar la calidad del modelo fue el AIC.

PUNTAJE_GLOBAL = 0.204643 (INTERCEPTO) + 1.147270 PUNT_LEC_CRITICA + 1.161426 PUNT_MATEMATICAS + 1.147140 PUNT_C_NATURALES + 1.156222 PUNT_SOCIALES_CIUDADANAS + 0.384724 PUNT_INGLES

El modelo es capaz de explicar el 100% de la variabilidad observada en el puntaje global de los estudiantes en el departamento de Antioquia (R-Squared: 1). El valor de R² ajustado es igual al R² (Adjusted R-Squared: 1), lo que indica que el modelo contiene predictores útiles. La prueba F muestra un p-value de 2.2e-16, por lo que el modelo en su conjunto es significativo. Esto se corrobora con el p-value de cada predictor, que en ambos casos es significativo.

modelo_optimo <- step(modelo_inicial, direction = "both", trace = 1)

## Start:  AIC=-248.55
## PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA + PUNT_MATEMATICAS + PUNT_C_NATURALES + 
##     PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES
## 
##                            Df Sum of Sq    RSS     AIC
## <none>                                     7.4 -248.55
## - PUNT_INGLES               1     722.0  729.4  208.70
## - PUNT_C_NATURALES          1    4103.0 4110.3  381.61
## - PUNT_MATEMATICAS          1    5017.1 5024.4  401.69
## - PUNT_LECTURA_CRITICA      1    5433.5 5440.8  409.65
## - PUNT_SOCIALES_CIUDADANAS  1    6385.1 6392.5  425.77

summary(modelo_optimo)

## 
## Call:
## lm(formula = PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA + PUNT_MATEMATICAS + 
##     PUNT_C_NATURALES + PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES, 
##     data = regresionM1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.67425 -0.22520  0.03603  0.23263  0.52930 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              -0.087973   0.143604  -0.613    0.542    
## PUNT_LECTURA_CRITICA      1.154895   0.004392 262.951   <2e-16 ***
## PUNT_MATEMATICAS          1.166307   0.004616 252.674   <2e-16 ***
## PUNT_C_NATURALES          1.147302   0.005021 228.499   <2e-16 ***
## PUNT_SOCIALES_CIUDADANAS  1.150657   0.004037 285.050   <2e-16 ***
## PUNT_INGLES               0.381600   0.003981  95.852   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2803 on 94 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 5.524e+05 on 5 and 94 DF,  p-value: < 2.2e-16

#Normalidad y linealidad

Se satisface la condicion de linealidad.

# Gráfico Q-Q para verificar la normalidad de los residuos
qqnorm(modelo_optimo$residuals)
qqline(modelo_optimo$residuals)

Prueba de normalidad de shapiro

shapiro.test(modelo_optimo$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_optimo$residuals
## W = 0.9682, p-value = 0.01613

Prueba de homocedasticidad

bptest(modelo_optimo)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_optimo
## BP = 8.6049, df = 5, p-value = 0.1259

Anova o anális de varianza

# anova para evaluar la variabilidad entre grupos
anova_modelo <- aov(PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA + 
                      PUNT_MATEMATICAS + PUNT_C_NATURALES + 
                      PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES, 
                      data = regresionM1)
summary(anova_modelo)

##                          Df Sum Sq Mean Sq F value Pr(>F)    
## PUNT_LECTURA_CRITICA      1 166716  166716 2121530 <2e-16 ***
## PUNT_MATEMATICAS          1  27169   27169  345739 <2e-16 ***
## PUNT_C_NATURALES          1  14125   14125  179750 <2e-16 ***
## PUNT_SOCIALES_CIUDADANAS  1   8303    8303  105664 <2e-16 ***
## PUNT_INGLES               1    722     722    9188 <2e-16 ***
## Residuals                94      7       0                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Conclusión

El modelo es capaz de explicar el 100% de la variabilidad observada en el puntaje global de los estudiantes en el departamento de Antioquia (R-Squared: 1). El valor de R² ajustado es igual al R² (Adjusted R-Squared: 1), lo que indica que el modelo contiene predictores útiles. La prueba F muestra un p-value de 2.2e-16, por lo que el modelo en su conjunto es significativo. Esto se confirma con el p-value de cada predictor, que en todos los casos es significativo.

Taller final: REGRESIÓN MÚLTIPLE

Danna Barrios, Julián Martinez, Geraldine Tafur

2024-11-16

Selección de los mejores predictores

Prueba de normalidad de shapiro

Prueba de homocedasticidad

Anova o anális de varianza

Conclusión