Se realizó un análisis sobre las pruebas Saber 11 del 2019 en el departamento de Antioquia, con observaciones de 74,228 estudiantes, de los cuales se tomó una muestra de 100 estudiantes. Se busca predecir el puntaje global en el departamento, siendo este la variable de respuesta. Se dispone de una base de datos con las siguientes variables: puntaje de lectura crítica, puntaje de matemáticas, puntaje de ciencias naturales, puntaje de sociales y ciudadanas, puntaje de inglés y puntaje global.
Análisis de correlación para seleccionar variables
datos_puntajes <- regresionM1 %>%
select(PUNT_LECTURA_CRITICA, PUNT_MATEMATICAS,
PUNT_C_NATURALES, PUNT_SOCIALES_CIUDADANAS,
PUNT_INGLES, PUNT_GLOBAL)
matriz_cor <- cor(datos_puntajes, use = "complete.obs")
corrplot(matriz_cor, method = "circle")
# Crear el modelo de regresión múltiple
En este caso, se empleará un modelo mixto, iniciando con todas las variables como predictores y realizando la predicción de los mejores predictores utilizando la métrica AIC.
# se crea el modelo de regresión múltiple
modelo_inicial <- lm(PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA +
PUNT_MATEMATICAS + PUNT_C_NATURALES +
PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES,
data = regresionM1)
# resumen del modelo inicial
summary(modelo_inicial)
##
## Call:
## lm(formula = PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA + PUNT_MATEMATICAS +
## PUNT_C_NATURALES + PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES,
## data = regresionM1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.67425 -0.22520 0.03603 0.23263 0.52930
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.087973 0.143604 -0.613 0.542
## PUNT_LECTURA_CRITICA 1.154895 0.004392 262.951 <2e-16 ***
## PUNT_MATEMATICAS 1.166307 0.004616 252.674 <2e-16 ***
## PUNT_C_NATURALES 1.147302 0.005021 228.499 <2e-16 ***
## PUNT_SOCIALES_CIUDADANAS 1.150657 0.004037 285.050 <2e-16 ***
## PUNT_INGLES 0.381600 0.003981 95.852 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2803 on 94 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 5.524e+05 on 5 and 94 DF, p-value: < 2.2e-16
En este caso, se empleó la estrategia stepwise mixto, y el valor matemático utilizado para determinar la calidad del modelo fue el AIC.
PUNTAJE_GLOBAL = 0.204643 (INTERCEPTO) + 1.147270 PUNT_LEC_CRITICA + 1.161426 PUNT_MATEMATICAS + 1.147140 PUNT_C_NATURALES + 1.156222 PUNT_SOCIALES_CIUDADANAS + 0.384724 PUNT_INGLES
El modelo es capaz de explicar el 100% de la variabilidad observada en el puntaje global de los estudiantes en el departamento de Antioquia (R-Squared: 1). El valor de R² ajustado es igual al R² (Adjusted R-Squared: 1), lo que indica que el modelo contiene predictores útiles. La prueba F muestra un p-value de 2.2e-16, por lo que el modelo en su conjunto es significativo. Esto se corrobora con el p-value de cada predictor, que en ambos casos es significativo.
modelo_optimo <- step(modelo_inicial, direction = "both", trace = 1)
## Start: AIC=-248.55
## PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA + PUNT_MATEMATICAS + PUNT_C_NATURALES +
## PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES
##
## Df Sum of Sq RSS AIC
## <none> 7.4 -248.55
## - PUNT_INGLES 1 722.0 729.4 208.70
## - PUNT_C_NATURALES 1 4103.0 4110.3 381.61
## - PUNT_MATEMATICAS 1 5017.1 5024.4 401.69
## - PUNT_LECTURA_CRITICA 1 5433.5 5440.8 409.65
## - PUNT_SOCIALES_CIUDADANAS 1 6385.1 6392.5 425.77
summary(modelo_optimo)
##
## Call:
## lm(formula = PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA + PUNT_MATEMATICAS +
## PUNT_C_NATURALES + PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES,
## data = regresionM1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.67425 -0.22520 0.03603 0.23263 0.52930
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.087973 0.143604 -0.613 0.542
## PUNT_LECTURA_CRITICA 1.154895 0.004392 262.951 <2e-16 ***
## PUNT_MATEMATICAS 1.166307 0.004616 252.674 <2e-16 ***
## PUNT_C_NATURALES 1.147302 0.005021 228.499 <2e-16 ***
## PUNT_SOCIALES_CIUDADANAS 1.150657 0.004037 285.050 <2e-16 ***
## PUNT_INGLES 0.381600 0.003981 95.852 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2803 on 94 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 5.524e+05 on 5 and 94 DF, p-value: < 2.2e-16
#Normalidad y linealidad
Se satisface la condicion de linealidad.
# Gráfico Q-Q para verificar la normalidad de los residuos
qqnorm(modelo_optimo$residuals)
qqline(modelo_optimo$residuals)
shapiro.test(modelo_optimo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo_optimo$residuals
## W = 0.9682, p-value = 0.01613
bptest(modelo_optimo)
##
## studentized Breusch-Pagan test
##
## data: modelo_optimo
## BP = 8.6049, df = 5, p-value = 0.1259
# anova para evaluar la variabilidad entre grupos
anova_modelo <- aov(PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA +
PUNT_MATEMATICAS + PUNT_C_NATURALES +
PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES,
data = regresionM1)
summary(anova_modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## PUNT_LECTURA_CRITICA 1 166716 166716 2121530 <2e-16 ***
## PUNT_MATEMATICAS 1 27169 27169 345739 <2e-16 ***
## PUNT_C_NATURALES 1 14125 14125 179750 <2e-16 ***
## PUNT_SOCIALES_CIUDADANAS 1 8303 8303 105664 <2e-16 ***
## PUNT_INGLES 1 722 722 9188 <2e-16 ***
## Residuals 94 7 0
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El modelo es capaz de explicar el 100% de la variabilidad observada en el puntaje global de los estudiantes en el departamento de Antioquia (R-Squared: 1). El valor de R² ajustado es igual al R² (Adjusted R-Squared: 1), lo que indica que el modelo contiene predictores útiles. La prueba F muestra un p-value de 2.2e-16, por lo que el modelo en su conjunto es significativo. Esto se confirma con el p-value de cada predictor, que en todos los casos es significativo.