Integrantes: Josue Cantillo, Jonathan Hernandez, Jennifer Paez, Adalcides Pinto, Andres Santiago

# Resumen del nuevo modelo
summary(modelo_sin_leverage)
## 
## Call:
## lm(formula = PUNT_GLOBAL ~ ESTU_GENERO + ESTU_TIENEETNIA + FAMI_ESTRATOVIVIENDA + 
##     COLE_NATURALEZA + PUNT_LECTURA_CRITICA + PUNT_MATEMATICAS + 
##     PUNT_C_NATURALES + PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES, 
##     data = datos_sin_high_leverage)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.50573 -0.19768 -0.05076  0.23177  0.64341 
## 
## Coefficients:
##                                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                   -0.287067   0.140910  -2.037   0.0432 *  
## ESTU_GENEROM                   0.019283   0.049648   0.388   0.6982    
## ESTU_TIENEETNIASi              0.210298   0.145719   1.443   0.1509    
## FAMI_ESTRATOVIVIENDAEstrato 1  0.102109   0.086684   1.178   0.2405    
## FAMI_ESTRATOVIVIENDAEstrato 2  0.077637   0.087708   0.885   0.3773    
## FAMI_ESTRATOVIVIENDAEstrato 3  0.123578   0.094182   1.312   0.1913    
## FAMI_ESTRATOVIVIENDAEstrato 4 -0.042212   0.107982  -0.391   0.6964    
## COLE_NATURALEZAOFICIAL        -0.024338   0.052085  -0.467   0.6409    
## PUNT_LECTURA_CRITICA           1.165899   0.004264 273.428   <2e-16 ***
## PUNT_MATEMATICAS               1.149579   0.003475 330.781   <2e-16 ***
## PUNT_C_NATURALES               1.155236   0.003965 291.338   <2e-16 ***
## PUNT_SOCIALES_CIUDADANAS       1.151853   0.003198 360.206   <2e-16 ***
## PUNT_INGLES                    0.380391   0.002842 133.865   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2776 on 166 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 5.215e+05 on 12 and 166 DF,  p-value: < 2.2e-16

Se observa un modelo de regresión que incluye múltiples variables predictoras como ESTU_GENERO, ESTU_TIENEETNIA, FAMI_ESTRATOVIVIENDA, y variables de puntajes en diferentes áreas (PUNT_MATEMATICAS, PUNT_C_NATURALES, etc.). El valor de R^2 ajustado es 1, lo que indica un ajuste perfecto del modelo, aunque esto puede ser un signo de sobreajuste. La mayoría de las variables relacionadas con los puntajes (como PUNT_LECTURA_CRITICA, PUNT_MATEMATICAS, etc.) tienen 𝑝 p-valores extremadamente bajos (< 0.001), lo que significa que son estadísticamente significativas en el modelo. Sin embargo, variables como ESTU_GENERO y ESTU_TIENEETNIA no parecen tener una influencia significativa ( 𝑝>0.05 p>0.05).

# Calcular la matriz de correlación
matriz_correlacion <- cor(datos_numericos, use = "complete.obs")
install.packages("corrplot")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.4'
## (as 'lib' is unspecified)
library(corrplot)

corrplot(matriz_correlacion, method = "circle", type = "full", 
         col = colorRampPalette(c("blue", "white", "red"))(200), 
         tl.col = "black", tl.cex = 1, 
         addCoef.col = "black", # Agregar coeficientes de correlación
         number.cex = 0.7) # Ajustar el tamaño de los coeficientes

Los puntajes están altamente correlacionados entre sí y con PUNT_GLOBAL, con coeficientes de correlación mayores a 0.7. Esto indica una fuerte relación entre ellos. PUNT_LECTURA_CRITICA tiene la correlación más alta con PUNT_GLOBAL (0.91), lo que sugiere que es un fuerte predictor del puntaje global.

library(ggplot2)

# Crear diagrama de dispersión con ggplot2
ggplot(datos, aes(x = PUNT_LECTURA_CRITICA, y = PUNT_GLOBAL)) +
  geom_point(color = "blue") +
  labs(title = "Diagrama de Dispersión: PUNT_LECTURA_CRITICA vs PUNT_GLOBAL", 
       x = "PUNT_LECTURA_CRITICA", y = "PUNT_GLOBAL") +
  theme_minimal()

La relación entre PUNT_LECTURA_CRITICA y PUNT_GLOBAL es claramente positiva y lineal. Esto refuerza la alta correlación observada en la matriz. Hay algunos puntos atípicos (outliers) cerca de los valores más bajos de PUNT_LECTURA_CRITICA, pero en general, los datos siguen una tendencia consistente.

# Crear gráfico Q-Q para los residuos del modelo
qqnorm(residuals(modelo), main = "Gráfico Q-Q de los Residuos")
qqline(residuals(modelo), col = "red")

El gráfico de normalidad indica que los residuos del modelo se ajustan en gran medida a una distribución normal, aunque se observan ligeras desviaciones en los extremos. Esto sugiere que, si bien los supuestos de normalidad de los residuos se cumplen razonablemente bien, podría haber algunos valores extremos que merecen atención.

Conclusión general:

Influencia de las variables predictoras:

Las variables relacionadas con los puntajes (como PUNT_LECTURA_CRITICA y PUNT_MATEMATICAS) tienen una fuerte influencia en el modelo y son estadísticamente significativas. Las variables demográficas (como ESTU_GENERO y ESTU_TIENEETNIA) no aportan significativamente al modelo y podrían ser eliminadas o analizadas más a fondo. Ajuste del modelo:

El R² ajustado igual a 1 indica un ajuste perfecto del modelo, lo que probablemente es un signo de sobreajuste debido a la redundancia entre las variables predictoras. Las altas correlaciones entre los puntajes individuales y PUNT_GLOBAL (>0.7) refuerzan la posibilidad de multicolinealidad en el modelo. Suposiciones del modelo:

El gráfico de normalidad confirma que los residuos se ajustan a una distribución normal en su mayoría, pero las desviaciones en los extremos podrían reflejar la influencia de valores atípicos o alguna estructura no capturada por el modelo.

Suposiciones del modelo:

Aunque el gráfico Q-Q muestra que los residuos cumplen razonablemente con la normalidad, las desviaciones en los extremos podrían indicar la presencia de valores atípicos o la necesidad de refinar el modelo para manejar estas observaciones.