“ESTUDIANTES: ANYELINA NIEBLES AVENDAÑO, KIARA MORALES VALENCIA E IRIS MARTELO”
“SE REALIZÓ UN ANÁLISIS SOBRE LOS RESULTADOS OBTENIDOS EN LAS PRUEBAS SABER 2019, DEL CUAL SE TUVO EN CUENTA EL DEPARTAMENTO DEL ATLÁNTICO. DE LA BASE DE DATOS SE EXTRAJO UNA MUESTRA DE 110 DATOS, LOS CUALES INCLUYEN VARIABLES DENTRO DE LAS QUE SE MENCIONAN: GENERO, PERIODO, ETNIA, PUNTAJE DE LECTURA CRITICA, PERCENTIL DE LECTURA CRITICA, DESEMPEÑO, PERCENTIL MATEMATICAS, ENTRE OTRAS”
#MODELO DE REGRESIÓN
library(dplyr)
datosfinales <- datosfinales %>% select_if(is.numeric)
cor(datosfinales)
## ESTU_COD_RESIDE_DEPTO PUNT_LECTURA_CRITICA
## ESTU_COD_RESIDE_DEPTO 1 NA
## PUNT_LECTURA_CRITICA NA 1.0000000
## PERCENTIL_LECTURA_CRITICA NA 0.9492709
## DESEMP_LECTURA_CRITICA NA 0.9107757
## PUNT_MATEMATICAS NA 0.7818025
## PERCENTIL_MATEMATICAS NA 0.7504394
## DESEMP_MATEMATICAS NA 0.7140145
## PUNT_C_NATURALES NA 0.7774501
## PERCENTIL_C_NATURALES NA 0.7492486
## DESEMP_C_NATURALES NA 0.7007582
## PUNT_SOCIALES_CIUDADANAS NA 0.8051154
## PERCENTIL_SOCIALES_CIUDADANAS NA 0.8007780
## DESEMP_SOCIALES_CIUDADANAS NA 0.7461378
## PUNT_INGLES NA 0.6611482
## PERCENTIL_INGLES NA 0.6850432
## PUNT_GLOBAL NA 0.9155935
## PERCENTIL_GLOBAL NA 0.8770705
## PERCENTIL_LECTURA_CRITICA DESEMP_LECTURA_CRITICA
## ESTU_COD_RESIDE_DEPTO NA NA
## PUNT_LECTURA_CRITICA 0.9492709 0.9107757
## PERCENTIL_LECTURA_CRITICA 1.0000000 0.9218955
## DESEMP_LECTURA_CRITICA 0.9218955 1.0000000
## PUNT_MATEMATICAS 0.7683597 0.7524317
## PERCENTIL_MATEMATICAS 0.7675514 0.7345500
## DESEMP_MATEMATICAS 0.7296139 0.6830693
## PUNT_C_NATURALES 0.7801686 0.7535556
## PERCENTIL_C_NATURALES 0.7759386 0.7424027
## DESEMP_C_NATURALES 0.7178049 0.6976913
## PUNT_SOCIALES_CIUDADANAS 0.8260940 0.7570908
## PERCENTIL_SOCIALES_CIUDADANAS 0.8363566 0.7692995
## DESEMP_SOCIALES_CIUDADANAS 0.7895801 0.7114114
## PUNT_INGLES 0.6979659 0.6297694
## PERCENTIL_INGLES 0.7195177 0.6603396
## PUNT_GLOBAL 0.9093691 0.8641871
## PERCENTIL_GLOBAL 0.9189129 0.8562604
## PUNT_MATEMATICAS PERCENTIL_MATEMATICAS
## ESTU_COD_RESIDE_DEPTO NA NA
## PUNT_LECTURA_CRITICA 0.7818025 0.7504394
## PERCENTIL_LECTURA_CRITICA 0.7683597 0.7675514
## DESEMP_LECTURA_CRITICA 0.7524317 0.7345500
## PUNT_MATEMATICAS 1.0000000 0.9839057
## PERCENTIL_MATEMATICAS 0.9839057 1.0000000
## DESEMP_MATEMATICAS 0.9253212 0.9167134
## PUNT_C_NATURALES 0.7863228 0.7705151
## PERCENTIL_C_NATURALES 0.7742477 0.7756960
## DESEMP_C_NATURALES 0.6896835 0.6837476
## PUNT_SOCIALES_CIUDADANAS 0.7053794 0.7080947
## PERCENTIL_SOCIALES_CIUDADANAS 0.7017294 0.7100583
## DESEMP_SOCIALES_CIUDADANAS 0.6435171 0.6561344
## PUNT_INGLES 0.7141820 0.6980964
## PERCENTIL_INGLES 0.7184676 0.7112934
## PUNT_GLOBAL 0.8995933 0.8832382
## PERCENTIL_GLOBAL 0.8837385 0.8949308
## DESEMP_MATEMATICAS PUNT_C_NATURALES
## ESTU_COD_RESIDE_DEPTO NA NA
## PUNT_LECTURA_CRITICA 0.7140145 0.7774501
## PERCENTIL_LECTURA_CRITICA 0.7296139 0.7801686
## DESEMP_LECTURA_CRITICA 0.6830693 0.7535556
## PUNT_MATEMATICAS 0.9253212 0.7863228
## PERCENTIL_MATEMATICAS 0.9167134 0.7705151
## DESEMP_MATEMATICAS 1.0000000 0.7001396
## PUNT_C_NATURALES 0.7001396 1.0000000
## PERCENTIL_C_NATURALES 0.6980173 0.9861481
## DESEMP_C_NATURALES 0.6059782 0.9245781
## PUNT_SOCIALES_CIUDADANAS 0.6557235 0.7945027
## PERCENTIL_SOCIALES_CIUDADANAS 0.6564907 0.7840428
## DESEMP_SOCIALES_CIUDADANAS 0.6108828 0.7638462
## PUNT_INGLES 0.7019365 0.7222351
## PERCENTIL_INGLES 0.7054255 0.7400689
## PUNT_GLOBAL 0.8283504 0.9175233
## PERCENTIL_GLOBAL 0.8325981 0.8980043
## PERCENTIL_C_NATURALES DESEMP_C_NATURALES
## ESTU_COD_RESIDE_DEPTO NA NA
## PUNT_LECTURA_CRITICA 0.7492486 0.7007582
## PERCENTIL_LECTURA_CRITICA 0.7759386 0.7178049
## DESEMP_LECTURA_CRITICA 0.7424027 0.6976913
## PUNT_MATEMATICAS 0.7742477 0.6896835
## PERCENTIL_MATEMATICAS 0.7756960 0.6837476
## DESEMP_MATEMATICAS 0.6980173 0.6059782
## PUNT_C_NATURALES 0.9861481 0.9245781
## PERCENTIL_C_NATURALES 1.0000000 0.9170241
## DESEMP_C_NATURALES 0.9170241 1.0000000
## PUNT_SOCIALES_CIUDADANAS 0.7907261 0.7290831
## PERCENTIL_SOCIALES_CIUDADANAS 0.7913071 0.7232349
## DESEMP_SOCIALES_CIUDADANAS 0.7554331 0.7277955
## PUNT_INGLES 0.7209412 0.6386266
## PERCENTIL_INGLES 0.7471158 0.6677209
## PUNT_GLOBAL 0.9030233 0.8299393
## PERCENTIL_GLOBAL 0.9083582 0.8210717
## PUNT_SOCIALES_CIUDADANAS
## ESTU_COD_RESIDE_DEPTO NA
## PUNT_LECTURA_CRITICA 0.8051154
## PERCENTIL_LECTURA_CRITICA 0.8260940
## DESEMP_LECTURA_CRITICA 0.7570908
## PUNT_MATEMATICAS 0.7053794
## PERCENTIL_MATEMATICAS 0.7080947
## DESEMP_MATEMATICAS 0.6557235
## PUNT_C_NATURALES 0.7945027
## PERCENTIL_C_NATURALES 0.7907261
## DESEMP_C_NATURALES 0.7290831
## PUNT_SOCIALES_CIUDADANAS 1.0000000
## PERCENTIL_SOCIALES_CIUDADANAS 0.9856766
## DESEMP_SOCIALES_CIUDADANAS 0.9461232
## PUNT_INGLES 0.6855456
## PERCENTIL_INGLES 0.6615363
## PUNT_GLOBAL 0.9074206
## PERCENTIL_GLOBAL 0.9039564
## PERCENTIL_SOCIALES_CIUDADANAS
## ESTU_COD_RESIDE_DEPTO NA
## PUNT_LECTURA_CRITICA 0.8007780
## PERCENTIL_LECTURA_CRITICA 0.8363566
## DESEMP_LECTURA_CRITICA 0.7692995
## PUNT_MATEMATICAS 0.7017294
## PERCENTIL_MATEMATICAS 0.7100583
## DESEMP_MATEMATICAS 0.6564907
## PUNT_C_NATURALES 0.7840428
## PERCENTIL_C_NATURALES 0.7913071
## DESEMP_C_NATURALES 0.7232349
## PUNT_SOCIALES_CIUDADANAS 0.9856766
## PERCENTIL_SOCIALES_CIUDADANAS 1.0000000
## DESEMP_SOCIALES_CIUDADANAS 0.9321445
## PUNT_INGLES 0.6579903
## PERCENTIL_INGLES 0.6573969
## PUNT_GLOBAL 0.8964542
## PERCENTIL_GLOBAL 0.9139042
## DESEMP_SOCIALES_CIUDADANAS PUNT_INGLES
## ESTU_COD_RESIDE_DEPTO NA NA
## PUNT_LECTURA_CRITICA 0.7461378 0.6611482
## PERCENTIL_LECTURA_CRITICA 0.7895801 0.6979659
## DESEMP_LECTURA_CRITICA 0.7114114 0.6297694
## PUNT_MATEMATICAS 0.6435171 0.7141820
## PERCENTIL_MATEMATICAS 0.6561344 0.6980964
## DESEMP_MATEMATICAS 0.6108828 0.7019365
## PUNT_C_NATURALES 0.7638462 0.7222351
## PERCENTIL_C_NATURALES 0.7554331 0.7209412
## DESEMP_C_NATURALES 0.7277955 0.6386266
## PUNT_SOCIALES_CIUDADANAS 0.9461232 0.6855456
## PERCENTIL_SOCIALES_CIUDADANAS 0.9321445 0.6579903
## DESEMP_SOCIALES_CIUDADANAS 1.0000000 0.6497141
## PUNT_INGLES 0.6497141 1.0000000
## PERCENTIL_INGLES 0.6323126 0.9628135
## PUNT_GLOBAL 0.8513518 0.8005808
## PERCENTIL_GLOBAL 0.8568962 0.7865586
## PERCENTIL_INGLES PUNT_GLOBAL PERCENTIL_GLOBAL
## ESTU_COD_RESIDE_DEPTO NA NA NA
## PUNT_LECTURA_CRITICA 0.6850432 0.9155935 0.8770705
## PERCENTIL_LECTURA_CRITICA 0.7195177 0.9093691 0.9189129
## DESEMP_LECTURA_CRITICA 0.6603396 0.8641871 0.8562604
## PUNT_MATEMATICAS 0.7184676 0.8995933 0.8837385
## PERCENTIL_MATEMATICAS 0.7112934 0.8832382 0.8949308
## DESEMP_MATEMATICAS 0.7054255 0.8283504 0.8325981
## PUNT_C_NATURALES 0.7400689 0.9175233 0.8980043
## PERCENTIL_C_NATURALES 0.7471158 0.9030233 0.9083582
## DESEMP_C_NATURALES 0.6677209 0.8299393 0.8210717
## PUNT_SOCIALES_CIUDADANAS 0.6615363 0.9074206 0.9039564
## PERCENTIL_SOCIALES_CIUDADANAS 0.6573969 0.8964542 0.9139042
## DESEMP_SOCIALES_CIUDADANAS 0.6323126 0.8513518 0.8568962
## PUNT_INGLES 0.9628135 0.8005808 0.7865586
## PERCENTIL_INGLES 1.0000000 0.8019113 0.8046577
## PUNT_GLOBAL 0.8019113 1.0000000 0.9795576
## PERCENTIL_GLOBAL 0.8046577 0.9795576 1.0000000
pairs(datosfinales)
regresion <- lm(PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA + PUNT_MATEMATICAS + PUNT_C_NATURALES + PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES, data = datosfinales)
summary(regresion)
##
## Call:
## lm(formula = PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA + PUNT_MATEMATICAS +
## PUNT_C_NATURALES + PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES,
## data = datosfinales)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.54462 -0.22611 0.00513 0.19903 0.56826
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.278089 0.124114 -2.241 0.0272 *
## PUNT_LECTURA_CRITICA 1.163572 0.004396 264.706 <2e-16 ***
## PUNT_MATEMATICAS 1.148613 0.003800 302.300 <2e-16 ***
## PUNT_C_NATURALES 1.155196 0.004586 251.873 <2e-16 ***
## PUNT_SOCIALES_CIUDADANAS 1.156055 0.003782 305.658 <2e-16 ***
## PUNT_INGLES 0.381897 0.003020 126.474 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2736 on 104 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 9.228e+05 on 5 and 104 DF, p-value: < 2.2e-16
datosfinales=step(regresion, direction="both", trace=2)
## Start: AIC=-279.34
## PUNT_GLOBAL ~ PUNT_LECTURA_CRITICA + PUNT_MATEMATICAS + PUNT_C_NATURALES +
## PUNT_SOCIALES_CIUDADANAS + PUNT_INGLES
##
## Df Sum of Sq RSS AIC
## <none> 7.8 -279.34
## - PUNT_INGLES 1 1197.0 1204.8 273.29
## - PUNT_C_NATURALES 1 4747.4 4755.2 424.32
## - PUNT_LECTURA_CRITICA 1 5243.5 5251.2 435.23
## - PUNT_MATEMATICAS 1 6838.6 6846.4 464.41
## - PUNT_SOCIALES_CIUDADANAS 1 6991.4 6999.2 466.84
“Se puede interpretar de lo anterior que esto indica que PUNT_SOCIALES_CIUDADANAS y PUNT_MATEMATICAS son las variables más importantes para explicar PUNT_GLOBAL, mientras que PUNT_INGLES tiene una contribución relativamente menor, pero aún significativa.”
#MODELO DE DISPERSIÓN
You can also embed plots, for example:
plot(regresion$fitted.values, datosfinales$PUNT_GLOBAL,
main = "Gráfico de dispersión: Predicciones vs Valores Reales",
xlab = "Predicciones del Modelo",
ylab = "Valores Reales de PUNT_GLOBAL",
col = "purple", pch = 19)
abline(0, 1, col = "yellow", lwd = 2) # Línea de igualdad
#GRÁFICA DE RESIDUOS
qqnorm(resid(regresion),
main = "QQ-Plot: Residuos del Modelo",
col = "blue", pch = 19)
qqline(resid(regresion), col = "pink", lwd = 2)
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
#CONCLUSIONES: “De acuerdo a los resultados obtenidos, se concluye que de LA GRÁFICA DE DISPERSIÓN se puede apreciar que se tiene una tendencia positiva, debido a que la nube de puntos muestra una tendencia general ascendente, indicando que a medida que aumentan las predicciones del modelo, también tienden a aumentar los valores reales. Esto sugiere que el modelo es capaz de capturar, en cierta medida, la variabilidad del puntaje global. También, se tiene que si se mira la gráfica al presionar ¨Knit¨se observa que los puntos no se encuentran perfectamente alineados sobre una línea recta, lo que indicaría que el modelo no puede predecir los valores reales con total precisión posiblemente a que haya una cantidad determinada de de variabilidad en los datos que el modelo no logra explicar o que el modelo subestima ligeramente a los valores reales. Se agrega que se observan algunos puntos que se desvían significativamente de la tendencia general. Estos puntos podrían corresponder a individuos con características particulares no sencillas de explicar por el modelo. SIN EMBARGO, se tiene que si se mira la gráfica al correr en ¨R¨ la parte del código que arroja la gráfica de dispersión se obtiene una gráfica de dispersión que muestra una fuerte correlación positiva entre los valores predichos y los valores reales de la variable”PUNTAJE GLOBAL”. Pues, al interpretar la línea amarilla diagonal que atraviesa los puntos se nota que muchos puntos están muy cerca de esta línea y eso sugiere que el modelo está haciendo predicciones bastante precisas. A su vez, si bien la correlación es fuerte, se observa una cierta dispersión de los puntos alrededor de la línea de tendencia. Esto indica que aunque el modelo captura la tendencia general, existen casos en los que las predicciones pueden ser ligeramente superiores o inferiores a los valores reales. Por otra parte, de la grafica QQ-plot, observamos que la mayoría de los puntos se encuentran cerca de la línea diagonal, lo que indica que los residuos siguen una distribución aproximadamente normal. Lo cual es un resultado deseable, ya que una de las suposiciones de muchos modelos de regresión es que los residuos se distribuyen normalmente. Por otra parte aunque algunos de los puntos son desviados de la línea diagonal la mayoría de los puntos siguen la tendencia general, lo cual nos permite que concluir que hay presencia de valores atípicos o que la distribución de los residuos no es perfectamente normal. A nivel general de esta gráfica se concluye que la distribución de los residuos es aproximadamente normal y eso indica que se tiene un modelo de regresión ajustado razonablemente a los datos. Lo anterior sugiere que el modelo de regresión lineal múltiple utilizado para predecir los resultados de las pruebas Saber 11 es adecuado y las inferencias estadísticas basadas en este modelo son razonablemente confiables.