Las pruebas de estado son un mecanismo mediante el cual se
ponen a prueba los diferentes conocimientos y capacidades/habilidades
que el estudiante posee frente a un área de conocimiento requerida.
Además, contribuyen a abrirle puertas a diversas oportunidades, ya sea
de formación académica (el entrar a una institución universitaria) o en
el campo laboral. Asimismo, dan pauta a la evaluación y toma de
decisiones con respecto a la formación escolar. En Colombia hay dos
pruebas de este tipo: el ICFES o las pruebas Saber, que miden las
capacidades del estudiante tras salir de la formación escolar; y las
Saber Pro, que miden las capacidades tras culminarse los estudios
universitarios.
La evaluación del estado “Saber Pro” es a menudo subestimada por algunos estudiantes, quienes no comprenden completamente su relevancia. Esta actitud surge debido a la falta de conciencia sobre cómo esta evaluación puede abrir nuevas oportunidades educativas y contribuir al desarrollo de un ciudadano, tanto como futuro profesional. Es fundamental reconocer que no solo evalúa las habilidades con las que un profesional se enfrenta a su vida laboral, sino que también es un indicador de la calidad de la educación universitaria que ha recibido. Lo que nos lleva a plantearnos la siguiente pregunta: ¿son factores externos, como el estrato económico al que pertenecen o el acceso que tienen a herramientas como el internet, influyentes en los puntajes de la prueba saber pro de los estudiantes?
Analizar si existe una relación entre los puntajes obtenidos con las condiciones y el entorno propio de los estudiantes, así como si hay relación entre los resultados de cada puntaje.
Utilizar los diferentes gráficos vistos a lo largo del curso, con la finalidad de analizar la influencia del estrato y la capacidad de internet en los puntajes obtenidos por los estudiantes en la prueba saber pro.
Al interpretar este gráfico de cajas podemos observar que a medida que su estrato aumenta también lo hace el valor referente a la media, lo que quiere decir que en promedio los estudiantes tienen mejores calificaciones a medida que el estrato aumenta, en el estrato 6 podemos ver como llegan a los mejores puntajes, al igual que podemos observar en los estratos del 1 al 5 bigotes muy alargados en ambos extremos lo que indica una alta dispersión en los puntajes de estos estratos, contrario al estrato 6, cuyos bigotes presentan valores mínimos y máximos más próximos al valor promedio, también se pueden apreciar datos atípicos en los estratos 2 y 6 los cuales indican puntajes muy inusuales, ya que en el estrato 2 representa el puntaje máximo que obtuvo un estudiante en este módulo, respecto al dato atípico del estrato 6 se puede ver un puntaje inferior al promedio de puntajes de los estratos inferiores.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Al analizar este polígono de frecuencias, observamos que tiene una distribución ligeramente simétrica, ya que se asemeja a una campana de Gauss, igualmente se puede dar constancia analizando tanto la media como la mediana, en este caso obtuvimos que tanto la media como la mediana tenían valores aproximadamente iguales.
En el estrato 2 hubo una mayor frecuencia de datos entre los puntajes 100 y 175, asemejándose a los estratos 1 y 3, esto quiere decir que la mayoría de estudiantes de dichos estratos obtuvieron puntajes entre este rango.
La acumulacion de datos en el grupo “sin estrato” al no poseer gran cantidad de puntajes puede generar un grafico sesgado, el 50% de personas pertenecientes al estrato 6 obtuvieron puntajes iguales o inferiores a 175, se observa ademas que hay una mayor concentracion de los datos en los estudiantes que no tienen estrato a comparacion de los de estrato 6 que obtuvieron puntajes mas altos
A través de este gráfico de cajas, observamos que en promedio los estudiantes que poseen acceso a internet obtuvieron mejores puntajes, no obstante, se puede observar que la caja de aquellos que si tienen acceso a internet cuenta con bigotes muy alargados en ambos extremos, es decir, posee mínimos muy bajos y máximos muy altos, concluyendo que cuenta con una alta dispersión entre sus puntajes.
Observamos por parte de quienes no poseen internet datos atípicos en ambos extremos.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Al analizar este polígono de frecuencias, observamos que tiene una distribución ligeramente simétrica, ya que se asemeja a una campana de Gauss, igualmente se puede dar constancia analizando tanto la media como la mediana, en este caso obtuvimos que tanto la media como la mediana tenían valores aproximadamente iguales.
En el grupo de quienes tenían internet, hubo una mayor frecuencia de datos entre los puntajes 125 y 175, contrario a quienes no tienen accesos cuya mayor frecuencia de puntajes se situaba entre los 100 y los 165.
Las personas que no poseían internet tuvieron una mayor concentración de datos a diferencia de quienes sí poseían que obtuvieron puntajes superiores, el NA al no contar con una gran cantidad de puntajes pertenecientes a su grupo provocan un sesgo en la gráfica.
##
## No Si
## Estrato 1 54 108
## Estrato 2 40 269
## Estrato 3 16 279
## Estrato 4 4 97
## Estrato 5 1 34
## Estrato 6 0 14
## Sin Estrato 3 5
Al analizar el gráfico de barras, se puede observar que la mayoría de estudiantes poseen acceso a internet sin importar el estrato al que pertenecen, alrededor del 65% de los estudiantes de estratos 1, 2 y 3 tienen acceso a internet, el otro 35% de los estudiantes pertenecientes a estos estratos no poseen acceso a internet.
## Warning: Use of `datos$MOD_LECTURA_CRITICA_PUNT` is discouraged.
## ℹ Use `MOD_LECTURA_CRITICA_PUNT` instead.
## Warning: Use of `datos$MOD_COMUNI_ESCRITA_PUNT` is discouraged.
## ℹ Use `MOD_COMUNI_ESCRITA_PUNT` instead.
## [1] 0.2577764
Se evidencia una poca dispersión de los datos, ya que, los estudiantes que sacaron puntajes entre 100 a 200 en la prueba de lectura crítica tendieron a obtener puntajes del mismo rango en la prueba de comunicación escrita, también se presenció una baja correlación lineal positiva, es decir, una baja relación entre ambos grupos de datos, porque una no está estrechamente relacionada con la otra, no hay dependencia, ya que obtener un buen resultado en una no asegura tener un resultado similar en la otra.
Consideramos un resultado satisfactorio el puntaje de 140, haremos
una prueba de hipótesis de la media de los estratos bajos para estudiar
si las personas de baja estratificación tienen en promedio resultados
satisfactorios.
INTERVALO DE CONFIANZA:
## [1] 147.1331 147.8300
Gracias a este intervalo con un nivel de confianza de 0.95 podemos
evidenciar que en promedio los resultados de las personas de baja
estratificación en el área de lectura se encuentran satisfactorios.
Ahora queremos estudiar en comparación la media de los resultados de
baja estratificación y de alta estratificación para determinar si hay
una gran diferencia entre los resultados.
INTERVALO DE
CONFIANZA
## [1] -17.25106 -14.15482
En este caso, con un nivel de confianza de 0.95, a los ambos límites ser
negativos, podemos concluir que la media de los resultados en el área de
lectura de las personas de baja estratificación son significativamente
menores a los resultados de las personas de alta estratificación.
Por último estudiaremos la proporción en términos de participación de
las personas por estrato.
INTERVALO DE CONFIANZA
## [1] 0.6306375 0.7552210
Este intervalo ilustra nos permite entender con un nivel de confianza de
0.95 concluir que el grupo de personas de baja estratifiacion estudiadas
estan en mayor proporcion en un valor dentro del intervalo.
Como los puntos en el QQ-plot están algunos alejados de la línea
de referencia, esto sugiere que los datos no se ajustan bien a la
distribución normal. Cuanto más cerca estén los puntos de la línea,
mejor es el ajuste, y en este caso, no ocurre esto, lo que indica una
desviación con respecto a la distribución buscada.
En este gráfico, observamos que los datos no están alineados con
la línea de referencia. Además, las curvas notables en el QQ-plot
sugieren que los datos no siguen una distribución normal, lo cual podría
atribuirse a que la muestra es demasiado pequeña, por lo tanto se
procedera a realizar la prueba de hipotesis para verificar esta
afirmación.
##
## Shapiro-Wilk normality test
##
## data: unlist(Estratos_Altos2$resultados)
## W = 0.9723, p-value = 0.003669
Con un nivel de significancia 0,05 se tiene suficiente evidencia
para aceptar la hipótesis, se puede afirmar que los datos de los
estratos altos para los resultados de lectura crítica difieren
significativamente de una distribución normal.
##
## Shapiro-Wilk normality test
##
## data: unlist(Estratos_Bajos2$resultados)
## W = 0.99716, p-value = 0.1492
## Warning: Use of `datos$MOD_LECTURA_CRITICA_PUNT` is discouraged.
## ℹ Use `MOD_LECTURA_CRITICA_PUNT` instead.
## Warning: Use of `datos$MOD_INGLES_PUNT` is discouraged.
## ℹ Use `MOD_INGLES_PUNT` instead.
## [1] 0.5400363
Se puede evidenciar que ese gráfico de dispersión cuenta con un coeficiente de correlacion lineal alto de 0.54.
## (Intercept) x
## 69.8464184 0.5262952
𝑌 = 𝛽0 + 𝛽1𝑋 + 𝜀
𝛽0 = Este valor representa el valor estimado de la variable dependiente que para este modelo son los resultados en el area de lectura critica cuando la variable independiente los cuales son los resultados de la prueba de inglés sean cero. Sin embargo, es poco probable que alguien tenga una puntuación de cero en la prueba de inglés. En este caso este valor es 69.84
𝛽1 = Este valor indica el cambio esperado en la variable dependiente por cada unidad de cambio en la variable independiente. En este caso, por cada punto adicional en la prueba de inglés, se espera un aumento de aproximadamente 0.5263 puntos en los resultados de la prueba de lectura crítica.
De esto sepuede interpretar que hay una relación positiva entre los resultados de la prueba de inglés y los resultados de la prueba de lectura crítica. A medida que los resultados de la prueba de inglés aumentan, se espera que los resultados de la prueba de lectura crítica también aumenten, en promedio, manteniendo todo lo demás constante.
## [1] 0.2916392
Se puede interpretar que alrededor del 29.16% de la variabilidad en los resultados de la prueba de lectura crítica puede ser predicha a partir de los resultados de la prueba de inglés. Sin embargo, también implica que hay un 70.84% de variabilidad en los resultados de la prueba de lectura crítica que no puede ser explicada por esta relación lineal.
En el gráfico, los puntos azules representan los valores que esperaríamos ver, mientras que las líneas rojas marcan las zonas dentro de las cuales esperaríamos que caigan los valores observados. En otras palabras, las líneas rojas indican el rango en el cual los valores reales deberían encontrarse, sin embargo podemos ver como la mayoría de de los valores están por fuera de este rango, esto puede ser un indicio de que el modelo es inestable.
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x 1 271583 271583 410.06 < 2.2e-16 ***
## Residuals 996 659647 662
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Dado que el valor p es extremadamente pequeño, podemos rechazar la hipótesis nula que afirma que no hay relación entre la variable independiente y la variable dependiente. Por lo tanto, podemos concluir que la variable independiente x tiene un efecto significativo en la variable dependiente y en el contexto de este modelo de regresión lineal.
## 2.5 % 97.5 %
## (Intercept) 62.005541 77.6872961
## x 0.475294 0.5772964
El intervalo de confianza al 95% para el intercepto va desde aproximadamente 62.01 a 77.69. Esto significa que con un 95% de confianza, el valor real del intercepto probablemente esté dentro de este rango.
Esto representa el valor estimado de los resultados de la prueba de
lectura crítica cuando los resultados de la prueba de inglés son cero.
El intervalo de confianza al 95% para el coeficiente de la variable
independiente va desde aproximadamente 0.4753 a 0.5773. Esto significa
que con un 95% de confianza, el valor real del coeficiente de la
variable independiente probablemente esté dentro de este rango.
En términos prácticos, esto indica que se espera un aumento de entre 0.4753 y 0.5773 puntos en los resultados de la prueba de lectura crítica por cada punto adicional en la prueba de inglés, manteniendo todo lo demás constante.
## integer(0)
Se puede observar que hay valores por encima y por debajo de 0, de lo que podemos deducir que la media de los residuales es 0, para demostrar eso planteamos la prueba de hipotesis:
##
## One Sample t-test
##
## data: residuales
## t = 4.3029e-16, df = 997, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -1.597785 1.597785
## sample estimates:
## mean of x
## 3.503511e-16
No se tiene suficiente evidencia para rechazar la hipótesis nula ya que indica que la diferencia entre las medias no es estadísticamente significativa. al igual que su intervalo.
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 14.239, df = 1, p-value = 0.000161
Hipótesis nula (H0) = los errores son homocedasticos Hipótesis alternativa(H1) = los errores son heterocedasticos Rechazamos la hipótesis nula, por lo tanto, los errores son heterocedasticos y la varianza no es constante, con un nivel de significancia del 0.05, En otras palabras, la varianza de los errores no es constante a lo largo de los valores de la variable independiente, lo que puede afectar la validez de las inferencias del modelo de regresión, con la finalidad de mejorar el modelo se le aplico logaritmo a las variables para reducir la asimetría de los datos.
##
## Durbin-Watson test
##
## data: modelo
## DW = 2.0814, p-value = 0.9009
## alternative hypothesis: true autocorrelation is greater than 0
Con un valor DW de 2 y un valor p alto de 0.9, y con un nivel de significancia de 0,05, no se tiene evidencia de autocorrelación en los residuos del modelo de regresión. Esto sugiere que los residuos son independientes entre sí y que el modelo de regresión es adecuado en este aspecto.
## Loading required package: lattice
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 998.000 0.000 -3.759 -0.638 0.000 0.021 0.007 0.654
## Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
## 4.397 0.999 0.999 0.032 1.292 8.156 0.533 -0.063
## SW p-val
## 0.010
Cuando observamos el histograma y el polígono de densidad de los residuales, notamos que muestran una apariencia simétrica, lo que sugiere que los residuales pueden seguir una distribución normal. Sin embargo, esta aparente normalidad se contradice al observar el gráfico QQ-plot, donde los puntos no siguen la línea de referencia y muestran desviaciones en las colas del gráfico.
##
## Shapiro-Wilk normality test
##
## data: di
## W = 0.99595, p-value = 0.01018
Rechazamos la hipótesis nula y afirmamos que los residuales no tienen una distribución normal, con un nivel de significancia del 0.05.
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 998.000 0.000 -3.771 -0.638 0.000 0.021 0.007 0.655
## Max Stdev Var SE Mean I.Q.R. Range Kurtosis Skewness
## 4.451 1.001 1.002 0.032 1.293 8.222 0.549 -0.060
## SW p-val
## 0.009
Cuando observamos el histograma y el polígono de densidad de los residuales, notamos que muestran una apariencia simétrica, lo que sugiere que los residuales pueden seguir una distribución normal. Sin embargo, esta aparente normalidad se contradice al observar el gráfico QQ-plot, donde los puntos no siguen la línea de referencia y muestran desviaciones en las colas del gráfico.
##
## Shapiro-Wilk normality test
##
## data: ei
## W = 0.99584, p-value = 0.008587
Rechazamos la hipótesis nula y afirmamos que los residuales no tienen una distribución normal, con un nivel de significancia del 0.05.
En resumen, el modelo muestra falta de conformidad con los
supuestos, lo que resulta en inestabilidad y falta de confianza. Debido
a esto, las estimaciones de parámetros anteriores no son válidas. A
pesar de todos nuestros esfuerzos, no logramos conseguir un modelo que
cumpla con todos los supuestos, especialmente el de la normalidad. Hemos
examinado una variedad de combinaciones de variables cuantitativas y
también hemos tenido en cuenta modelos que combinan variables
cuantitativas y cualitativas. Sin embargo, ninguno de estos enfoques ha
dado resultados satisfactorios. Hemos empleado transformaciones
logarítmicas como solución para tratar problemas relacionados con la
varianza y el sesgo, lo cual se reveló como una táctica beneficiosa. A
pesar de nuestros esfuerzos, no hemos podido superar el desafío de
cumplir con el supuesto de normalidad en los residuales. Por lo tanto,
presentamos este modelo con sus limitaciones como un ejercicio de
estudio.
-[1] [En línea]. Disponible en: https://acortar.link/bkvvm5.
-[2] “Posit Cloud - Do, share, teach, and learn data science”, Posit.cloud. [En línea]. Disponible en: https://posit.cloud/.