Introducción:


Las pruebas de estado son un mecanismo mediante el cual se ponen a prueba los diferentes conocimientos y capacidades/habilidades que el estudiante posee frente a un área de conocimiento requerida. Además, contribuyen a abrirle puertas a diversas oportunidades, ya sea de formación académica (el entrar a una institución universitaria) o en el campo laboral. Asimismo, dan pauta a la evaluación y toma de decisiones con respecto a la formación escolar. En Colombia hay dos pruebas de este tipo: el ICFES o las pruebas Saber, que miden las capacidades del estudiante tras salir de la formación escolar; y las Saber Pro, que miden las capacidades tras culminarse los estudios universitarios.

Resumen:

La evaluación del estado “Saber Pro” es a menudo subestimada por algunos estudiantes, quienes no comprenden completamente su relevancia. Esta actitud surge debido a la falta de conciencia sobre cómo esta evaluación puede abrir nuevas oportunidades educativas y contribuir al desarrollo de un ciudadano, tanto como futuro profesional. Es fundamental reconocer que no solo evalúa las habilidades con las que un profesional se enfrenta a su vida laboral, sino que también es un indicador de la calidad de la educación universitaria que ha recibido. Lo que nos lleva a plantearnos la siguiente pregunta: ¿son factores externos, como el estrato económico al que pertenecen o el acceso que tienen a herramientas como el internet, influyentes en los puntajes de la prueba saber pro de los estudiantes?

Objetivo general:

Analizar si existe una relación entre los puntajes obtenidos con las condiciones y el entorno propio de los estudiantes, así como si hay relación entre los resultados de cada puntaje.

Objetivos especificos

Metodologia del analisis descriptivo

Utilizar los diferentes gráficos vistos a lo largo del curso, con la finalidad de analizar la influencia del estrato y la capacidad de internet en los puntajes obtenidos por los estudiantes en la prueba saber pro.

Resultados

Puntajes y estrato

Al interpretar este gráfico de cajas podemos observar que a medida que su estrato aumenta también lo hace el valor referente a la media, lo que quiere decir que en promedio los estudiantes tienen mejores calificaciones a medida que el estrato aumenta, en el estrato 6 podemos ver como llegan a los mejores puntajes, al igual que podemos observar en los estratos del 1 al 5 bigotes muy alargados en ambos extremos lo que indica una alta dispersión en los puntajes de estos estratos, contrario al estrato 6, cuyos bigotes presentan valores mínimos y máximos más próximos al valor promedio, también se pueden apreciar datos atípicos en los estratos 2 y 6 los cuales indican puntajes muy inusuales, ya que en el estrato 2 representa el puntaje máximo que obtuvo un estudiante en este módulo, respecto al dato atípico del estrato 6 se puede ver un puntaje inferior al promedio de puntajes de los estratos inferiores.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Al analizar este polígono de frecuencias, observamos que tiene una distribución ligeramente simétrica, ya que se asemeja a una campana de Gauss, igualmente se puede dar constancia analizando tanto la media como la mediana, en este caso obtuvimos que tanto la media como la mediana tenían valores aproximadamente iguales.

En el estrato 2 hubo una mayor frecuencia de datos entre los puntajes 100 y 175, asemejándose a los estratos 1 y 3, esto quiere decir que la mayoría de estudiantes de dichos estratos obtuvieron puntajes entre este rango.

La acumulacion de datos en el grupo “sin estrato” al no poseer gran cantidad de puntajes puede generar un grafico sesgado, el 50% de personas pertenecientes al estrato 6 obtuvieron puntajes iguales o inferiores a 175, se observa ademas que hay una mayor concentracion de los datos en los estudiantes que no tienen estrato a comparacion de los de estrato 6 que obtuvieron puntajes mas altos

puntajes y acceso a internet

A través de este gráfico de cajas, observamos que en promedio los estudiantes que poseen acceso a internet obtuvieron mejores puntajes, no obstante, se puede observar que la caja de aquellos que si tienen acceso a internet cuenta con bigotes muy alargados en ambos extremos, es decir, posee mínimos muy bajos y máximos muy altos, concluyendo que cuenta con una alta dispersión entre sus puntajes.

Observamos por parte de quienes no poseen internet datos atípicos en ambos extremos.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Al analizar este polígono de frecuencias, observamos que tiene una distribución ligeramente simétrica, ya que se asemeja a una campana de Gauss, igualmente se puede dar constancia analizando tanto la media como la mediana, en este caso obtuvimos que tanto la media como la mediana tenían valores aproximadamente iguales.

En el grupo de quienes tenían internet, hubo una mayor frecuencia de datos entre los puntajes 125 y 175, contrario a quienes no tienen accesos cuya mayor frecuencia de puntajes se situaba entre los 100 y los 165.

Las personas que no poseían internet tuvieron una mayor concentración de datos a diferencia de quienes sí poseían que obtuvieron puntajes superiores, el NA al no contar con una gran cantidad de puntajes pertenecientes a su grupo provocan un sesgo en la gráfica.

##              
##                No  Si
##   Estrato 1    54 108
##   Estrato 2    40 269
##   Estrato 3    16 279
##   Estrato 4     4  97
##   Estrato 5     1  34
##   Estrato 6     0  14
##   Sin Estrato   3   5

Al analizar el gráfico de barras, se puede observar que la mayoría de estudiantes poseen acceso a internet sin importar el estrato al que pertenecen, alrededor del 65% de los estudiantes de estratos 1, 2 y 3 tienen acceso a internet, el otro 35% de los estudiantes pertenecientes a estos estratos no poseen acceso a internet.

## Warning: Use of `datos$MOD_LECTURA_CRITICA_PUNT` is discouraged.
## ℹ Use `MOD_LECTURA_CRITICA_PUNT` instead.
## Warning: Use of `datos$MOD_COMUNI_ESCRITA_PUNT` is discouraged.
## ℹ Use `MOD_COMUNI_ESCRITA_PUNT` instead.

## [1] 0.2577764

Se evidencia una poca dispersión de los datos, ya que, los estudiantes que sacaron puntajes entre 100 a 200 en la prueba de lectura crítica tendieron a obtener puntajes del mismo rango en la prueba de comunicación escrita, también se presenció una baja correlación lineal positiva, es decir, una baja relación entre ambos grupos de datos, porque una no está estrechamente relacionada con la otra, no hay dependencia, ya que obtener un buen resultado en una no asegura tener un resultado similar en la otra.

INTERVALO DE CONFIANZA:


ANÁLISIS POR INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPÓTESIS


Para conocer si los factores socioeconómicos pueden afectar los resultados del área de lectura de las pruebas saber pro, se realizarán distintos intervalos de confianza que permitan estudiar en promedio que tan satisfactorios son los resultados de las personas que realizan la prueba dependiendo del estrato.

Pruebas de normalidad

Para los resultados en el area de lectura critica para estratos altos y bajos.


Como los puntos en el QQ-plot están algunos alejados de la línea de referencia, esto sugiere que los datos no se ajustan bien a la distribución normal. Cuanto más cerca estén los puntos de la línea, mejor es el ajuste, y en este caso, no ocurre esto, lo que indica una desviación con respecto a la distribución buscada.


En este gráfico, observamos que los datos no están alineados con la línea de referencia. Además, las curvas notables en el QQ-plot sugieren que los datos no siguen una distribución normal, lo cual podría atribuirse a que la muestra es demasiado pequeña, por lo tanto se procedera a realizar la prueba de hipotesis para verificar esta afirmación.

Pruebas de hipotesis para los resultados de los estratos altos y bajos.

## 
##  Shapiro-Wilk normality test
## 
## data:  unlist(Estratos_Altos2$resultados)
## W = 0.9723, p-value = 0.003669


Con un nivel de significancia 0,05 se tiene suficiente evidencia para aceptar la hipótesis, se puede afirmar que los datos de los estratos altos para los resultados de lectura crítica difieren significativamente de una distribución normal.

## 
##  Shapiro-Wilk normality test
## 
## data:  unlist(Estratos_Bajos2$resultados)
## W = 0.99716, p-value = 0.1492

Con un nivel de significancia 0,05 no se tiene suficiente evidencia para rechazar la hipótesis, no se puede afirmar que los datos de los estratos bajos para los resultados de lectura crítica difieren significativamente de una distribución normal.

Modelo de Regresión Lineal

Gráfico de dispersión para los resultados de inglés contra los resultados de lectura crítica.

## Warning: Use of `datos$MOD_LECTURA_CRITICA_PUNT` is discouraged.
## ℹ Use `MOD_LECTURA_CRITICA_PUNT` instead.
## Warning: Use of `datos$MOD_INGLES_PUNT` is discouraged.
## ℹ Use `MOD_INGLES_PUNT` instead.

## [1] 0.5400363

Se puede evidenciar que ese gráfico de dispersión cuenta con un coeficiente de correlacion lineal alto de 0.54.

Coeficientes del modelo:

## (Intercept)           x 
##  69.8464184   0.5262952

𝑌 = 𝛽0 + 𝛽1𝑋 + 𝜀

𝛽0 = Este valor representa el valor estimado de la variable dependiente que para este modelo son los resultados en el area de lectura critica cuando la variable independiente los cuales son los resultados de la prueba de inglés sean cero. Sin embargo, es poco probable que alguien tenga una puntuación de cero en la prueba de inglés. En este caso este valor es 69.84

𝛽1 = Este valor indica el cambio esperado en la variable dependiente por cada unidad de cambio en la variable independiente. En este caso, por cada punto adicional en la prueba de inglés, se espera un aumento de aproximadamente 0.5263 puntos en los resultados de la prueba de lectura crítica.

De esto sepuede interpretar que hay una relación positiva entre los resultados de la prueba de inglés y los resultados de la prueba de lectura crítica. A medida que los resultados de la prueba de inglés aumentan, se espera que los resultados de la prueba de lectura crítica también aumenten, en promedio, manteniendo todo lo demás constante.

## [1] 0.2916392

Se puede interpretar que alrededor del 29.16% de la variabilidad en los resultados de la prueba de lectura crítica puede ser predicha a partir de los resultados de la prueba de inglés. Sin embargo, también implica que hay un 70.84% de variabilidad en los resultados de la prueba de lectura crítica que no puede ser explicada por esta relación lineal.

En el gráfico, los puntos azules representan los valores que esperaríamos ver, mientras que las líneas rojas marcan las zonas dentro de las cuales esperaríamos que caigan los valores observados. En otras palabras, las líneas rojas indican el rango en el cual los valores reales deberían encontrarse, sin embargo podemos ver como la mayoría de de los valores están por fuera de este rango, esto puede ser un indicio de que el modelo es inestable.

Analisis de Varianza por prueba de hipotesis ANOVA

Entre los resultados en el área de lectura critica e ingles.
## Analysis of Variance Table
## 
## Response: y
##            Df Sum Sq Mean Sq F value    Pr(>F)    
## x           1 271583  271583  410.06 < 2.2e-16 ***
## Residuals 996 659647     662                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Dado que el valor p es extremadamente pequeño, podemos rechazar la hipótesis nula que afirma que no hay relación entre la variable independiente y la variable dependiente. Por lo tanto, podemos concluir que la variable independiente x tiene un efecto significativo en la variable dependiente y en el contexto de este modelo de regresión lineal.

Intervalos de confianza

##                 2.5 %     97.5 %
## (Intercept) 62.005541 77.6872961
## x            0.475294  0.5772964

El intervalo de confianza al 95% para el intercepto va desde aproximadamente 62.01 a 77.69. Esto significa que con un 95% de confianza, el valor real del intercepto probablemente esté dentro de este rango.

Esto representa el valor estimado de los resultados de la prueba de lectura crítica cuando los resultados de la prueba de inglés son cero.
El intervalo de confianza al 95% para el coeficiente de la variable independiente va desde aproximadamente 0.4753 a 0.5773. Esto significa que con un 95% de confianza, el valor real del coeficiente de la variable independiente probablemente esté dentro de este rango.

En términos prácticos, esto indica que se espera un aumento de entre 0.4753 y 0.5773 puntos en los resultados de la prueba de lectura crítica por cada punto adicional en la prueba de inglés, manteniendo todo lo demás constante.

Grafica de los residuales estándar

## integer(0)

Se puede observar que hay valores por encima y por debajo de 0, de lo que podemos deducir que la media de los residuales es 0, para demostrar eso planteamos la prueba de hipotesis:

Prueba T

## 
##  One Sample t-test
## 
## data:  residuales
## t = 4.3029e-16, df = 997, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -1.597785  1.597785
## sample estimates:
##    mean of x 
## 3.503511e-16

No se tiene suficiente evidencia para rechazar la hipótesis nula ya que indica que la diferencia entre las medias no es estadísticamente significativa. al igual que su intervalo.

Prueba de Breusch-Pagan

## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 14.239, df = 1, p-value = 0.000161

Hipótesis nula (H0) = los errores son homocedasticos Hipótesis alternativa(H1) = los errores son heterocedasticos Rechazamos la hipótesis nula, por lo tanto, los errores son heterocedasticos y la varianza no es constante, con un nivel de significancia del 0.05, En otras palabras, la varianza de los errores no es constante a lo largo de los valores de la variable independiente, lo que puede afectar la validez de las inferencias del modelo de regresión, con la finalidad de mejorar el modelo se le aplico logaritmo a las variables para reducir la asimetría de los datos.

Prueba de Durbin Watson o de independencia

## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 2.0814, p-value = 0.9009
## alternative hypothesis: true autocorrelation is greater than 0

Con un valor DW de 2 y un valor p alto de 0.9, y con un nivel de significancia de 0,05, no se tiene evidencia de autocorrelación en los residuos del modelo de regresión. Esto sugiere que los residuos son independientes entre sí y que el modelo de regresión es adecuado en este aspecto.

Pruebas de normalidad

Pruebas de normalidad para los residuales

## Loading required package: lattice

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
##  998.000    0.000   -3.759   -0.638    0.000    0.021    0.007    0.654 
##      Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##    4.397    0.999    0.999    0.032    1.292    8.156    0.533   -0.063 
## SW p-val 
##    0.010

Cuando observamos el histograma y el polígono de densidad de los residuales, notamos que muestran una apariencia simétrica, lo que sugiere que los residuales pueden seguir una distribución normal. Sin embargo, esta aparente normalidad se contradice al observar el gráfico QQ-plot, donde los puntos no siguen la línea de referencia y muestran desviaciones en las colas del gráfico.

## 
##  Shapiro-Wilk normality test
## 
## data:  di
## W = 0.99595, p-value = 0.01018

Rechazamos la hipótesis nula y afirmamos que los residuales no tienen una distribución normal, con un nivel de significancia del 0.05.

Pruebas de normalidad para los residuales estándar

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
##  998.000    0.000   -3.771   -0.638    0.000    0.021    0.007    0.655 
##      Max    Stdev      Var  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##    4.451    1.001    1.002    0.032    1.293    8.222    0.549   -0.060 
## SW p-val 
##    0.009

Cuando observamos el histograma y el polígono de densidad de los residuales, notamos que muestran una apariencia simétrica, lo que sugiere que los residuales pueden seguir una distribución normal. Sin embargo, esta aparente normalidad se contradice al observar el gráfico QQ-plot, donde los puntos no siguen la línea de referencia y muestran desviaciones en las colas del gráfico.

## 
##  Shapiro-Wilk normality test
## 
## data:  ei
## W = 0.99584, p-value = 0.008587

Rechazamos la hipótesis nula y afirmamos que los residuales no tienen una distribución normal, con un nivel de significancia del 0.05.


En resumen, el modelo muestra falta de conformidad con los supuestos, lo que resulta en inestabilidad y falta de confianza. Debido a esto, las estimaciones de parámetros anteriores no son válidas. A pesar de todos nuestros esfuerzos, no logramos conseguir un modelo que cumpla con todos los supuestos, especialmente el de la normalidad. Hemos examinado una variedad de combinaciones de variables cuantitativas y también hemos tenido en cuenta modelos que combinan variables cuantitativas y cualitativas. Sin embargo, ninguno de estos enfoques ha dado resultados satisfactorios. Hemos empleado transformaciones logarítmicas como solución para tratar problemas relacionados con la varianza y el sesgo, lo cual se reveló como una táctica beneficiosa. A pesar de nuestros esfuerzos, no hemos podido superar el desafío de cumplir con el supuesto de normalidad en los residuales. Por lo tanto, presentamos este modelo con sus limitaciones como un ejercicio de estudio.

Conclusiones

Referencias

-[1] [En línea]. Disponible en: https://acortar.link/bkvvm5.

-[2] “Posit Cloud - Do, share, teach, and learn data science”, Posit.cloud. [En línea]. Disponible en: https://posit.cloud/.