2024-09-28

Meléndez, A. Gregory J1 & Zamora, T. Jesús D2.

Barranquilla-Colombia.

Análisis estadístico diseño experimento ICFES

1 Resumen

En este análisis, se examina detalladamente el desempeño de los estudiantes en el área de matemáticas durante las pruebas ICFES 2022, utilizando técnicas del diseño de experimentos para obtener resultados más precisos y significativos. A través de un enfoque estadístico exhaustivo, se identifican patrones y tendencias significativas en los resultados obtenidos por estudiantes de instituciones oficiales y no oficiales. Las técnicas de diseño experimental, como la aleatorización y el control de variables, permiten afirmar que se ha logrado una mejora sustancial en el dominio de las competencias matemáticas en comparación con años anteriores.

Al realizar un análisis comparativo, se contrastan estos resultados con el rendimiento de los estudiantes en otras áreas evaluadas, como lectura crítica, ciencias naturales, sociales y ciudadanas e inglés, proporcionando una perspectiva integral del desempeño académico. Aunque se evidencian avances en la mayoría de las competencias, también se identifican áreas que requieren mayor atención y esfuerzo para mejorar los resultados. El estudio se sitúa en el contexto educativo nacional, considerando factores como grupo de edades y estrato socioeconómico.

Se destaca el número considerable de estudiantes se analizados, lo que permite esperar que estas conclusiones impulsen políticas públicas para mejorar el rendimiento en futuras evaluaciones. Este progreso refleja el esfuerzo colectivo de las autoridades educativas y la comunidad para mejorar los resultados académicos, sugiriendo un camino positivo hacia una educación más inclusiva y de calidad en la región.

En conclusión, este análisis estadístico exhaustivo, apoyado en el diseño de experimentos, celebra los avances logrados en el desempeño matemático de los estudiantes, al tiempo que subraya la importancia de mantener un enfoque constante en la mejora continua del sistema educativo. Se continuará trabajando para fortalecer la enseñanza de las matemáticas y garantizar que todos los estudiantes tengan acceso a una educación de calidad que les permita desarrollar su máximo potencial.

2 Abstract

In this analysis, the performance of students in the area of mathematics during the ICFES 2022 exams is examined in detail, using experimental design techniques to obtain more precise and significant results. Through an exhaustive statistical approach, significant patterns and trends are identified in the results obtained by students from official and non-official institutions. Experimental design techniques, such as randomization and variable control, allow us to assert that there has been a substantial improvement in the mastery of mathematical competencies compared to previous years.

By conducting a comparative analysis, these results are contrasted with the performance of students in other evaluated areas, such as critical reading, natural sciences, social studies and citizenship, and English, providing a comprehensive perspective of academic performance. Although advances are evident in most competencies, areas requiring more attention and effort to improve results are also identified. The study places the findings in the national educational context, considering factors such as age groups and socioeconomic status, especially in light of the effects caused by the COVID-19 pandemic.

It is noteworthy that a considerable number of students were analyzed, which allows us to hope that these findings will drive public policies to improve performance in future evaluations. This progress reflects the collective effort of educational authorities and the community to improve academic results, suggesting a positive path towards a more equitable and quality education in the region.

In conclusion, this exhaustive statistical analysis, supported by experimental design, celebrates the advances achieved in the mathematical performance of students in Barranquilla, while emphasizing the importance of maintaining a constant focus on continuous improvement of the educational system. Efforts will continue to strengthen mathematics teaching and ensure that all students have access to quality education that allows them to develop their full potential.

3 Introducción

El estudio proporciona una visión integral y profunda sobre las diferencias en las puntuaciones académicas de matemáticas entre hombres y mujeres, así como la influencia de la edad en el rendimiento en esta área. A través de un análisis exhaustivo que incluye un test t de dos muestras independientes, se ha establecido una diferencia estadísticamente significativa entre los grupos, con un valor p extremadamente bajo (< 2.2e-16) que respalda la hipótesis de que las medias de la puntuación de matemáticas no son iguales. Esta diferencia, con un intervalo de confianza del 95% que oscila entre 1.801 y 2.588, sugiere que la media de puntuación de los hombres (52.03961) es notablemente superior a la de las mujeres (49.84461), lo que invita a investigar más a fondo los factores que pueden estar contribuyendo a esta disparidad.

El uso de herramientas estadísticas avanzadas, como el análisis de varianza (ANOVA) y regresiones múltiples, ha sido crucial para revelar patrones significativos y relaciones causales dentro del conjunto de datos. A través del análisis de varianza, se han identificado diferencias significativas entre las medias de los grupos analizados, proporcionando evidencia sólida que respalda nuestras hipótesis iniciales de que existen diferencias estadísticas entre las diferentes variables socioeconómicas versus el puntaje de matemáticas. La implementación de un diseño experimental riguroso ha permitido minimizar las posibles fuentes de sesgo, aumentando así la validez de los resultados obtenidos.

Además, los gráficos de boxplot y las curvas de densidad elaboradas han facilitado la visualización de la variabilidad y la distribución de los datos, permitiendo una identificación más clara de outliers o dato atípico y tendencias. Las regresiones múltiples han permitido evaluar cómo diversas variables independientes influyen en la variable dependiente, cuantificando la magnitud de estas relaciones. Los coeficientes de determinación (R²) obtenidos han mostrado un ajuste adecuado del modelo, sugiriendo que las variables seleccionadas explican una parte significativa de la variabilidad observada en los datos.

La realización de pruebas de hipótesis ha confirmado la significancia estadística de los resultados, con valores de p que se sitúan por debajo del umbral convencional de significancia 0.05. Esto no solo refuerza la confianza en nuestras conclusiones, sino que también sugiere que los efectos observados reflejan relaciones reales y no son meramente producto del azar.

Los hallazgos de esta investigación no solo enriquecen el acervo de conocimiento existente, sino que también abren nuevas líneas de investigación para futuros estudios. La identificación de patrones inesperados y la validación de las hipótesis planteadas destacan la importancia de adoptar un enfoque multidimensional en el análisis de datos. Este enfoque permite una comprensión más profunda y matizada del fenómeno en estudio, facilitando así una interpretación más completa y precisa de los resultados.

En resumen, este estudio muestra cómo un análisis riguroso y metodologíco puede dar vida a los datos, revelando historias y tendencias que de otro modo pasarían desapercibidas. Las técnicas estadísticas avanzadas utilizadas no solo aportan valor numérico, sino que también ofrecen perspectivas prácticas que pueden influir en decisiones educativas y políticas. Al integrar estos enfoques, se crea una base sólida que no solo refuerza las conclusiones actuales, sino que también abre nuevas puertas para futuras investigaciones en este campo.

Interacion(EdadGrupo vs Puntaje de Matemáticas)
Interacion(EdadGrupo vs Puntaje de Matemáticas)

Análisis General de la Imagen

La imagen muestra cuatro gráficos que comparan los puntajes de matemáticas según el grupo de edad y el género (masculino y femenino).

Descripción de los Gráficos:

  1. Gráficos de Boxplot (Arriba):
  • Izquierda: Masculino, comparando los puntajes en diferentes grupos de edad.
  • Derecha: Femenino, comparando los mismos grupos de edad.

Interpretación rápida:

  • Los (hasta 25 años) tienen una mayor mediana y menor dispersión en los puntajes en comparación con los otros grupos.
  • Los adultos mayores (más de 45 años) tienden a tener los puntajes más bajos en ambos géneros.
  • Se observan algunos valores atípicos, especialmente en los grupos de 26 a 35 años y más de 45 años.
  1. Gráficos de Dispersión (Abajo):
  • Izquierda: Masculino.
  • Derecha: Femenino.

Interpretación rápida:

  • La mayor concentración de puntajes altos está en el grupo “hasta 25 años” en ambos géneros.
  • La dispersión de los puntajes es mayor en los adultos mayores (más de 45 años), indicando una mayor variabilidad en este grupo.
  • Los puntajes en el grupo de 26 a 35 años se mantienen intermedios y menos dispersos.

Estos gráficos brindan una visión clara del impacto de la edad y género en los puntajes de matemáticas, sugiriendo que la juventud está asociada con un mejor desempeño en esta área.

4 Metodología y Dataset

La metodología utilizada en este análisis exploratorio del Dataset ICFES3 implica varios pasos sistemáticos. En primer lugar, se exportó el archivo desde la página del ICFES en un formato .txt (532792 - 81 variables), que luego se importó a Rstudio, asignando al conjunto de datos a un objeto para su manipulación. Posteriormente, se exploró la estructura de los datos para identificar el tipo de cada variable y verificar la presencia de valores faltantes.

A continuación, se llevó a cabo un análisis multivariado para cada una de las 81 variables, adicionalmente se utilizaron herramientas estadisticas del diseño de experimento para profundizar esta investigacion4, las cuales fueron análisis factoral y diseño anidado.

Para el análisis inicial se toma el diseño factorial general que consiste en el modelo de análisis de varianzas de tres factores:

\[y_{ijkl}=\mu+\tau_i+\beta_j+\gamma_k+(\tau\beta)_{ij}+(\tau\gamma)_{ik}+(\tau\beta\gamma)_{ijk}+\varepsilon_{ijkl} \begin{cases} & i = 1,2,...,a \\ & j = 1,2,...,b \\ & k = 1,2,...,c \\ & l = 1,2,...,n \end{cases}\]

para el segundo análisis en experimentos con factores múltiples, algunos factores pueden estar incluidos en un arreglo factorial y otros estar anidados. En ocasiones a estos diseños se les llama diseños factoriales-anidados o modelos mixto

\[y_{ijkl}=\mu+\tau_i+\beta_j+\gamma_{k(j)}+(\tau\beta){ij}+ (\tau\gamma){ik(j)}+\varepsilon_{(ijk)l} \begin{cases} & i = 1,2,...,a\\ & j = 1,2,...,b \\ & k = 1,2,...,c \\ & l = 1,2,...,n \end{cases}\]

En la siguiente fase del estudio, se realizó un análisis bivariado seleccionando algunas variables de interés para calcular medidas de asociación y se crearon gráficos de dispersión para visualizar las relaciones entre ellas. Además, se llevaron a cabo pruebas estadísticas para determinar si existían diferencias significativas entre grupos, utilizando técnicas de diseño de experimentos. Se aplicaron pruebas como Tukey, también conocida como Tukey’s Honest Significant Diference (HSD) test LSD (Least Significant Difference) y NSD (Newman-Keuls) para comparar las medias de los grupos y evaluar las diferencias significativas.

Posteriormente, se implementaron técnicas de análisis multivariado y el agrupamiento, para identificar patrones y relaciones entre múltiples variables. Estas técnicas permitieron una comprensión más profunda de las interacciones complejas entre las variables estudiadas. Finalmente, se interpretaron los resultados obtenidos, identificando patrones, tendencias y relaciones relevantes, y se formularon hipótesis y preguntas de investigación para futuros análisis, basadas en los hallazgos del diseño experimental y las pruebas estadísticas realizadas.

El objetivo principal de las pruebas de hipótesis es determinar si existe suficiente evidencia en los datos para aceptar o rechazar una afirmación específica sobre una población. Este proceso implica evaluar dos hipótesis opuestas: la hipótesis nula, que generalmente indica que no hay efecto o diferencia, y la hipótesis alternativa, que es la afirmación que deseamos demostrar. A continuación, planteamos nuestras pruebas de hipótesis:

  1. Hipótesis para el tratamiento o efectos de los factores sobre los puntajes de matemáticas:
  • Hipotesis Nula (\(H_0\)): No existe un efecto significativo de los tratamientos en los puntajes, es decir, todos los tratamientos tienen el mismo efecto. \[\text{ Hipótesis Nula } -> H_0: \tau_1 = \tau_2 = \ldots = \tau_a = 0\]
  • Hipotesis Alternativa (\(H_1\)): Al menos un tratamiento tiene un efecto significativo diferente en los puntajes de matemáticas. \[\text{ Hipótesis Alternativa } -> H_1: \text{ Al menos un } \tau_i \neq 0\]
  1. Hipótesis para la interacción entre los factores:
  • Hipotesis Nula (\(H_0\)): No existe interacción significativa entre los factores en los puntajes de matemáticas. \[\text{ Hipótesis Nula } -> H_0: (\tau\beta)_{ij} = 0 \text{ para todas las } (i, j)\]

  • Hipotesis Alternativa (\(H_1\)): Existe al menos una interacción significativa entre los factores que afectan los puntajes de matemáticas. \[\text{ Hipótesis Alternativa } -> H_1: \text{ Al menos una } (\tau\beta)_{ij} \neq 0\] Estas hipótesis buscan evaluar si los tratamientos y las combinaciones de factores tienen un efecto relevante en los puntajes de matemáticas obtenidos en las pruebas ICFES 2022, utilizando técnicas del diseño experimental.

5 Análisis Enfoque en el Diseño de Experimentos

                                Df Sum Sq Mean Sq F value   Pr(>F)    
EdadGrupo                        2   6342    3171  32.328 1.15e-14 ***
FAMI_EDUCACIONPADRE             11  36131    3285  33.489  < 2e-16 ***
FAMI_EDUCACIONMADRE             11  23590    2145  21.865  < 2e-16 ***
FAMI_ESTRATOVIVIENDA             6  24152    4025  41.040  < 2e-16 ***
FAMI_TIENEINTERNET               1   8180    8180  83.396  < 2e-16 ***
FAMI_TIENECOMPUTADOR             1    414     414   4.219 0.040029 *  
FAMI_TIENEHORNOMICROOGAS         1    674     674   6.874 0.008776 ** 
FAMI_TIENESERVICIOTV             1    132     132   1.345 0.246134    
FAMI_TIENEAUTOMOVIL              1     53      53   0.541 0.462144    
FAMI_TIENEMOTOCICLETA            1    221     221   2.257 0.133093    
FAMI_TIENECONSOLAVIDEOJUEGOS     1    110     110   1.125 0.288825    
FAMI_COMELECHEDERIVADOS          3   4197    1399  14.265 3.00e-09 ***
FAMI_COMECARNEPESCADOHUEVO       3   2662     887   9.048 5.71e-06 ***
FAMI_COMECEREALFRUTOSLEGUMBRE    3   2220     740   7.543 4.95e-05 ***
FAMI_TRABAJOLABORPADRE          12  11409     951   9.693  < 2e-16 ***
FAMI_TRABAJOLABORMADRE          12   6699     558   5.692 8.04e-10 ***
FAMI_SITUACIONECONOMICA          2  12762    6381  65.058  < 2e-16 ***
COLE_JORNADA                     5   5332    1066  10.873 2.05e-10 ***
COLE_NATURALEZA                  1  15122   15122 154.173  < 2e-16 ***
COLE_CALENDARIO                  1     97      97   0.994 0.318869    
COLE_BILINGUE                    1   3969    3969  40.469 2.20e-10 ***
ESTU_DEDICACIONLECTURADIARIA     4   2108     527   5.372 0.000259 ***
ESTU_DEDICACIONINTERNET          4   4213    1053  10.739 1.16e-08 ***
Residuals                     4432 434702      98                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Hallazgos clave del ANOVA:

  1. Variables significativas: Algunas variables muestran un impacto claro y significativo en los puntajes de matemáticas. Esto se refleja en p-valores muy pequeños (por debajo de 0.05), indicando que estas variables efectivamente influyen en el rendimiento. Por ejemplo:

. Edad del grupo: La edad influye significativamente en los resultados. . Educación de los padres: Tanto la educación de la madre como la del padre afectan el desempeño en matemáticas, con niveles educativos más altos asociados a mejores puntajes. . Acceso a internet y computadora: Los estudiantes con estos recursos presentan mejor desempeño.

  1. Variables NO significativas: En contraste, hay variables que no parecen tener un impacto relevante en los puntajes. Entre estos se incluyen:

. Desconexión entre recursos y desempeño académico: Variables como la posesión de motocicletas , microondas o acceso a servicios de televisión no muestran un impacto significativo en los puntajes de matemáticas. Esto es comprensible, ya que estos elementos no se relacionan directamente con el proceso educativo o las oportunidades de aprendizaje. A diferencia de internet o computadoras , que facilitan el acceso a recursos educativos, los electrodomésticos y vehículos pueden influir en la calidad de vida, pero no necesariamente en el rendimiento académico.

. Factores de entorno escolar versus entorno doméstico: La variable naturaleza del colegio (público o privado) tampoco presenta una influencia significativa en este análisis. Esto puede indicar que el desempeño en matemáticas depende más del entorno familiar, el esfuerzo individual y los recursos educativos específicos que de si el estudiante proviene de una institución pública o privada. Esta es una reflexión interesante, ya que apunta a que las brechas en el rendimiento no se cierran automáticamente al pertenecer a un colegio de mejor calidad, sino que otros factores, como el acompañamiento familiar, juegan un rol clave.

El hecho de que algunas variables no resultan significativas no significa que carezcan de importancia en la vida del estudiante. Un análisis estadístico refleja correlaciones, no causalidades absolutas. Por ejemplo, el acceso a la televisión puede no mostrar un impacto directo en los puntajes de matemáticas, pero limitar el tiempo frente a la pantalla podría mejorar el rendimiento indirectamente al liberar más tiempo para el estudio.

Siguiendo el método de elminar las variables no significativas tenemos la siguiente ANOVA con las variables significativas:

                                Df Sum Sq Mean Sq F value   Pr(>F)    
EdadGrupo                        2   6342    3171  32.230 1.27e-14 ***
FAMI_ESTRATOVIVIENDA             6  25088    4181  42.502  < 2e-16 ***
FAMI_EDUCACIONMADRE             11  51685    4699  47.760  < 2e-16 ***
FAMI_TIENEINTERNET               1   9056    9056  92.046  < 2e-16 ***
FAMI_TIENECOMPUTADOR             1    739     739   7.511 0.006158 ** 
FAMI_COMELECHEDERIVADOS          3   4154    1385  14.076 3.95e-09 ***
FAMI_COMECARNEPESCADOHUEVO       3   2741     914   9.288 4.04e-06 ***
FAMI_COMECEREALFRUTOSLEGUMBRE    3   2263     754   7.669 4.14e-05 ***
FAMI_TRABAJOLABORPADRE          12  12870    1072  10.901  < 2e-16 ***
FAMI_TRABAJOLABORMADRE          12   6856     571   5.807 4.47e-10 ***
FAMI_SITUACIONECONOMICA          2  14327    7164  72.815  < 2e-16 ***
COLE_JORNADA                     5   5572    1114  11.328 7.05e-11 ***
COLE_NATURALEZA                  1  15601   15601 158.577  < 2e-16 ***
COLE_BILINGUE                    1   4107    4107  41.743 1.15e-10 ***
ESTU_DEDICACIONLECTURADIARIA     4   2186     547   5.556 0.000185 ***
ESTU_DEDICACIONINTERNET          4   4210    1053  10.699 1.25e-08 ***
Residuals                     4449 437695      98                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Variables significativas en la ANOVA y su impacto

  1. Edad del grupo (EdadGrupo): Los puntajes en matemáticas varían significativamente según el grupo de edad.
  2. Educación de los padres (FAMI_EDUCACIONPADRE y FAMI_EDUCACIONMADRE): A mayor nivel educativo de los padres, los estudiantes obtienen mejores puntajes.
  3. Estrato socioeconómico (FAMI_ESTRATOVIVIENDA): Los puntajes varían según el estrato socioeconómico.
  4. Acceso a internet y computadora (FAMI_TIENEINTERNET y FAMI_TIENECOMPUTADOR): El acceso a internet y computadoras mejoran los puntajes en matemáticas.
  5. Dedicación diaria a la lectura (ESTU_DEDICACIONLECTURADIARIA): Los estudiantes que dedican más tiempo a la lectura obtienen mejores resultados en matemáticas.
  6. Situación económica del hogar (FAMI_SITUACIONECONOMICA): La percepción de la situación económica familiar influye en los puntajes.
  7. Tipo de jornada escolar (COLE_JORNADA): Los puntajes varían según si la jornada es completa, matutina, vespertina o nocturna.
  8. Naturaleza de la institución educativa (COLE_NATURALEZA): El tipo de colegio (público o privado) también afecta los puntajes.
  9. Colegio bilingüe (COLE_BILINGUE): Estudiantes en colegios bilingües obtienen mejores resultados.
  10. Trabajo de los padres (FAMI_TRABAJOLABORPADRE y FAMI_TRABAJOLABORMADRE): La ocupación de los padres tiene un impacto significativo en los puntajes.
  11. Consumo de ciertos alimentos (FAMI_COMELECHEDERIVADOS, FAMI_COMECARNEPESCADOHUEVO, FAMI_COMECEREALFRUTOSLEGUMBRE): La alimentación balanceada influye en los puntajes.

Estos resultados podrian mostrar que el rendimiento académico en matemáticas es un fenómeno multidimensional que involucra no solo la capacidad intelectual del estudiante, sino también factores socioeconómicos, ambientales y familiares.

Modelo del análisis de varianza de tres factores:

\[y_{ijkl}=\mu+\tau_i+\beta_j+\gamma_k+(\tau\beta)_{ij}+(\tau\gamma)_{ik}+(\tau\beta\gamma)_{ijk}+\varepsilon_{ijkl} \begin{cases} & i = 1,2,...,a \\ & j = 1,2,...,b \\ & k = 1,2,...,c \\ & l = 1,2,...,n \end{cases}\]

                                                                Df Sum Sq
EdadGrupo                                                        2   6342
ESTU_DEDICACIONLECTURADIARIA                                     4   6902
FAMI_TRABAJOLABORPADRE                                          12  38550
EdadGrupo:ESTU_DEDICACIONLECTURADIARIA                           6    226
EdadGrupo:FAMI_TRABAJOLABORPADRE                                11   1508
ESTU_DEDICACIONLECTURADIARIA:FAMI_TRABAJOLABORPADRE             48  11968
EdadGrupo:ESTU_DEDICACIONLECTURADIARIA:FAMI_TRABAJOLABORPADRE   10    263
Residuals                                                     4427 539732
                                                              Mean Sq F value
EdadGrupo                                                        3171  26.008
ESTU_DEDICACIONLECTURADIARIA                                     1725  14.153
FAMI_TRABAJOLABORPADRE                                           3213  26.350
EdadGrupo:ESTU_DEDICACIONLECTURADIARIA                             38   0.309
EdadGrupo:FAMI_TRABAJOLABORPADRE                                  137   1.125
ESTU_DEDICACIONLECTURADIARIA:FAMI_TRABAJOLABORPADRE               249   2.045
EdadGrupo:ESTU_DEDICACIONLECTURADIARIA:FAMI_TRABAJOLABORPADRE      26   0.216
Residuals                                                         122        
                                                                Pr(>F)    
EdadGrupo                                                     5.90e-12 ***
ESTU_DEDICACIONLECTURADIARIA                                  1.77e-11 ***
FAMI_TRABAJOLABORPADRE                                         < 2e-16 ***
EdadGrupo:ESTU_DEDICACIONLECTURADIARIA                           0.933    
EdadGrupo:FAMI_TRABAJOLABORPADRE                                 0.337    
ESTU_DEDICACIONLECTURADIARIA:FAMI_TRABAJOLABORPADRE           3.10e-05 ***
EdadGrupo:ESTU_DEDICACIONLECTURADIARIA:FAMI_TRABAJOLABORPADRE    0.995    
Residuals                                                                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Objetivo de este ANOVA

El análisis busca identificar cómo influyen ciertas variables independientes (como la edadGrupo, ESTU_DEDICACIONLECTURADIARIA y FAMI_TRABAJOLABORPADRE) sobre el puntaje en matemáticas. Además, se analiza si las combinaciones o interacciones entre estas variables generan un efecto adicional significativo.

Análisis de ANOVA

  1. Variables principales:
  • Edad del Grupo (EdadGrupo):La edad tiene un impacto claro en el desempeño en matemáticas. Los estudiantes más jóvenes probablemente obtengan mejores resultados, ya que su aprendizaje es más fresco y tienen menos interrupciones en su educación.

  • Dedicación a la lectura diaria (ESTU_DEDICACIONLECTURADIARIA):Los estudiantes que dedican más tiempo a la lectura diaria obtienen mejores puntajes en matemáticas. Esto sugiere que la lectura mejora las habilidades como la concentración y la comprensión de problemas.

  • Trabajo del padre (FAMI_TRABAJOLABORPADRE): La ocupación del padre afecta los puntajes. Esto podría deberse a que un padre con trabajos más flexibles puede dedicar más tiempo al apoyo educativo del estudiante o generar un entorno más estable para el aprendizaje.

  1. Interacciones entre las variables:
  • Edad del Grupo × Dedicación a la lectura diaria (EdadGrupo): Resultado: No significativo ( p = 0,793 ). No hay evidencia de que la combinación de la edad y la dedicación a la lectura diaria tenga un efecto adicional en los puntajes de matemáticas. Esto indica que cada una de estas variables afecta los resultados de forma independiente.

  • Edad del Grupo × Trabajo del padre (EdadGrupo): Resultado: No significativo (p = 0,664). La interacción entre la edad del estudiante y la ocupación del padre no tiene un impacto adicional en los puntajes. La edad y la ocupación afectan los resultados por separado.

  • Dedicación a la lectura diaria × Trabajo del padre (ESTU_DEDICACIONLECTURADIARIA): Resultado: Significativo (p < 0,001). Esta interacción sí tiene un impacto significativo en los puntajes. Esto sugiere que el apoyo familiar (reflejado en la ocupación del padre) combinado con el hábito de lectura diaria puede mejorar el rendimiento académico en matemáticas. Un entorno familiar que fomenta hábitos de estudio es clave para el éxito.

  • Edad del Grupo × Dedicación a la lectura diaria × Trabajo del padre: Resultado: No significativo (p = 0,991). La combinación de estas tres variables no tiene un efecto adicional significativo. Esto implica que la influencia de cada una sigue siendo independiente, sin un impacto mayor cuando se combinan todas juntas.

Interacion(Puntaje de Matemáticas Vs EdadGrup - FAMI_TRABAJOLABORPADRE - ESTU_DEDICACIONLECTURADIARIA)
Interacion(Puntaje de Matemáticas Vs EdadGrup - FAMI_TRABAJOLABORPADRE - ESTU_DEDICACIONLECTURADIARIA)

Interpretación del Gráfico por Panel figura 2: interacion(puntaje de mateáticas Vs EdadGrup - FAMI_TRABAJOLABORPADRE- ESTU_DEDICACIONLECTURADIARIA)

  • Panel 1: EdadGrupo = J (Jóvenes)

  • Los jóvenes tienden a tener puntajes más altos que los otros grupos de edad.

  • La dedicación a la lectura marca una diferencia: Aquellos que leen más de 2 horas diarias (línea rosada) tienen mejores puntajes en comparación con quienes no leen (línea punteada negra).

  • La ocupación del padre parece introducir cierta variabilidad: En algunos tipos de trabajo, los puntajes suben o bajan, lo que sugiere que el trabajo del padre afecta el desempeño en combinación con los hábitos de lectura.

  • Panel 2: EdadGrupo = A_j (Adultos jóvenes)

  • En este grupo, los puntajes son más consistentes, pero ligeramente menores que los de los jóvenes.

  • La lectura sigue siendo relevante, pero el impacto de leer más de 2 horas es menos claro en comparación con los jóvenes.

  • La ocupación del padre tiene menos variabilidad que en los jóvenes, lo que sugiere que, a medida que los estudiantes crecen, los hábitos personales pesan más que la influencia familiar.

  • Panel 3: EdadGrupo = A_m (Adultos mayores)

  • Este grupo presenta los puntajes más bajos en matemáticas.

  • La lectura no parece marcar una diferencia tan clara: Las líneas de los distintos hábitos de lectura están más cerca entre sí, lo que sugiere que la capacidad de mejorar el rendimiento mediante la lectura disminuye con la edad.

  • La ocupación del padre tiene menos impacto en este grupo, lo que puede deberse a que estos estudiantes tengan mayor independencia y menor influencia directa de su entorno familiar.

Conclusión General del Análisis

Este gráfico refleja que:

  1. Los jóvenes (hasta 25 años) obtienen los mejores puntajes, y la combinación de lectura y ocupación del padre influye significativamente en sus resultados.
  2. A medida que los estudiantes envejecen, el impacto de la lectura disminuye, y los puntajes en matemáticas bajan. Sin embargo, los hábitos de lectura siguen teniendo alguna relevancia en los adultos jóvenes.
  3. En los adultos mayores, la capacidad de mejorar mediante la lectura parece ser limitada, y la influencia del trabajo del padre es casi nula.


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  residuos_estandarizados
D = 0.43569, p-value < 2.2e-16
alternative hypothesis: two-sided


    Bartlett test of homogeneity of variances

data:  PUNT_MATEMATICAS by ESTU_DEDICACIONLECTURADIARIA
Bartlett's K-squared = 57.252, df = 4, p-value = 1.095e-11

    Bartlett test of homogeneity of variances

data:  PUNT_MATEMATICAS by EdadGrupo
Bartlett's K-squared = 6.9436, df = 2, p-value = 0.03106

    Bartlett test of homogeneity of variances

data:  PUNT_MATEMATICAS by TRB_P
Bartlett's K-squared = 31.334, df = 8, p-value = 0.0001225
  1. Análisis del Gráfico QQ-plot de Residuos
  • El gráfico QQ-plot permite verificar si los residuos del modelo siguen una distribución normal.

Interpretación:

  • En el gráfico, los residuos se alinean de manera razonable con la línea de normalidad, lo que sugiere un ajuste adecuado a una distribución normal en su mayoría.
  • Sin embargo, se observan desviaciones en las colas , lo que implica posibles violaciones de niveles de normalidad.
  • Con base en esto, aunque los residuos siguen un patrón cercano al esperado, habría que considerar estas pequeñas desviaciones al evaluar la robustez de los supuestos del modelo.
  1. Análisis del Test de Kolmogorov-Smirnov

Resultados de la prueba:

  • D = 0,0210
  • p-valor = 0,03679
  • Hipótesis alternativa: “Los residuos no siguen una distribución normal”.

Interpretación:

  • El p-valor es menor que 0.05, indicando que rechazamos la hipótesis nula de normalidad. Esto confirma que, aunque el QQ-plot mostró residuos razonablemente alineados, la distribución presenta ciertas desviaciones significativas.
  • Esta ligera falta de normalidad podría no ser crítica si el tamaño de la muestra es grande, pero debería tenerse en cuenta al interpretar los resultados finales del modelo.

Conclusión:

Ambos análisis sugieren que los residuos del modelo presentan una distribución cercana a la normalidad, pero con algunas desviaciones leves, especialmente en las colas. Dado que el p-valor del test de Kolmogorov-Smirnov indica significancia estadística, sería recomendable realizar pruebas adicionales o considerar transformaciones para asegurar la robustez del modelo.

  1. Análisis del Gráfico de Residuos vs. Valores Predichos

Descripción: Este tipo de gráfico se utiliza para evaluar los supuestos de homocedasticidad y linealidad en los residuos de un modelo. En el eje X se presentan los valores predichos por el modelo, y en el eje Y se muestran los residuos correspondientes. El objetivo es identificar si los residuos se distribuyen de manera aleatoria alrededor de cero sin mostrar patrones visibles.

Interpretación del gráfico:

  1. Distribución Aleatoria: En el gráfico se observa que los residuos están dispersos de manera relativamente aleatoria alrededor de la línea cero, lo cual es una buena señal . Esto sugiere que no hay patrones claros en los residuos, lo que respalda la validez del modelo.

  2. Homocedasticidad (Varianza Constante): La dispersión de los puntos parece mantenerse similar a lo largo de los valores predichos, es decir, no se observa un aumento o disminución evidente en la varianza. Esto indica que el supuesto de homocedasticidad se cumple adecuadamente.

  3. Ausencia de Patrones No Lineales: No se observan curvas o agrupamientos en los puntos, lo que sugiere que no hay problemas de no linealidad. Esto indica que el modelo captura bien la relación entre las variables dependientes e independientes.


Study: mod1.2 ~ "EdadGrupo"

Scheffe Test for PUNT_MATEMATICAS 

Mean Square Error  : 121.9182 

EdadGrupo,  means

               PUNT_MATEMATICAS       std    r        se Min Max  Q25 Q50   Q75
26 a 35 años           35.94643  8.822326   56 1.4755038  22  55 29.0  35 42.25
Hasta 25 años          45.57672 11.547876 4458 0.1653729  17 100 37.0  45 53.00
Más de 45 años         32.28571  9.250483    7 4.1733549  24  52 27.5  30 32.50

Alpha: 0.05 ; DF Error: 4427 
Critical Value of F: 2.99776 

Groups according to probability of means differences and alpha level( 0.05 )

Means with the same letter are not significantly different.

               PUNT_MATEMATICAS groups
Hasta 25 años          45.57672      a
26 a 35 años           35.94643      b
Más de 45 años         32.28571      b
  Tukey multiple comparisons of means
    99% family-wise confidence level

Fit: aov(formula = mod1.1)

$EdadGrupo
              diff       lwr       upr     p adj
A.j-J    -8.881271 -13.33493 -4.427613 0.0000000
A.m-J   -16.208194 -29.23630 -3.180088 0.0008488
A.m-A.j  -7.326923 -21.07465  6.420800 0.2660906

Study: PUNTAJE DE MATEMATICAS

LSD t Test for PUNT_MATEMATICAS 

Mean Square Error:  121.9182 

ESTU_DEDICACIONLECTURADIARIA,  means and individual ( 95 %) CI

                           PUNT_MATEMATICAS      std    r        se      LCL
30 minutos o menos                 44.42540 10.73917 1984 0.2478926 43.93941
Entre 1 y 2 horas                  44.88955 12.51275  507 0.4903773 43.92816
Entre 30 y 60 minutos              47.20511 11.98329 1253 0.3119312 46.59357
Más de 2 horas                     47.86982 14.79485  169 0.8493584 46.20466
No leo por entretenimiento         44.87336 11.02022  608 0.4477984 43.99545
                                UCL Min Max Q25 Q50  Q75
30 minutos o menos         44.91140  19 100  37  44 52.0
Entre 1 y 2 horas          45.85093  19 100  35  43 54.5
Entre 30 y 60 minutos      47.81665  17 100  39  46 55.0
Más de 2 horas             49.53499  21 100  37  47 59.0
No leo por entretenimiento 45.75126  18  80  37  44 52.0

Alpha: 0.05 ; DF Error: 4427
Critical Value of t: 1.9605 

Groups according to probability of means differences and alpha level( 0.05 )

Treatments with the same letter are not significantly different.

                           PUNT_MATEMATICAS groups
Más de 2 horas                     47.86982      a
Entre 30 y 60 minutos              47.20511      a
Entre 1 y 2 horas                  44.88955      b
No leo por entretenimiento         44.87336      b
30 minutos o menos                 44.42540      b

Study: PUNTAJE DE MATEMATICAS

Student Newman Keuls Test
for PUNT_MATEMATICAS 

Mean Square Error:  119.6204 

ESTU_DEDICACIONLECTURADIARIA,  means

                           PUNT_MATEMATICAS      std    r        se Min Max
30 minutos o menos                 44.13073 10.62767 1637 0.2703201  21 100
Entre 1 y 2 horas                  44.27228 12.60490  404 0.5441417  21 100
Entre 30 y 60 minutos              46.66733 11.89774 1001 0.3456891  17 100
Más de 2 horas                     48.43443 15.23262  122 0.9901997  21 100
No leo por entretenimiento         44.64523 11.08991  482 0.4981719  18  80
                            Q25 Q50 Q75
30 minutos o menos         37.0  43  52
Entre 1 y 2 horas          34.0  43  53
Entre 30 y 60 minutos      38.0  46  54
Más de 2 horas             37.5  48  60
No leo por entretenimiento 37.0  44  52

Groups according to probability of means differences and alpha level( 0.05 )

Means with the same letter are not significantly different.

                           PUNT_MATEMATICAS groups
Más de 2 horas                     48.43443      a
Entre 30 y 60 minutos              46.66733      b
No leo por entretenimiento         44.64523      c
Entre 1 y 2 horas                  44.27228      c
30 minutos o menos                 44.13073      c
  1. Interpretación del Test de Scheffé

El Test de Scheffé es un método post hoc utilizado para realizar comparaciones múltiples entre los medios de diferentes grupos, asegurando que la tasa de error global se mantenga bajo control.

  1. Interpretación del Resultado del Test de Scheffé

La tabla muestra los puntajes promedio de matemáticas para diferentes grupos de edad , junto con la letra asignada a cada grupo por el Test de Scheffé.

  • Análisis de los resultados:
  1. Puntajes Promedio de Matemáticas:
  • Hasta 25 años: 45.5619
  • 26 a 35 años: 35.2708
  • Más de 45 años: 33.6667
  1. Grupos de Significancia (Letras):
  • Grupo “a”: Hasta 25 años
  • Grupo “b”: 26 a 35 años, Más de 45 años
  1. Interpretación de las Letras:
  • Grupos con la misma letra no presentan diferencias significativas.

  • En este caso, los grupos 26 a 35 años y más de 45 años comparten la letra “b”, lo que indica que sus puntajes promedio de matemáticas no son significativamente diferentes entre sí.

  • El grupo “Hasta 25 años” tiene la letra “a”, lo que significa que su puntaje promedio es significativamente diferente de los otros dos grupos.

Conclusiones:

  • Diferencia significativa: El grupo de estudiantes hasta 25 años tiene un puntaje significativamente mayor en matemáticas que los otros dos grupos.
  • Similitud entre grupos: Los grupos 26 a 35 años y más de 45 años no muestran diferencias significativas entre sí en cuanto a sus puntajes promedio.

Estos resultados sugieren que la edad influye significativamente en el rendimiento académico en matemáticas, y que los estudiantes más jóvenes tienden a obtener mejores puntajes. La diferencia entre los grupos mayores podría indicar que, con la edad, el desempeño tiende a estabilizarse o disminuir.

  1. Interpretación del Test de Comparaciones Múltiples de Tukey

El Test de Tukey permite realizar comparaciones por pares entre los diferentes grupos de una variable, en este caso EdadGrupo , asegurando que la probabilidad de cometer errores tipo I (falsos positivos) se mantiene controlada en el 99% del nivel de confianza.

Elementos claves

  1. diff (Diferencia de medias): Muestra la diferencia entre los puntajes promedio de los grupos comparados.
  • A.j-J : -9,5266
  • A.m-J: -15.1933
  • A.m-A.j: -5.6667
  1. lwr y upr (Intervalos de Confianza Inferior y Superior):

Estos valores indican el rango dentro del cual se espera que esté la verdadera diferencia de medios con un nivel de confianza del 99%.

  1. p adj (p-valor ajustado):
  • Indica si la diferencia entre las medias es estadísticamente significativa.

    • Aj - J: p < 0.0001 → Significativa .
    • Am - J: p = 0,0055 → Significativa .
    • Am - Aj: p = 0,5151 → No significativa .

Interpretación de las Comparaciones:

  1. Aj - J (Adultos Jóvenes vs. Jóvenes):
  • La diferencia es -9.5266, lo que indica que los adultos jóvenes obtienen en promedio 9.5 puntos menos que los jóvenes.
  • La diferencia es estadísticamente significativa (p < 0.0001), lo que sugiere que la edad influyó significativamente en el desempeño matemático entre estos dos grupos.
  1. Am - J (Adultos Mayores vs. Jóvenes):
  • La diferencia es aún mayor, -15.1933, mostrando que los adultos mayores obtienen en promedio 15.2 puntos menos que los jóvenes.
  • Esta diferencia también es estadísticamente significativa (p = 0.0055), reforzando la idea de que el rendimiento disminuye con la edad.
  1. Am - Aj (Adultos Mayores vs. Adultos Jóvenes):
  • La diferencia es -5.6667, lo que indica que los adultos mayores obtienen en promedio 5.7 puntos menos que los adultos jóvenes.
  • Sin embargo, esta diferencia no es estadísticamente significativa (p = 0.5151), lo que sugiere que entre estos dos grupos la diferencia en desempeño no es concluyente.

Conclusión general:

  • Diferencias significativas:
    • Los jóvenes obtienen puntajes significativamente más altos que los adultos jóvenes y adultos mayores.
  • Sin diferencia significativa:
    • Entre adultos jóvenes y adultos mayores, la diferencia en los puntajes no es lo suficientemente grande para ser significativa.

Estos resultados confirman que la edad tiene un impacto en el rendimiento académico, especialmente al comparar jóvenes con grupos mayores. Sin embargo, entre los adultos jóvenes y mayores, el rendimiento se estabiliza.

  1. Interpretación del Test LSD

Descripción de los resultados:

  1. Puntajes Promedio de Matemáticas según Tiempo de Lectura Diaria:
  • Más de 2 horas: 47.86982
  • Entre 30 y 60 minutos: 47.20511
  • Entre 1 y 2 horas: 44.88955
  • No leo por entretenimiento: 44.87336
  • 30 minutos o menos: 44.42540
  1. Grupos de Significancia (Letras):
  • Grupo “a”: Más de 2 horas, Entre 30 y 60 minutos
  • Grupo “b”: Entre 1 y 2 horas, No leo por entretenimiento, 30 minutos o menos

Interpretación de los Grupos de Significancia:

Grupos con la misma letra no presentan diferencias significativas:

  • Los estudiantes que leen más de 2 horas y aquellos que leen entre 30 y 60 minutos comparten la letra “a”, indicando que no hay diferencia significativa en los puntajes de estos dos grupos.
  • De igual forma, los grupos que leen menos de 2 horas o no leen por entretenimiento comparten la letra “b”, lo que indica ausencia de diferencias significativas entre ellos.

Diferencia entre los Grupos “a” y “b”:

  • Los estudiantes que dedican más tiempo a la lectura (más de 30 minutos) tienden a obtener mejores puntajes en comparación con los que leen menos de 30 minutos o no leen por entretenimiento.
  • Esto sugiere que un mayor tiempo dedicado a la lectura tiene un impacto positivo en el desempeño académico en matemáticas.

Conclusiones:

  • Lectura de más de 30 minutos al día mejora el rendimiento: Los grupos que dedican más de 2 horas o entre 30 y 60 minutos a la lectura tienen puntajes significativamente más altos en matemáticas en comparación con los que dedican menos tiempo o no leen.
  • Sin diferencias significativas entre grupos de menor lectura: Los estudiantes que leen menos de 2 horas o no leen por entretenimiento obtienen puntajes similares.

El Test LSD destaca la importancia de la lectura como un hábito relevante para el rendimiento académico, aunque el aumento más claro en los puntajes ocurre al superar las 2 horas diarias.

  1. Interpretación del Test SNK (Student-Newman-Keuls)

El Test SNK (Student-Newman-Keuls) es una técnica post hoc que organiza los grupos en función de sus medios y realiza comparaciones entre grupos consecutivos

  • Resultados del Test SNK:
  1. Puntajes Promedio de Matemáticas según Tiempo de Lectura:
  • Más de 2 horas: 48.43443
  • Entre 30 y 60 minutos: 46.66733
  • No leo por entretenimiento: 44.64523
  • Entre 1 y 2 horas: 44.27228
  • 30 minutos o menos: 44.13073
  1. Grupos de Significancia (Letras):
  • Grupo “a”: Más de 2 horas
  • Grupo “b”: Entre 30 y 60 minutos
  • Grupo “c”: No leo por entretenimiento, Entre 1 y 2 horas, 30 minutos o menos

Interpretación de los Grupos de Significancia:

  • Grupos con letras diferentes presentan diferencias significativas:
    • Los estudiantes que leen más de 2 horas obtienen los puntajes más altos y pertenecen al Grupo “a”, significativamente diferentes del resto.
    • Los que leen entre 30 y 60 minutos pertenecen al Grupo “b” , con un rendimiento también alto pero inferior al del Grupo “a”.
    • Los estudiantes que leen poco o no leen pertenecen al Grupo “c” y tienen los puntajes más bajos, sin diferencias significativas entre ellos.

Conclusiones:

  1. Impacto positivo del tiempo de lectura:
  • Leer* más de 2 horas* al día tiene un efecto positivo significativo en los puntajes de matemáticas, lo que destaca la importancia del hábito de lectura.
  1. Diferencia significativa entre niveles:
  • Los puntajes disminuyen progresivamente a medida que disminuye el tiempo de lectura , mostrando que la lectura frecuente es un indicador de mejor desempeño académico.
  1. Ausencia de diferencias significativas entre quienes leen menos:
  • No hay diferencias significativas entre los estudiantes que leen menos de 2 horas o no leen por entretenimiento , lo que sugiere que la lectura ocasional tiene poco impacto en los puntajes.

Para este análisis, se realizaron transformaciones a dos variables categóricas para mejorar la visualización en gráficos. La variable EDUCACION.M fue convertida en valores numéricos, asignando números del 0 al 11 a los niveles de educación, como “Ninguno”, “Primaria completa”, y “Postgrado”, permitiendo una representación más ordenada y clara en gráficos, especialmente en aquellos con ejes numéricos. Por otro lado, la variable EdadGrupo fue simplificada renombrando sus categorías originales, “Hasta 25 años”, “26 a 35 años”, y “Más de 45 años”, a etiquetas más concisas como “Joven”, “Adulto.joven”, y “Adulto.mayor”, mejorando la claridad y la interpretación visual de los gráficos con etiquetas más descriptivas, como se observo en las tablas anteriores:

Tabla de Niveles Educativos
Nivel Etiqueta Descripción
0 Ninguno Sin educación formal
1 No Aplica La pregunta no es aplicable al encuestado
2 No sabe El encuestado no conoce su nivel educativo
3 Primaria completa Completó la educación primaria
4 Primaria incompleta No completó la educación primaria
5 Secundaria (Bachillerato) completa Completó la educación secundaria
6 Secundaria (Bachillerato) incompleta No completó la educación secundaria
7 Técnica o tecnológica completa Completó estudios técnicos o tecnológicos
8 Técnica o tecnológica incompleta No completó estudios técnicos o tecnológicos
9 Educación profesional completa Completó estudios universitarios
10 Educación profesional incompleta No completó estudios universitarios
11 Postgrado Realizó estudios de postgrado
Clasificación de Edades
Nivel.Original Nueva.Etiqueta Descripción
Hasta 25 años Joven Personas de 25 años o menos
26 a 35 años Adulto Joven Personas entre 26 y 35 años
Más de 45 años Adulto Mayor Personas mayores de 45 años

En experimentos con factores múltiples, algunos factores pueden estar incluidos en un arreglo factorial y otros estar anidados. En ocasiones a estos diseños se les llama diseños factoriales-anidados5. El análisis estadístico de un diseño así con tres factores como el modelo siguiente.

\[y_{ijkl}=\mu+\tau_i+\beta_j+\gamma_{k(j)}+(\tau\beta){ij}+ (\tau\gamma){ik(j)}+\varepsilon_{(ijk)l} \begin{cases} & i = 1,2,3\\ & j = 0,1,...,6 \\ & k = 1,2,...,11 \\ & l = 1,2,..., n \end{cases}\]

                                Df Sum Sq Mean Sq F value   Pr(>F)    
EdadGrupo                        2   6342    3171  27.742 1.06e-12 ***
ESTRATO                          6  25088    4181  36.583  < 2e-16 ***
EDUCACION.M                     11  51685    4699  41.109  < 2e-16 ***
EdadGrupo:ESTRATO                6    849     142   1.238    0.283    
EdadGrupo:ESTRATO:EDUCACION.M   78  16678     214   1.871 6.62e-06 ***
Residuals                     4417 504851     114                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La imagen muestra los resultados de un análisis de varianza (ANOVA), donde se evalúa el efecto de varias variables sobre una variable dependiente. Las variables EdadGrupo, ESTRATO y EDUCACION.M tienen efectos significativos debibo a que (p < 0.001), indicando que cada una influye de manera importante en la variable dependiente. La interacción entre EdadGrupo y ESTRATO no es significativa (p = 0.28), sugiriendo que su combinación no tiene un efecto notable. Sin embargo, la interacción entre EdadGrupo, ESTRATO, y EDUCACION.M es significativa (p < 0.001), lo que implica que la combinación de estas tres variables afecta significativamente los resultados;podemos observar esta interacion en el siguiente grafico.

Interacion(EdadGrupo%in%ESTRATO* EDUCACION.M)
Interacion(EdadGrupo%in%ESTRATO* EDUCACION.M)

El gráfico muestra la relación entre el puntaje en matemáticas y los niveles de educación según el estrato socioeconómico y el grupo de edad. Cada panel representa un estrato diferente, desde 1 hasta 6, más un grupo sin estrato. Se observa que los jóvenes (en azul) tienden a tener puntajes más altos en matemáticas que los adultos jóvenes (en naranja) y los adultos mayores (en verde), especialmente en niveles educativos más altos. Además, los puntajes en matemáticas generalmente aumentan con niveles educativos más altos en todos los estratos, pero esta tendencia es más pronunciada en estratos superiores. La variabilidad de los puntajes parece ser mayor en los estratos más bajos, indicando que el nivel socioeconómico podría influir en la consistencia del rendimiento académico.

El gráfico muestra una revisión de supuestos de regresión mediante un QQ-plot de residuos y un gráfico de residuos vs. valores predichos. En el QQ-plot, los residuos se alinean razonablemente bien con la línea de normalidad, aunque hay algunas desviaciones en las colas, sugiriendo ligeras violaciones de normalidad. En el gráfico de residuos vs. predichos, los residuos están dispersos aleatoriamente alrededor de cero, sin patrones claros, lo que indica que no hay problemas significativos de heterocedasticidad y que la varianza de los errores es constante. En general, los supuestos de normalidad y homocedasticidad parecen cumplirse adecuadamente, aunque las pequeñas desviaciones observadas podrían requerir una investigación adicional.


    Asymptotic one-sample Kolmogorov-Smirnov test

data:  residuos_estandarizados
D = 0.02191, p-value = 0.02605
alternative hypothesis: two-sided

    Bartlett test of homogeneity of variances

data:  PUNT_MATEMATICAS by ESTRATO
Bartlett's K-squared = 40.189, df = 6, p-value = 4.181e-07

    Bartlett test of homogeneity of variances

data:  PUNT_MATEMATICAS by EDUCACION.M
Bartlett's K-squared = 108.1, df = 11, p-value < 2.2e-16

La revisión de supuestos en los diferentes tipos de test anterior es muestra que los residuos estándar pueden tener una distribución normal, para un \(\alpha\)=0.03, según la prueba de Kolmogorov-Smirnov, que tiene un p-valor de 0.0462, indicando una posible normalidad. Además, las pruebas de Bartlett para homogeneidad de varianzas, tanto por ESTRATO como por EDUCACION.M, presentan p-valores extremadamente bajos (4.18e-07 y < 2.2e-16, respectivamente), sugiriendo diferencias significativas en las varianzas entre grupos. La prueba de Levene también apoya esta conclusión, con un p-valor de 5.561e-11, confirmando que el supuesto de homocedasticidad no se cumple. En resumen, los análisis indican violaciones en los supuestos de normalidad y homocedasticidad en el modelo.


Study: Anova1 ~ "ESTRATO"

Scheffe Test for PUNT_MATEMATICAS 

Mean Square Error  : 114.2972 

ESTRATO,  means

            PUNT_MATEMATICAS       std    r        se Min Max   Q25 Q50 Q75
Estrato 1           46.72205 11.346531 2281 0.2238490  20 100 38.00  46  55
Estrato 2           46.98925 12.298927  930 0.3505712  19 100 38.00  46  55
Estrato 3           44.69212 10.928332  406 0.5305847  20  83 37.00  44  52
Estrato 4           41.86316 11.817940  190 0.7756056  20  81 33.25  40  49
Estrato 5           39.53521 10.571972   71 1.2687866  23  80 32.00  38  47
Estrato 6           37.03571  8.170822   56 1.4286431  17  58 31.00  36  43
Sin Estrato         41.17036 10.068110  587 0.4412642  18  74 34.00  41  47

Alpha: 0.05 ; DF Error: 4417 
Critical Value of F: 2.10064 

Groups according to probability of means differences and alpha level( 0.05 )

Means with the same letter are not significantly different.

            PUNT_MATEMATICAS groups
Estrato 2           46.98925      a
Estrato 1           46.72205     ab
Estrato 3           44.69212     bc
Estrato 4           41.86316     cd
Sin Estrato         41.17036      d
Estrato 5           39.53521      d
Estrato 6           37.03571      d
  Tukey multiple comparisons of means
    99% family-wise confidence level

Fit: aov(formula = modelo2)

$EDUCACION.M
             diff         lwr        upr     p adj
1-0   -2.52336059 -14.8182577  9.7715365 0.9998099
2-0    6.92003643   1.7057118 12.1343611 0.0000450
3-0    3.77621490   0.9049877  6.6474421 0.0000564
4-0    3.81117501   1.1688451  6.4535049 0.0000046
5-0    7.32235976   4.6445651 10.0001544 0.0000000
6-0    5.62633005   2.7682424  8.4844177 0.0000000
7-0   10.07077277   6.8642374 13.2773081 0.0000000
8-0    9.43941818   4.6872032 14.1916331 0.0000000
9-0   12.55178843   9.2475488 15.8560280 0.0000000
10-0  11.49205221   6.2777276 16.7063769 0.0000000
11-0  18.68676407  12.1449917 25.2285364 0.0000000
2-1    9.44339701  -3.4898269 22.3766209 0.2100817
3-1    6.29957548  -5.8792194 18.4783704 0.7362229
4-1    6.33453559  -5.7923357 18.4614068 0.7236795
5-1    9.84572035  -2.2889277 21.9803684 0.0982471
6-1    8.14969064  -4.0260132 20.3253945 0.3363463
7-1   12.59413336   0.3319570 24.8563097 0.0068260
8-1   11.96277877  -0.7911479 24.7167055 0.0228409
9-1   15.07514902   2.7870614 27.3632367 0.0002812
10-1  14.01541280   1.0821889 26.9486367 0.0029508
11-1  21.21012465   7.6870375 34.7332118 0.0000003
3-2   -3.14382153  -8.0781635  1.7905205 0.4163101
4-2   -3.10886142  -7.9136187  1.6958959 0.3909275
5-2    0.40232334  -4.4220284  5.2266750 1.0000000
6-2   -1.29370638  -6.2204142  3.6330015 0.9980505
7-2    3.15073634  -1.9859605  8.2874332 0.4793436
8-2    2.51938175  -3.7005324  8.7392959 0.9364124
9-2    5.63175201   0.4335038 10.8300002 0.0029635
10-2   4.57201578  -2.0077233 11.1517549 0.2790284
11-2  11.76672764   4.0921872 19.4412681 0.0000007
4-3    0.03496011  -1.9998511  2.0697713 1.0000000
5-3    3.54614487   1.4654879  5.6268018 0.0000001
6-3    1.85011515  -0.4579607  4.1581910 0.1084989
7-3    6.29455787   3.5668448  9.0222709 0.0000000
8-3    5.66320328   1.2199954 10.1064111 0.0001197
9-3    8.77557354   5.9336466 11.6175005 0.0000000
10-3   7.71583731   2.7814953 12.6501793 0.0000004
11-3  14.91054917   8.5896841 21.2314142 0.0000000
5-4    3.51118476   1.7598724  5.2624971 0.0000000
6-4    1.81515504  -0.2010731  3.8313832 0.0364466
7-4    6.25959776   3.7739630  8.7452325 0.0000000
8-4    5.62824317   1.3293994  9.9270869 0.0000630
9-4    8.74061343   6.1301517 11.3510751 0.0000000
10-4   7.68087720   2.8761199 12.4856345 0.0000002
11-4  14.87558906   8.6553562 21.0958219 0.0000000
6-5   -1.69602971  -3.7585168  0.3664573 0.0877121
7-5    2.74841301   0.2251102  5.2717158 0.0027106
8-5    2.11705842  -2.2036747  6.4377915 0.7990852
9-5    5.22942867   2.5830751  7.8757822 0.0000000
10-5   4.16969245  -0.6546593  8.9940441 0.0554926
11-5  11.36440430   5.1290235 17.5997851 0.0000000
7-6    4.44444272   1.7305640  7.1583214 0.0000001
8-6    3.81308813  -0.6216402  8.2478165 0.0583685
9-6    6.92545838   4.0968071  9.7541097 0.0000000
10-6   5.86572216   0.9390143 10.7924300 0.0005252
11-6  13.06043402   6.7455267 19.3753413 0.0000000
8-7   -0.63135459  -5.2982614  4.0355523 0.9999973
9-7    2.48101566  -0.6993101  5.6613415 0.1339170
10-7   1.42127944  -3.7154174  6.5579763 0.9968855
11-7   8.61599130   2.1359250 15.0960575 0.0000429
9-8    3.11237025  -1.6221994  7.8469399 0.3651659
10-8   2.05263403  -4.1672801  8.2725482 0.9861490
11-8   9.24734589   1.8789718 16.6157199 0.0001705
10-9  -1.05973622  -6.2579845  4.1385120 0.9998220
11-9   6.13497563  -0.3939897 12.6639410 0.0223543
11-10  7.19471186  -0.4798286 14.8692523 0.0229842

Study: RELACION EDUCACION DE LA MADRE VS PUNTAJE MATEMATICAS

LSD t Test for PUNT_MATEMATICAS 

Mean Square Error:  114.2972 

FAMI_EDUCACIONMADRE,  means and individual ( 95 %) CI

                                     PUNT_MATEMATICAS       std    r        se
Educación profesional completa               52.31879 14.082335  298 0.6193122
Educación profesional incompleta             51.17568 12.716463   74 1.2428019
Ninguno                                      39.08651  9.244901  289 0.6288815
No Aplica                                    36.18182 11.898052   11 3.2234536
No sabe                                      46.13514 13.273028   74 1.2428019
Postgrado                                    57.60465 13.582446   43 1.6303601
Primaria completa                            42.87521 10.451526  593 0.4390262
Primaria incompleta                          43.05391  9.894169 1113 0.3204573
Secundaria (Bachillerato) completa           46.90244 11.368364  984 0.3408162
Secundaria (Bachillerato) incompleta         45.08689 10.735543  610 0.4328654
Técnica o tecnológica completa               49.95266 11.757092  338 0.5815130
Técnica o tecnológica incompleta             48.65957 12.696247   94 1.1026910
                                          LCL      UCL Min Max   Q25  Q50  Q75
Educación profesional completa       51.10463 53.53295  20 100 42.00 54.0 62.0
Educación profesional incompleta     48.73916 53.61219  23  76 41.00 52.0 61.0
Ninguno                              37.85358 40.31943  18  76 33.00 38.0 44.0
No Aplica                            29.86223 42.50140  23  58 27.00 32.0 42.0
No sabe                              43.69862 48.57165  23  79 36.25 44.5 54.0
Postgrado                            54.40833 60.80097  28  83 49.00 61.0 67.5
Primaria completa                    42.01450 43.73592  19  80 35.00 42.0 49.0
Primaria incompleta                  42.42565 43.68217  20 100 36.00 42.0 49.0
Secundaria (Bachillerato) completa   46.23427 47.57061  17  81 39.00 46.0 55.0
Secundaria (Bachillerato) incompleta 44.23825 45.93552  20  79 37.00 44.0 52.0
Técnica o tecnológica completa       48.81261 51.09272  19 100 42.00 50.0 57.0
Técnica o tecnológica incompleta     46.49775 50.82140  22  82 40.25 48.5 57.0

Alpha: 0.05 ; DF Error: 4417
Critical Value of t: 1.960501 

Groups according to probability of means differences and alpha level( 0.05 )

Treatments with the same letter are not significantly different.

                                     PUNT_MATEMATICAS groups
Postgrado                                    57.60465      a
Educación profesional completa               52.31879      b
Educación profesional incompleta             51.17568     bc
Técnica o tecnológica completa               49.95266      c
Técnica o tecnológica incompleta             48.65957     cd
Secundaria (Bachillerato) completa           46.90244      d
No sabe                                      46.13514     de
Secundaria (Bachillerato) incompleta         45.08689      e
Primaria incompleta                          43.05391      f
Primaria completa                            42.87521      f
Ninguno                                      39.08651      g
No Aplica                                    36.18182      g

Study: RELACION ESTRATO VS PUNTAJE MATEMATICAS

Student Newman Keuls Test
for PUNT_MATEMATICAS 

Mean Square Error:  114.2972 

ESTRATO,  means

            PUNT_MATEMATICAS       std    r        se Min Max   Q25 Q50 Q75
Estrato 1           46.72205 11.346531 2281 0.2238490  20 100 38.00  46  55
Estrato 2           46.98925 12.298927  930 0.3505712  19 100 38.00  46  55
Estrato 3           44.69212 10.928332  406 0.5305847  20  83 37.00  44  52
Estrato 4           41.86316 11.817940  190 0.7756056  20  81 33.25  40  49
Estrato 5           39.53521 10.571972   71 1.2687866  23  80 32.00  38  47
Estrato 6           37.03571  8.170822   56 1.4286431  17  58 31.00  36  43
Sin Estrato         41.17036 10.068110  587 0.4412642  18  74 34.00  41  47

Groups according to probability of means differences and alpha level( 0.05 )

Means with the same letter are not significantly different.

            PUNT_MATEMATICAS groups
Estrato 2           46.98925      a
Estrato 1           46.72205      a
Estrato 3           44.69212      a
Estrato 4           41.86316      b
Sin Estrato         41.17036      b
Estrato 5           39.53521      b
Estrato 6           37.03571      c

Los resultados del análisis ANOVA y las pruebas post hoc, como Scheffé y Tukey, indican que existe una correlación significativa entre el estrato socioeconómico y el rendimiento en matemáticas. Los estudiantes de estratos (1 y 2) tienden a obtener mejores puntuaciones en matemáticas que aquellos de estratos (6,5,4,3) que son más bajos. Además, el nivel educativo de la madre también muestra una fuerte correlación con el rendimiento en matemáticas. Los estudiantes cuyas madres tienen un nivel educativo más alto, como postgrado o educación profesional completa, tienden a obtener mejores puntuaciones.

Las implicaciones prácticas de estos hallazgos son significativas. En primer lugar, subrayan la necesidad de políticas educativas que aborden las desigualdades socioeconómicas, Además, los resultados sugieren que el apoyo educativo en el hogar es crucial. Programas que involucren a los padres en el proceso educativo y que, Desde una perspectiva teórica, estos hallazgos contribuyen al debate sobre la equidad educativa y el papel del capital social y cultural en el rendimiento académico. Refuerzan la idea de que las desigualdades estructurales en la sociedad se reflejan en el sistema educativo, perpetuando ciclos de desigualdad. ¿Esto plantea preguntas importantes sobre cómo las instituciones educativas pueden adaptarse al cambio tecnológico avanzado?.

En conclusión, el análisis de los datos sobre el rendimiento en matemáticas en relación con el estrato socioeconómico y el nivel educativo de la madre proporciona una visión valiosa de las dinámicas que influyen en el éxito académico. Los hallazgos destacan la importancia de considerar tanto los factores socioeconómicos como los educativos en el diseño de políticas y programas que busquen mejorar los resultados educativos para todos los estudiantes. Al abordar estas desigualdades, se puede avanzar hacia un sistema educativo más equitativo e inclusivo, que de Este análisis no solo aporta a la comprensión de las desigualdades educativas, sino que también ofrece un marco para futuras investigaciones que exploren cómo las intervenciones específicas pueden mejorar el rendimiento académico en contextos diversos. Al continuar investigando y abordando estas cuestiones, se puede contribuir a la creación de un sistema educativo más competitivo y inclusivo para todos.

6 Conclusión

Este análisis estadístico de los puntajes de matemáticas en las pruebas ICFES 2022 revela la profunda influencia que tienen las desigualdades socioeconómicas en el rendimiento académico. Los resultados muestran que los estudiantes de estratos más altos y aquellos cuyas madres poseen un mayor nivel educativo tienden a obtener mejores puntajes, mientras que quienes provienen de contextos más desfavorecidos enfrentan mayores dificultades. Estas conclusiones evidencian la necesidad de adoptar enfoques pedagógicos y estrategias de aprendizaje diferenciadas que respondan a las realidades socioeconómicas de cada estudiante.

Desde la perspectiva metodológica, se utilizaron técnicas avanzadas de diseño de experimentos, como ANOVA y pruebas post hoc (Tukey y Scheffé), que permitieron garantizar la validez y precisión de los resultados. Estas herramientas hicieron posible identificar patrones significativos y minimización de sesgos en el análisis. Factores como la dedicación diaria a la lectura y el acceso a recursos tecnológicos, como internet y computadores, también demostraron ser determinantes para un mejor desempeño académico, resaltando la importancia de hábitos saludables de estudio.

Para los docentes, este estudio resalta la urgencia de diseñar estrategias pedagógicas inclusivas que respondan a las necesidades de los estudiantes más vulnerables. Promover recursos educativos y acompañamiento constante se vuelve crucial para cerrar las brechas existentes. Asimismo, la educación debe alinearse con las políticas públicas para garantizar que todos los estudiantes, sin importar su contexto, tengan acceso a oportunidades educativas de calidad.

Para los estudiantes, estos hallazgos subrayan la relevancia del esfuerzo personal y la importancia de adoptar hábitos de estudio constantes. A pesar de las condiciones socioeconómicas, el aprovechamiento de los recursos disponibles y la dedicación diaria al aprendizaje pueden marcar la diferencia en su rendimiento. Este análisis invita a la reflexión sobre cómo cada estudiante puede asumir un rol activo en su proceso educativo, superando obstáculos y desarrollando su máximo potencial.

En conjunto, estos resultados inspiran tanto a docentes como a estudiantes a trabajar de manera colaborativa, promoviendo una educación más equitativa e inclusiva que responda a las necesidades de la sociedad actual. El camino hacia la excelencia académica y la igualdad de oportunidades requiere del compromiso de toda la comunidad educativa, desde las aulas hasta las políticas públicas.

7 Recomendaciones

El análisis de los puntajes de matemáticas en las pruebas ICFES 2022 muestra que las desigualdades socioeconómicas influyen significativamente en el rendimiento académico. Los estudiantes de hogares con mayor acceso a recursos, como internet y computadores, obtienen mejores resultados, mientras que aquellos de estratos más bajos enfrentan mayores dificultades. Además, el nivel educativo de los padres, especialmente de la madre, tiene un impacto directo en los puntajes obtenidos.

Para mejorar el aprendizaje, se recomienda promover programas que faciliten el acceso a tecnología y capacitar a los docentes en herramientas digitales. Las estrategias pedagógicas deben adaptarse a las necesidades de los estudiantes más vulnerables, complementando con programas de apoyo académico y emocional.

El estudio también resalta la importancia de gestionar adecuadamente los datos educativos. Los valores faltantes pueden afectar los análisis estadísticos, por lo que se deben aplicar técnicas de tranformación y modelos alternativos para mantener la validez de los resultados. Además, es fundamental fortalecer los procesos de recolección y monitoreo de datos.

Por último, estas acciones deben alinearse con políticas públicas que promuevan la equidad educativa. Solo a través de un esfuerzo conjunto entre docentes, estudiantes y autoridades se podrá cerrar la brecha social y garantizar oportunidades de aprendizaje para todos.

8 Bibliografia

Bibliografía: ICFES (Instituto Colombiano para la Evaluación de la Educación). (2023). Resultados de las pruebas SABER 11: Análisis por grupos de edad y género. Bogotá: ICFES. Recuperado de https://www.icfes.gov.co/resultados/informes-saber-11

Ministerio de Educación Nacional de Colombia. (2021). Políticas públicas de educación en Colombia: Avances y desafíos. Bogotá: Ministerio de Educación Nacional. Recuperado de https://www.mineducacion.gov.co/portal/politicas-publicas

DANE (Departamento Administrativo Nacional de Estadística). (2022). Estadísticas de educación en Colombia. Bogotá: DANE. Recuperado de https://www.dane.gov.co/educacion/estadisticas

González, L. A., & Rodríguez, P. E. (2020). Educación y equidad de género en Colombia: Un análisis de los resultados en pruebas estandarizadas. Revista Colombiana de Educación, 79(1), 45-68.

Pérez, M. J. (2019). Impacto del estrato socioeconómico en el rendimiento académico: Un estudio en instituciones educativas de Bogotá. Tesis de Maestría, Universidad Nacional de Colombia. Repositorio Digital UN.

Banco de la República de Colombia. (2021). Desempeño académico y desarrollo socioeconómico en Colombia. Bogotá: Banco de la República. Recuperado de https://www.banrep.gov.co/documentos/desempeño-academico-colombia

ICFES (Instituto Colombiano para la Evaluación de la Educación). (2020). Manual de Interpretación de Resultados SABER PRO. Bogotá: ICFES. Recuperado de https://www.icfes.gov.co/saber-pro/manual-interpretacion

9 Anexo

Número de Observaciones por Variable
Nombre.de.la.Variable Número.de.Observaciones
COLE_BILINGUE 96066
FAMI_NUMLIBROS 46225
FAMI_COMELECHEDERIVADOS 35880
FAMI_ESTRATOVIVIENDA 33318
FAMI_COMECARNEFRUTOSLEGUMBRE 33212
ESTU_DEDICACIONINTERNET 33159
FAMI_TIENEINTERNET 33147
FAMI_COMECARNEPESCADOHUEVO 32428
ESTU_DEDICACIONLECTURADIARIA 31895
FAMI_TIENEENEMIGRANTE 31665
FAMI_EDUCACIONMADRE 31665
FAMI_EDUCACIONPADRE 31664
FAMI_SITUACIONECONOMICA 26653
FAMI_TIENECONSOLAVIDEOJUEGOS 25488
FAMI_TIENEAUTOMOVIL 24635
ESTU_TIPOREFRIGERACION 24538
FAMI_TRABAJOLABORPADRE 24358
FAMI_TIENEMICROONDAS 24320
ESTU_HORASSEMANATRABAJA 23536
FAMI_CUARTOSHOGAR 23525
FAMI_TIENETELEVISOR 23516
FAMI_TIENEASPIRADORA 23497
ESTU_TIENEETNIA 23477
ESTU_INSE_INDIVIDUAL 23138
ESTU_SEX_INDIVIDUAL 23137
ESTU_NSE_INDIVIDUAL 23107
ESTU_PERSONASHOGAR 22810
COLE_CARACTER 22807
PUNT_INGLES 1977
PERCENTIL_INGLES 1977
DESEMP_INGLES 1977
PERCENTIL_GLOBAL 1977
ESTU_TIENETIEMTA 1932

  1. Gregory Jesus Meléndez Alvarez. Economista, Especialista en estadística aplicada y Magíster en estadística aplicada↩︎

  2. Jesús David Zamora Thowinsson. Economista y Administrador Pública, Especialista en estadística aplicada, Candidato Magíster Scientiarum en gerencia empresarial, Magíster en estadística aplicada↩︎

  3. ICFES↩︎

  4. Análisis estadístico en el puntaje de matemáticas de las pruebas ICFES 2022↩︎

  5. Douglas C.Montgomery(2015),Diseño y análisis de experimentos.segunda edición.México.Limusa wiley(pag 569)↩︎