Introducción

El rendimiento académico de los estudiantes es uno de los indicadores más significativos en la educación, ya que permite evaluar tanto el aprendizaje individual como la efectividad de los sistemas educativos. En este contexto, el análisis estadístico de las calificaciones puede proporcionar una visión profunda de los factores asociados al rendimiento estudiantil, permitiendo a los educadores y responsables de políticas educativas identificar áreas de mejora y desarrollar estrategias más efectivas para apoyar el éxito académico.

En este estudio, se realiza un análisis detallado de un conjunto de datos obtenido de la plataforma Kaggle, titulado Student Performance Data Set. Este conjunto de datos contiene información sobre estudiantes de educación secundaria, incluyendo variables demográficas, sociales y académicas. Las variables principales seleccionadas para el análisis incluyen:

El análisis tiene varios objetivos fundamentales:

  1. Calcular intervalos de confianza para:

    • La media de las calificaciones finales (G3), lo cual permite estimar el rendimiento promedio de los estudiantes en la población general.
    • La proporción de estudiantes femeninos, con el objetivo de comprender la distribución de género dentro de la muestra estudiada.
  2. Realizar una prueba de hipótesis para evaluar si la media de las calificaciones finales es significativamente diferente de un valor específico. Esta prueba permitirá determinar si el desempeño promedio de los estudiantes alcanza un nivel de referencia establecido, proporcionando una medida de la calidad educativa y del nivel académico de los estudiantes.

  3. Interpretar los resultados en un contexto educativo, con el fin de extraer conclusiones relevantes y prácticas que puedan informar políticas educativas y métodos de enseñanza.

Este análisis es esencial no solo para obtener una descripción general del rendimiento académico, sino también para ofrecer una comprensión más amplia de cómo factores como el género pueden influir en el desempeño. La información obtenida en este estudio puede servir como base para futuras investigaciones y como guía para implementar intervenciones pedagógicas que promuevan el éxito académico de los estudiantes. Además, al combinar intervalos de confianza y pruebas de hipótesis, se proporciona una visión estadística robusta que contribuye a la formulación de conclusiones precisas y bien fundamentadas sobre el rendimiento académico en esta población estudiantil.

Metodología

Conjunto de Datos

El conjunto de datos utilizado en este análisis fue obtenido de la plataforma Kaggle y lleva por título Student Performance Data Set. Este dataset incluye información detallada sobre estudiantes de educación secundaria, abarcando una variedad de características demográficas, sociales y académicas que permiten un análisis integral de su rendimiento académico. Entre las variables incluidas, se destacan:

  • G3: Calificación final del estudiante, que representa el desempeño académico al final del periodo escolar y es la variable objetivo principal de este estudio.
  • sex: Género del estudiante, categorizado como F para femenino y M para masculino, lo cual permite observar posibles diferencias de rendimiento por género.

Procedimientos Estadísticos

Para el análisis de los datos, se emplearon métodos de estadística inferencial y técnicas de visualización de datos, que se describen a continuación:

  • Intervalos de Confianza:
    • Se calcularon intervalos de confianza al 95% para la media de las calificaciones finales (G3), lo cual permite estimar el rendimiento promedio de la población estudiantil en la muestra.
    • También se calcularon intervalos de confianza al 95% para la proporción de estudiantes femeninos, lo que facilita una comprensión de la distribución de género en la población estudiada.
  • Prueba de Hipótesis:
    • Se realizó una prueba t de una muestra con el fin de determinar si la media de las calificaciones finales es estadísticamente diferente de un valor de referencia (10), que se considera un umbral de rendimiento esperado. Esta prueba proporciona una evaluación de la calidad educativa en relación con una calificación promedio establecida.
  • Visualización de Datos:
    • Se generó un histograma de la variable G3 para visualizar la distribución de las calificaciones finales, con el propósito de identificar patrones, asimetrías o anomalías en el rendimiento académico de los estudiantes.

Herramientas y Software

El análisis se llevó a cabo utilizando el software estadístico R y el entorno de desarrollo RStudio para la edición y organización del código. Para la visualización de datos, se empleó el paquete ggplot2, que facilita la creación de gráficos precisos y estéticamente claros, apoyando la interpretación de los resultados. La combinación de R y ggplot2 permite un análisis exhaustivo y reproducible, además de una representación visual coherente de los hallazgos.

Nota: El uso de R y ggplot2 en este estudio proporciona una base sólida para el análisis y permite presentar los resultados de manera clara y objetiva, facilitando tanto la interpretación como la comunicación de los hallazgos.

Resultados

Carga y Exploración de los Datos

Primero, se cargan los paquetes necesarios, y luego se importa el conjunto de datos. A continuación, se visualizan las primeras filas para revisar la estructura de los datos.

# Cargar paquetes necesarios
library(readr)
library(ggplot2)

# Cargar el conjunto de datos
student_data <- read_csv("C:\\Users\\HP\\Desktop\\archive (11)\\student-mat.csv")
## Rows: 395 Columns: 33
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (17): school, sex, address, famsize, Pstatus, Mjob, Fjob, reason, guardi...
## dbl (16): age, Medu, Fedu, traveltime, studytime, failures, famrel, freetime...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
# Mostrar las primeras filas del conjunto de datos
head(student_data)
## # A tibble: 6 × 33
##   school sex     age address famsize Pstatus  Medu  Fedu Mjob     Fjob    reason
##   <chr>  <chr> <dbl> <chr>   <chr>   <chr>   <dbl> <dbl> <chr>    <chr>   <chr> 
## 1 GP     F        18 U       GT3     A           4     4 at_home  teacher course
## 2 GP     F        17 U       GT3     T           1     1 at_home  other   course
## 3 GP     F        15 U       LE3     T           1     1 at_home  other   other 
## 4 GP     F        15 U       GT3     T           4     2 health   servic… home  
## 5 GP     F        16 U       GT3     T           3     3 other    other   home  
## 6 GP     M        16 U       LE3     T           4     3 services other   reput…
## # ℹ 22 more variables: guardian <chr>, traveltime <dbl>, studytime <dbl>,
## #   failures <dbl>, schoolsup <chr>, famsup <chr>, paid <chr>,
## #   activities <chr>, nursery <chr>, higher <chr>, internet <chr>,
## #   romantic <chr>, famrel <dbl>, freetime <dbl>, goout <dbl>, Dalc <dbl>,
## #   Walc <dbl>, health <dbl>, absences <dbl>, G1 <dbl>, G2 <dbl>, G3 <dbl>

Intervalo de Confianza

para la Media de las Calificaciones Finales (G3)

# Tamaño de la muestra
n <- nrow(student_data)

# Media y desviación estándar de G3
media_G3 <- mean(student_data$G3)
sd_G3 <- sd(student_data$G3)

# Nivel de confianza
nivel_confianza <- 0.95
alfa <- 1 - nivel_confianza

# Error estándar
error_estandar <- sd_G3 / sqrt(n)

# Valor crítico (t)
t_critico <- qt(1 - alfa/2, df = n - 1)

# Margen de error
margen_error <- t_critico * error_estandar

# Intervalo de confianza
limite_inferior <- media_G3 - margen_error
limite_superior <- media_G3 + margen_error

# Mostrar el resultado
cat("El intervalo de confianza al 95% para la media de G3 es: [", 
    round(limite_inferior, 2), ",", round(limite_superior, 2), "]\n")
## El intervalo de confianza al 95% para la media de G3 es: [ 9.96 , 10.87 ]

Interpretación:

El intervalo de confianza al 95% para la media de las calificaciones finales (G3) es [9.96, 10.87]. Esto significa que, con un 95% de confianza, podemos afirmar que el valor promedio real de las calificaciones finales en la población estudiada se encuentra dentro de este rango. Dado que las calificaciones se evalúan en una escala de 0 a 20, este resultado sugiere que el rendimiento promedio de los estudiantes es moderado, con una media estimada alrededor de 10.42.

En términos educativos, una media cercana a 10.42 indica que, en promedio, los estudiantes están apenas alcanzando un nivel intermedio de rendimiento. Este dato podría señalar la necesidad de intervenciones pedagógicas para elevar el rendimiento general, ya que el puntaje promedio está significativamente por debajo de la mitad superior de la escala de calificación.

Además, la amplitud del intervalo refleja cierta dispersión en las calificaciones, lo cual sugiere que el rendimiento estudiantil varía considerablemente dentro de la población. Explorar los factores que influyen en esta variabilidad puede ser útil para desarrollar estrategias que impulsen a los estudiantes hacia un rendimiento superior.

En resumen, este intervalo de confianza nos proporciona una estimación confiable del rendimiento académico promedio, indicando que existen áreas de oportunidad para mejorar los resultados en la población estudiada.

Cálculo del Segundo Intervalo de Confianza para la Media de las Calificaciones Finales

Para profundizar en el análisis, se calcula un segundo intervalo de confianza para la media de las calificaciones finales (G3). En este caso, se ha seleccionado un nivel de confianza del 90%, lo cual proporciona una perspectiva complementaria al intervalo de confianza inicial del 95%. Este cálculo permite observar la variabilidad de la estimación de la media en función del nivel de confianza.

# Nivel de confianza para el segundo intervalo (por ejemplo, 90%)
nivel_confianza_2 <- 0.90
alfa_2 <- 1 - nivel_confianza_2

# Error estándar
error_estandar <- sd_G3 / sqrt(n)

# Valor crítico (t) para el segundo intervalo de confianza
t_critico_2 <- qt(1 - alfa_2 / 2, df = n - 1)

# Margen de error para el segundo intervalo
margen_error_2 <- t_critico_2 * error_estandar

# Cálculo del segundo intervalo de confianza
limite_inferior_2 <- media_G3 - margen_error_2
limite_superior_2 <- media_G3 + margen_error_2

# Mostrar el resultado
cat("El intervalo de confianza al 90% para la media de G3 es: [", 
    round(limite_inferior_2, 2), ",", round(limite_superior_2, 2), "]\n")
## El intervalo de confianza al 90% para la media de G3 es: [ 10.04 , 10.8 ]

Interpretación del Segundo Intervalo de Confianza:
El intervalo de confianza al 90% para la media de las calificaciones finales (G3) es [10.04, 10.8]. Este intervalo es más estrecho que el calculado al 95%, reflejando una estimación más precisa de la media con un nivel de confianza ligeramente menor. Esto significa que, con un 90% de confianza, podemos afirmar que la media de las calificaciones finales se encuentra dentro de este rango.

La reducción del nivel de confianza de 95% a 90% implica aceptar un margen de error menor alrededor de la media, lo cual es útil en situaciones donde es preferible una estimación más ajustada, incluso si eso implica una leve reducción en la cobertura de la estimación.

En el contexto del rendimiento académico, este intervalo al 90% permite una estimación más precisa del rendimiento promedio de los estudiantes, sin comprometer significativamente la fiabilidad. Comparar este intervalo con el del 95% ofrece una perspectiva matizada: mientras que el intervalo al 95% [9.96, 10.87] proporciona una cobertura más amplia, el intervalo al 90% [10.04, 10.8] ajusta la precisión. Ambos niveles de confianza, juntos, aportan una comprensión robusta del rendimiento académico medio en esta población estudiantil.

##Intervalo de Confianza para la Proporción de Estudiantes Femeninos

# Número de estudiantes femeninos
n_femenino <- sum(student_data$sex == "F")

# Proporción de estudiantes femeninos
proporcion_femenino <- n_femenino / n

# Error estándar de la proporción
error_estandar_p <- sqrt((proporcion_femenino * (1 - proporcion_femenino)) / n)

# Valor crítico (z)
z_critico <- qnorm(1 - alfa/2)

# Margen de error
margen_error_p <- z_critico * error_estandar_p

# Intervalo de confianza
limite_inferior_p <- proporcion_femenino - margen_error_p
limite_superior_p <- proporcion_femenino + margen_error_p

# Mostrar el resultado
cat("El intervalo de confianza al 95% para la proporción de estudiantes femeninos es: [", 
    round(limite_inferior_p, 4), ",", round(limite_superior_p, 4), "]\n")
## El intervalo de confianza al 95% para la proporción de estudiantes femeninos es: [ 0.4773 , 0.5758 ]

Interpretación

Con un 95% de confianza, podemos afirmar que la proporción de estudiantes femeninos en la población estudiada se encuentra entre el 47.73% y el 57.58%. Este intervalo indica que aproximadamente la mitad de la población estudiantil es femenina, sugiriendo una distribución de género relativamente equilibrada.

Este equilibrio en la proporción de género es relevante en el contexto educativo, ya que permite realizar comparaciones de rendimiento académico entre estudiantes femeninos y masculinos sin que existan sesgos significativos debido a una representación desproporcionada de alguno de los géneros.

Prueba de Hipótesis para la Media de las Calificaciones Finales (G3)

Hipótesis:

  • Hipótesis nula (𝐻₀): La media de G3 es igual a 10 (μ = 10).
  • Hipótesis alternativa (𝐻ₐ): La media de G3 es diferente de 10 (μ ≠ 10).
# Prueba t de una muestra
t_test_result <- t.test(student_data$G3, mu = 10)

# Mostrar los resultados
print(t_test_result)
## 
##  One Sample t-test
## 
## data:  student_data$G3
## t = 1.8011, df = 394, p-value = 0.07245
## alternative hypothesis: true mean is not equal to 10
## 95 percent confidence interval:
##   9.961992 10.868388
## sample estimates:
## mean of x 
##  10.41519

El valor p obtenido es 0.07245, el cual es mayor que el nivel de significancia establecido de 0.05. Esto significa que no se rechaza la hipótesis nula, lo que indica que no hay suficiente evidencia estadística para afirmar que la media de las calificaciones finales es significativamente diferente de 10.

En términos prácticos, este resultado sugiere que el rendimiento promedio de los estudiantes no difiere considerablemente del valor de referencia de 10. Aunque la media estimada podría estar ligeramente por encima o por debajo de este valor, la diferencia no es lo suficientemente fuerte como para considerarla significativa desde un punto de vista estadístico con el nivel de confianza seleccionado. .

Visualización de la Distribución de las Calificaciones Finales (G3)

# Generar el histograma de G3
ggplot(student_data, aes(x = G3)) + 
  geom_histogram(binwidth = 1, fill = "lightblue", color = "black") + 
  theme_minimal() + 
  labs(title = "Distribución de Calificaciones Finales (G3)", 
       x = "Calificación Final", 
       y = "Frecuencia")

Análisis del Gráfico

El histograma de las calificaciones finales (G3) muestra una distribución relativamente simétrica alrededor de la media, con la mayoría de las calificaciones concentradas entre 8 y 14. Esto sugiere que, aunque hay variabilidad en el rendimiento académico, la mayor parte de los estudiantes se encuentra en un rango intermedio de calificaciones.

Además, se observan algunos valores en los extremos de la escala, indicando la presencia de estudiantes con calificaciones muy bajas (cercanas a 0) y otros con calificaciones altas (cercanas a 20). La presencia de estas calificaciones extremas podría ser relevante para futuros análisis sobre los factores que afectan el rendimiento académico de estos grupos específicos.

Conclusiones

Recomendaciones

Referencias