El rendimiento académico de los estudiantes es uno de los indicadores más significativos en la educación, ya que permite evaluar tanto el aprendizaje individual como la efectividad de los sistemas educativos. En este contexto, el análisis estadístico de las calificaciones puede proporcionar una visión profunda de los factores asociados al rendimiento estudiantil, permitiendo a los educadores y responsables de políticas educativas identificar áreas de mejora y desarrollar estrategias más efectivas para apoyar el éxito académico.
En este estudio, se realiza un análisis detallado de un conjunto de datos obtenido de la plataforma Kaggle, titulado Student Performance Data Set. Este conjunto de datos contiene información sobre estudiantes de educación secundaria, incluyendo variables demográficas, sociales y académicas. Las variables principales seleccionadas para el análisis incluyen:
F para femenino y M para masculino.El análisis tiene varios objetivos fundamentales:
Calcular intervalos de confianza para:
G3), lo cual
permite estimar el rendimiento promedio de los estudiantes en la
población general.Realizar una prueba de hipótesis para evaluar si la media de las calificaciones finales es significativamente diferente de un valor específico. Esta prueba permitirá determinar si el desempeño promedio de los estudiantes alcanza un nivel de referencia establecido, proporcionando una medida de la calidad educativa y del nivel académico de los estudiantes.
Interpretar los resultados en un contexto educativo, con el fin de extraer conclusiones relevantes y prácticas que puedan informar políticas educativas y métodos de enseñanza.
Este análisis es esencial no solo para obtener una descripción general del rendimiento académico, sino también para ofrecer una comprensión más amplia de cómo factores como el género pueden influir en el desempeño. La información obtenida en este estudio puede servir como base para futuras investigaciones y como guía para implementar intervenciones pedagógicas que promuevan el éxito académico de los estudiantes. Además, al combinar intervalos de confianza y pruebas de hipótesis, se proporciona una visión estadística robusta que contribuye a la formulación de conclusiones precisas y bien fundamentadas sobre el rendimiento académico en esta población estudiantil.
El conjunto de datos utilizado en este análisis fue obtenido de la plataforma Kaggle y lleva por título Student Performance Data Set. Este dataset incluye información detallada sobre estudiantes de educación secundaria, abarcando una variedad de características demográficas, sociales y académicas que permiten un análisis integral de su rendimiento académico. Entre las variables incluidas, se destacan:
F para femenino y M para masculino, lo cual
permite observar posibles diferencias de rendimiento por género.Para el análisis de los datos, se emplearon métodos de estadística inferencial y técnicas de visualización de datos, que se describen a continuación:
G3), lo cual permite estimar el
rendimiento promedio de la población estudiantil en la muestra.G3 para visualizar la distribución de las calificaciones
finales, con el propósito de identificar patrones, asimetrías o
anomalías en el rendimiento académico de los estudiantes.El análisis se llevó a cabo utilizando el software estadístico
R y el entorno de desarrollo RStudio
para la edición y organización del código. Para la visualización de
datos, se empleó el paquete ggplot2, que facilita la
creación de gráficos precisos y estéticamente claros, apoyando la
interpretación de los resultados. La combinación de R y
ggplot2 permite un análisis exhaustivo y reproducible,
además de una representación visual coherente de los hallazgos.
Nota: El uso de R y
ggplot2en este estudio proporciona una base sólida para el análisis y permite presentar los resultados de manera clara y objetiva, facilitando tanto la interpretación como la comunicación de los hallazgos.
Primero, se cargan los paquetes necesarios, y luego se importa el conjunto de datos. A continuación, se visualizan las primeras filas para revisar la estructura de los datos.
# Cargar paquetes necesarios
library(readr)
library(ggplot2)
# Cargar el conjunto de datos
student_data <- read_csv("C:\\Users\\HP\\Desktop\\archive (11)\\student-mat.csv")
## Rows: 395 Columns: 33
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (17): school, sex, address, famsize, Pstatus, Mjob, Fjob, reason, guardi...
## dbl (16): age, Medu, Fedu, traveltime, studytime, failures, famrel, freetime...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
# Mostrar las primeras filas del conjunto de datos
head(student_data)
## # A tibble: 6 × 33
## school sex age address famsize Pstatus Medu Fedu Mjob Fjob reason
## <chr> <chr> <dbl> <chr> <chr> <chr> <dbl> <dbl> <chr> <chr> <chr>
## 1 GP F 18 U GT3 A 4 4 at_home teacher course
## 2 GP F 17 U GT3 T 1 1 at_home other course
## 3 GP F 15 U LE3 T 1 1 at_home other other
## 4 GP F 15 U GT3 T 4 2 health servic… home
## 5 GP F 16 U GT3 T 3 3 other other home
## 6 GP M 16 U LE3 T 4 3 services other reput…
## # ℹ 22 more variables: guardian <chr>, traveltime <dbl>, studytime <dbl>,
## # failures <dbl>, schoolsup <chr>, famsup <chr>, paid <chr>,
## # activities <chr>, nursery <chr>, higher <chr>, internet <chr>,
## # romantic <chr>, famrel <dbl>, freetime <dbl>, goout <dbl>, Dalc <dbl>,
## # Walc <dbl>, health <dbl>, absences <dbl>, G1 <dbl>, G2 <dbl>, G3 <dbl>
para la Media de las Calificaciones Finales (G3)
# Tamaño de la muestra
n <- nrow(student_data)
# Media y desviación estándar de G3
media_G3 <- mean(student_data$G3)
sd_G3 <- sd(student_data$G3)
# Nivel de confianza
nivel_confianza <- 0.95
alfa <- 1 - nivel_confianza
# Error estándar
error_estandar <- sd_G3 / sqrt(n)
# Valor crítico (t)
t_critico <- qt(1 - alfa/2, df = n - 1)
# Margen de error
margen_error <- t_critico * error_estandar
# Intervalo de confianza
limite_inferior <- media_G3 - margen_error
limite_superior <- media_G3 + margen_error
# Mostrar el resultado
cat("El intervalo de confianza al 95% para la media de G3 es: [",
round(limite_inferior, 2), ",", round(limite_superior, 2), "]\n")
## El intervalo de confianza al 95% para la media de G3 es: [ 9.96 , 10.87 ]
El intervalo de confianza al 95% para la media de las calificaciones
finales (G3) es [9.96, 10.87]. Esto significa que, con un
95% de confianza, podemos afirmar que el valor promedio real de las
calificaciones finales en la población estudiada se encuentra dentro de
este rango. Dado que las calificaciones se evalúan en una escala de 0 a
20, este resultado sugiere que el rendimiento promedio de los
estudiantes es moderado, con una media estimada alrededor de 10.42.
En términos educativos, una media cercana a 10.42 indica que, en promedio, los estudiantes están apenas alcanzando un nivel intermedio de rendimiento. Este dato podría señalar la necesidad de intervenciones pedagógicas para elevar el rendimiento general, ya que el puntaje promedio está significativamente por debajo de la mitad superior de la escala de calificación.
Además, la amplitud del intervalo refleja cierta dispersión en las calificaciones, lo cual sugiere que el rendimiento estudiantil varía considerablemente dentro de la población. Explorar los factores que influyen en esta variabilidad puede ser útil para desarrollar estrategias que impulsen a los estudiantes hacia un rendimiento superior.
En resumen, este intervalo de confianza nos proporciona una estimación confiable del rendimiento académico promedio, indicando que existen áreas de oportunidad para mejorar los resultados en la población estudiada.
Para profundizar en el análisis, se calcula un segundo intervalo de
confianza para la media de las calificaciones finales (G3).
En este caso, se ha seleccionado un nivel de confianza del 90%, lo cual
proporciona una perspectiva complementaria al intervalo de confianza
inicial del 95%. Este cálculo permite observar la variabilidad de la
estimación de la media en función del nivel de confianza.
# Nivel de confianza para el segundo intervalo (por ejemplo, 90%)
nivel_confianza_2 <- 0.90
alfa_2 <- 1 - nivel_confianza_2
# Error estándar
error_estandar <- sd_G3 / sqrt(n)
# Valor crítico (t) para el segundo intervalo de confianza
t_critico_2 <- qt(1 - alfa_2 / 2, df = n - 1)
# Margen de error para el segundo intervalo
margen_error_2 <- t_critico_2 * error_estandar
# Cálculo del segundo intervalo de confianza
limite_inferior_2 <- media_G3 - margen_error_2
limite_superior_2 <- media_G3 + margen_error_2
# Mostrar el resultado
cat("El intervalo de confianza al 90% para la media de G3 es: [",
round(limite_inferior_2, 2), ",", round(limite_superior_2, 2), "]\n")
## El intervalo de confianza al 90% para la media de G3 es: [ 10.04 , 10.8 ]
Interpretación del Segundo Intervalo de
Confianza:
El intervalo de confianza al 90% para la media de las calificaciones
finales (G3) es [10.04, 10.8]. Este intervalo es más
estrecho que el calculado al 95%, reflejando una estimación más precisa
de la media con un nivel de confianza ligeramente menor. Esto significa
que, con un 90% de confianza, podemos afirmar que la media de las
calificaciones finales se encuentra dentro de este rango.
La reducción del nivel de confianza de 95% a 90% implica aceptar un margen de error menor alrededor de la media, lo cual es útil en situaciones donde es preferible una estimación más ajustada, incluso si eso implica una leve reducción en la cobertura de la estimación.
En el contexto del rendimiento académico, este intervalo al 90% permite una estimación más precisa del rendimiento promedio de los estudiantes, sin comprometer significativamente la fiabilidad. Comparar este intervalo con el del 95% ofrece una perspectiva matizada: mientras que el intervalo al 95% [9.96, 10.87] proporciona una cobertura más amplia, el intervalo al 90% [10.04, 10.8] ajusta la precisión. Ambos niveles de confianza, juntos, aportan una comprensión robusta del rendimiento académico medio en esta población estudiantil.
##Intervalo de Confianza para la Proporción de Estudiantes Femeninos
# Número de estudiantes femeninos
n_femenino <- sum(student_data$sex == "F")
# Proporción de estudiantes femeninos
proporcion_femenino <- n_femenino / n
# Error estándar de la proporción
error_estandar_p <- sqrt((proporcion_femenino * (1 - proporcion_femenino)) / n)
# Valor crítico (z)
z_critico <- qnorm(1 - alfa/2)
# Margen de error
margen_error_p <- z_critico * error_estandar_p
# Intervalo de confianza
limite_inferior_p <- proporcion_femenino - margen_error_p
limite_superior_p <- proporcion_femenino + margen_error_p
# Mostrar el resultado
cat("El intervalo de confianza al 95% para la proporción de estudiantes femeninos es: [",
round(limite_inferior_p, 4), ",", round(limite_superior_p, 4), "]\n")
## El intervalo de confianza al 95% para la proporción de estudiantes femeninos es: [ 0.4773 , 0.5758 ]
Con un 95% de confianza, podemos afirmar que la proporción de estudiantes femeninos en la población estudiada se encuentra entre el 47.73% y el 57.58%. Este intervalo indica que aproximadamente la mitad de la población estudiantil es femenina, sugiriendo una distribución de género relativamente equilibrada.
Este equilibrio en la proporción de género es relevante en el contexto educativo, ya que permite realizar comparaciones de rendimiento académico entre estudiantes femeninos y masculinos sin que existan sesgos significativos debido a una representación desproporcionada de alguno de los géneros.
Hipótesis:
G3 es
igual a 10 (μ = 10).G3 es diferente de 10 (μ ≠ 10).# Prueba t de una muestra
t_test_result <- t.test(student_data$G3, mu = 10)
# Mostrar los resultados
print(t_test_result)
##
## One Sample t-test
##
## data: student_data$G3
## t = 1.8011, df = 394, p-value = 0.07245
## alternative hypothesis: true mean is not equal to 10
## 95 percent confidence interval:
## 9.961992 10.868388
## sample estimates:
## mean of x
## 10.41519
El valor p obtenido es 0.07245, el cual es mayor que el nivel de significancia establecido de 0.05. Esto significa que no se rechaza la hipótesis nula, lo que indica que no hay suficiente evidencia estadística para afirmar que la media de las calificaciones finales es significativamente diferente de 10.
En términos prácticos, este resultado sugiere que el rendimiento promedio de los estudiantes no difiere considerablemente del valor de referencia de 10. Aunque la media estimada podría estar ligeramente por encima o por debajo de este valor, la diferencia no es lo suficientemente fuerte como para considerarla significativa desde un punto de vista estadístico con el nivel de confianza seleccionado. .
# Generar el histograma de G3
ggplot(student_data, aes(x = G3)) +
geom_histogram(binwidth = 1, fill = "lightblue", color = "black") +
theme_minimal() +
labs(title = "Distribución de Calificaciones Finales (G3)",
x = "Calificación Final",
y = "Frecuencia")
El histograma de las calificaciones finales (G3) muestra
una distribución relativamente simétrica alrededor de la media, con la
mayoría de las calificaciones concentradas entre 8 y 14. Esto sugiere
que, aunque hay variabilidad en el rendimiento académico, la mayor parte
de los estudiantes se encuentra en un rango intermedio de
calificaciones.
Además, se observan algunos valores en los extremos de la escala, indicando la presencia de estudiantes con calificaciones muy bajas (cercanas a 0) y otros con calificaciones altas (cercanas a 20). La presencia de estas calificaciones extremas podría ser relevante para futuros análisis sobre los factores que afectan el rendimiento académico de estos grupos específicos.
Media de Calificaciones: La media de las calificaciones finales se encuentra en el intervalo [9.96, 10.87] con un 95% de confianza. Esto sugiere que el rendimiento promedio de los estudiantes es moderado en una escala de 0 a 20, aunque podría haber oportunidades de mejora para elevar el desempeño académico general.
Proporción de Estudiantes Femeninos: Aproximadamente la mitad de los estudiantes en la muestra son femeninos, lo que sugiere una distribución de género equilibrada en la población estudiada. Este equilibrio es relevante, ya que permite realizar comparaciones de rendimiento entre géneros sin sesgos significativos.
Prueba de Hipótesis: No se encontró evidencia estadísticamente significativa para afirmar que la media de las calificaciones finales difiere de 10, el valor de referencia establecido. Esto sugiere que, en promedio, los estudiantes están alcanzando un nivel de rendimiento que puede considerarse como aceptable, aunque no sobresaliente.
Distribución de Calificaciones: La distribución de las calificaciones es bastante homogénea, sin sesgos significativos. Sin embargo, la presencia de calificaciones muy bajas y muy altas señala que existen diferencias individuales notables en el rendimiento académico, las cuales podrían ser objeto de un análisis adicional para identificar factores subyacentes que expliquen estas variaciones.
Mejorar el Rendimiento Académico: Implementar estrategias educativas que apoyen a los estudiantes con calificaciones por debajo de la media.
Investigación Adicional: Analizar otros factores que puedan influir en el rendimiento, como el tiempo de estudio, apoyo familiar y actividades extracurriculares.