Equipo No: 13
Integrantes
Oscar Daniel Betancourt
Diego Isaias López Tapia
Juan Daniel Carrillo Mercado
Carlos Joel de la Rosa Hernández
Por medio de un conjunto de datos, conformado por las calificaciones obtenidas de los estudiantes en asignaturas como matemáticas, lectura y escritura, determinar si diferentes factores que incluye el conjunto de datos influyen en el resultado de los exámenes.
Los factores son:
Nivel de educación de los padres.
Curso de preparación para el examen
Tipo de almuerzo
Raza
El conjunto de datos fue obtenido de Kaggle
1. ¿Existe una influencia del nivel educativo de los padres en las calificaciones del alumno?
2. ¿Existe una diferencia significativa de las calificaciones entre los alumnos que tomaron el curso de preparación y los que no?
3. ¿Existe una relación en el desempeños de las calificaciones de los alumnos el tipo de lunch?
4. ¿Influye el tipo de raza de los alumnos en el desempeño de los alumnos?
Iniciamos nuestro código cargando las librerias que necesitaremos, así como nuestro conjunto de datos
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
#Asignamos a la variable df la lectura de nuestro archivo exams.xls
df<-read_excel(file.choose())
#Observamos el dataset
head(df)## # A tibble: 6 × 8
## gender race_ethnicity parental_level_of_education lunch test_preparation_curse
## <chr> <chr> <chr> <chr> <chr>
## 1 female group D high school stan… completed
## 2 female group E some high school stan… none
## 3 female group C some high school free… none
## 4 female group A high school stan… none
## 5 male group D master's degree free… none
## 6 female group B associate's degree stan… completed
## # ℹ 3 more variables: math_score <dbl>, reading_score <dbl>,
## # writing_score <dbl>
La columna gender muestra información del tipo de género del alumno
La columna race_ethnicity muestra la informacion clasificada por grupo:
group A: Clase alta
group B: Clase media-alta
group C: Clase media
group D: Clase media-baja
group E: Clase baja
La columna parental_level_of_education muestra información del grado de estudio de los padres
La columna lunch muestra información del tipo de alimentación de los alumnos
La columna test_preparation_curse muestra información si los alumnos tomaron el curso de preparación
Las calificaciones de las materias se encuentran en un estandar del 1 al 100
ggplot(df,aes(gender) )+
geom_bar(width= 0.5,colour="red", fill="skyblue")+
scale_y_continuous(limits = c(0,600),
breaks = seq(0,1000,1000))+
labs(title = "Distribución de estudiantes Hombres y Mujeres",
x="género",
y= "Alumnos")+
theme_bw(base_size = 12)+
geom_text(aes(label=..count..), stat='count',
position=position_dodge(0.9),
vjust=-0.5,
size=5.0
) ## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
# Gráfico de barras para comparar el desempeño en matemáticas según el nivel de educación de los padres
ggplot(df, aes(x = parental_level_of_education, y = math_score)) +
geom_bar(stat = "summary", fun = "mean") +
labs(title = "Desempeño en Matemáticas según Nivel de Educación de los Padres", x = "Nivel de Educación de los Padres", y = "Calificación Promedio en Matemáticas")# Gráfico de barras apiladas con facetas por nivel de educación de los padres
ggplot(df, aes(x = gender, y = math_score, fill = lunch)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Distribución de Calificaciones de Matemáticas por Género, Tipo de Almuerzo y Nivel de Educación de los Padres",
x = "Género", y = "Calificaciones de Matemáticas", fill = "Tipo de Almuerzo") +
facet_wrap(~ parental_level_of_education, scales = "free_y", ncol = 2) # Facetas por nivel de educación de los padres# Gráfico de barras apiladas con facetas por nivel de educación de los padres
ggplot(df, aes(x = gender, y = math_score, fill = lunch)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Distribución de Calificaciones de Matemáticas por Género, Tipo de Almuerzo y Nivel de Educación de los padres")Prueba de hipótesis ANOVA para evaluar la relación entre las calificaciones de la materia de matemáticas y el grado de estudios de los padres
Hipótesis nula (H0): No hay relación significativa entre la calificación de Matemáticas y el grado de estudios de los padres.
Hipotesis alternativa (Ha) Existe una relación significativa entre la calificación de Matemáticas y el grado de estudios de los padres.
padres_matemáticas <- aov(math_score ~ parental_level_of_education, data = df) #Realizamos nuestra prueba anova
summary(padres_matemáticas) #Mostramos el resultado## Df Sum Sq Mean Sq F value Pr(>F)
## parental_level_of_education 5 9562 1912.4 8.57 5.85e-08 ***
## Residuals 994 221815 223.2
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de Matemáticas y el grado de estudios de los padres
Prueba de hipótesis ANOVA para evaluar la relación entre las calificaciones de la materia de lectura y el grado de estudios de los padres
Hipótesis nula (H0): No hay relación significativa entre la calificación de Lectura y el grado de estudios de los padres.
Hipotesis alternativa (Ha) Existe una relación significativa entre la calificación de Lectura y el grado de estudios de los padres.
padres_lectura <- aov(reading_score ~ parental_level_of_education, data = df) #Realizamos nuestra prueba anova
summary(padres_lectura) #Mostramos el resultado## Df Sum Sq Mean Sq F value Pr(>F)
## parental_level_of_education 5 13332 2666.4 13.39 1.19e-12 ***
## Residuals 994 197983 199.2
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de Lectura y el grado de estudios de los padres
Prueba de hipótesis ANOVA para evaluar la relación entre las calificaciones de la materia de escritura y el grado de estudios de los padres
Hipótesis nula (H0): No hay relación significativa entre la calificación de Escritura y el grado de estudios de los padres.
Hipotesis alternativa (Ha) Existe una relación significativa entre la calificación de Escritura y el grado de estudios de los padres.
padres_escritura <- aov(writing_score ~ parental_level_of_education, data = df) #Realizamos nuestra prueba anova
summary(padres_escritura) #mostramos el resultado## Df Sum Sq Mean Sq F value Pr(>F)
## parental_level_of_education 5 18731 3746 17.93 <2e-16 ***
## Residuals 994 207724 209
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de Escritura y el grado de estudios de los padres
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de matemáticas y el grado de estudios de los padres
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de matemáticas de los alumnos que tomaron el curso de preparación y los que no.
Hipótesis alternativa (Ha): Existe diferencia significativa en las calificaciones de matemáticas de los alumnos que tomaron el curso de preparación y los que no.
ttest_matemáticas <- t.test(math_score ~ test_preparation_curse, data = df, conf.level= 0.99) #Realizamos nuestra prueba test
ttest_matemáticas #mostramos el resultado##
## Welch Two Sample t-test
##
## data: math_score by test_preparation_curse
## t = 3.7917, df = 743.9, p-value = 0.0001617
## alternative hypothesis: true difference in means between group completed and group none is not equal to 0
## 99 percent confidence interval:
## 1.199237 6.321289
## sample estimates:
## mean in group completed mean in group none
## 69.40113 65.64087
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de Matemáticas con los alumnos que completaronel curso de preparación
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de escritura y el grado de estudios de los padres
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de lectura de los alumnos que tomaron el curso de preparación y los que no.
Hipótesis alternativa (Ha): Existe diferencia significativa en las calificaciones de lectura de los alumnos que tomaron el curso de preparación y los que no.
ttest_lectura <- t.test(reading_score ~ test_preparation_curse, data = df, conf.level= 0.99) #Realizamos nuestra prueba test
ttest_lectura #mostramos el resultado##
## Welch Two Sample t-test
##
## data: reading_score by test_preparation_curse
## t = 7.2189, df = 761.03, p-value = 1.272e-12
## alternative hypothesis: true difference in means between group completed and group none is not equal to 0
## 99 percent confidence interval:
## 4.283536 9.054922
## sample estimates:
## mean in group completed mean in group none
## 74.05932 67.39009
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de lectura con los alumnos que completaronel curso de preparación
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de escritura y el grado de estudios de los padres
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de escritura de los alumnos que tomaron el curso de preparación y los que no.
Hipótesis alternativa (Ha): Existe diferencia significativa en las calificaciones de escritura de los alumnos que tomaron el curso de preparación y los que no.
ttest_escritura <- t.test(writing_score ~ test_preparation_curse, data = df, conf.level= 0.99) #Realizamos nuestra prueba test
ttest_escritura #mostramos el resultado##
## Welch Two Sample t-test
##
## data: writing_score by test_preparation_curse
## t = 9.871, df = 755.35, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group completed and group none is not equal to 0
## 99 percent confidence interval:
## 6.845514 11.696211
## sample estimates:
## mean in group completed mean in group none
## 74.45198 65.18111
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de escritura con los alumnos que completaronel curso de preparación
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de matemáticas y el tipo de lunch
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de matemáticas entre los tipos de lunch.
Hipótesis nula (Ha): Existe diferencia significativa en las calificaciones de matemáticas entre los tipos de lunch.
##
## Welch Two Sample t-test
##
## data: math_score by lunch
## t = -13.648, df = 696.41, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group free/reduced and group standard is not equal to 0
## 99 percent confidence interval:
## -15.15555 -10.33192
## sample estimates:
## mean in group free/reduced mean in group standard
## 58.68857 71.43231
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de matemáticas con el tipo de lunch
# Gráfico de Densidad para Calificaciones de Matemáticas
ggplot(df, aes(x = math_score, fill = lunch)) +
geom_density(alpha = 0.5) +
labs(title = "Densidad de Calificaciones de Matemáticas",
x = "Calificación de Matemáticas", y = "Densidad")Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de escritura y el tipo de lunch
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de escritura entre los tipos de lunch.
Hipótesis nula (Ha): Existe diferencia significativa en las calificaciones de escritura entre los tipos de lunch.
##
## Welch Two Sample t-test
##
## data: writing_score by lunch
## t = -9.3053, df = 708.08, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group free/reduced and group standard is not equal to 0
## 99 percent confidence interval:
## -11.422507 -6.459251
## sample estimates:
## mean in group free/reduced mean in group standard
## 62.65143 71.59231
# Gráfico de Densidad para Calificaciones de Escritura
ggplot(df, aes(x = writing_score, fill = lunch)) +
geom_density(alpha = 0.5) +
labs(title = "Densidad de Calificaciones de Escritura",
x = "Calificación de Escritura", y = "Densidad")La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de escritura con el tipo de lunch
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de lectura y el tipo de lunch
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de lectura entre los tipos de lunch.
Hipótesis nula (Ha): Existe diferencia significativa en las calificaciones de lectura entre los tipos de lunch.
##
## Welch Two Sample t-test
##
## data: reading_score by lunch
## t = -8.9028, df = 690.31, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group free/reduced and group standard is not equal to 0
## 99 percent confidence interval:
## -10.78520 -5.93436
## sample estimates:
## mean in group free/reduced mean in group standard
## 64.31714 72.67692
# Gráfico de Densidad para Calificaciones de lectura
ggplot(df, aes(x = reading_score, fill = lunch)) +
geom_density(alpha = 0.5) +
labs(title = "Densidad de Calificaciones de Lectura",
x = "Calificación de Español", y = "Densidad")La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de lectura con el tipo de lunch
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de lectura y el tipo de lunch y el género
Hipótesis nula (H0): No hay relación significativa entre la calificación de lectura, el tipo de lunch y el género..
Hipótesis nula (Ha): Existe relación significativa entre la calificación de lectura, el tipo de lunch y el género.
## Df Sum Sq Mean Sq F value Pr(>F)
## lunch 1 15899 15899 86.25 < 2e-16 ***
## gender 1 11627 11627 63.07 5.35e-15 ***
## Residuals 997 183789 184
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de lectura con el tipo de lunch y el género
Prueba de hipótesis ANOVA para evaluar la relación entre las calificaciones de la materia de lectura y el tipo de lunch y el curso de preparacion.
Hipótesis nula (H0): No hay relación significativa entre la calificación de lectura, el tipo de lunch y curso de preparacion..
Hipótesis nula (Ha): Existe relación significativa entre la calificación de lectura, el tipo de lunch y el curso de preparacion.
resultado_anova <- aov(reading_score ~ lunch + test_preparation_curse, data = df)
summary(resultado_anova)## Df Sum Sq Mean Sq F value Pr(>F)
## lunch 1 15899 15899 85.37 < 2e-16 ***
## test_preparation_curse 1 9744 9744 52.32 9.37e-13 ***
## Residuals 997 185672 186
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de lectura con el tipo de lunch y el curso de preparacion
Prueba de hipótesis t para comparar las medias de las calificaciones de matemáticas entre los géneros.
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de matemáticas entre los géneros.
Hipótesis nula (Ha): Existe una diferencia significativa en las calificaciones de matemáticas entre los géneros.
##
## Welch Two Sample t-test
##
## data: math_score by gender
## t = -5.0442, df = 985.26, p-value = 5.421e-07
## alternative hypothesis: true difference in means between group female and group male is not equal to 0
## 99 percent confidence interval:
## -7.266225 -2.347437
## sample estimates:
## mean in group female mean in group male
## 64.46764 69.27447
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de matemáticas y el género
Prueba de hipótesis t para comparar las medias de las calificaciones de lectura entre los géneros.
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de lectura entre los géneros.
Hipótesis nula (Ha): Existe una diferencia significativa en las calificaciones de lectura entre los géneros.
##
## Welch Two Sample t-test
##
## data: reading_score by gender
## t = 7.4112, df = 991.78, p-value = 2.677e-13
## alternative hypothesis: true difference in means between group female and group male is not equal to 0
## 99 percent confidence interval:
## 4.330892 8.958719
## sample estimates:
## mean in group female mean in group male
## 73.21294 66.56814
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de lectura y el género
Prueba de hipótesis t para comparar las medias de las calificaciones de escritura entre los géneros.
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de escritura entre los géneros.
Hipótesis nula (Ha): Existe una diferencia significativa en las calificaciones de escritura entre los géneros.
##
## Welch Two Sample t-test
##
## data: writing_score by gender
## t = 9.3761, df = 985.76, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group female and group male is not equal to 0
## 99 percent confidence interval:
## 6.218332 10.941723
## sample estimates:
## mean in group female mean in group male
## 72.93319 64.35317
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de escritura y el género
# Calcular promedios en una escala de 0 a 100
df_promedios <- df %>%
group_by(race_ethnicity) %>%
summarise(
mean_math_score = mean(math_score) * 100 / max(df$math_score),
mean_reading_score = mean(reading_score) * 100 / max(df$reading_score),
mean_writing_score = mean(writing_score) * 100 / max(df$writing_score)
)
# Crear un gráfico de barras agrupadas con plotly
grafico_barras_plotly <- plot_ly(df_promedios, x = ~race_ethnicity) %>%
add_trace(y = ~mean_math_score, name = 'Math', type = 'bar', marker = list(color = 'lightblue')) %>%
add_trace(y = ~mean_reading_score, name = 'Reading', type = 'bar', marker = list(color = 'lightgreen')) %>%
add_trace(y = ~mean_writing_score, name = 'Writing', type = 'bar', marker = list(color = 'lightpink')) %>%
layout(
title = 'Desempeño de Estudiantes por Grupo Étnico (Promedios en Escala de 0 a 100)',
xaxis = list(title = 'Grupo Étnico'),
yaxis = list(title = 'Calificación Promedio', range = c(0, 100)),
barmode = 'group'
)
# Visualizar el gráfico
grafico_barras_plotlyPrueba de hipótesis ANOVA para evaluar la relación entre las calificaciones de matemáticas y el grupo social al que pertenecen.
Hipótesis nula (H0): No hay relación significativa entre la calificación de matemáticas y el grupo social al que pertenecen.
Hipótesis nula (Ha): Existe una relación significativa entre la calificación de matemáticas y el grupo social al que pertenecen.
## Df Sum Sq Mean Sq F value Pr(>F)
## race_ethnicity 4 16162 4040 18.68 8.1e-15 ***
## Residuals 995 215216 216
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de matemáticas y el grupo social al que pertenecen.
Prueba de hipótesis ANOVA para evaluar la relación entre las calificaciones de lectura y el grupo social al que pertenecen.
Hipótesis nula (H0): No hay relación significativa entre la calificación de lectura y el grupo social al que pertenecen.
Hipótesis nula (Ha): Existe una relación significativa entre la calificación de lectura y el grupo social al que pertenecen.
## Df Sum Sq Mean Sq F value Pr(>F)
## race_ethnicity 4 4618 1154.5 5.557 2e-04 ***
## Residuals 995 206697 207.7
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de lectura y el grupo social al que pertenecen.
Prueba de hipótesis ANOVA para evaluar la relación entre las calificaciones de escritura y el grupo social al que pertenecen.
Hipótesis nula (H0):No hay relación significativa entre la calificación de escritura y el grupo social al que pertenecen.
Hipótesis nula (Ha): Existe una relación significativa entre la calificación de escritura y el grupo social al que pertenecen.
## Df Sum Sq Mean Sq F value Pr(>F)
## race_ethnicity 4 3561 890.1 3.974 0.00332 **
## Residuals 995 222894 224.0
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La hipótesis nula se descarta y se acepta la hipótesis alternativa. Existe una relación significativa entre la calificación de escritura y el grupo social al que pertenecen.
De acuerdo con las distintas pruebas realizadas tanto la prueba t y la prueba ANOVA se puede observar que si existe una influencia significativa entre los factores; “Nivel de educación de los padres”, “Curso de preparación para el examen”, “Tipo de almuerzo” y “Raza”, con las calificaciones de los alumnos. Además siendo el genero femenino quien obtuvo un promedio mas alto en sus calificaciones.