Equipo No: 13
Integrantes
Oscar Daniel Betancourt
Diego Isaias López Tapia
Juan Daniel Carrillo
Carlos de la Rosa
Por medio de un conjunto de datos, conformado por las calificaciones obtenidas de los estudiantes en asignaturas como matemáticas, lectura y escritura, determinar si diferentes factores que incluye el conjunto de datos influyen en el resultado de los exámenes.
Los factores son:
Nivel de educación de los padres.
Curso de preparación para el examen
Tipo de almuerzo
Raza
El conjunto de datos fue obtenido de Kaggle
1. ¿Existe una influencia del nivel educativo de los padres en las calificaciones del alumno?
2. ¿Existe una diferencia significativa de las calificaciones entre los alumnos que tomaron el curso de preparación y los que no?
3. ¿Existe una relación en el desempeños de las calificaciones de los alumnos el tipo de lunch?
4. ¿Influye el tipo de raza de los alumnos en el desempeño de los alumnos?
Iniciamos nuestro código cargando las librerias que necesitaremos, así como nuestro conjunto de datos
#Cargamos la libreria para leer el dataset
library(readxl)
library(ggplot2)
#Asignamos a la variable df la lectura de nuestro archivo exams.xls
df<-read_excel(file.choose())
#Observamos el dataset
head(df)
La columna gender muestra información del tipo de genero del alumno
La columna race_ethnicity muestra la informacion clasificada por grupo:
group A: Clase alta
group B: Clase media-alta
group C: Clase media
group D: Clase media-baja
group E: Clase baja
La columna parental_level_of_education muestra información del grado de estudio de los padres
La columna lunch muestra información del tipo de alimentación de los alumnos
La columna test_preparation_curse muestra información si los alumnos tomaron el curso de preparación
Las calificaciones de las materias se encuentran en un estandar del 1 al 100
ggplot(df,aes(gender) )+
geom_bar(width= 0.5,colour="red", fill="skyblue")+
scale_y_continuous(limits = c(0,600),
breaks = seq(0,1000,1000))+
labs(title = "Distribución de estudiantes Hombres y Mujeres",
x="Genero",
y= "Alunmos")+
theme_bw(base_size = 12)+
geom_text(aes(label=..count..), stat='count',
position=position_dodge(0.9),
vjust=-0.5,
size=5.0
)
# Gráfico de barras para comparar el desempeño en matemáticas según el nivel de educación de los padres
ggplot(df, aes(x = parental_level_of_education, y = math_score)) +
geom_bar(stat = "summary", fun = "mean") +
labs(title = "Desempeño en Matemáticas según Nivel de Educación de los Padres", x = "Nivel de Educación de los Padres", y = "Calificación Promedio en Matemáticas")
# Gráfico de barras apiladas con facetas por nivel de educación de los padres
ggplot(df, aes(x = gender, y = math_score, fill = lunch)) +
geom_bar(stat = "identity") +
labs(title = "Distribución de Calificaciones de Matemáticas por Género, Tipo de Almuerzo y Nivel de Educación de los Padres",
x = "Género", y = "Calificaciones de Matemáticas", fill = "Tipo de Almuerzo") +
facet_wrap(~ parental_level_of_education, scales = "free_y", ncol = 2) # Facetas por nivel de educación de los padres
# Gráfico de barras apiladas con facetas por nivel de educación de los padres
ggplot(df, aes(x = gender, y = math_score, fill = lunch)) +
geom_bar(stat = "identity") +
labs(title = "Distribución de Calificaciones de Matemáticas por Género, Tipo de Almuerzo y Nivel d")
# Gráfico de barras apiladas con facetas por nivel de educación de los padres, género, y curso de preparación para el examen
ggplot(df, aes(x = gender, y = writing_score, fill = test_preparation_curse)) +
geom_bar(stat = "identity") +
labs(title = "Distribución de Calificaciones de Escritura por Género, Curso de Preparación y Nivel de Educación de los Padres",
x = "Género", y = "Calificaciones de Escritura", fill = "Curso de Preparación") +
facet_wrap(~ parental_level_of_education_grouped, scales = "free_y", ncol = 2) # Facetas por nivel de educación de los padres agrupado
Prueba de hipótesis ANOVA para evaluar la relación entre las calificaciones de la materia de matemáticas y el grado de estudios de los padres
Hipótesis nula (H0): No hay relación significativa entre la calificación de Matemáticas y el grado de estudios de los padres.
Hipotesis alternativa (Ha) Existe una relación significativa entre la calificación de Matemáticas y el grado de estudios de los padres.
padres_matematicas <- aov(math_score ~ parental_level_of_education, data = df) #Realizamos nuestra prueba anova
summary(padres_matematicas) #Mostramos el resultado
Df Sum Sq Mean Sq F value Pr(>F)
parental_level_of_education 5 9562 1912.4 8.57 5.85e-08 ***
Residuals 994 221815 223.2
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
La hipótesis nula se descarta y se acetpa la hipótesis alternativa. Existe una relación significativa entre la calificación de Matemáticas y el grado de estudios de los padres
Prueba de hipótesis ANOVA para evaluar la relación entre las calificaciones de la materia de lectura y el grado de estudios de los padres
Hipótesis nula (H0): No hay relación significativa entre la calificación de Lectura y el grado de estudios de los padres.
Hipotesis alternativa (Ha) Existe una relación significativa entre la calificación de Lectura y el grado de estudios de los padres.
padres_lectura <- aov(reading_score ~ parental_level_of_education, data = df) #Realizamos nuestra prueba anova
summary(padres_lectura) #Mostramos el resultado
Df Sum Sq Mean Sq F value Pr(>F)
parental_level_of_education 5 13332 2666.4 13.39 1.19e-12 ***
Residuals 994 197983 199.2
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
La hipótesis nula se descarta y se acetpa la hipótesis alternativa. Existe una relación significativa entre la calificación de Lectura y el grado de estudios de los padres
Prueba de hipótesis ANOVA para evaluar la relación entre las calificaciones de la materia de escritura y el grado de estudios de los padres
Hipótesis nula (H0): No hay relación significativa entre la calificación de Escritura y el grado de estudios de los padres.
Hipotesis alternativa (Ha) Existe una relación significativa entre la calificación de Escritura y el grado de estudios de los padres.
padres_escritura <- aov(writing_score ~ parental_level_of_education, data = df) #Realizamos nuestra prueba anova
summary(padres_escritura) #mostramos el resultado
Df Sum Sq Mean Sq F value Pr(>F)
parental_level_of_education 5 18731 3746 17.93 <2e-16 ***
Residuals 994 207724 209
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
La hipótesis nula se descarta y se acetpa la hipótesis alternativa. Existe una relación significativa entre la calificación de Escritura y el grado de estudios de los padres
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de matemáticas y el grado de estudios de los padres
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de matemáticas de los alumnos que tomaron el curso de preparación y los que no.
Hipótesis alternativa (Ha): Existe diferencia significativa en las calificaciones de matemáticas de los alumnos que tomaron el curso de preparación y los que no.
ttest_matematicas <- t.test(math_score ~ test_preparation_curse, data = df, conf.level= 0.99) #Realizamos nuestra prueba test
ttest_matematicas #mostramos el resultado
Welch Two Sample t-test
data: math_score by test_preparation_curse
t = 3.7917, df = 743.9, p-value = 0.0001617
alternative hypothesis: true difference in means between group completed and group none is not equal to 0
99 percent confidence interval:
1.199237 6.321289
sample estimates:
mean in group completed mean in group none
69.40113 65.64087
La hipótesis nula se descarta y se acetpa la hipótesis alternativa. Existe una relación significativa entre la calificación de Matemáticas con los alumnos que compleraron el curso de preparación
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de escritura y el grado de estudios de los padres
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de lectura de los alumnos que tomaron el curso de preparación y los que no.
Hipótesis alternativa (Ha): Existe diferencia significativa en las calificaciones de lectura de los alumnos que tomaron el curso de preparación y los que no.
ttest_lectura <- t.test(reading_score ~ test_preparation_curse, data = df, conf.level= 0.99) #Realizamos nuestra prueba test
ttest_lectura #mostramos el resultado
Welch Two Sample t-test
data: reading_score by test_preparation_curse
t = 7.2189, df = 761.03, p-value = 1.272e-12
alternative hypothesis: true difference in means between group completed and group none is not equal to 0
99 percent confidence interval:
4.283536 9.054922
sample estimates:
mean in group completed mean in group none
74.05932 67.39009
La hipótesis nula se descarta y se acetpa la hipótesis alternativa. Existe una relación significativa entre la calificación de lectura con los alumnos que compleraron el curso de preparación
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de escritura y el grado de estudios de los padres
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de escritura de los alumnos que tomaron el curso de preparación y los que no.
Hipótesis alternativa (Ha): Existe diferencia significativa en las calificaciones de escritura de los alumnos que tomaron el curso de preparación y los que no.
ttest_escritura <- t.test(writing_score ~ test_preparation_curse, data = df, conf.level= 0.99) #Realizamos nuestra prueba test
ttest_escritura #mostramos el resultado
Welch Two Sample t-test
data: writing_score by test_preparation_curse
t = 9.871, df = 755.35, p-value < 2.2e-16
alternative hypothesis: true difference in means between group completed and group none is not equal to 0
99 percent confidence interval:
6.845514 11.696211
sample estimates:
mean in group completed mean in group none
74.45198 65.18111
La hipótesis nula se descarta y se acetpa la hipótesis alternativa. Existe una relación significativa entre la calificación de escritura con los alumnos que compleraron el curso de preparación
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de matematicas y el tipo de lunch
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de matemáticas entre los tipos de lunch.
Hipótesis nula (Ha): Existe diferencia significativa en las calificaciones de matemáticas entre los tipos de lunch.
resultado_ttest <- t.test(math_score ~ lunch, data = df, conf.level= 0.99)
resultado_ttest
Welch Two Sample t-test
data: math_score by lunch
t = -13.648, df = 696.41, p-value < 2.2e-16
alternative hypothesis: true difference in means between group free/reduced and group standard is not equal to 0
99 percent confidence interval:
-15.15555 -10.33192
sample estimates:
mean in group free/reduced mean in group standard
58.68857 71.43231
La hipótesis nula se descarta y se acetpa la hipótesis alternativa. Existe una relación significativa entre la calificación de matemáticas con el tipo de lunch
# Gráfico de Densidad para Calificaciones de Matemáticas
ggplot(df, aes(x = math_score, fill = lunch)) +
geom_density(alpha = 0.5) +
labs(title = "Densidad de Calificaciones de Matemáticas",
x = "Calificación de Matemáticas", y = "Densidad")
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de escritura y el tipo de lunch
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de escritura entre los tipos de lunch.
Hipótesis nula (Ha): Existe diferencia significativa en las calificaciones de escritura entre los tipos de lunch.
resultado_ttest <- t.test(writing_score ~ lunch, data = df, conf.level= 0.99)
resultado_ttest
Welch Two Sample t-test
data: writing_score by lunch
t = -9.3053, df = 708.08, p-value < 2.2e-16
alternative hypothesis: true difference in means between group free/reduced and group standard is not equal to 0
99 percent confidence interval:
-11.422507 -6.459251
sample estimates:
mean in group free/reduced mean in group standard
62.65143 71.59231
# Gráfico de Densidad para Calificaciones de Escritura
ggplot(df, aes(x = writing_score, fill = lunch)) +
geom_density(alpha = 0.5) +
labs(title = "Densidad de Calificaciones de Escritura",
x = "Calificación de Escritura", y = "Densidad")
La hipótesis nula se descarta y se acetpa la hipótesis alternativa. Existe una relación significativa entre la calificación de escritura con el tipo de lunch
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de lectura y el tipo de lunch
Hipótesis nula (H0): No hay diferencia significativa en las calificaciones de lectura entre los tipos de lunch.
Hipótesis nula (Ha): Existe diferencia significativa en las calificaciones de lectura entre los tipos de lunch.
resultado_ttest <- t.test(reading_score ~ lunch, data = df, conf.level= 0.99)
resultado_ttest
Welch Two Sample t-test
data: reading_score by lunch
t = -8.9028, df = 690.31, p-value < 2.2e-16
alternative hypothesis: true difference in means between group free/reduced and group standard is not equal to 0
99 percent confidence interval:
-10.78520 -5.93436
sample estimates:
mean in group free/reduced mean in group standard
64.31714 72.67692
# Gráfico de Densidad para Calificaciones de escritura
ggplot(df, aes(x = reading_score, fill = lunch)) +
geom_density(alpha = 0.5) +
labs(title = "Densidad de Calificaciones de Escritura",
x = "Calificación de Español", y = "Densidad")
La hipótesis nula se descarta y se acetpa la hipótesis alternativa. Existe una relación significativa entre la calificación de lectura con el tipo de lunch
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de lectura y el tipo de lunch y el genero
Hipótesis nula (H0): No hay relación significativa entre la calificación de lectura, el tipo de lunch y el genero..
Hipótesis nula (Ha): Existe relación significativa entre la calificación de lectura, el tipo de lunch y el genero.
resultado_anova <- aov(reading_score ~ lunch + gender, data = df)
summary(resultado_anova)
Df Sum Sq Mean Sq F value Pr(>F)
lunch 1 15899 15899 86.25 < 2e-16 ***
gender 1 11627 11627 63.07 5.35e-15 ***
Residuals 997 183789 184
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
La hipótesis nula se descarta y se acetpa la hipótesis alternativa. Existe una relación significativa entre la calificación de lectura con el tipo de lunch y el genero
Prueba de hipótesis ANOVA para evaluar la relación entre las calificaciones de la materia de lectura y el tipo de lunch y el curso de preparacion.
Hipótesis nula (H0): No hay relación significativa entre la calificación de lectura, el tipo de lunch y curso de preparacion..
Hipótesis nula (Ha): Existe relación significativa entre la calificación de lectura, el tipo de lunch y el curso de preparacion.
resultado_anova <- aov(reading_score ~ lunch + test_preparation_curse, data = df)
summary(resultado_anova)
Df Sum Sq Mean Sq F value Pr(>F)
lunch 1 15899 15899 85.37 < 2e-16 ***
test_preparation_curse 1 9744 9744 52.32 9.37e-13 ***
Residuals 997 185672 186
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
La hipótesis nula se descarta y se acetpa la hipótesis alternativa. Existe una relación significativa entre la calificación de lectura con el tipo de lunch y el curso de preparacion
Prueba de hipótesis para evaluar la relación entre las calificaciones de la materia de matematicas y el tipo de lunch
De acuerdo con las distintas pruebas realizadas tanto la prueba….. y la prueba ANOVA se puede observar que si existe una influencia significativa entre los factores; “Nivel de educación de los padres”, “Curso de preparación para el examen”, “Tipo de almuerzo” y “Raza”