# Carga y limpieza de datos (para obtener resultados concretos)
data_completa <- read.csv(file.choose(), stringsAsFactors = FALSE)
# Columnas requeridas para el análisis
cols_req <- c("math_score","weekly_self_study_hours","extracurricular_activities",
"part_time_job","history_score","biology_score")
if(!all(cols_req %in% names(data_completa))){
stop("Faltan columnas: ", paste(setdiff(cols_req,names(data_completa)),collapse=", "))
}
# Pre-procesamiento
data <- data_completa %>%
rename(
study_h = weekly_self_study_hours,
extracurricular = extracurricular_activities,
job = part_time_job
) %>%
mutate(
math_score = as.numeric(math_score),
history_score = as.numeric(history_score),
biology_score = as.numeric(biology_score),
study_h = as.numeric(study_h),
extracurricular= as.logical(extracurricular),
job = as.logical(job)
) %>%
drop_na(math_score,history_score,biology_score,study_h)
cat("Registros válidos: ", nrow(data),"\n")
## Registros válidos: 2000
Justificación de variables
Para este Avance 3 se seleccionaron las siguientes variables, con su
respectiva justificación:
- Puntaje de matemáticas: Es importante evaluar el
desempeño en esta materia clave.
- Horas de autoestudio: Ayuda a analizar la
dedicación semanal de los estudiantes.
- Actividades extracurriculares: Sirve para evaluar
el balance académico-personal.
1. Análisis Inferencial: Intervalos de Confianza
A continuación se presentan los resultados de cada intervalo
solicitado,junto a sus respectivos análisis, resaltando la importancia y
utilidad de cada uno de estos.
1.1 Puntaje de Matemáticas
t_math <- t.test(data$math_score, conf.level = 0.95)
ci_math <- t_math$conf.int
ggplot(data, aes(x = math_score)) +
geom_histogram(aes(y = ..density..), bins = 15, fill = "lightblue", color = "white") +
geom_density(size = 1) +
labs(title = "Distribución de Puntajes de Matemáticas",
x = "Puntaje de Matemáticas", y = "Densidad")

Resultados (IC95% Matemáticas): [82.87, 84.03]
Análisis:
- El intervalo indica que si este estudio se repitiera múltiples
veces, el promedio poblacional se ubicaría en el rango de [82.87,
84.03], en el 95% de las ocasiones, lo cual implica una alta precisión
si comparamos con un objetivo de 85 puntos, y un rango que varia de 0 a
100. Dado que el límite superior es menor, sugiere un leve desfase
frente a esta meta, lo cual sirve para identificar que se deben hacer
ciertos refuerzos a los estudiantes para elevar levemente los límites
del intervalo.
- El ancho de 1.16 puntos revela la variabilidad inherente: un ancho
estrecho suele indicar homogeneidad en la muestra, mientras que un ancho
mayor indicaría dispersión en el rendimiento, y en este caso, se tiene
un ancho estrecho, indicando homogeneidad en la muestra
- Observando la densidad, notamos una leve asimetría a la derecha, lo
que implica que un grupo menor de estudiantes alcanza puntajes
significativamente altos, recomendando exploración de prácticas exitosas
de ese segmento para replicarlas.
- Aplicación: Se podría ajustar el currículo o
reforzar contenidos clave si el límite inferior cae por debajo de 80;
también se podrían planificar tutorías específicas en temas donde se
detecte cola inferior en la distribución, intentando llegar al valor
objetivo (85 puntos)
1.2 Horas de Autoestudio
ci_study <- t.test(data$study_h, conf.level = 0.95)$conf.int
ggplot(data, aes(y = study_h)) +
geom_boxplot(fill = "green") +
labs(title = "Dispersión de Horas de Autoestudio",
y = "Horas de Autoestudio")

Resultados (IC95% Autoestudio): [17.22, 18.29]
Análisis:
- Con un intervalo alrededor de 17.76±, se puede observar que la
mayoría de estudiantes dedica entre 17.22 y 18.29 horas semanales. Dado
que la recomendación pedagógica es de al menos 18 horas, el límite
inferior cercano a 16 indica que un porcentaje significativo no cumple
con la meta, por lo que se deberían tomar medidas de incentivar a los
estudiantes a estudiar más horas por su cuenta, aumentando así el
promedio y los límites del IC.
- El diagrama de cajas muestra posibles valores extremos: se observan
puntos por encima de 30 horas, que pueden corresponder a estudiantes con
alta autodisciplina, y por debajo de 5 horas, quienes pueden necesitar
orientación en gestión del tiempo, por lo que es importante entrar a
revisar estos estudiantes de forma individual, considerando que el rango
contiene datos muy distanciados entre sí.
- Aplicación: Se pueden diseñar talleres de
administración del tiempo y acompañamiento para quienes están por debajo
del primer cuartil o quintil. Además, se podrían reforzar hábitos de
estudio colaborativo entre los estudiantes que presenten distancias
considerables entre sus horas de autoestudio.
2. Análisis estadístico
En esta sección se incluyeron los gráficos estudiados en el avance 2,
agrupándolos por tipo, y realizando un análisis comparativo de cada
uno.
2.1 Estadísticas Generales por Materia
Tabla 2: Estadísticas generales por materia
|
Materia
|
Promedio
|
Desviación
|
|
Matemáticas
|
83.45
|
13.22
|
|
Historia
|
80.33
|
12.74
|
|
Física
|
81.34
|
12.54
|
|
Química
|
80.00
|
12.78
|
|
Biología
|
79.58
|
13.72
|
|
Inglés
|
81.28
|
12.03
|
|
Geografía
|
80.89
|
11.64
|
Análisis:
- Física y Química presentan desviaciones similares, sugiriendo una
consistencia en las calificaciones de las ciencias experimentales.
- Historia y Geografía tienen promedios cercanos, pero Geografía
muestra menor dispersión, mostrando también una relación entre las
calificaciones promedio de las ciencias sociales.
- Matemáticas presenta un promedio de 83.45, y una desviación estándar
de 13.22. Aunque es la materia con mejor promedio, su desviación es
relativamente alta, indicando que hay estudiantes muy por encima y muy
por debajo de la media. Es conveniente mantener tutorías para reducir
esta dispersión.
- Biología tiene un promedio de 79.58, con desviación estándar de
13.72, es decir, el promedio más bajo y la dispersión más alta; esto
apunta a que hay brechas de comprensión en algunos temas de Biología que
requieren refuerzo focalizado.
2.2 Histogramas de Frecuencia
subjects <- c("math_score","history_score","physics_score","chemistry_score",
"biology_score","english_score","geography_score")
for(sub in subjects){
p <- ggplot(data, aes_string(x=sub)) +
geom_histogram(bins=12, fill = "blue", color = "black") +
labs(title = paste("Histograma de", gsub("_score","",sub)),
x = "Puntaje", y = "Frecuencia")
print(p)
}







Análisis:
- Las ciencias experimentales (Física, Química) muestran
distribuciones más simétricas que las cienciaas sociales (Historia),
donde existe sesgo hacia calificaciones medias-bajas.
- Inglés presenta varios outliers hacia puntajes altos, evidenciando
un subgrupo con excelente afinidad lingüística, pero una mayor
dispersión en las calificaciones.
- Se puede evidenciar que ninguno de los histogramas es claramente
simétrico, lo que podría reflejar dificultades con el contenido o que
algunos estudiantes ya dominan la materia por experiencias previas. La
única materia que puede tener algo de simetría en su histograma es
química, pero de igual manera, muestra un pico hacia las calificaciones
superiores.
- En las materias de Historia, Química, y un poco Física, se observa
una bimodalidad (dos picos en el histograma), lo cual podría indicar la
existencia de dos subgrupos: por ejemplo, estudiantes que asisten a
clases vs. los que no, o que estudian solos vs. en grupo. Esta es una
observación que puede dar pie a hacer investigaciones adicionales, un
análisis que demuestre cuál es el motivo para que hayan dos picos de
calificaciones en cada una de estas materias.
- En varias de las materias, especialmente en Matemáticas y Biología,
se pueden evidencias unos rangos muy altos (diferencia significativa
entre mínimo y máximo), lo que, combinado con picos en los valores
altos, puede indicar que se requiere atención especial en su metodología
o evaluación.
2.3 Diagramas de dispersión de Horas de Estudio vs Puntaje
for(sub in subjects){
p <- ggplot(data, aes_string(x="study_h", y=sub)) +
geom_point(alpha = 0.4) +
geom_smooth(method = "lm", se = FALSE) +
labs(title = paste("Horas de Estudio vs", gsub("_score","",sub)),
x = "Horas de Autoestudio", y = "Puntaje")
print(p)
}







Análisis:
- Matemáticas y Física exhiben mayor pendiente en la recta de
regresión, lo que implica que cada hora extra de estudio podrías
estaraportando más puntos en estas materias que en las demás.
- En todas las materias se pueden ver que las altas calificaciones son
obtenidas por unos pocos estudiantes. Con esta información se podría
identificar y entrevistar a los pocos estudiantes que están obteniendo
estas calificaciones, para así poder encontrar la razón de estas
calificaciones, y como pueden volverse más globalizadas. De igual
manera, estos pocos estudiantes se pueden relacionar con el promedio de
horas de autoestudio, ya que esto puede ser un resultado directo de
mayor número de horas.
- La densidad de puntos y el ajuste lineal muestran una asociación más
débil en Historia y Geografía, lo que puede indicar que el estudio
individual tiene menor impacto sobre el rendimiento en estas áreas de
ciencias humanas.
- Sugerencias: En base a estos diagramas, es pertinente reforzar
estrategias de estudio personalizado en las materias con correlación
alta (Matemáticas, Física) y explorar métodos alternativos (trabajo en
grupo, proyectos prácticos) donde la relación estudio-puntaje sea más
débil.
3. Conclusiones y Recomendaciones
Aprendizajes:
- Los intervalos de confianza no sólo estiman rangos, sino que guían
decisiones pedagógicas (tutorías, metas de horas, campañas), útiles para
calibrar las metas académicas.
- La variabilidad de resultados entre materias señala la necesidad de
enfoques de enseñanza diferenciados.
- El análisis de los diagramas de dispersión demuestra que la eficacia
del estudio varía según la materia, lo cual justifica planes de estudio
personalizados por materia y por grupo estudiantil.
Recomendaciones:
- Definir metas de estudio específicas por materia (p.ej., 1 hora
extra por semana para traducirse en +0.5 puntos en Matemáticas),
dependiendo de los objetivos que se plantee en el centro educativo.
- Fortalecer el acompañamiento en Historia y Geografía, donde la
relación estudio-rendimiento es más débil.
- Impulsar la participación extracurricular llegando al menos al 30%
de cobertura, mediante actividades vinculadas al currículo,
equilibrándolas con las horas de autoestudio, para poder optimizar los
resultados.
- Monitorear continuamente los intervalos de confianza y
distribuciones para ajustar estrategias en tiempo real.
- Reformar el acercamiento que se le está haciendo a biología, ya que
es la materia que presenta la más alta variabilidad.