# Carga y limpieza de datos (para obtener resultados concretos)
data_completa <- read.csv(file.choose(), stringsAsFactors = FALSE)
# Columnas requeridas para el análisis
cols_req <- c("math_score","weekly_self_study_hours","extracurricular_activities",
              "part_time_job","history_score","biology_score")
if(!all(cols_req %in% names(data_completa))){
  stop("Faltan columnas: ", paste(setdiff(cols_req,names(data_completa)),collapse=", "))
}
# Pre-procesamiento
data <- data_completa %>%
  rename(
    study_h = weekly_self_study_hours,
    extracurricular = extracurricular_activities,
    job = part_time_job
  ) %>%
  mutate(
    math_score    = as.numeric(math_score),
    history_score = as.numeric(history_score),
    biology_score = as.numeric(biology_score),
    study_h       = as.numeric(study_h),
    extracurricular= as.logical(extracurricular),
    job           = as.logical(job)
  ) %>%
  drop_na(math_score,history_score,biology_score,study_h)
cat("Registros válidos: ", nrow(data),"\n")
## Registros válidos:  2000

Justificación de variables

Para este Avance 3 se seleccionaron las siguientes variables, con su respectiva justificación:

  • Puntaje de matemáticas: Es importante evaluar el desempeño en esta materia clave.
  • Horas de autoestudio: Ayuda a analizar la dedicación semanal de los estudiantes.
  • Actividades extracurriculares: Sirve para evaluar el balance académico-personal.

1. Análisis Inferencial: Intervalos de Confianza

A continuación se presentan los resultados de cada intervalo solicitado,junto a sus respectivos análisis, resaltando la importancia y utilidad de cada uno de estos.

1.1 Puntaje de Matemáticas

t_math <- t.test(data$math_score, conf.level = 0.95)
ci_math <- t_math$conf.int
ggplot(data, aes(x = math_score)) +
  geom_histogram(aes(y = ..density..), bins = 15, fill = "lightblue", color = "white") +
  geom_density(size = 1) +
  labs(title = "Distribución de Puntajes de Matemáticas",
       x = "Puntaje de Matemáticas", y = "Densidad")

Resultados (IC95% Matemáticas): [82.87, 84.03]

Análisis:

  • El intervalo indica que si este estudio se repitiera múltiples veces, el promedio poblacional se ubicaría en el rango de [82.87, 84.03], en el 95% de las ocasiones, lo cual implica una alta precisión si comparamos con un objetivo de 85 puntos, y un rango que varia de 0 a 100. Dado que el límite superior es menor, sugiere un leve desfase frente a esta meta, lo cual sirve para identificar que se deben hacer ciertos refuerzos a los estudiantes para elevar levemente los límites del intervalo.
  • El ancho de 1.16 puntos revela la variabilidad inherente: un ancho estrecho suele indicar homogeneidad en la muestra, mientras que un ancho mayor indicaría dispersión en el rendimiento, y en este caso, se tiene un ancho estrecho, indicando homogeneidad en la muestra
  • Observando la densidad, notamos una leve asimetría a la derecha, lo que implica que un grupo menor de estudiantes alcanza puntajes significativamente altos, recomendando exploración de prácticas exitosas de ese segmento para replicarlas.
  • Aplicación: Se podría ajustar el currículo o reforzar contenidos clave si el límite inferior cae por debajo de 80; también se podrían planificar tutorías específicas en temas donde se detecte cola inferior en la distribución, intentando llegar al valor objetivo (85 puntos)

1.2 Horas de Autoestudio

ci_study <- t.test(data$study_h, conf.level = 0.95)$conf.int
ggplot(data, aes(y = study_h)) +
  geom_boxplot(fill = "green") +
  labs(title = "Dispersión de Horas de Autoestudio",
       y = "Horas de Autoestudio")

Resultados (IC95% Autoestudio): [17.22, 18.29]

Análisis:

  • Con un intervalo alrededor de 17.76±, se puede observar que la mayoría de estudiantes dedica entre 17.22 y 18.29 horas semanales. Dado que la recomendación pedagógica es de al menos 18 horas, el límite inferior cercano a 16 indica que un porcentaje significativo no cumple con la meta, por lo que se deberían tomar medidas de incentivar a los estudiantes a estudiar más horas por su cuenta, aumentando así el promedio y los límites del IC.
  • El diagrama de cajas muestra posibles valores extremos: se observan puntos por encima de 30 horas, que pueden corresponder a estudiantes con alta autodisciplina, y por debajo de 5 horas, quienes pueden necesitar orientación en gestión del tiempo, por lo que es importante entrar a revisar estos estudiantes de forma individual, considerando que el rango contiene datos muy distanciados entre sí.
  • Aplicación: Se pueden diseñar talleres de administración del tiempo y acompañamiento para quienes están por debajo del primer cuartil o quintil. Además, se podrían reforzar hábitos de estudio colaborativo entre los estudiantes que presenten distancias considerables entre sus horas de autoestudio.

1.3 Participación Extracurricular

n_extra <- sum(data$extracurricular)
n_total <- nrow(data)
ci_extra <- binom.confint(n_extra, n_total, conf.level = 0.95, methods = "wilson")
ggplot(data.frame(
  activo = c("Participa","No participa"),
  prop = c(mean(data$extracurricular), 1 - mean(data$extracurricular))
), aes(x = activo, y = prop)) +
  geom_col(fill = "red") +
  scale_y_continuous(labels = scales::percent_format(accuracy = 1)) +
  labs(title = "Proporción de Participación Extracurricular",
       x = "Estado", y = "% de Estudiantes")

Resultados (IC95% Wilson): [18.69%, 22.22%]

Análisis:

  • Este intervalo sugiere la participación real de los estudiantes en programas extracurriculares, lo cual es útil para dimensionar recursos que sean necesarios. Un límite inferior cerca de 18% implica que menos de uno de cada cinco estudiantes participa activamente, lo cual puede indicar la disminución en las calificaciones de una parte de la población del estudio.
  • Comparando con metas institucionales (>30%), el resultado actual sugiere reforzar la difusión de actividades, si el objetivo claro es aumentar la participación en las actividades extracurriculares, por encima de aumentar las calificaciones.
  • El gráfico de barras facilita visualizar la brecha: mientras que un 20% participa, el 80% restante está potencialmente desconectado de estas actividades.
  • Aplicación: Se podrían crear campañas de sensibilización y diseño de actividades atractivas que respondan a los intereses de los estudiantes. Para cumplir esto, se podrían hacer encuestas para hacer un nuevo análisis estadístico que identifique las motivaciones que tienen el 20% los estudiantes para hacer las actividades extracurriculares, las razones por las cuales ese 80% de estudiantes no participa en las actividades, y qué podría motivarlos a participar en alguna actividad.

2. Análisis estadístico

En esta sección se incluyeron los gráficos estudiados en el avance 2, agrupándolos por tipo, y realizando un análisis comparativo de cada uno.

2.1 Estadísticas Generales por Materia

Tabla 2: Estadísticas generales por materia
Materia Promedio Desviación
Matemáticas 83.45 13.22
Historia 80.33 12.74
Física 81.34 12.54
Química 80.00 12.78
Biología 79.58 13.72
Inglés 81.28 12.03
Geografía 80.89 11.64

Análisis:

  • Física y Química presentan desviaciones similares, sugiriendo una consistencia en las calificaciones de las ciencias experimentales.
  • Historia y Geografía tienen promedios cercanos, pero Geografía muestra menor dispersión, mostrando también una relación entre las calificaciones promedio de las ciencias sociales.
  • Matemáticas presenta un promedio de 83.45, y una desviación estándar de 13.22. Aunque es la materia con mejor promedio, su desviación es relativamente alta, indicando que hay estudiantes muy por encima y muy por debajo de la media. Es conveniente mantener tutorías para reducir esta dispersión.
  • Biología tiene un promedio de 79.58, con desviación estándar de 13.72, es decir, el promedio más bajo y la dispersión más alta; esto apunta a que hay brechas de comprensión en algunos temas de Biología que requieren refuerzo focalizado.

2.2 Histogramas de Frecuencia

subjects <- c("math_score","history_score","physics_score","chemistry_score",
              "biology_score","english_score","geography_score")
for(sub in subjects){
  p <- ggplot(data, aes_string(x=sub)) +
    geom_histogram(bins=12, fill = "blue", color = "black") +
    labs(title = paste("Histograma de", gsub("_score","",sub)),
         x = "Puntaje", y = "Frecuencia")
  print(p)
}

Análisis:

  • Las ciencias experimentales (Física, Química) muestran distribuciones más simétricas que las cienciaas sociales (Historia), donde existe sesgo hacia calificaciones medias-bajas.
  • Inglés presenta varios outliers hacia puntajes altos, evidenciando un subgrupo con excelente afinidad lingüística, pero una mayor dispersión en las calificaciones.
  • Se puede evidenciar que ninguno de los histogramas es claramente simétrico, lo que podría reflejar dificultades con el contenido o que algunos estudiantes ya dominan la materia por experiencias previas. La única materia que puede tener algo de simetría en su histograma es química, pero de igual manera, muestra un pico hacia las calificaciones superiores.
  • En las materias de Historia, Química, y un poco Física, se observa una bimodalidad (dos picos en el histograma), lo cual podría indicar la existencia de dos subgrupos: por ejemplo, estudiantes que asisten a clases vs. los que no, o que estudian solos vs. en grupo. Esta es una observación que puede dar pie a hacer investigaciones adicionales, un análisis que demuestre cuál es el motivo para que hayan dos picos de calificaciones en cada una de estas materias.
  • En varias de las materias, especialmente en Matemáticas y Biología, se pueden evidencias unos rangos muy altos (diferencia significativa entre mínimo y máximo), lo que, combinado con picos en los valores altos, puede indicar que se requiere atención especial en su metodología o evaluación.

2.3 Diagramas de dispersión de Horas de Estudio vs Puntaje

for(sub in subjects){
  p <- ggplot(data, aes_string(x="study_h", y=sub)) +
    geom_point(alpha = 0.4) +
    geom_smooth(method = "lm", se = FALSE) +
    labs(title = paste("Horas de Estudio vs", gsub("_score","",sub)),
         x = "Horas de Autoestudio", y = "Puntaje")
  print(p)
}

Análisis:

  • Matemáticas y Física exhiben mayor pendiente en la recta de regresión, lo que implica que cada hora extra de estudio podrías estaraportando más puntos en estas materias que en las demás.
  • En todas las materias se pueden ver que las altas calificaciones son obtenidas por unos pocos estudiantes. Con esta información se podría identificar y entrevistar a los pocos estudiantes que están obteniendo estas calificaciones, para así poder encontrar la razón de estas calificaciones, y como pueden volverse más globalizadas. De igual manera, estos pocos estudiantes se pueden relacionar con el promedio de horas de autoestudio, ya que esto puede ser un resultado directo de mayor número de horas.
  • La densidad de puntos y el ajuste lineal muestran una asociación más débil en Historia y Geografía, lo que puede indicar que el estudio individual tiene menor impacto sobre el rendimiento en estas áreas de ciencias humanas.
  • Sugerencias: En base a estos diagramas, es pertinente reforzar estrategias de estudio personalizado en las materias con correlación alta (Matemáticas, Física) y explorar métodos alternativos (trabajo en grupo, proyectos prácticos) donde la relación estudio-puntaje sea más débil.

3. Conclusiones y Recomendaciones

Aprendizajes:

  • Los intervalos de confianza no sólo estiman rangos, sino que guían decisiones pedagógicas (tutorías, metas de horas, campañas), útiles para calibrar las metas académicas.
  • La variabilidad de resultados entre materias señala la necesidad de enfoques de enseñanza diferenciados.
  • El análisis de los diagramas de dispersión demuestra que la eficacia del estudio varía según la materia, lo cual justifica planes de estudio personalizados por materia y por grupo estudiantil.

Recomendaciones:

  1. Definir metas de estudio específicas por materia (p.ej., 1 hora extra por semana para traducirse en +0.5 puntos en Matemáticas), dependiendo de los objetivos que se plantee en el centro educativo.
  2. Fortalecer el acompañamiento en Historia y Geografía, donde la relación estudio-rendimiento es más débil.
  3. Impulsar la participación extracurricular llegando al menos al 30% de cobertura, mediante actividades vinculadas al currículo, equilibrándolas con las horas de autoestudio, para poder optimizar los resultados.
  4. Monitorear continuamente los intervalos de confianza y distribuciones para ajustar estrategias en tiempo real.
  5. Reformar el acercamiento que se le está haciendo a biología, ya que es la materia que presenta la más alta variabilidad.