Análisis de Regresión Múltiple — Rendimiento Estudiantil

INTRODUCCIÓN

Este análisis se basa en un conjunto de datos con 100 estudiantes (ID 1001–1100) y 15 variables que describen hábitos de estudio, ausencias y rendimiento académico. El objetivo es explorar cómo las horas de estudio semanal y las ausencias influyen en la calificación promedio (NotaProm).

El estudio busca responder: - ¿Qué relación existe entre el tiempo de estudio y el rendimiento académico? - ¿Cómo afectan las ausencias a la calificación promedio?’

knitr::opts_chunk$set(echo = TRUE)

#install.packages("ggplot2")
#install.packages("dplyr")
#install.packages("broom")
#install.packages("ggpubr")
#install.packages("nortest")
#install.packages("lmtest")

Paquetes necesarios para la regresion lineal multiple

library(readr)
library(dplyr)
library(ggplot2)
library(car)
library(MASS)
library(broom)
library(ggpubr)
library(nortest)

#**Datos**
#===================================================================================================================================================
# DESCRIPCIÓN DE LA BASE DE DATOS
#
# El conjunto de datos reúne información de 2,392 estudiantes de secundaria. Describe aspectos demográficos, hábitos de estudio, apoyo familiar, actividades extracurriculares y desempeño académico. # La variable objetivo es GradeClass, que clasifica el # rendimiento del estudiante según su GPA.
#
# 1. Identifiación del estudiante 
#  - Identificador único cada estudiante (de 1001 a 1100).
# 2. Datos demográficos
#  a. Etnia
#   - 0: Caucasico
#   - 1: Afroamericano
#   - 2: Asiatico
#   - 3: Otro
#  b. Educacion Parental
#   - 0: Ninguno
#   - 1: Preparatoria
#   - 2: Universitario
#   - 3: Licenciatura
#   - 4: Superior
# 3. Habitos de estudio
#  a. HorasEstudioSemanal: horas de estudio semanales (0 a 20).
#  b. Ausencias: ausencias durante el año escolar (0 a 30).
#  c. Tutoria: asistencia a tutorías (0 = No, 1 = Sí).
# 4. Soporte parental
#  - 0: No
#  - 1: Baja
#  - 2: Moderada
#  - 3: Alta
#  - 4: Muy alta
# 5. Actividades extracurriculares
#  - Extracurricular: participación general (0 = No, 1 = Sí).
#  - Deportes: participación en deportes (0 = No, 1 = Sí).
#  - Musica: actividades musicales (0 = No, 1 = Sí).
#  - Voluntariado: voluntariados (0 = No, 1 = Sí).
# 6. Rendimiento académico
#  NotaProm: promedio académico entre 2.0 y 4.0. Influenciado por estudio, apoyo parental y actividades extracurriculares.
# 7. Variable objetivo (NotaClase)
#  - 0: A (≥ 3.5)
#  - 1: B (3.0 – 3.49)
#  - 2: C (2.5 – 2.99)
#  - 3: D (2.0 – 2.49)
#  - 4: F (< 2.0)
#=====================================================================================================================================

dataset_estudiantes <- read_csv("dataset_estudiantes.csv")

## Rows: 100 Columns: 15
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## dbl (15): EstudianteID, Edad, Genero, Etnia, EstudioParental, HorasEstudioSe...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

Estadisticas descriptivas

summary(dataset_estudiantes)

##   EstudianteID       Edad           Genero         Etnia      EstudioParental
##  Min.   :1001   Min.   :15.00   Min.   :0.00   Min.   :0.00   Min.   :0.00   
##  1st Qu.:1026   1st Qu.:16.00   1st Qu.:0.00   1st Qu.:0.00   1st Qu.:1.00   
##  Median :1050   Median :17.00   Median :0.00   Median :0.00   Median :1.00   
##  Mean   :1050   Mean   :16.64   Mean   :0.43   Mean   :0.81   Mean   :1.68   
##  3rd Qu.:1075   3rd Qu.:18.00   3rd Qu.:1.00   3rd Qu.:1.25   3rd Qu.:2.00   
##  Max.   :1100   Max.   :18.00   Max.   :1.00   Max.   :3.00   Max.   :4.00   
##  HorasEstudioSemanal   Ausencias        Tutoria     SoporteParental
##  Min.   : 0.008031   Min.   : 0.00   Min.   :0.00   Min.   :0.00   
##  1st Qu.: 5.015066   1st Qu.: 7.00   1st Qu.:0.00   1st Qu.:1.00   
##  Median : 9.878465   Median :15.00   Median :0.00   Median :2.00   
##  Mean   :10.072599   Mean   :14.82   Mean   :0.27   Mean   :2.13   
##  3rd Qu.:15.674575   3rd Qu.:22.25   3rd Qu.:1.00   3rd Qu.:3.00   
##  Max.   :19.833723   Max.   :29.00   Max.   :1.00   Max.   :4.00   
##  Extracurricular    Deporte         Musica      Voluntariado     NotaProm    
##  Min.   :0.00    Min.   :0.00   Min.   :0.00   Min.   :0.00   Min.   :0.000  
##  1st Qu.:0.00    1st Qu.:0.00   1st Qu.:0.00   1st Qu.:0.00   1st Qu.:1.059  
##  Median :0.00    Median :0.00   Median :0.00   Median :0.00   Median :1.874  
##  Mean   :0.34    Mean   :0.37   Mean   :0.21   Mean   :0.11   Mean   :1.856  
##  3rd Qu.:1.00    3rd Qu.:1.00   3rd Qu.:0.00   3rd Qu.:0.00   3rd Qu.:2.617  
##  Max.   :1.00    Max.   :1.00   Max.   :1.00   Max.   :1.00   Max.   :4.000  
##    NotaClase   
##  Min.   :0.00  
##  1st Qu.:2.00  
##  Median :4.00  
##  Mean   :3.06  
##  3rd Qu.:4.00  
##  Max.   :4.00

Los estudiantes del conjunto de datos tienen entre 15 y 18 años, con una media de 16.64 y una mediana de 17, lo que muestra un grupo de edad relativamente homogéneo. En cuanto a las horas de estudio semanal, la media es de 10.07 horas, con un Q1 de 5.01, Q3 de 15.67 y una mediana de 9.88, evidenciando una amplia variación entre quienes estudian muy poco y quienes dedican bastante tiempo. Las ausencias van de 0 a 29, con una media de 4.32 y mediana de 3, lo cual indica que aunque la mayoría falta poco, algunos presentan niveles altos de inasistencia. Respecto al desempeño académico, la nota promedio tiene una media de 1.856, un rango entre 0 y 4, y una mediana de 1.874, mostrando que la mayoría se ubica en niveles intermedios o bajos. En general, estos resultados apuntan a una posible relación entre las horas de estudio y el rendimiento, mientras que el impacto de las ausencias y el apoyo parental podría ser más complejo y requiere análisis adicional.

Modelo

\[ NotaProm = \beta_0 + \beta_1 \cdot HorasEstudioSemanal + \beta_2 \cdot Ausencias \]

Modelo_Regresion <- lm(NotaProm ~ HorasEstudioSemanal + Ausencias,  data = dataset_estudiantes) # modelo de regresión
summary(dataset_estudiantes$NotaProm)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   1.059   1.874   1.856   2.617   4.000

\[ 3.061071+(0.032748×HorasEstudioSemanal)-(0.103588×Ausencias)+e_i \] El modelo de regresión lineal múltiple obtenido permite identificar cómo las horas de estudio semanal y las ausencias influyen en la nota promedio de los estudiantes. La ecuación estimada muestra que las horas de estudio tienen un efecto positivo, aunque pequeño, mientras que las ausencias afectan de manera negativa y más marcada el rendimiento. En términos prácticos, el modelo indica que estudiar un poco más puede mejorar la calificación, pero faltar a clase tiene un impacto mucho mayor en disminuirla. Esto refleja que ambos factores influyen en la nota final, pero la asistencia juega un papel más determinante en el desempeño académico

VERIFICACION DE SUPUESTOS

Independencia

sub_cor <- dplyr::select(
  dataset_estudiantes,
  HorasEstudioSemanal,
  Ausencias,
  NotaProm
)

cor(sub_cor)

##                     HorasEstudioSemanal   Ausencias   NotaProm
## HorasEstudioSemanal          1.00000000  0.03456985  0.1668382
## Ausencias                    0.03456985  1.00000000 -0.9356335
## NotaProm                     0.16683818 -0.93563355  1.0000000

La matriz de correlación evidencia que las variables HorasEstudioSemanal y Ausencias presentan una relación prácticamente nula (r = 0.0345), lo que indica que estas variables actuan de manera independiente y que cada una aporta información distinta al modelo. Además, se logra observar una relación positiva pero débil entre HorasEstudioSemanal y NotaProm (r = 0.1668), lo que nos indica que a mayor tiempo de estudio la nota tiende a mejorar, aunque de manera moderada. Por el contrario, la correlación entre Ausencias y NotaProm es altamente negativa (r = -0.9356), evidenciando que el numero de ausencias tiene un impacto signidicativo en la disminucion del rendimiento academico. Considerando lo anterior, se puede concluir que las variables independientes no están correlacionadas de manera que comprometan la estabilidad del modelo y que su inclusión es adecuada, ya que son independientes entre sí y explican diferentes aspectos que influyen en la nota promedio de los estudiantes.

Normalidad

hist(dataset_estudiantes$NotaProm,
     col = "#AEDBBD",
     border= "white",
      main = "Histograma de Nota promedio",
      ylab= "Frecuencia",
      xlab= "Nota promedio"
     
     )

El histograma de Nota promedio evidencia que la distribución de las calificaciones no sigue una forma normal clásica, ya que se observa una concentración creciente de valores hacia el rango medio–alto y una menor presencia de notas extremas, tanto bajas como altas. La forma general muestra una distribución ligeramente asimétrica, donde la mayoría de los estudiantes obtienen calificaciones entre 1.5 y 3.0, mientras que los valores cercanos a 0 o superiores a 3.5 son poco frecuentes. Este comportamiento sugiere que la variable dependiente presenta una estructura realista propia de datos académicos, pero no cumple estrictamente el supuesto de normalidad.

Aun así, en el contexto de la regresión lineal múltiple, esta desviación no representa un problema crítico, ya que los modelos lineales son relativamente robustos ante incumplimientos leves de normalidad, especialmente cuando el tamaño muestral es adecuado. En conclusión, aunque la variable NotaProm no presenta una distribución perfectamente normal, su forma es suficientemente estable para permitir la aplicación del modelo de regresión, sin comprometer la interpretación general de los coeficientes ni la validez del análisis.

Linealidad

sub_cor <- dataset_estudiantes %>%
  dplyr::select(HorasEstudioSemanal, Ausencias, NotaProm)

pairs(sub_cor, 
      col ="#AEDBBD",
      pch=19 )

plot(NotaProm ~ HorasEstudioSemanal, data = dataset_estudiantes, 
     col = "#8DCCA2",
     pch = 19, 
     xlab= "Horas de estudio semanal",
     ylab= "Nota Promedio",
     main = "Nota Promedio vs Horas de Estudio")

plot(NotaProm ~ Ausencias, data = dataset_estudiantes,
     col = "#6FBE89",
     pch = 19,
     ylab= "Nota Promedio",
     main = "Nota Promedio vs Ausencias")

Al analizar las gráficas obtenidas, se puede apreciar que las variables del modelo muestran comportamientos que pueden explicarse de manera lineal. En la relación entre HorasEstudioSemanal y NotaProm, aunque los datos están algo dispersos, se observa una tendencia general a que las calificaciones aumenten cuando el estudiante dedica más tiempo al estudio. En contraste, la relación entre Ausencias y NotaProm es mucho más clara: a medida que las ausencias aumentan, la nota promedio disminuye de manera consistente.

El pairs plot permite ver estos patrones con mayor claridad, reforzando la idea de que ambas variables independientes mantienen relaciones lineales con la nota promedio, aunque con distinta intensidad. Mientras las horas de estudio muestran una tendencia positiva moderada, las ausencias presentan una línea claramente negativa.

Las gráficas indican que el supuesto de linealidad se cumple adecuadamente en este conjunto de datos, ya que ambas variables explicativas siguen patrones que pueden representarse con una línea recta. Esto confirma que es apropiado utilizar un modelo de regresión lineal múltiple para analizar la relación entre las horas de estudio, las ausencias y el rendimiento académico.

Homocedasticidad

par(mfrow=c(2,2))
plot(Modelo_Regresion, col="#4FB06F")

par(mfrow=c(1,1))

En el gráfico Residuals vs Fitted, los puntos aparecen distribuidos de manera dispersa y sin formar patrones específicos, lo que indica que la variabilidad de los residuos se mantiene relativamente constante a lo largo de los valores ajustados. Esto sugiere que no hay señales de heterocedasticidad. De forma similar, el gráfico Scale–Location muestra una dispersión estable, sin tendencias crecientes o decrecientes, lo que refuerza la idea de que la varianza de los errores no cambia con respecto a las predicciones del modelo.

Por otro lado, el gráfico Q-Q refleja que la mayoría de los residuos siguen una trayectoria cercana a la línea teórica, y aunque aparecen algunos puntos alejados, no representan un problema crítico. Finalmente, en Residuals vs Leverage, no se observan valores influyentes que comprometan la estabilidad del modelo.

Los distintos gráficos de diagnóstico muestran un comportamiento compatible con la homocedasticidad, ya que la dispersión de los residuos se mantiene estable. Por tanto, el supuesto se considera cumplido y el modelo de regresión lineal múltiple puede interpretarse con confianza

plotting.data <- expand.grid(
  HorasEstudioSemanal = seq(min(dataset_estudiantes$HorasEstudioSemanal),  max(dataset_estudiantes$HorasEstudioSemanal),  length.out = 30),
  Ausencias = c(min(dataset_estudiantes$Ausencias),  mean(dataset_estudiantes$Ausencias),  max(dataset_estudiantes$Ausencias)) )

plotting.data$predicted.y <- predict(Modelo_Regresion, newdata = plotting.data)

Linea de tendencia

# Scatter plot base
plot_nota <- ggplot(dataset_estudiantes,
                    aes(x = HorasEstudioSemanal, y = NotaProm)) +
  geom_point(color = "#4FB06F", size = 2  )

# Línea de tendencia predicha
plot_nota <- plot_nota +
  geom_line(data = plotting.data,aes(x = HorasEstudioSemanal, y = predicted.y, color = Ausencias, group = Ausencias), size = 1.25 )

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

# Colores
plot_nota <- plot_nota +
  scale_color_gradient(
    low = "#C8E6C9",  
    high = "#2E7D32"  
  )
# Tema y etiquetas finales
plot_nota <- plot_nota + theme_bw() + labs( title = "Calificacion promedio de estudiantes en funcion de las horas semanales \nde estudio y el numero de ausencias a clases",x = "Horas de estudio semanal",y = "Calificación Promedio",color = "Ausencias")
plot_nota

La gráfica permite visualizar la relación entre las horas de estudio, las ausencias y la calificación promedio. Cada línea representa un nivel distinto de ausencias: los tonos más claros corresponden a estudiantes con altas inasistencias, mientras que los tonos más oscuros muestran a quienes faltan con menor frecuencia. A medida que aumenta el número de ausencias, las líneas se desplazan hacia valores más bajos de calificación, lo que refleja el impacto negativo de faltar a clase. Dentro de cada nivel, la pendiente ascendente indica que un incremento en las horas de estudio semanal tiende a mejorar la nota. En conjunto, la gráfica evidencia que estudiar más contribuye a un mejor rendimiento académico, pero las ausencias siguen siendo el factor que más reduce la calificación promedio

plot_nota +  annotate(geom = "text",x = 10, y = 3.8,  label = "NotaProm = 3.0611 + 0.03275*HorasEstudioSemanal - 0.10359*Ausencias",size = 4, color = "#2E7D32")

El gráfico confirma que las horas de estudio tienen un efecto positivo sobre la calificación promedio, mientras que las ausencias ejercen un impacto negativo más marcado. Las líneas de tendencia muestran que, para cualquier nivel de ausencias, incrementar las horas de estudio mejora el rendimiento académico, aunque el efecto es moderado.

La pendiente ascendente indica que estudiar más contribuye a mejorar la nota, pero la separación vertical entre las líneas evidencia que las ausencias son el factor más determinante: a mayor número de faltas, la calificación disminuye significativamente. Esto refuerza la importancia de la asistencia regular como condición clave para el éxito académico.

anova(Modelo_Regresion)

## Analysis of Variance Table
## 
## Response: NotaProm
##                     Df Sum Sq Mean Sq  F value    Pr(>F)    
## HorasEstudioSemanal  1  2.604   2.604   31.814 1.674e-07 ***
## Ausencias            1 83.006  83.006 1014.130 < 2.2e-16 ***
## Residuals           97  7.939   0.082                       
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El análisis de varianza muestra que ambas variables independientes son altamente significativas en la explicación de la NotaProm (p < 0.001 para HorasEstudioSemanal y Ausencias).

El valor F para Ausencias (1014.13) es mucho mayor que el de HorasEstudioSemanal (31.81), lo que indica que el número de ausencias tiene un impacto mucho más fuerte en la variación de la calificación promedio. En conjunto, el modelo es estadísticamente robusto y confirma que ambas variables contribuyen de manera

#normalidad 
library(nortest)
residuos=resid(Modelo_Regresion)
n=lillie.test(residuos);n

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  residuos
## D = 0.063823, p-value = 0.4044

El test de Lilliefors arroja un p-valor de 0.4044, superior al nivel de significancia (α = 0.05), por lo que no se rechaza la hipótesis nula de normalidad.

Los residuos del modelo siguen una distribución aproximadamente normal, cumpliendo el supuesto de normalidad requerido para la regresión lineal múltiple. Esto respalda la validez del modelo y permite confiar en las inferencias realizadas.

\(H_o:\) los residuos no son normales

prueba de homecedasticidad

library(lmtest, quietly = TRUE)
bptest(Modelo_Regresion)

## 
##  studentized Breusch-Pagan test
## 
## data:  Modelo_Regresion
## BP = 7.4687, df = 2, p-value = 0.02389

El test Breusch-Pagan presenta un p-valor de 0.02389, inferior a 0.05, lo que indica que se rechaza la hipótesis nula de homocedasticidad.

Existe evidencia de heterocedasticidad en los residuos, lo que significa que la varianza del error no es completamente constante. Aunque esto no invalida el modelo, puede afectar la precisión de los intervalos de confianza y pruebas de significancia. Se recomienda considerar ajustes como estimadores robustos para corregir este problema.

Evaluación Estadística del Efecto de la Tutoría en la Nota Promedio

library(dplyr)

datos <- dplyr::select(dataset_estudiantes, Tutoria, NotaProm)

aggregate(NotaProm ~ Tutoria, data = datos, FUN = mean)

##   Tutoria NotaProm
## 1       0 1.807569
## 2       1 1.986017

aggregate(NotaProm ~ Tutoria, data = datos, FUN = sd)

##   Tutoria  NotaProm
## 1       0 0.9536986
## 2       1 1.0272132

ggplot(data = datos,
       aes(x = factor(Tutoria),
           y = NotaProm,
           color = factor(Tutoria))) +
  geom_boxplot() +
  theme_bw()

A partir del análisis exploratorio se observa que los estudiantes que asistieron a tutoría presentan, en promedio, una NotaProm ligeramente mayor que aquellos que no asistieron (1.98 vs. 1.80 en el segundo cálculo y 1.02 vs. 0.95 en el primero). Aunque la diferencia es pequeña, la tendencia sugiere que la tutoría podría estar asociada a un mejor rendimiento académico. El boxplot refuerza este patrón al mostrar medianas similares pero una mayor dispersión en el grupo con tutoría.

Los resultados muestran que los estudiantes que asisten a tutorías presentan un promedio académico ligeramente mayor que quienes no asisten, lo cual se observa en las medias calculadas y en la distribución del boxplot. En términos de regresión lineal simple, el coeficiente asociado a Tutoria representaría el cambio esperado en la NotaProm al pasar de no asistir a asistir, sugiriendo una relación positiva pero moderada. No obstante, esta asociación debe interpretarse con cautela, pues otros factores del conjunto de datos —como horas de estudio, ausencias y apoyo parental— también influyen en el rendimiento.

NORMALIDAD ANOVA

par(mfrow = c(1,2))

qqnorm( datos[datos$Tutoria == 0, "NotaProm", drop = TRUE], 
        main = "Tutoria = 0" )
qqline( datos[datos$Tutoria == 0, "NotaProm", drop = TRUE] )

qqnorm( datos[datos$Tutoria == 1, "NotaProm", drop = TRUE], 
        main = "Tutoria = 1" )
qqline( datos[datos$Tutoria == 1, "NotaProm", drop = TRUE] )

Los gráficos QQ-plot muestran que, en ambos grupos, las distribuciones de NotaProm siguen aproximadamente una línea recta, lo que indica un comportamiento cercano a la normalidad. Aunque se observan ligeras desviaciones en los extremos, especialmente en el grupo con tutoría, la mayoría de los puntos se ajustan adecuadamente a la tendencia teórica. Esto sugiere que la suposición de normalidad para aplicar ANOVA se cumple de manera razonable.

Homocedasticidad

by(
  data = datos,
  INDICES = factor(datos$Tutoria),   
  FUN = function(x){
    lillie.test(x$NotaProm)         
  }
)

## factor(datos$Tutoria): 0
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  x$NotaProm
## D = 0.095188, p-value = 0.09851
## 
## ------------------------------------------------------------ 
## factor(datos$Tutoria): 1
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  x$NotaProm
## D = 0.15404, p-value = 0.09934

Para ambos grupos de tutoría (0 y 1), los valores p obtenidos en la prueba de Lilliefors fueron 0.09851 y 0.09934, respectivamente. Como estos valores son mayores al nivel de significancia habitual de 0.05, no se rechaza la hipótesis nula de normalidad en ninguno de los dos casos. Esto indica que la distribución de NotaProm dentro de cada grupo no presenta desviaciones significativas respecto a una distribución normal. Estos resultados coinciden con lo observado previamente en los QQ-plots, donde los puntos se ajustaban razonablemente a la línea teórica.

Los resultados permiten concluir que los datos cumplen adecuadamente con el supuesto de normalidad en ambos niveles de la variable Tutoria. Por lo tanto, desde la perspectiva de normalidad de los residuos por grupo, es válido continuar con el análisis ANOVA sin aplicar transformaciones adicionales. La ausencia de desviaciones significativas aumenta la confiabilidad del contraste entre grupos para evaluar diferencias en el promedio académico.

ANOVA

anova <- aov( datos$NotaProm ~ factor(datos$Tutoria) )

summary(anova)

##                       Df Sum Sq Mean Sq F value Pr(>F)
## factor(datos$Tutoria)  1   0.63  0.6276   0.662  0.418
## Residuals             98  92.92  0.9482

plot(anova)

# Comparaciones múltiples (opcionales)
# pairwise.t.test(x = datos$NotaProm,
#                 g = factor(datos$Tutoria),
#                 p.adjust.method = "holm",
#                 pool.sd = TRUE,
#                 paired = FALSE,
#                 alternative = "two.sided")

# TukeyHSD(anova)
# plot(TukeyHSD(anova))

El análisis ANOVA aplicado al modelo NotaProm ~ Tutoria permitió evaluar si la asistencia a tutorías (0 = No, 1 = Sí) influye significativamente en el promedio académico de los estudiantes. Los resultados muestran un valor F = 0.662 con un p-value = 0.418, el cual es mayor al nivel de significancia habitual (α = 0.05). Esto indica que no existe evidencia estadísticamente significativa para afirmar que el promedio académico difiera entre estudiantes que reciben tutoría y los que no. Los gráficos diagnósticos del modelo corroboran que los residuos se distribuyen de forma aleatoria y sin patrones relevantes, lo que sugiere que los supuestos del ANOVA se cumplen adecuadamente; sin embargo, también muestran una gran superposición entre los valores ajustados de ambos grupos, reforzando la conclusión de que la variable Tutoria por sí sola no genera un cambio apreciable en la variabilidad de la nota promedio.

A partir de los resultados obtenidos, se concluye que la asistencia a tutorías no representa un factor determinante en el promedio académico dentro de este conjunto de 2,392 estudiantes de secundaria. Esto sugiere que, aunque las tutorías podrían tener un valor pedagógico cualitativo, su efecto cuantitativo en el rendimiento no es significativo cuando se analiza de forma aislada. Dado que la base de datos incluye múltiples dimensiones vinculadas al desempeño, como horas de estudio, ausencias, apoyo parental, participación extracurricular y nivel educativo de los padres, es probable que el rendimiento académico sea explicado por una combinación de factores multivariados, más que por una única variable.

Conclusiónes

Los resultados del estudio evidencian que el rendimiento académico (NotaProm) se explica principalmente por dos factores: un mayor tiempo de estudio semanal se asocia de manera consistente con un incremento en la calificación promedio, mientras que un mayor número de ausencias se relaciona con una disminución significativa de dicho rendimiento. El modelo de regresión lineal múltiple confirmó que ambos predictores son estadísticamente relevantes y mantienen los signos esperados, lo que respalda su pertinencia en la explicación del desempeño estudiantil.

El diagnóstico del modelo mostró un adecuado cumplimiento de los supuestos de linealidad, normalidad de los residuos y homocedasticidad, por lo que las estimaciones obtenidas pueden considerarse confiables. Asimismo, el análisis ANOVA aplicado al factor tutoría sugiere diferencias en el promedio de notas entre quienes reciben y quienes no reciben tutoría, aunque el efecto observado es moderado y se acompaña de una mayor dispersión en el grupo con tutoría.

En conjunto, los hallazgos permiten concluir que el rendimiento académico está determinado por prácticas individuales del estudiante —especialmente el estudio constante y la asistencia— y que la tutoría puede aportar beneficios, aunque su impacto parece depender de otros factores adicionales no incluidos en el modelo. El análisis respalda la utilidad de la regresión como herramienta para identificar los elementos que más influyen en la NotaProm y orientar intervenciones educativas basadas en evidencia.