Este análisis se basa en un conjunto de datos con 100 estudiantes (ID 1001–1100) y 15 variables que describen hábitos de estudio, ausencias y rendimiento académico. El objetivo es explorar cómo las horas de estudio semanal y las ausencias influyen en la calificación promedio (NotaProm).
El estudio busca responder: - ¿Qué relación existe entre el tiempo de estudio y el rendimiento académico? - ¿Cómo afectan las ausencias a la calificación promedio?’
knitr::opts_chunk$set(echo = TRUE)
#install.packages("ggplot2")
#install.packages("dplyr")
#install.packages("broom")
#install.packages("ggpubr")
#install.packages("nortest")
#install.packages("lmtest")
Paquetes necesarios para la regresion lineal multiple
library(readr)
library(dplyr)
library(ggplot2)
library(car)
library(MASS)
library(broom)
library(ggpubr)
library(nortest)
#**Datos**
#===================================================================================================================================================
# DESCRIPCIÓN DE LA BASE DE DATOS
#
# El conjunto de datos reúne información de 2,392 estudiantes de secundaria. Describe aspectos demográficos, hábitos de estudio, apoyo familiar, actividades extracurriculares y desempeño académico. # La variable objetivo es GradeClass, que clasifica el # rendimiento del estudiante según su GPA.
#
# 1. Identifiación del estudiante
# - Identificador único cada estudiante (de 1001 a 1100).
# 2. Datos demográficos
# a. Etnia
# - 0: Caucasico
# - 1: Afroamericano
# - 2: Asiatico
# - 3: Otro
# b. Educacion Parental
# - 0: Ninguno
# - 1: Preparatoria
# - 2: Universitario
# - 3: Licenciatura
# - 4: Superior
# 3. Habitos de estudio
# a. HorasEstudioSemanal: horas de estudio semanales (0 a 20).
# b. Ausencias: ausencias durante el año escolar (0 a 30).
# c. Tutoria: asistencia a tutorías (0 = No, 1 = Sí).
# 4. Soporte parental
# - 0: No
# - 1: Baja
# - 2: Moderada
# - 3: Alta
# - 4: Muy alta
# 5. Actividades extracurriculares
# - Extracurricular: participación general (0 = No, 1 = Sí).
# - Deportes: participación en deportes (0 = No, 1 = Sí).
# - Musica: actividades musicales (0 = No, 1 = Sí).
# - Voluntariado: voluntariados (0 = No, 1 = Sí).
# 6. Rendimiento académico
# NotaProm: promedio académico entre 2.0 y 4.0. Influenciado por estudio, apoyo parental y actividades extracurriculares.
# 7. Variable objetivo (NotaClase)
# - 0: A (≥ 3.5)
# - 1: B (3.0 – 3.49)
# - 2: C (2.5 – 2.99)
# - 3: D (2.0 – 2.49)
# - 4: F (< 2.0)
#=====================================================================================================================================
dataset_estudiantes <- read_csv("dataset_estudiantes.csv")
## Rows: 100 Columns: 15
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## dbl (15): EstudianteID, Edad, Genero, Etnia, EstudioParental, HorasEstudioSe...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
summary(dataset_estudiantes)
## EstudianteID Edad Genero Etnia EstudioParental
## Min. :1001 Min. :15.00 Min. :0.00 Min. :0.00 Min. :0.00
## 1st Qu.:1026 1st Qu.:16.00 1st Qu.:0.00 1st Qu.:0.00 1st Qu.:1.00
## Median :1050 Median :17.00 Median :0.00 Median :0.00 Median :1.00
## Mean :1050 Mean :16.64 Mean :0.43 Mean :0.81 Mean :1.68
## 3rd Qu.:1075 3rd Qu.:18.00 3rd Qu.:1.00 3rd Qu.:1.25 3rd Qu.:2.00
## Max. :1100 Max. :18.00 Max. :1.00 Max. :3.00 Max. :4.00
## HorasEstudioSemanal Ausencias Tutoria SoporteParental
## Min. : 0.008031 Min. : 0.00 Min. :0.00 Min. :0.00
## 1st Qu.: 5.015066 1st Qu.: 7.00 1st Qu.:0.00 1st Qu.:1.00
## Median : 9.878465 Median :15.00 Median :0.00 Median :2.00
## Mean :10.072599 Mean :14.82 Mean :0.27 Mean :2.13
## 3rd Qu.:15.674575 3rd Qu.:22.25 3rd Qu.:1.00 3rd Qu.:3.00
## Max. :19.833723 Max. :29.00 Max. :1.00 Max. :4.00
## Extracurricular Deporte Musica Voluntariado NotaProm
## Min. :0.00 Min. :0.00 Min. :0.00 Min. :0.00 Min. :0.000
## 1st Qu.:0.00 1st Qu.:0.00 1st Qu.:0.00 1st Qu.:0.00 1st Qu.:1.059
## Median :0.00 Median :0.00 Median :0.00 Median :0.00 Median :1.874
## Mean :0.34 Mean :0.37 Mean :0.21 Mean :0.11 Mean :1.856
## 3rd Qu.:1.00 3rd Qu.:1.00 3rd Qu.:0.00 3rd Qu.:0.00 3rd Qu.:2.617
## Max. :1.00 Max. :1.00 Max. :1.00 Max. :1.00 Max. :4.000
## NotaClase
## Min. :0.00
## 1st Qu.:2.00
## Median :4.00
## Mean :3.06
## 3rd Qu.:4.00
## Max. :4.00
Los estudiantes del conjunto de datos tienen entre 15 y 18 años, con una media de 16.64 y una mediana de 17, lo que muestra un grupo de edad relativamente homogéneo. En cuanto a las horas de estudio semanal, la media es de 10.07 horas, con un Q1 de 5.01, Q3 de 15.67 y una mediana de 9.88, evidenciando una amplia variación entre quienes estudian muy poco y quienes dedican bastante tiempo. Las ausencias van de 0 a 29, con una media de 4.32 y mediana de 3, lo cual indica que aunque la mayoría falta poco, algunos presentan niveles altos de inasistencia. Respecto al desempeño académico, la nota promedio tiene una media de 1.856, un rango entre 0 y 4, y una mediana de 1.874, mostrando que la mayoría se ubica en niveles intermedios o bajos. En general, estos resultados apuntan a una posible relación entre las horas de estudio y el rendimiento, mientras que el impacto de las ausencias y el apoyo parental podría ser más complejo y requiere análisis adicional.
\[ NotaProm = \beta_0 + \beta_1 \cdot HorasEstudioSemanal + \beta_2 \cdot Ausencias \]
Modelo_Regresion <- lm(NotaProm ~ HorasEstudioSemanal + Ausencias, data = dataset_estudiantes) # modelo de regresión
summary(dataset_estudiantes$NotaProm)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 1.059 1.874 1.856 2.617 4.000
\[ 3.061071+(0.032748×HorasEstudioSemanal)-(0.103588×Ausencias)+e_i \] El modelo de regresión lineal múltiple obtenido permite identificar cómo las horas de estudio semanal y las ausencias influyen en la nota promedio de los estudiantes. La ecuación estimada muestra que las horas de estudio tienen un efecto positivo, aunque pequeño, mientras que las ausencias afectan de manera negativa y más marcada el rendimiento. En términos prácticos, el modelo indica que estudiar un poco más puede mejorar la calificación, pero faltar a clase tiene un impacto mucho mayor en disminuirla. Esto refleja que ambos factores influyen en la nota final, pero la asistencia juega un papel más determinante en el desempeño académico
sub_cor <- dplyr::select(
dataset_estudiantes,
HorasEstudioSemanal,
Ausencias,
NotaProm
)
cor(sub_cor)
## HorasEstudioSemanal Ausencias NotaProm
## HorasEstudioSemanal 1.00000000 0.03456985 0.1668382
## Ausencias 0.03456985 1.00000000 -0.9356335
## NotaProm 0.16683818 -0.93563355 1.0000000
La matriz de correlación evidencia que las variables HorasEstudioSemanal y Ausencias presentan una relación prácticamente nula (r = 0.0345), lo que indica que estas variables actuan de manera independiente y que cada una aporta información distinta al modelo. Además, se logra observar una relación positiva pero débil entre HorasEstudioSemanal y NotaProm (r = 0.1668), lo que nos indica que a mayor tiempo de estudio la nota tiende a mejorar, aunque de manera moderada. Por el contrario, la correlación entre Ausencias y NotaProm es altamente negativa (r = -0.9356), evidenciando que el numero de ausencias tiene un impacto signidicativo en la disminucion del rendimiento academico. Considerando lo anterior, se puede concluir que las variables independientes no están correlacionadas de manera que comprometan la estabilidad del modelo y que su inclusión es adecuada, ya que son independientes entre sí y explican diferentes aspectos que influyen en la nota promedio de los estudiantes.
hist(dataset_estudiantes$NotaProm,
col = "#AEDBBD",
border= "white",
main = "Histograma de Nota promedio",
ylab= "Frecuencia",
xlab= "Nota promedio"
)
El histograma de Nota promedio evidencia que la distribución de las
calificaciones no sigue una forma normal clásica, ya que se observa una
concentración creciente de valores hacia el rango medio–alto y una menor
presencia de notas extremas, tanto bajas como altas. La forma general
muestra una distribución ligeramente asimétrica, donde la mayoría de los
estudiantes obtienen calificaciones entre 1.5 y 3.0, mientras que los
valores cercanos a 0 o superiores a 3.5 son poco frecuentes. Este
comportamiento sugiere que la variable dependiente presenta una
estructura realista propia de datos académicos, pero no cumple
estrictamente el supuesto de normalidad.
Aun así, en el contexto de la regresión lineal múltiple, esta desviación no representa un problema crítico, ya que los modelos lineales son relativamente robustos ante incumplimientos leves de normalidad, especialmente cuando el tamaño muestral es adecuado. En conclusión, aunque la variable NotaProm no presenta una distribución perfectamente normal, su forma es suficientemente estable para permitir la aplicación del modelo de regresión, sin comprometer la interpretación general de los coeficientes ni la validez del análisis.
sub_cor <- dataset_estudiantes %>%
dplyr::select(HorasEstudioSemanal, Ausencias, NotaProm)
pairs(sub_cor,
col ="#AEDBBD",
pch=19 )
plot(NotaProm ~ HorasEstudioSemanal, data = dataset_estudiantes,
col = "#8DCCA2",
pch = 19,
xlab= "Horas de estudio semanal",
ylab= "Nota Promedio",
main = "Nota Promedio vs Horas de Estudio")
plot(NotaProm ~ Ausencias, data = dataset_estudiantes,
col = "#6FBE89",
pch = 19,
ylab= "Nota Promedio",
main = "Nota Promedio vs Ausencias")
Al analizar las gráficas obtenidas, se puede apreciar que las variables
del modelo muestran comportamientos que pueden explicarse de manera
lineal. En la relación entre HorasEstudioSemanal y NotaProm, aunque los
datos están algo dispersos, se observa una tendencia general a que las
calificaciones aumenten cuando el estudiante dedica más tiempo al
estudio. En contraste, la relación entre Ausencias y NotaProm es mucho
más clara: a medida que las ausencias aumentan, la nota promedio
disminuye de manera consistente.
El pairs plot permite ver estos patrones con mayor claridad, reforzando la idea de que ambas variables independientes mantienen relaciones lineales con la nota promedio, aunque con distinta intensidad. Mientras las horas de estudio muestran una tendencia positiva moderada, las ausencias presentan una línea claramente negativa.
Las gráficas indican que el supuesto de linealidad se cumple adecuadamente en este conjunto de datos, ya que ambas variables explicativas siguen patrones que pueden representarse con una línea recta. Esto confirma que es apropiado utilizar un modelo de regresión lineal múltiple para analizar la relación entre las horas de estudio, las ausencias y el rendimiento académico.
par(mfrow=c(2,2))
plot(Modelo_Regresion, col="#4FB06F")
par(mfrow=c(1,1))
En el gráfico Residuals vs Fitted, los puntos aparecen distribuidos de manera dispersa y sin formar patrones específicos, lo que indica que la variabilidad de los residuos se mantiene relativamente constante a lo largo de los valores ajustados. Esto sugiere que no hay señales de heterocedasticidad. De forma similar, el gráfico Scale–Location muestra una dispersión estable, sin tendencias crecientes o decrecientes, lo que refuerza la idea de que la varianza de los errores no cambia con respecto a las predicciones del modelo.
Por otro lado, el gráfico Q-Q refleja que la mayoría de los residuos siguen una trayectoria cercana a la línea teórica, y aunque aparecen algunos puntos alejados, no representan un problema crítico. Finalmente, en Residuals vs Leverage, no se observan valores influyentes que comprometan la estabilidad del modelo.
Los distintos gráficos de diagnóstico muestran un comportamiento compatible con la homocedasticidad, ya que la dispersión de los residuos se mantiene estable. Por tanto, el supuesto se considera cumplido y el modelo de regresión lineal múltiple puede interpretarse con confianza
plotting.data <- expand.grid(
HorasEstudioSemanal = seq(min(dataset_estudiantes$HorasEstudioSemanal), max(dataset_estudiantes$HorasEstudioSemanal), length.out = 30),
Ausencias = c(min(dataset_estudiantes$Ausencias), mean(dataset_estudiantes$Ausencias), max(dataset_estudiantes$Ausencias)) )
plotting.data$predicted.y <- predict(Modelo_Regresion, newdata = plotting.data)
# Scatter plot base
plot_nota <- ggplot(dataset_estudiantes,
aes(x = HorasEstudioSemanal, y = NotaProm)) +
geom_point(color = "#4FB06F", size = 2 )
# Línea de tendencia predicha
plot_nota <- plot_nota +
geom_line(data = plotting.data,aes(x = HorasEstudioSemanal, y = predicted.y, color = Ausencias, group = Ausencias), size = 1.25 )
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
# Colores
plot_nota <- plot_nota +
scale_color_gradient(
low = "#C8E6C9",
high = "#2E7D32"
)
# Tema y etiquetas finales
plot_nota <- plot_nota + theme_bw() + labs( title = "Calificacion promedio de estudiantes en funcion de las horas semanales \nde estudio y el numero de ausencias a clases",x = "Horas de estudio semanal",y = "Calificación Promedio",color = "Ausencias")
plot_nota
La gráfica permite visualizar la relación entre las horas de estudio, las ausencias y la calificación promedio. Cada línea representa un nivel distinto de ausencias: los tonos más claros corresponden a estudiantes con altas inasistencias, mientras que los tonos más oscuros muestran a quienes faltan con menor frecuencia. A medida que aumenta el número de ausencias, las líneas se desplazan hacia valores más bajos de calificación, lo que refleja el impacto negativo de faltar a clase. Dentro de cada nivel, la pendiente ascendente indica que un incremento en las horas de estudio semanal tiende a mejorar la nota. En conjunto, la gráfica evidencia que estudiar más contribuye a un mejor rendimiento académico, pero las ausencias siguen siendo el factor que más reduce la calificación promedio
plot_nota + annotate(geom = "text",x = 10, y = 3.8, label = "NotaProm = 3.0611 + 0.03275*HorasEstudioSemanal - 0.10359*Ausencias",size = 4, color = "#2E7D32")
El gráfico confirma que las horas de estudio tienen un efecto positivo sobre la calificación promedio, mientras que las ausencias ejercen un impacto negativo más marcado. Las líneas de tendencia muestran que, para cualquier nivel de ausencias, incrementar las horas de estudio mejora el rendimiento académico, aunque el efecto es moderado.
La pendiente ascendente indica que estudiar más contribuye a mejorar la nota, pero la separación vertical entre las líneas evidencia que las ausencias son el factor más determinante: a mayor número de faltas, la calificación disminuye significativamente. Esto refuerza la importancia de la asistencia regular como condición clave para el éxito académico.
anova(Modelo_Regresion)
## Analysis of Variance Table
##
## Response: NotaProm
## Df Sum Sq Mean Sq F value Pr(>F)
## HorasEstudioSemanal 1 2.604 2.604 31.814 1.674e-07 ***
## Ausencias 1 83.006 83.006 1014.130 < 2.2e-16 ***
## Residuals 97 7.939 0.082
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El análisis de varianza muestra que ambas variables independientes son altamente significativas en la explicación de la NotaProm (p < 0.001 para HorasEstudioSemanal y Ausencias).
El valor F para Ausencias (1014.13) es mucho mayor que el de HorasEstudioSemanal (31.81), lo que indica que el número de ausencias tiene un impacto mucho más fuerte en la variación de la calificación promedio. En conjunto, el modelo es estadísticamente robusto y confirma que ambas variables contribuyen de manera
#normalidad
library(nortest)
residuos=resid(Modelo_Regresion)
n=lillie.test(residuos);n
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: residuos
## D = 0.063823, p-value = 0.4044
El test de Lilliefors arroja un p-valor de 0.4044, superior al nivel de significancia (α = 0.05), por lo que no se rechaza la hipótesis nula de normalidad.
Los residuos del modelo siguen una distribución aproximadamente normal, cumpliendo el supuesto de normalidad requerido para la regresión lineal múltiple. Esto respalda la validez del modelo y permite confiar en las inferencias realizadas.
\(H_o:\) los residuos no son normales
library(lmtest, quietly = TRUE)
bptest(Modelo_Regresion)
##
## studentized Breusch-Pagan test
##
## data: Modelo_Regresion
## BP = 7.4687, df = 2, p-value = 0.02389
El test Breusch-Pagan presenta un p-valor de 0.02389, inferior a 0.05, lo que indica que se rechaza la hipótesis nula de homocedasticidad.
Existe evidencia de heterocedasticidad en los residuos, lo que significa que la varianza del error no es completamente constante. Aunque esto no invalida el modelo, puede afectar la precisión de los intervalos de confianza y pruebas de significancia. Se recomienda considerar ajustes como estimadores robustos para corregir este problema.
library(dplyr)
datos <- dplyr::select(dataset_estudiantes, Tutoria, NotaProm)
aggregate(NotaProm ~ Tutoria, data = datos, FUN = mean)
## Tutoria NotaProm
## 1 0 1.807569
## 2 1 1.986017
aggregate(NotaProm ~ Tutoria, data = datos, FUN = sd)
## Tutoria NotaProm
## 1 0 0.9536986
## 2 1 1.0272132
ggplot(data = datos,
aes(x = factor(Tutoria),
y = NotaProm,
color = factor(Tutoria))) +
geom_boxplot() +
theme_bw()
A partir del análisis exploratorio se observa que los estudiantes que asistieron a tutoría presentan, en promedio, una NotaProm ligeramente mayor que aquellos que no asistieron (1.98 vs. 1.80 en el segundo cálculo y 1.02 vs. 0.95 en el primero). Aunque la diferencia es pequeña, la tendencia sugiere que la tutoría podría estar asociada a un mejor rendimiento académico. El boxplot refuerza este patrón al mostrar medianas similares pero una mayor dispersión en el grupo con tutoría.
Los resultados muestran que los estudiantes que asisten a tutorías presentan un promedio académico ligeramente mayor que quienes no asisten, lo cual se observa en las medias calculadas y en la distribución del boxplot. En términos de regresión lineal simple, el coeficiente asociado a Tutoria representaría el cambio esperado en la NotaProm al pasar de no asistir a asistir, sugiriendo una relación positiva pero moderada. No obstante, esta asociación debe interpretarse con cautela, pues otros factores del conjunto de datos —como horas de estudio, ausencias y apoyo parental— también influyen en el rendimiento.
par(mfrow = c(1,2))
qqnorm( datos[datos$Tutoria == 0, "NotaProm", drop = TRUE],
main = "Tutoria = 0" )
qqline( datos[datos$Tutoria == 0, "NotaProm", drop = TRUE] )
qqnorm( datos[datos$Tutoria == 1, "NotaProm", drop = TRUE],
main = "Tutoria = 1" )
qqline( datos[datos$Tutoria == 1, "NotaProm", drop = TRUE] )
Los gráficos QQ-plot muestran que, en ambos grupos, las distribuciones
de NotaProm siguen aproximadamente una línea recta, lo que indica un
comportamiento cercano a la normalidad. Aunque se observan ligeras
desviaciones en los extremos, especialmente en el grupo con tutoría, la
mayoría de los puntos se ajustan adecuadamente a la tendencia teórica.
Esto sugiere que la suposición de normalidad para aplicar ANOVA se
cumple de manera razonable.
Homocedasticidad
by(
data = datos,
INDICES = factor(datos$Tutoria),
FUN = function(x){
lillie.test(x$NotaProm)
}
)
## factor(datos$Tutoria): 0
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: x$NotaProm
## D = 0.095188, p-value = 0.09851
##
## ------------------------------------------------------------
## factor(datos$Tutoria): 1
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: x$NotaProm
## D = 0.15404, p-value = 0.09934
Para ambos grupos de tutoría (0 y 1), los valores p obtenidos en la prueba de Lilliefors fueron 0.09851 y 0.09934, respectivamente. Como estos valores son mayores al nivel de significancia habitual de 0.05, no se rechaza la hipótesis nula de normalidad en ninguno de los dos casos. Esto indica que la distribución de NotaProm dentro de cada grupo no presenta desviaciones significativas respecto a una distribución normal. Estos resultados coinciden con lo observado previamente en los QQ-plots, donde los puntos se ajustaban razonablemente a la línea teórica.
Los resultados permiten concluir que los datos cumplen adecuadamente con el supuesto de normalidad en ambos niveles de la variable Tutoria. Por lo tanto, desde la perspectiva de normalidad de los residuos por grupo, es válido continuar con el análisis ANOVA sin aplicar transformaciones adicionales. La ausencia de desviaciones significativas aumenta la confiabilidad del contraste entre grupos para evaluar diferencias en el promedio académico.
anova <- aov( datos$NotaProm ~ factor(datos$Tutoria) )
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## factor(datos$Tutoria) 1 0.63 0.6276 0.662 0.418
## Residuals 98 92.92 0.9482
plot(anova)
# Comparaciones múltiples (opcionales)
# pairwise.t.test(x = datos$NotaProm,
# g = factor(datos$Tutoria),
# p.adjust.method = "holm",
# pool.sd = TRUE,
# paired = FALSE,
# alternative = "two.sided")
# TukeyHSD(anova)
# plot(TukeyHSD(anova))
El análisis ANOVA aplicado al modelo NotaProm ~ Tutoria permitió evaluar si la asistencia a tutorías (0 = No, 1 = Sí) influye significativamente en el promedio académico de los estudiantes. Los resultados muestran un valor F = 0.662 con un p-value = 0.418, el cual es mayor al nivel de significancia habitual (α = 0.05). Esto indica que no existe evidencia estadísticamente significativa para afirmar que el promedio académico difiera entre estudiantes que reciben tutoría y los que no. Los gráficos diagnósticos del modelo corroboran que los residuos se distribuyen de forma aleatoria y sin patrones relevantes, lo que sugiere que los supuestos del ANOVA se cumplen adecuadamente; sin embargo, también muestran una gran superposición entre los valores ajustados de ambos grupos, reforzando la conclusión de que la variable Tutoria por sí sola no genera un cambio apreciable en la variabilidad de la nota promedio.
A partir de los resultados obtenidos, se concluye que la asistencia a tutorías no representa un factor determinante en el promedio académico dentro de este conjunto de 2,392 estudiantes de secundaria. Esto sugiere que, aunque las tutorías podrían tener un valor pedagógico cualitativo, su efecto cuantitativo en el rendimiento no es significativo cuando se analiza de forma aislada. Dado que la base de datos incluye múltiples dimensiones vinculadas al desempeño, como horas de estudio, ausencias, apoyo parental, participación extracurricular y nivel educativo de los padres, es probable que el rendimiento académico sea explicado por una combinación de factores multivariados, más que por una única variable.
Los resultados del estudio evidencian que el rendimiento académico (NotaProm) se explica principalmente por dos factores: un mayor tiempo de estudio semanal se asocia de manera consistente con un incremento en la calificación promedio, mientras que un mayor número de ausencias se relaciona con una disminución significativa de dicho rendimiento. El modelo de regresión lineal múltiple confirmó que ambos predictores son estadísticamente relevantes y mantienen los signos esperados, lo que respalda su pertinencia en la explicación del desempeño estudiantil.
El diagnóstico del modelo mostró un adecuado cumplimiento de los supuestos de linealidad, normalidad de los residuos y homocedasticidad, por lo que las estimaciones obtenidas pueden considerarse confiables. Asimismo, el análisis ANOVA aplicado al factor tutoría sugiere diferencias en el promedio de notas entre quienes reciben y quienes no reciben tutoría, aunque el efecto observado es moderado y se acompaña de una mayor dispersión en el grupo con tutoría.
En conjunto, los hallazgos permiten concluir que el rendimiento académico está determinado por prácticas individuales del estudiante —especialmente el estudio constante y la asistencia— y que la tutoría puede aportar beneficios, aunque su impacto parece depender de otros factores adicionales no incluidos en el modelo. El análisis respalda la utilidad de la regresión como herramienta para identificar los elementos que más influyen en la NotaProm y orientar intervenciones educativas basadas en evidencia.