Análisis de Regresión Lineal para el Rendimiento Académico

En este análisis, utilizamos datos de un estudiante para construir un modelo de regresión lineal y entender cómo diferentes factores como el tiempo de estudio, horas de sueño y ejercicio influyen en el rendimiento académico, representado por el puntaje obtenido en un examen.

Hipótesis

Hipótesis Nula: No hay relación significativa entre el tiempo dedicado al estudio, las horas de sueño, el ejercicio y el puntaje del examen. Hipótesis Alternativa: Existe una relación significativa entre el tiempo dedicado al estudio, las horas de sueño, el ejercicio y el puntaje del examen.

results <- summary(model)

predictions <- predict(model, newdata = test_data)

mse <- mean((predictions - test_data$Exam_Score)^2)

coefficients <- coef(model)

plot(test_data$Exam_Score, predictions, main = "Modelo de Regresión Lineal",
     xlab = "Puntaje real del examen", ylab = "Puntaje predicho del examen")
abline(lm(predictions ~ test_data$Exam_Score), col = "red")

results
## 
## Call:
## lm(formula = Exam_Score ~ Study_Hours + Sleep_Hours + Exercise_Hours, 
##     data = train_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -12.5578  -3.1129   0.1272   2.8674  12.2689 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    82.56849    5.82536  14.174   <2e-16 ***
## Study_Hours     0.09916    0.45857   0.216   0.8294    
## Sleep_Hours     1.31160    0.65355   2.007   0.0483 *  
## Exercise_Hours -1.19906    0.62782  -1.910   0.0599 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.356 on 76 degrees of freedom
## Multiple R-squared:  0.09688,    Adjusted R-squared:  0.06123 
## F-statistic: 2.718 on 3 and 76 DF,  p-value: 0.05045

Resultados y Conclsuiones:

Coeficientes de regresión:

El coeficiente para las horas de estudio (Study_Hours) es 0.09916, pero no es estadísticamente significativo (p-value = 0.8294). Esto sugiere que no hay una relación significativa entre el tiempo de estudio y el puntaje del examen. El coeficiente para las horas de sueño (Sleep_Hours) es 1.31160, con un p-value de 0.0483, lo que indica que las horas de sueño tienen una influencia significativa y positiva en el puntaje del examen. Por cada hora adicional de sueño, se espera un aumento de aproximadamente 1.31 puntos en el puntaje del examen. El coeficiente para las horas de ejercicio (Exercise_Hours) es -1.19906, con un p-value de 0.0599, lo que sugiere una influencia negativa pero no significativa en el puntaje del examen. Sin embargo, esta relación no es tan clara como la de las horas de sueño.

Intercepto:

El intercepto (82.56849) representa el puntaje esperado en el examen cuando todas las horas de estudio, sueño y ejercicio son cero. En este caso, es importante considerar que estas variables rara vez serían cero en un contexto realista.

Bondad de ajuste:

El coeficiente de determinación ajustado (Adjusted R-squared) es 0.06123, lo que indica que aproximadamente el 6.12% de la variabilidad en el puntaje del examen puede ser explicada por las variables en el modelo. Este valor es bajo, lo que sugiere que el modelo actual no explica la mayor parte de la variabilidad en los puntajes del examen.

F-statistic:

El valor de F-statistic es 2.718 con un p-value de 0.05045. Esto indica que el modelo en su conjunto no es significativo a un nivel de significancia del 5%. Es decir, la relación global entre las variables explicativas (horas de estudio, sueño y ejercicio) y el puntaje del examen no es estadísticamente significativa.

Resumen:

En resumen, los resultados sugieren que las horas de sueño tienen una influencia positiva significativa en el puntaje del examen, mientras que las horas de estudio y ejercicio no parecen tener una influencia significativa en este contexto específico. Sin embargo, el modelo en general tiene una capacidad limitada para explicar la variabilidad en los puntajes del examen, como se refleja en el bajo coeficiente de determinación ajustado y la falta de significancia global del modelo.