Introducción

El bienestar estudiantil influye en el rendimiento académico y la calidad de vida. Una de las actividades clave para promoverlo es la práctica deportiva. Surge entonces la pregunta: ¿Cuánto tiempo por semana invierte un estudiante en actividades deportivas y cómo influye el rendimiento académico en esta práctica?

Para responder a esto, se realizó un seguimiento a 20 estudiantes de jornada diurna, considerando las siguientes variables:
- Y: Tiempo semanal en horas dedicado a actividades deportivas.
- X1: Número de créditos matriculados por semestre.
- X2: Promedio acumulado como indicador de rendimiento académico.
- X3: Tiempo semanal en horas dedicado al ocio.

El objetivo es ajustar un modelo de regresión lineal múltiple para analizar la relación entre el tiempo dedicado al deporte y estas variables, proporcionando información útil para el bienestar universitario.

Descripción de los Datos

La muestra utilizada consta de 20 estudiantes seleccionados aleatoriamente. Se recolectaron datos sobre el tiempo dedicado a actividades deportivas y factores académicos y de ocio. A continuación, se cargan y visualizan los datos para explorar sus características principales.

# Cargar librerías necesarias
library(ggplot2)
library(gridExtra)
library(plotly)
library(readxl)
library(tidyr)

# Importar datos
basePunto2 <- read_xlsx("data_2.xlsx")

# Visualizar las primeras filas 
head(basePunto2)
## # A tibble: 6 × 4
##       Y    X1    X2    X3
##   <dbl> <dbl> <dbl> <dbl>
## 1   4      18   4.2    10
## 2   3      18   4      15
## 3   5.5    15   3.5    10
## 4   0      18   4.6     5
## 5   2      18   4.3     5
## 6   2      18   4       0

# Resumen estadístico de las variables
summary(basePunto2)
##        Y                X1             X2              X3      
##  Min.   : 0.000   Min.   :15.0   Min.   :3.400   Min.   : 0.0  
##  1st Qu.: 2.000   1st Qu.:15.0   1st Qu.:3.500   1st Qu.: 5.0  
##  Median : 3.500   Median :18.0   Median :3.900   Median : 5.5  
##  Mean   : 3.625   Mean   :17.2   Mean   :3.910   Mean   : 6.7  
##  3rd Qu.: 5.000   3rd Qu.:18.0   3rd Qu.:4.225   3rd Qu.:10.0  
##  Max.   :10.000   Max.   :19.0   Max.   :4.600   Max.   :15.0

Modelo de regresión lineal múltiple.

El modelo ajustado es:

\[ \hat{Y} = 28.16 - 0.92X_1 - 2.39X_2 + 0.09X_3 \]

donde: 1. \(Y\) = Tiempo dedicado a la práctica deportiva (horas por semana). 2. \(X_1\) = Número de créditos matriculados. 3. \(X_2\) = Promedio acumulado. 4. \(X_3\) = Tiempo dedicado al ocio.

# Ajustar el modelo de regresión lineal múltiple
modelo <- lm(Y ~ X1 + X2 + X3, data = basePunto2)

# Resumen del modelo
summary(modelo)
## 
## Call:
## lm(formula = Y ~ X1 + X2 + X3, data = basePunto2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.9933 -0.8221 -0.1401  0.6748  2.8244 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 28.15755    4.27567   6.586 6.27e-06 ***
## X1          -0.91859    0.22835  -4.023 0.000984 ***
## X2          -2.39382    0.92233  -2.595 0.019522 *  
## X3           0.09359    0.09322   1.004 0.330308    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.284 on 16 degrees of freedom
## Multiple R-squared:  0.7775, Adjusted R-squared:  0.7357 
## F-statistic: 18.63 on 3 and 16 DF,  p-value: 1.799e-05

Significancia del modelo en general

El valor de \(p\)-valor = 1.799 ^{-5} del estadístico F (18.63, 3 y 16 grados de libertad) es muy pequeño, lo que indica que el modelo es significativo en su conjunto. Es decir, al menos una de las variables explicativas (\(X_1, X_2, X_3\)) tiene un efecto significativo en el tiempo dedicado a la actividad deportiva.

Significancia de las variables individuales

Observamos los \(p\)-valores de cada coeficiente:

Variable Coeficiente \(p\)-valor Interpretación
Intercepto \(28.16\) \(6.27 \times 10^{-6}\) (***) Cuando \(X_1, X_2, X_3 = 0\), el tiempo estimado en deportes es 28.16 horas por semana.
\(X_1\) (Créditos matriculados) \(-0.92\) 0.00098 (*)** Significativo. Por cada crédito adicional matriculado, el tiempo en deportes disminuye en 0.92 horas.
\(X_2\) (Promedio acumulado) \(-2.39\) 0.0195 ( )** Significativo. Un mayor rendimiento académico reduce el tiempo en deportes (cada punto adicional en promedio reduce ~2.39 horas).
\(X_3\) (Tiempo en ocio) \(0.093\) 0.3303 (no significativo) No significativo. No hay evidencia de que el tiempo en ocio afecte la práctica deportiva.

Coeficiente de Determinación \(R^2\)


# Gráficos de diagnóstico del modelo
par(mfrow = c(2, 2))
plot(modelo)

Evaluación de Supuestos del Modelo de Regresión Múltiple

1. Linealidad

Se evalúa con el gráfico “Residuals vs Fitted” (arriba a la izquierda).
Si la relación entre las variables independientes (\(X_i\)) y la variable dependiente (\(Y\)) es lineal, los residuos estarán distribuidos de manera aleatoria alrededor de la línea roja (promedio cero).
En nuestro caso, no se observan patrones claros, lo que sugiere que el supuesto de linealidad se cumple.


2. Normalidad de los residuos

Se evalúa con el gráfico Q-Q (arriba a la derecha).
Si los residuos siguen una distribución normal, los puntos deben alinearse con la diagonal.
Se observan algunas desviaciones en los extremos, pero en general, el supuesto se cumple razonablemente.


3. Homocedasticidad (Varianza constante de los residuos)

Se evalúa con el gráfico “Scale-Location” (abajo a la izquierda).
La línea roja debe ser aproximadamente horizontal, sin un patrón en abanico (indicador de heterocedasticidad).
En nuestro caso, la varianza parece constante, lo que sugiere que no hay heterocedasticidad significativa.


4. Identificación de valores atípicos e influencia

Se analiza con el gráfico “Residuals vs Leverage” (abajo a la derecha).
Los puntos con valores altos de Leverage y dentro de las curvas de Cook pueden ser observaciones influyentes.
En este modelo, los puntos 8, 10 y 14 podrían requerir un análisis más detallado, pero no parecen ser lo suficientemente influyentes para invalidar el modelo.


Conclusión Supuestos del Modelo

El modelo de regresión cumple con los principales supuestos, por lo que sus resultados son confiables.
No obstante, se recomienda analizar las observaciones atípicas identificadas para asegurar que no distorsionen los resultados.


Conclusión General

Análisis de la Relación entre Créditos Matriculados, Rendimiento Académico y Tiempo en Deportes

El objetivo de este estudio es analizar los factores que influyen en el tiempo que los estudiantes de una universidad dedican a la práctica deportiva. Se ajustó un modelo de regresión lineal múltiple para explicar la variable dependiente \(Y\) (horas semanales en deporte) en función de tres predictores: número de créditos matriculados (\(X_1\)), promedio acumulado (\(X_2\)) y tiempo dedicado al ocio (\(X_3\)).

Los resultados muestran que el modelo es estadísticamente significativo en su conjunto (\(p\)-valor < 0.001). En particular, encontramos que el número de créditos matriculados y el promedio acumulado son factores que influyen significativamente en la práctica deportiva:

  • Los estudiantes con más créditos matriculados dedican menos tiempo al deporte (\(p < 0.001\)). Esto sugiere que una mayor carga académica reduce la posibilidad de practicar actividades deportivas.
  • Los estudiantes con mejor rendimiento académico también dedican menos tiempo al deporte (\(p = 0.019\)). Una posible interpretación es que estos estudiantes priorizan el estudio sobre otras actividades extracurriculares.
  • El tiempo de ocio no tiene un efecto significativo en la cantidad de tiempo dedicado al deporte (\(p = 0.33\)), lo que indica que los estudiantes no necesariamente destinan su tiempo libre a actividades deportivas.

El coeficiente de determinación (\(R^2 = 77.75\%\)) indica que el modelo explica una gran parte de la variabilidad del tiempo deportivo, lo que refuerza su utilidad para entender estos patrones de comportamiento.

Recomendaciones

Dado que la carga académica y el rendimiento influyen en la actividad deportiva, la universidad podría considerar estrategias para promover el deporte sin afectar el desempeño académico, como horarios flexibles o incentivos para la actividad física.