Introducción

La regresión lineal simple es un modelo estadístico utilizado para analizar la relación entre una variable independiente (X) y una variable dependiente (Y). El objetivo es determinar si un cambio en X produce un cambio sistemático en Y, estimando una ecuación de la forma:

\[ Y = a + bX \]

donde a es la intersección y b la pendiente que representa cuánto cambia Y por unidad de cambio en X.
Este modelo permite explicar, predecir y evaluar relaciones lineales entre variables.

Contextualización del conjunto de datos

La base de datos contiene información sobre patrones de uso de redes sociales, hábitos de consumo digital, variables sociodemográficas y efectos asociados como productividad, satisfacción y niveles de adicción.
Cada registro representa un usuario con características como:
- Edad, género, país, profesión
- Nivel de adicción al uso de redes sociales
- Pérdida de productividad por uso excesivo
- Tipo de dispositivo, plataforma, hábitos de visualización
- Factores psicológicos (autocontrol, motivación, etc.)

El propósito del análisis es examinar cómo ciertos hábitos digitales pueden influir en el rendimiento o bienestar de los usuarios.


Hipótesis 1

H1: A mayor Addiction Level, mayor ProductivityLoss.

Contextualización:
El nivel de adicción (Addiction Level) mide la intensidad con la que el usuario utiliza redes sociales de forma compulsiva. La pérdida de productividad (ProductivityLoss) representa cuánto se ve afectado su rendimiento laboral o académico.
La literatura sugiere que un mayor uso problemático de redes sociales está asociado con interrupciones constantes y disminución en la eficiencia. Por lo tanto, se espera una relación positiva entre ambas variables.

Paso 1: Diagrama de dispersión y correlación

plot(data$Addiction.Level, data$ProductivityLoss,
     xlab="Addiction Level", ylab="Productivity Loss")

cor(data$Addiction.Level, data$ProductivityLoss)
## [1] -0.9949392

Gráfica del modelo de regresión

modelo1 <- lm(ProductivityLoss ~ Addiction.Level, data=data)
plot(data$Addiction.Level, data$ProductivityLoss,
     xlab="Addiction Level", ylab="Productivity Loss",
     main="Modelo de Regresión Lineal")
abline(modelo1, col="red", lwd=2)

Paso 2: ¿El modelo es válido? (ANOVA)

El análisis ANOVA evalúa si el modelo de regresión explica una proporción significativa de la variabilidad en la variable dependiente. En otras palabras, determina si la relación entre Addiction.Level y ProductivityLoss es estadísticamente significativa.

  • Si el valor p es menor a 0.05, concluimos que el modelo sí es válido y existe evidencia suficiente para afirmar que Addiction.Level predice ProductivityLoss.
  • Si es mayor a 0.05, el modelo no sería significativo.
anova(modelo1)
## Analysis of Variance Table
## 
## Response: ProductivityLoss
##                  Df Sum Sq Mean Sq F value    Pr(>F)    
## Addiction.Level   1 4454.1  4454.1   97854 < 2.2e-16 ***
## Residuals       998   45.4     0.0                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Paso 3: R²

En este modelo, R² indica qué porcentaje de la variación en ProductivityLoss puede explicarse mediante las diferencias entre tipos de dispositivo.

Como suele resultar muy bajo, confirma que DeviceType no es un predictor útil para explicar la pérdida de productividad. El coeficiente de determinación indica qué proporción de la variabilidad de ProductivityLoss es explicada por Addiction.Level.

  • Un R² cercano a 1 indica que el modelo explica bien la variabilidad.
  • Un R² cercano a 0 indica que explica muy poco.

Este valor permite cuantificar qué tan útil es el modelo para predecir la pérdida de productividad en función del nivel de adicción.

summary(modelo1)$r.squared
## [1] 0.9899041

Paso 4: Tabla de coeficientes

summary(modelo1)$coefficients
##                  Estimate  Std. Error   t value Pr(>|t|)
## (Intercept)      8.116862 0.011675703  695.1926        0
## Addiction.Level -1.025761 0.003279123 -312.8158        0

Paso 5: Ecuación del modelo

Ecuación estimada (interpretada):

La ecuación del modelo tiene la forma:

ProductivityLoss = a + b(Addiction.Level)

donde: - a corresponde al intercepto del modelo (valor de ProductivityLoss cuando Addiction.Level = 0). - b es la pendiente, indicando cuánto aumenta ProductivityLoss por cada unidad adicional en Addiction.Level.

Esto significa que el modelo describe cómo la pérdida de productividad cambia en función del nivel de adicción, estimando un incremento lineal según la pendiente calculada.

a1 <- coef(modelo1)[1]
b1 <- coef(modelo1)[2]
paste0("ProductivityLoss = ", round(a1,4), " + ", round(b1,4), "(Addiction.Level)")
## [1] "ProductivityLoss = 8.1169 + -1.0258(Addiction.Level)"
summary(modelo1)
## 
## Call:
## lm(formula = ProductivityLoss ~ Addiction.Level, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.11686 -0.06534 -0.03958  0.01194  2.96042 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      8.116862   0.011676   695.2   <2e-16 ***
## Addiction.Level -1.025761   0.003279  -312.8   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2133 on 998 degrees of freedom
## Multiple R-squared:  0.9899, Adjusted R-squared:  0.9899 
## F-statistic: 9.785e+04 on 1 and 998 DF,  p-value: < 2.2e-16

Hipótesis 2

H2: El tipo de dispositivo (DeviceType) no afecta la ProductivityLoss.

Contextualización:
DeviceType indica si el usuario accede desde smartphone, computador o tablet.
No se espera correlación lineal porque esta variable es categórica y no representa una magnitud continua relacionada con la productividad. El comportamiento del usuario es más relevante que el hardware.

Paso 1: Gráfica de dispersión (jitter) para mostrar ausencia de patrón

Como DeviceType es categórica, se usa jitter para dispersar los puntos horizontalmente y visualizar la ausencia de tendencia.

ggplot(data, aes(x = DeviceType, y = ProductivityLoss)) +
  geom_jitter(width = 0.2) +
  xlab("Device Type") + 
  ylab("Productivity Loss") +
  ggtitle("Dispersión con jitter: DeviceType vs ProductivityLoss")

Gráfica del modelo de regresión (categorías)

modelo2 <- lm(ProductivityLoss ~ DeviceType, data=data)
plot(modelo2, which=1)

Paso 2: ANOVA del modelo

El ANOVA en este caso evalúa si existen diferencias significativas en ProductivityLoss entre los distintos tipos de dispositivo.

  • Un valor p mayor a 0.05 indica que DeviceType no tiene un efecto significativo sobre ProductivityLoss.
  • Esto respalda la hipótesis de que el tipo de dispositivo no explica la pérdida de productividad.
anova(modelo2)
## Analysis of Variance Table
## 
## Response: ProductivityLoss
##             Df Sum Sq Mean Sq F value Pr(>F)
## DeviceType   2   12.2  6.0816  1.3512 0.2594
## Residuals  997 4487.3  4.5008

Paso 3: R²

En este modelo, R² indica qué porcentaje de la variación en ProductivityLoss puede explicarse mediante las diferencias entre tipos de dispositivo.

Como suele resultar muy bajo, confirma que DeviceType no es un predictor útil para explicar la pérdida de productividad.

summary(modelo2)$r.squared
## [1] 0.002703219

Paso 4: Coeficientes

summary(modelo2)$coefficients
##                         Estimate Std. Error    t value      Pr(>|t|)
## (Intercept)           5.14393939  0.1846545 27.8570971 8.859282e-127
## DeviceTypeSmartphone  0.07315462  0.2044286  0.3578493  7.205319e-01
## DeviceTypeTablet     -0.17927508  0.2236098 -0.8017318  4.228991e-01

Ecuación del modelo (interpretación)

En el caso del modelo con DeviceType, debido a que es una variable categórica, la ecuación toma la forma:

ProductivityLoss = a + b₁(DeviceType_categoria1) + b₂(DeviceType_categoria2)

Cada coeficiente b representa la diferencia en ProductivityLoss respecto a la categoría de referencia. No se interpreta como una pendiente lineal, sino como cambios promedio entre grupos.

a2 <- coef(modelo2)[1]
b2 <- coef(modelo2)[2]
paste0("ProductivityLoss = ", round(a2,4), " + ", round(b2,4), "(DeviceType)")
## [1] "ProductivityLoss = 5.1439 + 0.0732(DeviceType)"

Paso 5: Explicación final

La dispersión no muestra ningún patrón definido entre DeviceType y ProductivityLoss.
El ANOVA no es significativo y el R² es bajo, confirmando que el tipo de dispositivo no explica la pérdida de productividad.

Bibliografía