La regresión lineal simple es un modelo estadístico utilizado para analizar la relación entre una variable independiente (X) y una variable dependiente (Y). El objetivo es determinar si un cambio en X produce un cambio sistemático en Y, estimando una ecuación de la forma:
\[ Y = a + bX \]
donde a es la intersección y b la
pendiente que representa cuánto cambia Y por unidad de cambio en
X.
Este modelo permite explicar, predecir y evaluar relaciones lineales
entre variables.
La base de datos contiene información sobre patrones de uso de redes
sociales, hábitos de consumo digital, variables sociodemográficas y
efectos asociados como productividad, satisfacción y niveles de
adicción.
Cada registro representa un usuario con características como:
- Edad, género, país, profesión
- Nivel de adicción al uso de redes sociales
- Pérdida de productividad por uso excesivo
- Tipo de dispositivo, plataforma, hábitos de
visualización
- Factores psicológicos (autocontrol, motivación,
etc.)
El propósito del análisis es examinar cómo ciertos hábitos digitales pueden influir en el rendimiento o bienestar de los usuarios.
Contextualización:
El nivel de adicción (Addiction Level) mide la intensidad con la que el
usuario utiliza redes sociales de forma compulsiva. La pérdida de
productividad (ProductivityLoss) representa cuánto se ve afectado su
rendimiento laboral o académico.
La literatura sugiere que un mayor uso problemático de redes sociales
está asociado con interrupciones constantes y disminución en la
eficiencia. Por lo tanto, se espera una relación positiva entre ambas
variables.
plot(data$Addiction.Level, data$ProductivityLoss,
xlab="Addiction Level", ylab="Productivity Loss")
cor(data$Addiction.Level, data$ProductivityLoss)
## [1] -0.9949392
modelo1 <- lm(ProductivityLoss ~ Addiction.Level, data=data)
anova(modelo1)
## Analysis of Variance Table
##
## Response: ProductivityLoss
## Df Sum Sq Mean Sq F value Pr(>F)
## Addiction.Level 1 4454.1 4454.1 97854 < 2.2e-16 ***
## Residuals 998 45.4 0.0
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(modelo1)$r.squared
## [1] 0.9899041
summary(modelo1)$coefficients
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.116862 0.011675703 695.1926 0
## Addiction.Level -1.025761 0.003279123 -312.8158 0
Ecuación estimada: ProductivityLoss = a + b(AddictionLevel)
summary(modelo1)
##
## Call:
## lm(formula = ProductivityLoss ~ Addiction.Level, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.11686 -0.06534 -0.03958 0.01194 2.96042
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.116862 0.011676 695.2 <2e-16 ***
## Addiction.Level -1.025761 0.003279 -312.8 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2133 on 998 degrees of freedom
## Multiple R-squared: 0.9899, Adjusted R-squared: 0.9899
## F-statistic: 9.785e+04 on 1 and 998 DF, p-value: < 2.2e-16
Contextualización:
DeviceType es una variable categórica que indica si el usuario
accede desde smartphone, computador o tablet. No existe
evidencia teórica fuerte de que el tipo de dispositivo determine por sí
solo la pérdida de productividad, ya que el impacto depende más del
comportamiento del usuario que del hardware.
Por lo tanto, se espera que la relación sea débil o nula, con un modelo
estadísticamente no significativo.
boxplot(ProductivityLoss ~ DeviceType, data=data,
xlab="Device Type", ylab="Productivity Loss")
modelo2 <- lm(ProductivityLoss ~ DeviceType, data=data)
anova(modelo2)
## Analysis of Variance Table
##
## Response: ProductivityLoss
## Df Sum Sq Mean Sq F value Pr(>F)
## DeviceType 2 12.2 6.0816 1.3512 0.2594
## Residuals 997 4487.3 4.5008
summary(modelo2)$r.squared
## [1] 0.002703219
summary(modelo2)$coefficients
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.14393939 0.1846545 27.8570971 8.859282e-127
## DeviceTypeSmartphone 0.07315462 0.2044286 0.3578493 7.205319e-01
## DeviceTypeTablet -0.17927508 0.2236098 -0.8017318 4.228991e-01
La variable DeviceType no presenta un patrón lineal ni diferencias significativas entre grupos. Esto confirma que el tipo de dispositivo NO explica adecuadamente la pérdida de productividad. El R² bajo y la ANOVA no significativa lo demuestran.