La regresión lineal simple es un modelo estadístico utilizado para analizar la relación entre una variable independiente (X) y una variable dependiente (Y). El objetivo es determinar si un cambio en X produce un cambio sistemático en Y, estimando una ecuación de la forma:
\[ Y = a + bX \]
donde a es la intersección y b la
pendiente que representa cuánto cambia Y por unidad de cambio en
X.
Este modelo permite explicar, predecir y evaluar relaciones lineales
entre variables.
La base de datos contiene información sobre patrones de uso de redes
sociales, hábitos de consumo digital, variables sociodemográficas y
efectos asociados como productividad, satisfacción y niveles de
adicción.
Cada registro representa un usuario con características como:
- Edad, género, país, profesión
- Nivel de adicción al uso de redes sociales
- Pérdida de productividad por uso excesivo
- Tipo de dispositivo, plataforma, hábitos de
visualización
- Factores psicológicos (autocontrol, motivación,
etc.)
El propósito del análisis es examinar cómo ciertos hábitos digitales pueden influir en el rendimiento o bienestar de los usuarios.
Contextualización:
El nivel de adicción (Addiction Level) mide la intensidad con la que el
usuario utiliza redes sociales de forma compulsiva. La pérdida de
productividad (ProductivityLoss) representa cuánto se ve afectado su
rendimiento laboral o académico.
La literatura sugiere que un mayor uso problemático de redes sociales
está asociado con interrupciones constantes y disminución en la
eficiencia. Por lo tanto, se espera una relación positiva entre ambas
variables.
plot(data$Addiction.Level, data$ProductivityLoss,
xlab="Addiction Level", ylab="Productivity Loss")
cor(data$Addiction.Level, data$ProductivityLoss)
## [1] -0.9949392
modelo1 <- lm(ProductivityLoss ~ Addiction.Level, data=data)
plot(data$Addiction.Level, data$ProductivityLoss,
xlab="Addiction Level", ylab="Productivity Loss",
main="Modelo de Regresión Lineal")
abline(modelo1, col="red", lwd=2)
El análisis ANOVA evalúa si el modelo de regresión explica una proporción significativa de la variabilidad en la variable dependiente. En otras palabras, determina si la relación entre Addiction.Level y ProductivityLoss es estadísticamente significativa.
anova(modelo1)
## Analysis of Variance Table
##
## Response: ProductivityLoss
## Df Sum Sq Mean Sq F value Pr(>F)
## Addiction.Level 1 4454.1 4454.1 97854 < 2.2e-16 ***
## Residuals 998 45.4 0.0
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En este modelo, R² indica qué porcentaje de la variación en ProductivityLoss puede explicarse mediante las diferencias entre tipos de dispositivo.
Como suele resultar muy bajo, confirma que DeviceType no es un predictor útil para explicar la pérdida de productividad. El coeficiente de determinación R² indica qué proporción de la variabilidad de ProductivityLoss es explicada por Addiction.Level.
Este valor permite cuantificar qué tan útil es el modelo para predecir la pérdida de productividad en función del nivel de adicción.
summary(modelo1)$r.squared
## [1] 0.9899041
summary(modelo1)$coefficients
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.116862 0.011675703 695.1926 0
## Addiction.Level -1.025761 0.003279123 -312.8158 0
Ecuación estimada (interpretada):
La ecuación del modelo tiene la forma:
ProductivityLoss = a + b(Addiction.Level)
donde: - a corresponde al intercepto del modelo (valor de ProductivityLoss cuando Addiction.Level = 0). - b es la pendiente, indicando cuánto aumenta ProductivityLoss por cada unidad adicional en Addiction.Level.
Esto significa que el modelo describe cómo la pérdida de productividad cambia en función del nivel de adicción, estimando un incremento lineal según la pendiente calculada.
a1 <- coef(modelo1)[1]
b1 <- coef(modelo1)[2]
paste0("ProductivityLoss = ", round(a1,4), " + ", round(b1,4), "(Addiction.Level)")
## [1] "ProductivityLoss = 8.1169 + -1.0258(Addiction.Level)"
summary(modelo1)
##
## Call:
## lm(formula = ProductivityLoss ~ Addiction.Level, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.11686 -0.06534 -0.03958 0.01194 2.96042
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.116862 0.011676 695.2 <2e-16 ***
## Addiction.Level -1.025761 0.003279 -312.8 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2133 on 998 degrees of freedom
## Multiple R-squared: 0.9899, Adjusted R-squared: 0.9899
## F-statistic: 9.785e+04 on 1 and 998 DF, p-value: < 2.2e-16
Contextualización:
DeviceType indica si el usuario accede desde
smartphone, computador o tablet.
No se espera correlación lineal porque esta variable es categórica y no
representa una magnitud continua relacionada con la productividad. El
comportamiento del usuario es más relevante que el hardware.
Como DeviceType es categórica, se usa jitter para dispersar los puntos horizontalmente y visualizar la ausencia de tendencia.
ggplot(data, aes(x = DeviceType, y = ProductivityLoss)) +
geom_jitter(width = 0.2) +
xlab("Device Type") +
ylab("Productivity Loss") +
ggtitle("Dispersión con jitter: DeviceType vs ProductivityLoss")
modelo2 <- lm(ProductivityLoss ~ DeviceType, data=data)
plot(modelo2, which=1)
El ANOVA en este caso evalúa si existen diferencias significativas en ProductivityLoss entre los distintos tipos de dispositivo.
anova(modelo2)
## Analysis of Variance Table
##
## Response: ProductivityLoss
## Df Sum Sq Mean Sq F value Pr(>F)
## DeviceType 2 12.2 6.0816 1.3512 0.2594
## Residuals 997 4487.3 4.5008
En este modelo, R² indica qué porcentaje de la variación en ProductivityLoss puede explicarse mediante las diferencias entre tipos de dispositivo.
Como suele resultar muy bajo, confirma que DeviceType no es un predictor útil para explicar la pérdida de productividad.
summary(modelo2)$r.squared
## [1] 0.002703219
summary(modelo2)$coefficients
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.14393939 0.1846545 27.8570971 8.859282e-127
## DeviceTypeSmartphone 0.07315462 0.2044286 0.3578493 7.205319e-01
## DeviceTypeTablet -0.17927508 0.2236098 -0.8017318 4.228991e-01
En el caso del modelo con DeviceType, debido a que es una variable categórica, la ecuación toma la forma:
ProductivityLoss = a + b₁(DeviceType_categoria1) + b₂(DeviceType_categoria2)
Cada coeficiente b representa la diferencia en ProductivityLoss respecto a la categoría de referencia. No se interpreta como una pendiente lineal, sino como cambios promedio entre grupos.
a2 <- coef(modelo2)[1]
b2 <- coef(modelo2)[2]
paste0("ProductivityLoss = ", round(a2,4), " + ", round(b2,4), "(DeviceType)")
## [1] "ProductivityLoss = 5.1439 + 0.0732(DeviceType)"
La dispersión no muestra ningún patrón definido entre DeviceType y
ProductivityLoss.
El ANOVA no es significativo y el R² es bajo, confirmando que el
tipo de dispositivo no explica la pérdida de productividad.