Introducción

La regresión lineal simple es un modelo estadístico utilizado para analizar la relación entre una variable independiente (X) y una variable dependiente (Y). El objetivo es determinar si un cambio en X produce un cambio sistemático en Y, estimando una ecuación de la forma:

\[ Y = a + bX \]

donde a es la intersección y b la pendiente que representa cuánto cambia Y por unidad de cambio en X.
Este modelo permite explicar, predecir y evaluar relaciones lineales entre variables.

Contextualización del conjunto de datos

La base de datos contiene información sobre patrones de uso de redes sociales, hábitos de consumo digital, variables sociodemográficas y efectos asociados como productividad, satisfacción y niveles de adicción.
Cada registro representa un usuario con características como:
- Edad, género, país, profesión
- Nivel de adicción al uso de redes sociales
- Pérdida de productividad por uso excesivo
- Tipo de dispositivo, plataforma, hábitos de visualización
- Factores psicológicos (autocontrol, motivación, etc.)

El propósito del análisis es examinar cómo ciertos hábitos digitales pueden influir en el rendimiento o bienestar de los usuarios.


Hipótesis 1

H1: A mayor Addiction Level, mayor ProductivityLoss.

Contextualización:
El nivel de adicción (Addiction Level) mide la intensidad con la que el usuario utiliza redes sociales de forma compulsiva. La pérdida de productividad (ProductivityLoss) representa cuánto se ve afectado su rendimiento laboral o académico.
La literatura sugiere que un mayor uso problemático de redes sociales está asociado con interrupciones constantes y disminución en la eficiencia. Por lo tanto, se espera una relación positiva entre ambas variables.

Paso 1: Diagrama de dispersión y correlación

plot(data$Addiction.Level, data$ProductivityLoss,
     xlab="Addiction Level", ylab="Productivity Loss")

cor(data$Addiction.Level, data$ProductivityLoss)
## [1] -0.9949392

Paso 2: ¿El modelo es válido? (ANOVA)

modelo1 <- lm(ProductivityLoss ~ Addiction.Level, data=data)
anova(modelo1)
## Analysis of Variance Table
## 
## Response: ProductivityLoss
##                  Df Sum Sq Mean Sq F value    Pr(>F)    
## Addiction.Level   1 4454.1  4454.1   97854 < 2.2e-16 ***
## Residuals       998   45.4     0.0                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Paso 3: R²

summary(modelo1)$r.squared
## [1] 0.9899041

Paso 4: Tabla de coeficientes

summary(modelo1)$coefficients
##                  Estimate  Std. Error   t value Pr(>|t|)
## (Intercept)      8.116862 0.011675703  695.1926        0
## Addiction.Level -1.025761 0.003279123 -312.8158        0

Paso 5: Ecuación del modelo

Ecuación estimada: ProductivityLoss = a + b(AddictionLevel)

summary(modelo1)
## 
## Call:
## lm(formula = ProductivityLoss ~ Addiction.Level, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.11686 -0.06534 -0.03958  0.01194  2.96042 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      8.116862   0.011676   695.2   <2e-16 ***
## Addiction.Level -1.025761   0.003279  -312.8   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2133 on 998 degrees of freedom
## Multiple R-squared:  0.9899, Adjusted R-squared:  0.9899 
## F-statistic: 9.785e+04 on 1 and 998 DF,  p-value: < 2.2e-16

Hipótesis 2

H2: El tipo de dispositivo (DeviceType) no afecta la ProductivityLoss.

Contextualización:
DeviceType es una variable categórica que indica si el usuario accede desde smartphone, computador o tablet. No existe evidencia teórica fuerte de que el tipo de dispositivo determine por sí solo la pérdida de productividad, ya que el impacto depende más del comportamiento del usuario que del hardware.
Por lo tanto, se espera que la relación sea débil o nula, con un modelo estadísticamente no significativo.

Paso 1: Diagrama exploratorio

boxplot(ProductivityLoss ~ DeviceType, data=data,
        xlab="Device Type", ylab="Productivity Loss")

Paso 2: ANOVA del modelo

modelo2 <- lm(ProductivityLoss ~ DeviceType, data=data)
anova(modelo2)
## Analysis of Variance Table
## 
## Response: ProductivityLoss
##             Df Sum Sq Mean Sq F value Pr(>F)
## DeviceType   2   12.2  6.0816  1.3512 0.2594
## Residuals  997 4487.3  4.5008

Paso 3: R²

summary(modelo2)$r.squared
## [1] 0.002703219

Paso 4: Coeficientes

summary(modelo2)$coefficients
##                         Estimate Std. Error    t value      Pr(>|t|)
## (Intercept)           5.14393939  0.1846545 27.8570971 8.859282e-127
## DeviceTypeSmartphone  0.07315462  0.2044286  0.3578493  7.205319e-01
## DeviceTypeTablet     -0.17927508  0.2236098 -0.8017318  4.228991e-01

Paso 5: Explicación final

La variable DeviceType no presenta un patrón lineal ni diferencias significativas entre grupos. Esto confirma que el tipo de dispositivo NO explica adecuadamente la pérdida de productividad. El R² bajo y la ANOVA no significativa lo demuestran.