Introducción

El uso de redes sociales es actualmente una actividad cotidiana para la mayoría de las personas, especialmente entre jóvenes y adultos. Aunque estas plataformas permiten conectarse, entretenerse y comunicarse, diferentes estudios sugieren que un uso excesivo puede estar relacionado con cambios en el estado de ánimo, fatiga mental, dificultades para dormir y variaciones en los niveles de energía. Por esta razón, entender cómo se relaciona el tiempo que se pasa en redes sociales y el nivel de energía diario puede contribuir a identificar posibles efectos negativos del uso prolongado de estas plataformas.

En este proyecto se analizaron 34 respuestas obtenidas de una encuesta donde cada persona indicó:

Cuántas horas al día usa redes sociales.

Su nivel de energía en una escala de 1 a 5 (1 = energía muy baja, 5 = energía muy alta).

Este conjunto de datos fue construido manualmente para aplicar una regresión lineal simple, donde la variable independiente es hora_redes y la variable dependiente es energia. Sin embargo, como se verá posteriormente, los resultados no cumplen completamente con los supuestos para que una regresión lineal simple sea apropiada.

#Objetivo

El objetivo principal de este proyecto es determinar si existe una relación lineal significativa entre las horas de uso de redes sociales y el nivel de energía diario reportado por las personas. Además, se busca analizar gráficamente los datos y evaluar los supuestos de los modelos estadísticos para verificar si la regresión lineal simple es adecuada en este caso.

Base de datos

A continuación se muestran los 34 resultados obtenidos.

#Ingresamos valores Regresión ineal simp´le sin base de datos
hora_redes <-c(3, 3, 8, 15, 16, 6, 6, 2, 7, 16, 16, 15, 6, 4, 5, 5, 8, 1, 6, 3, 16, 6, 2, 6, 6, 4, 6, 16, 5, 16, 8, 3, 15, 3)
energia<- c(4, 5, 4, 4, 2, 3, 4, 5, 5, 3, 3, 4, 4, 5, 5, 3, 4, 5, 4, 3, 4, 5, 5, 5, 5, 4, 4, 3, 3, 4, 5, 3, 4, 3)
#Generamos matriz de datos            
datos <- data.frame(energia = energia, hora_redes= hora_redes)
datos
##    energia hora_redes
## 1        4          3
## 2        5          3
## 3        4          8
## 4        4         15
## 5        2         16
## 6        3          6
## 7        4          6
## 8        5          2
## 9        5          7
## 10       3         16
## 11       3         16
## 12       4         15
## 13       4          6
## 14       5          4
## 15       5          5
## 16       3          5
## 17       4          8
## 18       5          1
## 19       4          6
## 20       3          3
## 21       4         16
## 22       5          6
## 23       5          2
## 24       5          6
## 25       5          6
## 26       4          4
## 27       4          6
## 28       3         16
## 29       3          5
## 30       4         16
## 31       5          8
## 32       3          3
## 33       4         15
## 34       3          3
table(datos$energia)
## 
##  2  3  4  5 
##  1  9 13 11
summary(datos)
##     energia    hora_redes    
##  Min.   :2   Min.   : 1.000  
##  1st Qu.:3   1st Qu.: 4.000  
##  Median :4   Median : 6.000  
##  Mean   :4   Mean   : 7.735  
##  3rd Qu.:5   3rd Qu.:13.250  
##  Max.   :5   Max.   :16.000
#veirificamos tamaño de los vectores
length(hora_redes)
## [1] 34
length(energia)
## [1] 34
plot(datos$hora_redes, datos$energia,
     xlab = "Horas de uso de redes sociales",
     ylab = "Nivel de energía",
     main = "Relación entre redes sociales y energía")

cor(datos)
##               energia hora_redes
## energia     1.0000000 -0.3813672
## hora_redes -0.3813672  1.0000000

Este gráfico muestra la relación entre las horas de uso de redes sociales (eje X) y el nivel de energía reportado (eje Y). Cada punto representa una de las 34 personas encuestadas. Se puede observar cómo se distribuyen los valores y si existe algún patrón visible entre las dos variables. Entonces se quiere saber si las horas de uso de redes sociales afectan el nivel de energía de las personas. En el gráfico se observa que los puntos están dispersos sin un patrón muy definido. Aunque algunos puntos sugieren que cuando las horas en redes son altas, la energía tiende a ser más baja, esta relación no es consistente. Esto quiere decir que no se puede afirmar claramente que más horas en redes sociales disminuyen la energía, porque hay mucha variación entre los datos.

modelo <- lm(energia ~ hora_redes, data = datos)
summary(modelo)
## 
## Call:
## lm(formula = energia ~ hora_redes, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.4755 -0.4755  0.0168  0.6360  1.0168 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.49092    0.25120  17.878   <2e-16 ***
## hora_redes  -0.06347    0.02719  -2.334   0.0261 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8006 on 32 degrees of freedom
## Multiple R-squared:  0.1454, Adjusted R-squared:  0.1187 
## F-statistic: 5.446 on 1 and 32 DF,  p-value: 0.02605
#Medias por columnas

aggregate(hora_redes ~ energia, data = datos, FUN = mean)
##   energia hora_redes
## 1       2  16.000000
## 2       3   8.111111
## 3       4   9.538462
## 4       5   4.545455
#Varianza por columnas

aggregate(hora_redes ~ energia, data = datos, FUN = sd)
##   energia hora_redes
## 1       2         NA
## 2       3   6.009252
## 3       4   5.010246
## 4       5   2.296242
## Diagramas de box-plot
require(ggplot2)
## Loading required package: ggplot2
ggplot(data = datos, aes(x = factor(energia), y = hora_redes, color = factor(energia))) +
  geom_boxplot() +
  theme_bw()

Aquí se muestra el mismo gráfico anterior, pero con una línea de regresión añadida. La línea representa la tendencia general del modelo lineal que intenta predecir la energía a partir de las horas de redes sociales. La línea tiene una pendiende negativa, lo que significa que cuando aumentan las horas de uso, el nivel de energía tiende a bajar. Esto coincide con lo que se observa en el proyecto, ya que las personas con más horas reportan niveles de energía más bajos.

Sin embargo, muchos puntos están lejos de la línea. Esto indica que el modelo no predice bien los datos, y que hay otros factores que podrían influir en la energía (como sueño, estrés, alimentación, etc.).

#Visualizar los resultados con un gráfico
#1. Trazar los puntos: 

datos.graph<-ggplot(datos, aes(x=energia, y=hora_redes))+
                     geom_point()
datos.graph

  1. agregar la línea de regresión lineal a los datos graficados
datos.graph <- datos.graph + geom_smooth(method="lm", col="RED")

datos.graph
## `geom_smooth()` using formula = 'y ~ x'

  1. Añadir la ecuación para la línea de regresión.
datos.graph +
  theme_bw() +
  labs(title = "Reported hora_redes as a function of energia",
      x = "energia (1 to 5)",
      y = "hora_redes score (numerica)")
## `geom_smooth()` using formula = 'y ~ x'

Esteos gráficos muestran que la relación entre el nivel de energía (eje X) y las horas de uso de redes sociales (eje Y). Cada punto representa una persona encuestada. Además, se añadió una línea de regresión lineal que intenta mostrar la tendencia general entre las dos variables. El gráfico también incluye una presentación más ordenada con título, ejes identificados y un estilo limpio.

La línea de regresión tiene una pendiente negativa, lo que indica que, en promedio, las personas con niveles más altos de energía tienden a usar menos horas de redes sociales. Esto concuerda con la idea del proyecto, donde se analiza si el uso excesivo de redes influye en la energía.

Sin embargo, la mayoría de los puntos se encuentran alejados de la línea recta, lo que muestra que el modelo no representa muy bien los datos. La variabilidad dentro de cada nivel de energía es alta, y por eso no se puede asegurar que exista una relación lineal clara. NORMALIDAD ANOVA

par(mfrow=c(2,2))
plot(modelo)

par(mfrow=c(1,1))

Estos gráficos permiten verificar si el modelo de regresión lineal simple cumple los supuestos necesarios: linealidad, normalidad de residuos, homocedasticidad e independencia. Al revisar los gráficos:

*El gráfico Residuos vs Ajustados no muestra una distribución homogénea; los puntos se ven dispersos sin un patrón uniforme. Esto indica que no se cumple el supuesto de homocedasticidad.

*El QQ-plot muestra que los residuos no siguen la línea diagonal. Esto indica que no se cumple el supuesto de normalidad, por lo tanto la regresión no es estadísticamente confiable.

*El gráfico de escala de ubicación también muestra variación irregular.

*Los puntos influyentes no afectan demasiado, pero el modelo sigue sin ajustarse bien a los datos.

ANOVA

anova <- aov(datos$hora_redes ~ factor(datos$energia))
summary(anova)
##                       Df Sum Sq Mean Sq F value Pr(>F)  
## factor(datos$energia)  3  223.8   74.59   3.481 0.0279 *
## Residuals             30  642.8   21.43                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
plot(anova)
## Warning: not plotting observations with leverage one:
##   5

Se realizó un ANOVA tomando las horas de redes sociales como variable dependiente y el nivel de energía como factor. Este análisis permite evaluar si existen diferencias significativas entre los grupos de energía. El resultado muestra un valor p = 0.0279, lo cual indica diferencias significativas entre los grupos de energía. Es decir, las horas de redes sociales tienden a ser diferentes dependiendo del nivel de energía reportado.

Esto respalda la idea de que sí existe alguna relación entre las variables, aunque no sea lineal. Las personas con energía más baja tienden a usar más horas de redes, mientras que quienes tienen más energía usan menos horas.

                              ##CONCLUSION

En este análisis se quiso demostrar si el nivel de energía de las personas podía explicar cuántas horas pasan al día en redes sociales. Cuando se realizó el gráfico de dispersión y la línea de regresión, se ve que los puntos están muy regados y no siguen una forma clara; por eso, no parece haber una relación lineal entre las dos variables. Revisamos también los supuestos de la regresión lineal con los gráficos del modelo, pero varios de ellos no se cumplen, así que este tipo de modelo no es adecuado para estos datos.

Por otro lado, el ANOVA sí mostró una diferencia significativa entre algunos niveles de energía, lo que indica que los grupos no se comportan igual. Aun así, esto no significa que exista una relación lineal, sino que simplemente algunos niveles de energía pueden tener diferencias en las horas de redes, pero no de manera constante o predecible.

En general, se puede concluir que la energía de una persona no predice directamente cuántas horas usa redes sociales. Seguramente influyen otras cosas como el estrés, qué tan ocupada está, cómo duerme, o incluso la rutina diaria. Por eso, este proyecto muestra que no siempre la primera relación que pensamos se cumple, y que a veces se necesitan más variables o más datos para entender mejor lo que pasa.