Base_de_datos <- read_delim("Base de datos.csv", 
    delim = ";", escape_double = FALSE, trim_ws = TRUE)
Base_de_datos
## # A tibble: 1,000 × 12
##    UserID   Age Gender Profession   Platform `Total Time Spent` `Video Category`
##     <dbl> <dbl> <chr>  <chr>        <chr>                 <dbl> <chr>           
##  1      1    56 Male   Engineer     Instagr…                 80 Pranks          
##  2      2    46 Female Artist       Instagr…                228 Pranks          
##  3      3    32 Female Engineer     Facebook                 30 Vlogs           
##  4      4    60 Male   Waiting sta… YouTube                 101 Vlogs           
##  5      5    25 Male   Manager      TikTok                  136 Gaming          
##  6      6    38 Male   driver       Instagr…                 89 Jokes/Memes     
##  7      7    56 Male   Students     TikTok                  247 Vlogs           
##  8      8    36 Male   Engineer     Instagr…                191 Entertainment   
##  9      9    40 Male   Waiting sta… Instagr…                 34 Vlogs           
## 10     10    28 Other  Students     YouTube                 165 ASMR            
## # ℹ 990 more rows
## # ℹ 5 more variables: `Scroll Rate` <dbl>, Frequency <chr>,
## #   `Watch Reason` <chr>, `Watch Time` <chr>, CurrentActivity <chr>
summary(Base_de_datos)
##      UserID            Age           Gender           Profession       
##  Min.   :   1.0   Min.   :18.00   Length:1000        Length:1000       
##  1st Qu.: 250.8   1st Qu.:29.00   Class :character   Class :character  
##  Median : 500.5   Median :42.00   Mode  :character   Mode  :character  
##  Mean   : 500.5   Mean   :40.99                                        
##  3rd Qu.: 750.2   3rd Qu.:52.00                                        
##  Max.   :1000.0   Max.   :64.00                                        
##    Platform         Total Time Spent Video Category      Scroll Rate   
##  Length:1000        Min.   : 10.0    Length:1000        Min.   : 1.00  
##  Class :character   1st Qu.: 78.0    Class :character   1st Qu.:23.00  
##  Mode  :character   Median :152.0    Mode  :character   Median :50.00  
##                     Mean   :151.4                       Mean   :49.77  
##                     3rd Qu.:223.0                       3rd Qu.:74.00  
##                     Max.   :298.0                       Max.   :99.00  
##   Frequency         Watch Reason        Watch Time        CurrentActivity   
##  Length:1000        Length:1000        Length:1000        Length:1000       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
## 

Correlación

“Total time spent vs Age”

cor(Base_de_datos$Age,Base_de_datos$`Total Time Spent`)
## [1] -0.004166184

El coeficiente negativo (-0.004) indica una relación muy débil y negativa entre la edad y el tiempo total invertido en redes sociales. Sin embargo, como está tan cerca de 0, la relación entre la edad y el tiempo invertido es prácticamente inexistente. Esto significa que no hay un patrón claro que indique que a medida que la edad aumenta o disminuye, el tiempo invertido en redes sociales cambie de manera notoria.

Matriz de Correlación entre Variables Cuantitativas

correlacion <- cor(Base_de_datos[,c(2,6,8)])
correlacion
##                           Age Total Time Spent  Scroll Rate
## Age               1.000000000     -0.004166184 -0.018767873
## Total Time Spent -0.004166184      1.000000000  0.004210567
## Scroll Rate      -0.018767873      0.004210567  1.000000000
  • Age y Total Time Spent: Correlación de -0.004, lo que indica que prácticamente no hay relación entre la edad y el tiempo total invertido en redes sociales.

  • Age y Scroll Rate: Correlación de -0.019, lo que sugiere una relación negativa muy débil; la edad no influye significativamente en la tasa de desplazamiento.

  • Total Time Spent y Scroll Rate: Correlación de 0.004, también muy cercana a 0, indicando que el tiempo invertido y la tasa de desplazamiento no tienen una relación significativa.

    Gráfico de dispersión entre variables cuantitativas

correlacion <- cor(Base_de_datos[,c(2,6,8)])
chart.Correlation(Base_de_datos[,c(2,6,8)],histogram = F,pch=16)

Diagrama de Cajas

#cols <- c("purple","lightblue")
ggplot(Base_de_datos,aes(x=Base_de_datos$Profession,y=Base_de_datos$`Total Time Spent`)) +
  #stat_boxplot(geom= "errorbar", width = 0.25) +
  geom_boxplot(fill="pink")+
  #scale_fill_manual(values = cols)+ 
  labs (title = "Diagrama de cajas por grupos: Profession y Total time Spent",x="Profession",y="Total time spent")

 # theme(legend.position = "none")

El diagrama de cajas muestra la distribución del tiempo total empleado en redes sociales por diferentes profesiones. Aunque la mediana del tiempo es relativamente similar entre las profesiones, hay variaciones notables en la dispersión. Profesiones como “Artist”, “Cashier”, “Manager” y “Teacher” presentan una mayor variabilidad en el tiempo empleado en redes sociales, lo que indica que algunas personas en estos grupos dedican considerablemente más tiempo a estas plataformas, mientras que otras lo hacen mucho menos. Esto podría reflejar la flexibilidad o naturaleza diversa de estas ocupaciones, donde el uso de redes sociales puede estar más relacionado con el trabajo o el estilo de vida personal. Por el contrario, profesiones como “Driver” y “Engineer” muestran una menor dispersión, es decir que el uso de redes sociales en estos grupos es más uniforme, posiblemente debido a la naturaleza de sus trabajos, donde hay menos tiempo o necesidad de interactuar con estas plataformas. Este análisis propone que, aunque el tiempo promedio en redes sociales no difiere significativamente, la variabilidad en su uso sí depende de la profesión.

Tabla Cruzada: “Video Category” y “Watch Reason”

tabla_cruzada <- table(Base_de_datos$`Video Category`, Base_de_datos$`Watch Reason`)
library(knitr)
kable(tabla_cruzada)
Boredom Entertainment Habit Procrastination
ASMR 26 16 31 6
Comedy 9 8 16 2
Entertainment 27 30 36 9
Gaming 36 29 40 14
Jokes/Memes 41 46 65 27
Life Hacks 42 43 55 22
Pranks 36 26 29 19
Trends 31 28 33 8
Vlogs 29 38 34 13
ggplot(Base_de_datos,aes(Base_de_datos$`Video Category`,fill = Base_de_datos$`Watch Reason`))+
  geom_bar()+
  labs(x="Video Category", y= "Frecuencias", fill="Watch Reason")+
  ggtitle("Diagrama de Barras Apiladas: Video Category vs Watch Reason")+theme(axis.text.x = element_text(angle = 45, hjust = 1))

El diagrama de barras apiladas muestra la distribución de las razones para ver videos en diferentes categorías. Las categorías de Jokes/Memes y Life Hacks son las más vistas, con el entretenimiento y el aburrimiento como las razones predominantes para su consumo. En Comedy, aunque la frecuencia de visualizaciones es baja, el entretenimiento es la razón más común. ASMR, Pranks, y Gaming tienen un equilibrio más distribuido, donde el hábito y la procrastinación juegan un rol importante, siendo el primero especialmente relevante en ASMR. Aunque la procrastinación es una razón menos frecuente en comparación con el entretenimiento o el aburrimiento, se observa de manera notable en categorías como Life Hacks y ASMR.