Analisis sobre el timeline

1- Completamos la autorización para twitter

Creamos un token para entrar a twitter y usar la API, y las librerias Rtweet y TwitteR

twitter_token <- create_token(
  app = appname,
  consumer_key = consumer_key,
  consumer_secret = consumer_secret,
  access_token = access_token, 
  access_secret = access_secret)

2- Descargamos los tweets

Descargamos los tweets de cualquier usuario con la funcion “get_timeline” de rtweet User = @ del usuario n= Cantidad de tweets a bajar includeRts = F para eliminar los posibles RT de la cuenta excludeReplies = F vamos a descargar la sección “Tweets y respuestas”

Tweets_BocaJrs <- get_timeline(user = "BocaJrsOficial", n = 3200, includeRts = F, excludeReplies = F)
Tweets_RiverPlate <- get_timeline(user = "RiverPlate", n = 3200, includeRts = F, excludeReplies = F)
Tweets_SanLorenzo <- get_timeline(user = "SanLorenzo", n = 3200, includeRts = F, excludeReplies = F)
Tweets_Racing <- get_timeline(user = "RacingClub", n = 3200, includeRts = F, excludeReplies = F)
Tweets_Independiente <- get_timeline(user = "Independiente", n = 3200, includeRts = F, excludeReplies = F)

3- Unimos los dataframes

Vamos a usar un solo Dataframe que llamaremos Tweets_Club y lo vamos a hacer con la funcion rbind de R base

El nuevo Dataframe va a contar con 3200*5 filas = 16000 y contiene 3200 tweets de cada una de las cuentas

Tweets_Club <- rbind(Tweets_BocaJrs, Tweets_Racing, Tweets_SanLorenzo, Tweets_RiverPlate, Tweets_Independiente)

4- Comenzamos el proceso de limpieza

Vamos a crear algunas columnas extras para obtener mas información y también vamos a filtrar datos, para quedarnos solo con los que nos interesa

Tweets_Club <- Tweets_Club%>%
  tbl_df %>%
  mutate(text = gsub("[^[:graph:]]", " ", text)) %>% #Sin graficos
  mutate(text = tolower(text)) %>% #Todo el texto a minuscula
  mutate(created_at = with_tz(created_at, "America/Argentina/Buenos_Aires"))%>% #Cambiamos a la zona horaria correspondiente
  separate(created_at, into = c("date", "hour"), sep = " ")%>% #Separamos en dia y hora el campo created_at
    separate(hour, into = c("hour", "minutes","seconds"), sep = ":")%>% #Separamos la hora en hora,minutos y segundos
   rename(Club = screen_name) %>% #Cambiamos la columna con el nombre del club
mutate(periodo = year(date), 
         mes = month(date, label = T, abbr = F),
         dia = as.numeric(day(date)),
         dia_sem = wday(date, label = T, abbr = F, week_start = 1),
         dia_per = yday(date),
         date = as.Date(date) #Creamos una columna con el numero de año, mes, dia, nombre de dia y de mes.
  )%>%
  filter(periodo == 2020) #Solo vamos a utilizar info  de 2020

El nuevo DataFrame sera de 9660 observaciones

5- Creamos ciertos temas graficos

Para tener una mejor visualizacion, precargamos algunos temas y le damos el color a cada club

tema_plot <-
  theme(text = element_text(family = "sans", size = 10),
        panel.border = element_rect(color = "#cccccc", fill = NA),
        panel.background = element_rect(fill = "white"),
        panel.grid.major =  element_line(color = "#dddddd"),
        panel.grid.minor =  element_line(color = "#eeeeee"),
        axis.ticks = element_line(colour = "#cccccc"),
        strip.background = element_rect(color = "#cccccc", fill = "#eeeeee"),
        legend.position = "top")

tema_graf <- theme_minimal() +
  theme(text = element_text(family = "serif"),
        panel.grid.minor = element_blank(),
        strip.background = element_rect(fill = "#EBEBEB", colour = NA),
        legend.position = "none",
        legend.box.background = element_rect(fill = "#EBEBEB", colour = NA))

colours <- c(
  "#1746f8", # BocaJrsOficial
  "#cd0000", # Independiente
  "#13e4fc", # RacingClub
  "#9b5b53", # River Plate
  "#001256"  # SanLorenzo
)

6- Cantidad de tweets en el año

Vemos que el club que mas twitteo en lo que va del año es Racing con casi 2500, parecido a lo que hizo San Lorenzo y también a River.

Boca e Independiente estan en un nivel más bajo, cerca de los 1500 tweets en lo que va del año


Tweets_Club %>% 
  group_by(Club)%>%
  count(Club) %>%
ggplot()+
  aes(x=reorder(Club, n), y= n, fill= Club) +
  geom_col() +
    coord_flip() +
    labs(title = "Cantidad Tweets", x = "Club", Y = "Cantidad") +
   scale_fill_manual(values= colours) +
    tema_graf

7- Cantidad de tweets por mes

Tweets_Club %>% 
Warning message:
In readChar(file, size, TRUE) : truncating string with embedded nuls
  group_by(Club, mes)%>%
  count(Club) %>%
ggplot()+
  aes(x=reorder(Club, n), y= n, fill= Club) +
  geom_col() +
    coord_flip() +
    labs(title = "Cantidad Tweets", x = "Club", Y = "Cantidad") +
  facet_wrap(~mes, scales = "free", nrow = 3)+
   scale_fill_manual(values= colours) +
    tema_graf

8- Tweets por hora

Vemos como es la distribución de los tweets por horario.

Boca es el club con mayor actividad a la medianoche, a la madrugada la actividad es casi nula y comienza nuevamente a las 8am.

Tambíen podemos notar que la mayor diferencia en los tweets se dan alrededor del mediodia y a media tarde, volviendo a twittear de manera parecida durante la noche.

Tweets_Club %>% 
  group_by(Club, hour)%>%
  summarise(n = n()) %>%
ggplot (aes(x= hour, y = n, group= Club, color = Club)) +
  geom_line()+
    labs(title = "Tweets por hora", x = "Hora", y = "Cantidad") +
  tema_plot
`summarise()` regrouping output by 'Club' (override with `.groups` argument)

9- Cantidad de interacciones

Creamos un pequeño DF para sumarizar todas las iteracciones que tienen los distintos clubes, y le agregamos su cantidad de followers (dividido 1000)

Interacciones = Tweets_Club %>% 
  group_by(Club)%>%
  summarise(PromedioRT = mean(retweet_count), 
            TotalRT =  sum(retweet_count),
            PromedioFAV = mean(favorite_count), 
            TotalFAV =  sum(favorite_count),
            TotalInteracciones = TotalFAV + TotalRT,
            PromedioInteracciones = PromedioRT + PromedioFAV
  ) %>%
    mutate(followers = ifelse (Club == "BocaJrsOficial", 3800,
                               ifelse (Club == "Independiente", 454.4,
                                      ifelse (Club == "RacingClub", 330.5,
                                              ifelse (Club == "RiverPlate", 3400,
                                                      753.4
                                                      )
                                              )
                               )
    )
  )
`summarise()` ungrouping output (override with `.groups` argument)
print(Interacciones)

10- Retweets a la cuenta

Medimos los RT que tuvo cada uno de los clubes, tanto en cantidad total que va de la mano de las publicaciones, así como tambien el promedio.

Se nota una clara diferencia entre River y Boca con los otros 3 clubes a la hora de que sus tweets sean retwitteados.

Interacciones %>% 
Warning messages:
1: In readChar(file, size, TRUE) : truncating string with embedded nuls
2: In readChar(file, size, TRUE) : truncating string with embedded nuls
3: In readChar(file, size, TRUE) : truncating string with embedded nuls
4: In readChar(file, size, TRUE) : truncating string with embedded nuls
5: In readChar(file, size, TRUE) : truncating string with embedded nuls
6: In readChar(file, size, TRUE) : truncating string with embedded nuls
ggplot()+
  aes(x=reorder(Club, TotalRT), y= TotalRT, fill= Club) +
  geom_col() +
    coord_flip() +
    labs(title = "Cantidad total de RT", x = "Club", y = "Cantidad") +
   scale_fill_manual(values= colours) +
    tema_graf


Interacciones %>% 
ggplot()+
  aes(x=reorder(Club, PromedioRT), y= PromedioRT, fill= Club) +
  geom_col() +
    coord_flip() +
    labs(title = "Cantidad promedio de RT", x = "Club", y = "Cantidad") +
   scale_fill_manual(values= colours) +
    tema_plot

11- Favoritos a la cuenta

Medimos los FAV que tuvo cada uno de los clubes, tanto en cantidad total que va de la mano de las publicaciones, así como tambien el promedio.

Se nota una clara diferencia entre River, que ademas se asentua contra Boca, mientras que los otros clubes están muy por debajo en cuanto a FAVs recibidos

Interacciones %>% 
Warning messages:
1: In readChar(file, size, TRUE) : truncating string with embedded nuls
2: In readChar(file, size, TRUE) : truncating string with embedded nuls
3: In readChar(file, size, TRUE) : truncating string with embedded nuls
4: In readChar(file, size, TRUE) : truncating string with embedded nuls
5: In readChar(file, size, TRUE) : truncating string with embedded nuls
ggplot()+
  aes(x=reorder(Club, -TotalFAV), y= TotalFAV, fill= Club) +
  geom_col() +
  labs(title = "Cantidad total de FAV", x = "Club", y = "Cantidad") +
   scale_fill_manual(values= colours) +
    tema_graf


Interacciones %>% 
ggplot()+
  aes(x=reorder(Club, -PromedioFAV), y= PromedioFAV, fill= Club) +
  geom_col() +
    labs(title = "Cantidad promedio de FAV", x = "Club", y = "Cantidad") +
   scale_fill_manual(values= colours) +
    tema_plot

12- Cantidad promedio de interacciones

Sumamos lo visto anteriormente, tomando un solo campo “Interaccion” como la suma de los promedios de FAVs y de RTs, las diferencias que se notan son las mismas que en los anteriores gráficos.

13- Cantidad promedio de interacciones

Normalizamos la cantidad de interacciones que tuvieron por cada 1000 seguidores, ahí se nota que Racing e Independiente si bien sus interacciones son menor, se debe a la cantidad de followers que tiene cada uno, cuando normalizamos quedan en un primer nivel junto a River.

Mientras que Boca no logra llegar a 1 interacción por cada mil followers, estando en un segundo pelotón, mientras que San Lorenzo es el que menos interacciones recibe con su gente.

Interacciones %>% 
ggplot()+
  aes(x=reorder(Club, (PromedioInteracciones/followers)), y= (PromedioInteracciones/followers), color= Club) +
  geom_point(shape=23, fill=colours, color=colours, size=5) +
    labs(title = "Cantidad promedio de interacciones x 1000 followers", x = "Club", y = "Cantidad") +
   scale_fill_manual(values= colours) +
    tema_plot

14- Media de interacciones

A traves de un boxplot buscamos las medias, y los outliers que tuvieron las interacciones a los distintos tweets de los clubes, siempre y cuando los tweets hayan tenido al menos 1000 interacciones.

Si bien es un gráfico que no nos dice mucho, sirve para identificar 2 outliers claves, que son el día que Boca salio campeon y tuvo casi 100k de interacciones y el dia que Racing propuso llegar a 100 mil favoritos, que lo supero ampliamente.

Tweets_Club %>% 
  mutate(interacciones = favorite_count + retweet_count)%>%
  filter(interacciones > 1000) %>%
ggplot()+
  aes(x= Club, y= interacciones, color= Club) +
  geom_boxplot () +
    labs(title = "Boxplot de interacciones", x = "Club", y = "Cantidad") +
   scale_fill_manual(values= colours) +
    tema_plot

15- Largo del tweet

Con el campo “display_text_width” que mide la cantidad de caracteres que tiene un tweet sacamos la media del largo que tiene cada tweet.

San Lorenzo es el que produce los tweets con más texto, luego el resto de los clubes están en una mediania bastante parecida.

Tweets_Club %>% 
ggplot()+
  aes(x= Club, y= display_text_width, color= Club) +
  geom_boxplot () +
    labs(title = "Cantidad promedio de interacciones x 1000 followers", x = "Club", y = "Largo promedio tweet") +
   scale_fill_manual(values= colours) +
  coord_flip() +
    tema_plot

16- Tweets sobre covid

El covid es el tema más importante del año 2020, con la funcion grepl buscamos tweets que contengan palabras que se relacionan con el virus, y contabilizamos cuales son los clubes que más hablaron sobre el mismo

#Buscamos tweets con la palabra covid
Palabras_covid <- "covid|covid-19|covid19|coronavirus|#covid|#covid-19|#covid19|#coronavirus|test|testeo|testeos|pcr|serologico|hisopado"
Tweets_Club$Covid <- grepl(Palabras_covid, Tweets_Club$text, ignore.case ="True")

Tweets_Club %>% 
  group_by(Club, Covid)%>%
  filter(Covid == T) %>%
  count(Club) %>%
ggplot()+
  aes(x=reorder(Club, n), y= n, fill= Club) +
  geom_col() +
    coord_flip() +
    labs(title = "Cantidad Tweets sobre Coronavirus", x = "Club", y = "Cantidad") +
   scale_fill_manual(values= colours) +
    tema_graf

Analisis sobre followers

1 - Descargamos los followers

Con la funcion “get_followers” del paquete “rtweet” podemos descargar el ID de todos los seguidores de una cuenta y luego con la “funcion lookup_users” obtenemos la información más precisa de los seguidores.

n = “all” es el máximo de cantidad de seguidores que podes descargar de una cuenta, en este caso es 75 mil usuarios, que se tomara como Muestra aleatoria simple

2 - Agregamos una identificación de cada club

Le ponemos una identificación a cada usuario, de que club sigue, y luego unimos nuevamente con la función Rbind para tener un DataFrame único

for(i in 1:nrow(Followers_Independiente)) {
Followers_Independiente$Sigue  <- c ("Independiente")
}

for(i in 1:nrow(Followers_BocaJrs)) {
Followers_BocaJrs$Sigue  <- c ("Boca")
}

for(i in 1:nrow(Followers_SanLorenzo)) {
Followers_SanLorenzo$Sigue  <- c ("San Lorenzo")
}

for(i in 1:nrow(Followers_RacingClub)) {
Followers_RacingClub$Sigue  <- c ("Racing")
}

for(i in 1:nrow(Followers_RiverPlate)) {
Followers_RiverPlate$Sigue  <- c ("River Plate")
}

Followers_Club <- rbind(Followers_BocaJrs, Followers_RacingClub, Followers_SanLorenzo, Followers_RiverPlate, Followers_Independiente)

3- Cantidad seguidores

El club con mas seguidores es Boca, que cuenta con casi 3.8 MM, en un segundo nivel River con casi 3.5 MM de seguidores, y luego el resto de los clubes en torno a los 500K de seguidores

Interacciones %>% 
ggplot()+
  aes(x=reorder(Club, -followers), y= (followers*1000), fill= Club) +
  geom_col() +
    labs(title = "Cantidad followers", x = "Club", y = "Cantidad") +
   scale_fill_manual(values= colours) +
    tema_plot

4- Desde que interfaz lo siguen

El comportamiento desde donde lo siguen los usuarios es parecida en todos los clubes, predonima Android, luego Iphone y web en un nivel parecido, y un grupo pequeño desde Instagram y la Web Client de twitter.

Se filtra en un mínimo de 300 los seguidores que usen esa plataforma, para evitar que sea infinita la cantidad de variables.

5- Idioma de los followers

Se saca proporcionalmente la cantidad de idiomas que son hablados por los seguidores que tiene cada una de las cuentas.

Como corresponde, la mayoria habla en español, la cantidad de seguidores en ingles es parecida entre todas las cuentas.

El portugues es el otro idioma importante entre los clubes.

Followers_Club %>%
  group_by(Sigue) %>%
  count(lang) %>%
  filter(n > 300) %>%
  filter(!is.na(lang)) %>%
    filter(lang != "und") %>%
   filter(lang != "ar")%>%
  mutate(Proporcion = n / sum(n)) %>%
  ggplot() +
      aes(Sigue, Proporcion, fill = lang) +
      geom_col() +
    scale_y_continuous(labels = percent_format()) +
      tema_plot

6- Extranjeros que lo siguen

Buscamos nada mas que los extranjeros que siguen a la cuenta, el país que más se destaca es Brasil, seguido por Colombia y Uruguay.

Followers_Club %>%
  group_by(Sigue) %>%
  count(country_code) %>%
  filter(country_code != "") %>%
  filter(country_code != "AR")%>%
  filter(!is.na(country_code)) %>%
  filter(n > 10) %>%
  mutate(Proporcion = n / sum(n)) %>%
  ggplot() +
      aes(Sigue, Proporcion, fill = country_code) +
      geom_col() +
    scale_y_continuous(labels = percent_format()) +
      tema_plot

7- Actividad de los seguidores

Primero creamos los campos para la fecha created_at como hicimos con el DF de tweets, y adjuntamos un campo de actividad, para saber cual es la relación del usuario con Twitter.

Los clubes con menos seguidores son los que tienen seguidores con más tiempo sin actividad, mientras que los siguen a clubes grandes estan mayormente en actividad.

