Analisis sobre el timeline
3- Unimos los dataframes
Vamos a usar un solo Dataframe que llamaremos Tweets_Club y lo vamos a hacer con la funcion rbind de R base
El nuevo Dataframe va a contar con 3200*5 filas = 16000 y contiene 3200 tweets de cada una de las cuentas
Tweets_Club <- rbind(Tweets_BocaJrs, Tweets_Racing, Tweets_SanLorenzo, Tweets_RiverPlate, Tweets_Independiente)
4- Comenzamos el proceso de limpieza
Vamos a crear algunas columnas extras para obtener mas información y también vamos a filtrar datos, para quedarnos solo con los que nos interesa
Tweets_Club <- Tweets_Club%>%
tbl_df %>%
mutate(text = gsub("[^[:graph:]]", " ", text)) %>% #Sin graficos
mutate(text = tolower(text)) %>% #Todo el texto a minuscula
mutate(created_at = with_tz(created_at, "America/Argentina/Buenos_Aires"))%>% #Cambiamos a la zona horaria correspondiente
separate(created_at, into = c("date", "hour"), sep = " ")%>% #Separamos en dia y hora el campo created_at
separate(hour, into = c("hour", "minutes","seconds"), sep = ":")%>% #Separamos la hora en hora,minutos y segundos
rename(Club = screen_name) %>% #Cambiamos la columna con el nombre del club
mutate(periodo = year(date),
mes = month(date, label = T, abbr = F),
dia = as.numeric(day(date)),
dia_sem = wday(date, label = T, abbr = F, week_start = 1),
dia_per = yday(date),
date = as.Date(date) #Creamos una columna con el numero de año, mes, dia, nombre de dia y de mes.
)%>%
filter(periodo == 2020) #Solo vamos a utilizar info de 2020
El nuevo DataFrame sera de 9660 observaciones
5- Creamos ciertos temas graficos
Para tener una mejor visualizacion, precargamos algunos temas y le damos el color a cada club
tema_plot <-
theme(text = element_text(family = "sans", size = 10),
panel.border = element_rect(color = "#cccccc", fill = NA),
panel.background = element_rect(fill = "white"),
panel.grid.major = element_line(color = "#dddddd"),
panel.grid.minor = element_line(color = "#eeeeee"),
axis.ticks = element_line(colour = "#cccccc"),
strip.background = element_rect(color = "#cccccc", fill = "#eeeeee"),
legend.position = "top")
tema_graf <- theme_minimal() +
theme(text = element_text(family = "serif"),
panel.grid.minor = element_blank(),
strip.background = element_rect(fill = "#EBEBEB", colour = NA),
legend.position = "none",
legend.box.background = element_rect(fill = "#EBEBEB", colour = NA))
colours <- c(
"#1746f8", # BocaJrsOficial
"#cd0000", # Independiente
"#13e4fc", # RacingClub
"#9b5b53", # River Plate
"#001256" # SanLorenzo
)
9- Cantidad de interacciones
Creamos un pequeño DF para sumarizar todas las iteracciones que tienen los distintos clubes, y le agregamos su cantidad de followers (dividido 1000)
Interacciones = Tweets_Club %>%
group_by(Club)%>%
summarise(PromedioRT = mean(retweet_count),
TotalRT = sum(retweet_count),
PromedioFAV = mean(favorite_count),
TotalFAV = sum(favorite_count),
TotalInteracciones = TotalFAV + TotalRT,
PromedioInteracciones = PromedioRT + PromedioFAV
) %>%
mutate(followers = ifelse (Club == "BocaJrsOficial", 3800,
ifelse (Club == "Independiente", 454.4,
ifelse (Club == "RacingClub", 330.5,
ifelse (Club == "RiverPlate", 3400,
753.4
)
)
)
)
)
`summarise()` ungrouping output (override with `.groups` argument)
print(Interacciones)
11- Favoritos a la cuenta
Medimos los FAV que tuvo cada uno de los clubes, tanto en cantidad total que va de la mano de las publicaciones, así como tambien el promedio.
Se nota una clara diferencia entre River, que ademas se asentua contra Boca, mientras que los otros clubes están muy por debajo en cuanto a FAVs recibidos
Interacciones %>%
Warning messages:
1: In readChar(file, size, TRUE) : truncating string with embedded nuls
2: In readChar(file, size, TRUE) : truncating string with embedded nuls
3: In readChar(file, size, TRUE) : truncating string with embedded nuls
4: In readChar(file, size, TRUE) : truncating string with embedded nuls
5: In readChar(file, size, TRUE) : truncating string with embedded nuls
ggplot()+
aes(x=reorder(Club, -TotalFAV), y= TotalFAV, fill= Club) +
geom_col() +
labs(title = "Cantidad total de FAV", x = "Club", y = "Cantidad") +
scale_fill_manual(values= colours) +
tema_graf

Interacciones %>%
ggplot()+
aes(x=reorder(Club, -PromedioFAV), y= PromedioFAV, fill= Club) +
geom_col() +
labs(title = "Cantidad promedio de FAV", x = "Club", y = "Cantidad") +
scale_fill_manual(values= colours) +
tema_plot

12- Cantidad promedio de interacciones
Sumamos lo visto anteriormente, tomando un solo campo “Interaccion” como la suma de los promedios de FAVs y de RTs, las diferencias que se notan son las mismas que en los anteriores gráficos.

13- Cantidad promedio de interacciones
Normalizamos la cantidad de interacciones que tuvieron por cada 1000 seguidores, ahí se nota que Racing e Independiente si bien sus interacciones son menor, se debe a la cantidad de followers que tiene cada uno, cuando normalizamos quedan en un primer nivel junto a River.
Mientras que Boca no logra llegar a 1 interacción por cada mil followers, estando en un segundo pelotón, mientras que San Lorenzo es el que menos interacciones recibe con su gente.
Interacciones %>%
ggplot()+
aes(x=reorder(Club, (PromedioInteracciones/followers)), y= (PromedioInteracciones/followers), color= Club) +
geom_point(shape=23, fill=colours, color=colours, size=5) +
labs(title = "Cantidad promedio de interacciones x 1000 followers", x = "Club", y = "Cantidad") +
scale_fill_manual(values= colours) +
tema_plot

Analisis sobre followers
1 - Descargamos los followers
Con la funcion “get_followers” del paquete “rtweet” podemos descargar el ID de todos los seguidores de una cuenta y luego con la “funcion lookup_users” obtenemos la información más precisa de los seguidores.
n = “all” es el máximo de cantidad de seguidores que podes descargar de una cuenta, en este caso es 75 mil usuarios, que se tomara como Muestra aleatoria simple
2 - Agregamos una identificación de cada club
Le ponemos una identificación a cada usuario, de que club sigue, y luego unimos nuevamente con la función Rbind para tener un DataFrame único
for(i in 1:nrow(Followers_Independiente)) {
Followers_Independiente$Sigue <- c ("Independiente")
}
for(i in 1:nrow(Followers_BocaJrs)) {
Followers_BocaJrs$Sigue <- c ("Boca")
}
for(i in 1:nrow(Followers_SanLorenzo)) {
Followers_SanLorenzo$Sigue <- c ("San Lorenzo")
}
for(i in 1:nrow(Followers_RacingClub)) {
Followers_RacingClub$Sigue <- c ("Racing")
}
for(i in 1:nrow(Followers_RiverPlate)) {
Followers_RiverPlate$Sigue <- c ("River Plate")
}
Followers_Club <- rbind(Followers_BocaJrs, Followers_RacingClub, Followers_SanLorenzo, Followers_RiverPlate, Followers_Independiente)
3- Cantidad seguidores
El club con mas seguidores es Boca, que cuenta con casi 3.8 MM, en un segundo nivel River con casi 3.5 MM de seguidores, y luego el resto de los clubes en torno a los 500K de seguidores
Interacciones %>%
ggplot()+
aes(x=reorder(Club, -followers), y= (followers*1000), fill= Club) +
geom_col() +
labs(title = "Cantidad followers", x = "Club", y = "Cantidad") +
scale_fill_manual(values= colours) +
tema_plot

4- Desde que interfaz lo siguen
El comportamiento desde donde lo siguen los usuarios es parecida en todos los clubes, predonima Android, luego Iphone y web en un nivel parecido, y un grupo pequeño desde Instagram y la Web Client de twitter.
Se filtra en un mínimo de 300 los seguidores que usen esa plataforma, para evitar que sea infinita la cantidad de variables.

5- Idioma de los followers
Se saca proporcionalmente la cantidad de idiomas que son hablados por los seguidores que tiene cada una de las cuentas.
Como corresponde, la mayoria habla en español, la cantidad de seguidores en ingles es parecida entre todas las cuentas.
El portugues es el otro idioma importante entre los clubes.
Followers_Club %>%
group_by(Sigue) %>%
count(lang) %>%
filter(n > 300) %>%
filter(!is.na(lang)) %>%
filter(lang != "und") %>%
filter(lang != "ar")%>%
mutate(Proporcion = n / sum(n)) %>%
ggplot() +
aes(Sigue, Proporcion, fill = lang) +
geom_col() +
scale_y_continuous(labels = percent_format()) +
tema_plot

7- Actividad de los seguidores
Primero creamos los campos para la fecha created_at como hicimos con el DF de tweets, y adjuntamos un campo de actividad, para saber cual es la relación del usuario con Twitter.
Los clubes con menos seguidores son los que tienen seguidores con más tiempo sin actividad, mientras que los siguen a clubes grandes estan mayormente en actividad.

