Este cuaderno lo realicé para preparar mi ponencia en la Jornada Data Feminismo organizada por DataLab La Ciba el 8 de junio de 2021
Caracterización de perfiles
Se caracterizaron según su actividad e impacto
Role
Representa su actividad e impacto.

Los altavoces consiguen llamar la atención y lo que dicen se propaga. Los networkers, retuiteadores y replicadores mueven los contenidos. Los monologuistas, aislados, automáticos y comunes aportan, pero tienen poca interacción.
T-index
Es una medida de impacto objetiva y fácil de realizar.

Número de seguidores
Indica su alcance. Como es un dato con valores muy dispersos de 1 a millones de seguidores se va a representar en logaritmo en base 10.
Relación de seguidores y seguidos
El coeficiente entre seguidores y seguidos muestra la simetría de la atención. Si es mayor que 1 indica que recibe más atención de los demás de la que muestra por otros.
Frecuencia de publicación
Muestra la actividad de los perfiles mediante la media de tweets diarios. Se calcula con el número total de tweets dividido entre los días transcurridos de su alta en Twitter.
Difusión
Refleja si los perfiles comparten o no información mediante RTs. El ratio se calcula como el número total de RT realizados dividido entre el número total de tweets originales. Cuanto más cerca está de 1 más comparte información.
Comentarios
Indica si los perfiles conversan mediante respuestas. El ratio se calcula como el número total de comentarios realizados dividido entre el número total de tweets originales. Cuanto más cerca está de 1 más conversa.
Gráficas
Librerías necesarias
library(readr)
library(dplyr)
library(ggplot2)
library(scales)
library(reshape)
library(lubridate)
library(RColorBrewer)
locale(date_names = "es", date_format = "%AD", time_format = "%AT",
decimal_mark = ".", grouping_mark = ",", tz = "Europe/Berlin",
encoding = "UTF-8", asciify = FALSE)
<locale>
Numbers: 123,456.78
Formats: %AD / %AT
Timezone: Europe/Berlin
Encoding: UTF-8
<date_names>
Days: domingo (dom.), lunes (lun.), martes (mar.), miércoles (mié.), jueves (jue.), viernes (vie.), sábado (sáb.)
Months: enero (ene.), febrero (feb.), marzo (mar.), abril (abr.), mayo (may.), junio (jun.), julio (jul.), agosto
(ago.), septiembre (sept.), octubre (oct.), noviembre (nov.), diciembre (dic.)
AM/PM: a. m./p. m.
theme_set(theme_light(base_size = 12))
Leemos los datos
file= "https://raw.githubusercontent.com/congosto/congosto.github.io/master/mujerestech_plus_role.csv"
roles <- read_csv2 (file)
roles <- roles %>%
filter(Role != "no tweets" &
!is.na(Role)) %>%
filter(!is.na (User))
print (roles)
roles_order <- c("Altavoz alto", "Altavoz medio", "Altavoz bajo", "Networker" , "Replicador", "Retuiteador", "Monologista", "Normal")
roles$Role <- factor (roles$Role, levels = roles_order)
Gráfica de distribución de roles
roles %>%
ggplot (aes(x = Role, y= ..count../sum(..count..), fill= Role)) +
geom_bar(show.legend = F, alpha = 0.5)+
scale_fill_brewer( palette ='Dark2') + # Paleta divergente) +
coord_flip() +
geom_text(aes(label = paste0(round(..count../sum(..count..)*100,1),"%"),
y= ..count../sum(..count..)), stat="count", vjust = -0.5, hjust = -0.25) +
scale_x_discrete (limit = rev , expand = c(0,0))+
scale_y_continuous (expand = c(0,0,0.5,0))+
labs(x = "", y = "",
title = "Roles",
fill = "Tipo tweet")+
theme (plot.title=element_text( vjust=1.25,hjust = 0.5),
axis.title.y=element_blank(),
axis.title.x=element_blank(),
axis.text.x=element_blank(),
panel.border = element_blank(),
panel.grid.major=element_blank(),
panel.grid.minor=element_blank())

Función para generar las gráficas de distribución
distribucion <- function (df,indicator,text_indicator, title, offset) {
df <- df %>%
mutate (indicator=df[[`indicator`]])
df_indicator <- df %>%
group_by(Role) %>%
summarise(mean_indicator = mean (indicator),
indicator = indicator)
role_avg <-
df %>%
summarize(avg = mean(indicator, na.rm = T)) %>%
pull(avg)
arrows <-
tibble(
y1 = c(1.1, 4.62),
y2 = c(0.6, 5),
x1 = c(role_avg + offset, role_avg + offset),
x2 = c(role_avg + 0, role_avg + offset)
)
ggplot(df_indicator, aes(x = indicator, y = Role, color = Role)) +
geom_vline(aes(xintercept = role_avg), color = "gray70", size = 0.6) +
geom_jitter(size = 2, alpha = 0.25, width = 0.2) +
stat_summary(fun = mean, geom = "point", size = 5) +
stat_summary(fun = mean, geom = "text",
aes(label=sprintf("%1.1f", ..x..)),
position=position_nudge(y=0.3),
color = "gray20", size=3.5) +
geom_text(data = df_indicator %>% filter (Role == "Altavoz medio")
%>% select (Role,mean_indicator) %>%
distinct(Role,mean_indicator),
aes(x=mean_indicator,y=Role,label=paste("media")),
position=position_nudge(y = -0.3, ),
color = "gray20", size=3.5) +
geom_segment(aes(y = Role, yend = Role,
x = role_avg, xend = mean_indicator),
size = 0.8) +
annotate("text", x = role_avg+offset, y = 1.3, size = 3.5, color = "gray20", lineheight = .9,
label = glue::glue("Media {text_indicator}:{round(role_avg, 1)}")) +
annotate("text", x = role_avg+offset, y = 4.5, size = 3.5, color = "gray20",
label = glue::glue("{text_indicator} por perfil")) +
geom_curve(data = arrows, aes(x = x1, y = y1, xend = x2, yend = y2),
arrow = arrow(length = unit(0.08, "inch")), size = 0.5,
color = "gray20", curvature = -0.3) +
scale_y_discrete(limits = rev) +
#scale_y_continuous( expand = c(0.005, 0.005)) +
scale_colour_brewer( palette ='Dark2') + # Paleta divergente) +
labs(title = title,
y = NULL, x = text_indicator) +
theme(plot.title=element_text( vjust=1.25,hjust = 0.5),
legend.position = "none",
panel.grid = element_blank()
)
}
Distribución de T-Index
p <- distribucion (roles,"h-index","T-index", "T-index por tipo de role",10)
plot (p)

Distribución de Followers (escala logarítmica de 10)
p <- distribucion (roles,"log_followers","log(Followers)", "Followers por tipo de role (escala logarítmica en base 10)",0.8)
plot (p)

Distribución de Followers/Following
p <- distribucion (roles,"Followers/Following","F/F", "Followers/Following por tipo de role",7)
plot (p)

Distribución de la frecuencia de publicación
Media diaria
p <- distribucion (roles,"Frequency","Tweets/día", "Tweets diarios de media por tipo de role",8)
plot (p)

Distribución de las respuestas realizadas
p <- distribucion (roles,"Ratio Reply_out","Ratio reply-out", "Ratio de respuestas realizadas por tipo de role",0.25)
plot (p)

x <- 10^2.4
