Este cuaderno lo realicé para preparar mi ponencia en la Jornada Data Feminismo organizada por DataLab La Ciba el 8 de junio de 2021

Jornada Data Feminismo

Estás gráficas están están inspiradas en este estupendo tutorial sobre la evolución de un boxplot

Fuente de datos

Para la jornada analicé a los perfiles de un conjunto de mujeres tecnológicas de España seleccionadas por:

En total 389 perfiles únicos

Conexiones entre las mujeres seleccionadas

Estás mujeres están conectadas entre sí formando tres grupos: desarrolladoras, datos y divulgación

Caracterización de perfiles

Se caracterizaron según su actividad e impacto

Role

Representa su actividad e impacto.

Los altavoces consiguen llamar la atención y lo que dicen se propaga. Los networkers, retuiteadores y replicadores mueven los contenidos. Los monologuistas, aislados, automáticos y comunes aportan, pero tienen poca interacción.

T-index

Es una medida de impacto objetiva y fácil de realizar.

Número de seguidores

Indica su alcance. Como es un dato con valores muy dispersos de 1 a millones de seguidores se va a representar en logaritmo en base 10.

Relación de seguidores y seguidos

El coeficiente entre seguidores y seguidos muestra la simetría de la atención. Si es mayor que 1 indica que recibe más atención de los demás de la que muestra por otros.

Frecuencia de publicación

Muestra la actividad de los perfiles mediante la media de tweets diarios. Se calcula con el número total de tweets dividido entre los días transcurridos de su alta en Twitter.

Difusión

Refleja si los perfiles comparten o no información mediante RTs. El ratio se calcula como el número total de RT realizados dividido entre el número total de tweets originales. Cuanto más cerca está de 1 más comparte información.

Comentarios

Indica si los perfiles conversan mediante respuestas. El ratio se calcula como el número total de comentarios realizados dividido entre el número total de tweets originales. Cuanto más cerca está de 1 más conversa.

Conclusiones

Gráficas

Librerías necesarias

library(readr)
library(dplyr)
library(ggplot2)
library(scales)
library(reshape)
library(lubridate)
library(RColorBrewer)
locale(date_names = "es", date_format = "%AD", time_format = "%AT",
  decimal_mark = ".", grouping_mark = ",", tz = "Europe/Berlin",
  encoding = "UTF-8", asciify = FALSE)
<locale>
Numbers:  123,456.78
Formats:  %AD / %AT
Timezone: Europe/Berlin
Encoding: UTF-8
<date_names>
Days:   domingo (dom.), lunes (lun.), martes (mar.), miércoles (mié.), jueves (jue.), viernes (vie.), sábado (sáb.)
Months: enero (ene.), febrero (feb.), marzo (mar.), abril (abr.), mayo (may.), junio (jun.), julio (jul.), agosto
        (ago.), septiembre (sept.), octubre (oct.), noviembre (nov.), diciembre (dic.)
AM/PM:  a. m./p. m.
theme_set(theme_light(base_size = 12))

Leemos los datos

file= "https://raw.githubusercontent.com/congosto/congosto.github.io/master/mujerestech_plus_role.csv"

roles <- read_csv2 (file)
roles <- roles %>%
         filter(Role != "no tweets" &
                !is.na(Role)) %>%
         filter(!is.na (User))

print (roles)
roles_order <- c("Altavoz alto", "Altavoz medio", "Altavoz bajo", "Networker" , "Replicador", "Retuiteador", "Monologista", "Normal")
roles$Role <- factor (roles$Role, levels = roles_order)

Gráfica de distribución de roles

 roles %>%
  ggplot (aes(x =  Role, y= ..count../sum(..count..), fill= Role)) +
  geom_bar(show.legend = F, alpha = 0.5)+
  scale_fill_brewer( palette ='Dark2') + # Paleta divergente) +
  coord_flip() + 
  geom_text(aes(label = paste0(round(..count../sum(..count..)*100,1),"%"), 
                y= ..count../sum(..count..)), stat="count", vjust = -0.5, hjust = -0.25) +
  scale_x_discrete (limit = rev , expand = c(0,0))+
  scale_y_continuous (expand = c(0,0,0.5,0))+
  labs(x = "", y = "",
       title = "Roles",
       fill = "Tipo tweet")+
  theme (plot.title=element_text( vjust=1.25,hjust = 0.5),
       axis.title.y=element_blank(),
       axis.title.x=element_blank(),
       axis.text.x=element_blank(),
       panel.border = element_blank(),
       panel.grid.major=element_blank(),
       panel.grid.minor=element_blank()) 

Función para generar las gráficas de distribución

distribucion <- function (df,indicator,text_indicator, title, offset) {
  
df <- df %>%
      mutate (indicator=df[[`indicator`]])
  
df_indicator <- df %>%
                group_by(Role) %>%
                summarise(mean_indicator  =  mean (indicator),
                           indicator = indicator)  
role_avg <- 
  df %>%
  summarize(avg = mean(indicator, na.rm = T)) %>%
  pull(avg)

arrows <-
  tibble(
    y1 = c(1.1, 4.62),
    y2 = c(0.6, 5),
    x1 = c(role_avg + offset, role_avg + offset),
    x2 = c(role_avg + 0, role_avg + offset)
  )


  ggplot(df_indicator, aes(x = indicator, y = Role, color = Role)) +
    geom_vline(aes(xintercept = role_avg), color = "gray70", size = 0.6) +
    geom_jitter(size = 2, alpha = 0.25, width = 0.2) +
    stat_summary(fun = mean, geom = "point", size = 5) +
    stat_summary(fun = mean, geom = "text", 
                 aes(label=sprintf("%1.1f", ..x..)), 
                 position=position_nudge(y=0.3), 
                 color = "gray20", size=3.5) +
    geom_text(data = df_indicator %>% filter (Role == "Altavoz medio")
                    %>% select (Role,mean_indicator) %>%
                    distinct(Role,mean_indicator),
                 aes(x=mean_indicator,y=Role,label=paste("media")), 
                 position=position_nudge(y = -0.3, ), 
                 color = "gray20", size=3.5) +
    geom_segment(aes(y = Role, yend = Role,
                     x = role_avg, xend = mean_indicator),
                 size = 0.8) +
    annotate("text", x = role_avg+offset, y = 1.3, size = 3.5, color = "gray20", lineheight = .9,
             label = glue::glue("Media {text_indicator}:{round(role_avg, 1)}")) +
    annotate("text", x = role_avg+offset, y = 4.5,  size = 3.5, color = "gray20",
             label = glue::glue("{text_indicator} por perfil")) +
    geom_curve(data = arrows, aes(x = x1, y = y1, xend = x2, yend = y2),
             arrow = arrow(length = unit(0.08, "inch")), size = 0.5,
             color = "gray20", curvature = -0.3) +
    scale_y_discrete(limits = rev) +
    #scale_y_continuous( expand = c(0.005, 0.005)) +
    scale_colour_brewer( palette ='Dark2') + # Paleta divergente) +
    labs(title = title,
         y = NULL, x = text_indicator) +
    theme(plot.title=element_text( vjust=1.25,hjust = 0.5),
      legend.position = "none",
      panel.grid = element_blank()
    )

}

Distribución de T-Index

    p <- distribucion (roles,"h-index","T-index", "T-index por tipo de role",10)
    plot (p)

Distribución de Followers (escala logarítmica de 10)

    p <- distribucion (roles,"log_followers","log(Followers)", "Followers por tipo de role (escala logarítmica en base 10)",0.8)
    plot (p)

Distribución de Followers/Following

    p <- distribucion (roles,"Followers/Following","F/F", "Followers/Following por tipo de role",7)
    plot (p)

Distribución de la frecuencia de publicación

Media diaria

    p <- distribucion (roles,"Frequency","Tweets/día", "Tweets diarios de media por tipo de role",8)
    plot (p)

Distribución de los retweets realizados

    p <- distribucion (roles,"Ratio_RT_out","Ratio RT-out", "Ratio de retweets realizados por tipo de role",0.3)
    plot (p)

Distribución de las respuestas realizadas

    p <- distribucion (roles,"Ratio Reply_out","Ratio reply-out", "Ratio de respuestas realizadas por tipo de role",0.25)
    plot (p)

    
    x <- 10^2.4
  
