Este cuaderno lo realicé para preparar mi ponencia en la Jornada Data Feminismo organizada por DataLab La Ciba el 8 de junio de 2021

Jornada Data Feminismo

Estás gráficas están están inspiradas en este estupendo tutorial sobre la evolución de un boxplot

Fuente de datos

Para la jornada analicé a los perfiles de un conjunto de mujeres tecnológicas de España seleccionadas por:

En total 389 perfiles únicos

Conexiones entre las mujeres seleccionadas

Estás mujeres están conectadas entre sí formando tres grupos: desarrolladoras, datos y divulgación

Caracterización de perfiles

Se caracterizaron según su actividad e impacto

Role

Representa su actividad e impacto.

Los altavoces consiguen llamar la atención y lo que dicen se propaga. Los networkers, retuiteadores y replicadores mueven los contenidos. Los monologuistas, aislados, automáticos y comunes aportan, pero tienen poca interacción.

T-index

Es una medida de impacto objetiva y fácil de realizar.

Número de seguidores

Indica su alcance. Como es un dato con valores muy dispersos de 1 a millones de seguidores se va a representar en logaritmo en base 10.

Relación de seguidores y seguidos

El coeficiente entre seguidores y seguidos muestra la simetría de la atención. Si es mayor que 1 indica que recibe más atención de los demás de la que muestra por otros.

Frecuencia de publicación

Muestra la actividad de los perfiles mediante la media de tweets diarios. Se calcula con el número total de tweets dividido entre los días transcurridos de su alta en Twitter.

Difusión

Refleja si los perfiles comparten o no información mediante RTs. El ratio se calcula como el número total de RT realizados dividido entre el número total de tweets originales. Cuanto más cerca está de 1 más comparte información.

Comentarios

Indica si los perfiles conversan mediante respuestas. El ratio se calcula como el número total de comentarios realizados dividido entre el número total de tweets originales. Cuanto más cerca está de 1 más conversa.

Conclusiones

Gráficas

Librerías necesarias

library(readr)
library(dplyr)
library(ggplot2)
library(scales)
library(reshape)
library(lubridate)
library(RColorBrewer)
locale(date_names = "es", date_format = "%AD", time_format = "%AT",
  decimal_mark = ".", grouping_mark = ",", tz = "Europe/Berlin",
  encoding = "UTF-8", asciify = FALSE)
<locale>
Numbers:  123,456.78
Formats:  %AD / %AT
Timezone: Europe/Berlin
Encoding: UTF-8
<date_names>
Days:   domingo (dom.), lunes (lun.), martes (mar.), miércoles (mié.), jueves (jue.), viernes (vie.), sábado (sáb.)
Months: enero (ene.), febrero (feb.), marzo (mar.), abril (abr.), mayo (may.), junio (jun.), julio (jul.), agosto
        (ago.), septiembre (sept.), octubre (oct.), noviembre (nov.), diciembre (dic.)
AM/PM:  a. m./p. m.
theme_set(theme_light(base_size = 12))

Leemos los datos

file= "https://raw.githubusercontent.com/congosto/congosto.github.io/master/mujerestech_plus_role.csv"

roles <- read_csv2 (file)
roles <- roles %>%
         filter(Role != "no tweets" &
                !is.na(Role)) %>%
         filter(!is.na (User))

print (roles)
roles_order <- c("Altavoz alto", "Altavoz medio", "Altavoz bajo", "Networker" , "Replicador", "Retuiteador", "Monologista", "Normal")
roles$Role <- factor (roles$Role, levels = roles_order)

Gráfica de distribución de roles

 roles %>%
  ggplot (aes(x =  Role, y= ..count../sum(..count..), fill= Role)) +
  geom_bar(show.legend = F, alpha = 0.5)+
  scale_fill_brewer( palette ='Dark2') + # Paleta divergente) +
  coord_flip() + 
  geom_text(aes(label = paste0(round(..count../sum(..count..)*100,1),"%"), 
                y= ..count../sum(..count..)), stat="count", vjust = -0.5, hjust = -0.25) +
  scale_x_discrete (limit = rev , expand = c(0,0))+
  scale_y_continuous (expand = c(0,0,0.5,0))+
  labs(x = "", y = "",
       title = "Roles",
       fill = "Tipo tweet")+
  theme (plot.title=element_text( vjust=1.25,hjust = 0.5),
       axis.title.y=element_blank(),
       axis.title.x=element_blank(),
       axis.text.x=element_blank(),
       panel.border = element_blank(),
       panel.grid.major=element_blank(),
       panel.grid.minor=element_blank()) 

Función para generar las gráficas de distribución

distribucion <- function (df,indicator,text_indicator, title, offset) {
  
df <- df %>%
      mutate (indicator=df[[`indicator`]])
  
df_indicator <- df %>%
                group_by(Role) %>%
                summarise(mean_indicator  =  mean (indicator),
                           indicator = indicator)  
role_avg <- 
  df %>%
  summarize(avg = mean(indicator, na.rm = T)) %>%
  pull(avg)

arrows <-
  tibble(
    y1 = c(1.1, 4.62),
    y2 = c(0.6, 5),
    x1 = c(role_avg + offset, role_avg + offset),
    x2 = c(role_avg + 0, role_avg + offset)
  )


  ggplot(df_indicator, aes(x = indicator, y = Role, color = Role)) +
    geom_vline(aes(xintercept = role_avg), color = "gray70", size = 0.6) +
    geom_jitter(size = 2, alpha = 0.25, width = 0.2) +
    stat_summary(fun = mean, geom = "point", size = 5) +
    stat_summary(fun = mean, geom = "text", 
                 aes(label=sprintf("%1.1f", ..x..)), 
                 position=position_nudge(y=0.3), 
                 color = "gray20", size=3.5) +
    geom_text(data = df_indicator %>% filter (Role == "Altavoz medio")
                    %>% select (Role,mean_indicator) %>%
                    distinct(Role,mean_indicator),
                 aes(x=mean_indicator,y=Role,label=paste("media")), 
                 position=position_nudge(y = -0.3, ), 
                 color = "gray20", size=3.5) +
    geom_segment(aes(y = Role, yend = Role,
                     x = role_avg, xend = mean_indicator),
                 size = 0.8) +
    annotate("text", x = role_avg+offset, y = 1.3, size = 3.5, color = "gray20", lineheight = .9,
             label = glue::glue("Media {text_indicator}:{round(role_avg, 1)}")) +
    annotate("text", x = role_avg+offset, y = 4.5,  size = 3.5, color = "gray20",
             label = glue::glue("{text_indicator} por perfil")) +
    geom_curve(data = arrows, aes(x = x1, y = y1, xend = x2, yend = y2),
             arrow = arrow(length = unit(0.08, "inch")), size = 0.5,
             color = "gray20", curvature = -0.3) +
    scale_y_discrete(limits = rev) +
    #scale_y_continuous( expand = c(0.005, 0.005)) +
    scale_colour_brewer( palette ='Dark2') + # Paleta divergente) +
    labs(title = title,
         y = NULL, x = text_indicator) +
    theme(plot.title=element_text( vjust=1.25,hjust = 0.5),
      legend.position = "none",
      panel.grid = element_blank()
    )

}

Distribución de T-Index

    p <- distribucion (roles,"h-index","T-index", "T-index por tipo de role",10)
    plot (p)

Distribución de Followers (escala logarítmica de 10)

    p <- distribucion (roles,"log_followers","log(Followers)", "Followers por tipo de role (escala logarítmica en base 10)",0.8)
    plot (p)

Distribución de Followers/Following

    p <- distribucion (roles,"Followers/Following","F/F", "Followers/Following por tipo de role",7)
    plot (p)

Distribución de la frecuencia de publicación

Media diaria

    p <- distribucion (roles,"Frequency","Tweets/día", "Tweets diarios de media por tipo de role",8)
    plot (p)

Distribución de los retweets realizados

    p <- distribucion (roles,"Ratio_RT_out","Ratio RT-out", "Ratio de retweets realizados por tipo de role",0.3)
    plot (p)

Distribución de las respuestas realizadas

    p <- distribucion (roles,"Ratio Reply_out","Ratio reply-out", "Ratio de respuestas realizadas por tipo de role",0.25)
    plot (p)

    
    x <- 10^2.4
  
---
title: "Mujeres Tecnológicas en España"
output: html_notebook
---


Este cuaderno lo realicé para preparar mi ponencia en la Jornada Data Feminismo organizada por [DataLab La Ciba](https://laciba.gramenet.cat/es/multimedia/noticias-la-ciba/detalle-info/news/data-feminism-transformacio-digital-des-de-la-perspectiva-feminista/) el 8 de junio de 2021

![Jornada Data Feminismo](portada.jpg)

Estás gráficas están están inspiradas en [este estupendo tutorial sobre la evolución de un boxplot](https://www.cedricscherer.com/2019/05/17/the-evolution-of-a-ggplot-ep.-1/) ![](
https://d33wubrfki0l68.cloudfront.net/1e7033393a2c70dc1255c5d0f1c563e945519251/61035/img/evol-ggplot/evol-ggplot-1.gif)

## Fuente de datos

Para la jornada analicé a los perfiles de  un conjunto de mujeres tecnológicas de España seleccionadas por:

- 122 perfiles obtenidos de [La lista de mujeres tecnológicas](https://twitter.com/victorianoi/status/955139146137456640) generada por [Victorianoi](https://twitter.com/victorianoi)

- Añadiendo más perfiles desde las listas

  - AudienseCo - t3chfest2019
  - Aliciapomares - tech-data
  - Assarasua - data-analytics
  - Pingmujeres – desarrolladoras
  - Victorianoi – complexity
  - Victorianoi - Data-Spain
- Seleccionando los perfiles más destacados que son seguidos por los eventos tecnológicos de mujeres

En total 389 perfiles únicos

## Conexiones entre las mujeres seleccionadas

Estás mujeres están conectadas entre sí formando tres grupos: desarrolladoras, datos y divulgación

![](mujeres_tech_conexiones.jpg)

## Caracterización de perfiles

Se caracterizaron según su actividad e impacto

### Role

Representa su actividad e impacto. 

![](roles.PNG)

Los altavoces consiguen llamar la atención y lo que dicen se propaga. Los networkers, retuiteadores y replicadores  mueven los contenidos. Los monologuistas, aislados, automáticos y comunes aportan, pero tienen poca interacción.

### T-index

Es una medida de impacto objetiva y fácil de realizar. 

![](t-index.PNG)


### Número de seguidores

Indica su alcance. Como es un dato con valores muy dispersos de 1 a millones de seguidores se va a representar en logaritmo en base 10.


### Relación de seguidores y seguidos 

El coeficiente entre seguidores y seguidos muestra la simetría de la atención. Si es mayor que 1 indica que recibe más atención de los demás de la que muestra por otros.



### Frecuencia de publicación

Muestra la actividad de los perfiles mediante la media de tweets diarios. Se calcula con el número total de tweets dividido entre los días transcurridos de su alta en Twitter.

### Difusión

Refleja si los perfiles comparten o no información mediante RTs. El ratio se calcula como el número total de RT realizados dividido entre el número total de tweets originales. Cuanto más cerca está de 1 más comparte información.

### Comentarios

Indica si los perfiles conversan mediante respuestas. El ratio se calcula como el número total de comentarios realizados dividido entre el número total de tweets originales. Cuanto más cerca está de 1 más conversa.

## Conclusiones

- Las conexiones se han vertebrado por eventos presenciales
- Los perfiles más destacados son los que han participado en la organización o cómo ponentes
- El resultado es una red conexionada por temáticas (datos, desarrollo y divulgación)
- Hay un 21,5% de monologuistas (publican sin repercusión). Es una debilidad de la red, un esfuerzo que no se valora.
- Más de un tercio de la red es networker, es una fortaleza porque mueven contenidos y participan en conversaciones
- El impacto medio (T-index = 9) está por encima del impacto medio global
- Despiertan atención. Su media seguidores/seguidos es de 3,1. Es decir, tiene tres veces más seguidores que seguidos
- Son activas. Publican una media de 5 tweets diarios
- Comparten información, El 40% de sus tweets son RTs
- Conversan, el 30% de sus tweets son comentarios




```{r setup, 	echo = TRUE,message = FALSE,	warning = FALSE,include=FALSE, cache = FALSE}
knitr::opts_chunk$set(warning = FALSE, message = FALSE)
require("knitr")
## setting working directory

#
```

## Gráficas

### Librerías necesarias


```{r echo=TRUE, message=FALSE, warning=FALSE}
library(readr)
library(dplyr)
library(ggplot2)
library(scales)
library(reshape)
library(lubridate)
library(RColorBrewer)
locale(date_names = "es", date_format = "%AD", time_format = "%AT",
  decimal_mark = ".", grouping_mark = ",", tz = "Europe/Berlin",
  encoding = "UTF-8", asciify = FALSE)
theme_set(theme_light(base_size = 12))

```

### Leemos los datos

```{r echo=TRUE, message=FALSE, warning=FALSE}
file= "https://raw.githubusercontent.com/congosto/congosto.github.io/master/mujerestech_plus_role.csv"

roles <- read_csv2 (file)
roles <- roles %>%
         filter(Role != "no tweets" &
                !is.na(Role)) %>%
         filter(!is.na (User))

print (roles)
roles_order <- c("Altavoz alto", "Altavoz medio", "Altavoz bajo", "Networker" , "Replicador", "Retuiteador", "Monologista", "Normal")
roles$Role <- factor (roles$Role, levels = roles_order)
```

### Gráfica de distribución de roles



```{r echo=TRUE, message=FALSE, warning=FALSE, warning=FALSE}
 roles %>%
  ggplot (aes(x =  Role, y= ..count../sum(..count..), fill= Role)) +
  geom_bar(show.legend = F, alpha = 0.5)+
  scale_fill_brewer( palette ='Dark2') + # Paleta divergente) +
  coord_flip() + 
  geom_text(aes(label = paste0(round(..count../sum(..count..)*100,1),"%"), 
                y= ..count../sum(..count..)), stat="count", vjust = -0.5, hjust = -0.25) +
  scale_x_discrete (limit = rev , expand = c(0,0))+
  scale_y_continuous (expand = c(0,0,0.5,0))+
  labs(x = "", y = "",
       title = "Roles",
       fill = "Tipo tweet")+
  theme (plot.title=element_text( vjust=1.25,hjust = 0.5),
       axis.title.y=element_blank(),
       axis.title.x=element_blank(),
       axis.text.x=element_blank(),
       panel.border = element_blank(),
       panel.grid.major=element_blank(),
       panel.grid.minor=element_blank()) 
```


### Función para generar las gráficas de distribución

```{r echo=TRUE, fig.height=6, fig.width=8, message=FALSE, warning=FALSE}
distribucion <- function (df,indicator,text_indicator, title, offset) {
  
df <- df %>%
      mutate (indicator=df[[`indicator`]])
  
df_indicator <- df %>%
                group_by(Role) %>%
                summarise(mean_indicator  =  mean (indicator),
                           indicator = indicator)  
role_avg <- 
  df %>%
  summarize(avg = mean(indicator, na.rm = T)) %>%
  pull(avg)

arrows <-
  tibble(
    y1 = c(1.1, 4.62),
    y2 = c(0.6, 5),
    x1 = c(role_avg + offset, role_avg + offset),
    x2 = c(role_avg + 0, role_avg + offset)
  )


  ggplot(df_indicator, aes(x = indicator, y = Role, color = Role)) +
    geom_vline(aes(xintercept = role_avg), color = "gray70", size = 0.6) +
    geom_jitter(size = 2, alpha = 0.25, width = 0.2) +
    stat_summary(fun = mean, geom = "point", size = 5) +
    stat_summary(fun = mean, geom = "text", 
                 aes(label=sprintf("%1.1f", ..x..)), 
                 position=position_nudge(y=0.3), 
                 color = "gray20", size=3.5) +
    geom_text(data = df_indicator %>% filter (Role == "Altavoz medio")
                    %>% select (Role,mean_indicator) %>%
                    distinct(Role,mean_indicator),
                 aes(x=mean_indicator,y=Role,label=paste("media")), 
                 position=position_nudge(y = -0.3, ), 
                 color = "gray20", size=3.5) +
    geom_segment(aes(y = Role, yend = Role,
                     x = role_avg, xend = mean_indicator),
                 size = 0.8) +
    annotate("text", x = role_avg+offset, y = 1.3, size = 3.5, color = "gray20", lineheight = .9,
             label = glue::glue("Media {text_indicator}:{round(role_avg, 1)}")) +
    annotate("text", x = role_avg+offset, y = 4.5,  size = 3.5, color = "gray20",
             label = glue::glue("{text_indicator} por perfil")) +
    geom_curve(data = arrows, aes(x = x1, y = y1, xend = x2, yend = y2),
             arrow = arrow(length = unit(0.08, "inch")), size = 0.5,
             color = "gray20", curvature = -0.3) +
    scale_y_discrete(limits = rev) +
    #scale_y_continuous( expand = c(0.005, 0.005)) +
    scale_colour_brewer( palette ='Dark2') + # Paleta divergente) +
    labs(title = title,
         y = NULL, x = text_indicator) +
    theme(plot.title=element_text( vjust=1.25,hjust = 0.5),
      legend.position = "none",
      panel.grid = element_blank()
    )

}
```


### Distribución de T-Index

```{r echo=TRUE, fig.height=6, fig.width=8, warning=FALSE}
    p <- distribucion (roles,"h-index","T-index", "T-index por tipo de role",10)
    plot (p)
```

### Distribución de Followers (escala logarítmica de 10)

```{r  echo=TRUE, fig.width=8, fig.height=6, warning=FALSE}
    p <- distribucion (roles,"log_followers","log(Followers)", "Followers por tipo de role (escala logarítmica en base 10)",0.8)
    plot (p)

```



### Distribución de Followers/Following

```{r  echo=TRUE,fig.width=8, fig.height=6, warning=FALSE}
    p <- distribucion (roles,"Followers/Following","F/F", "Followers/Following por tipo de role",7)
    plot (p)
```



### Distribución de la frecuencia de publicación

Media diaria

```{r  echo=TRUE,fig.width=8, fig.height=6, warning=FALSE}
    p <- distribucion (roles,"Frequency","Tweets/día", "Tweets diarios de media por tipo de role",8)
    plot (p)
```

### Distribución de los retweets realizados

```{r  echo=TRUE,fig.width=8, fig.height=6, warning=FALSE}
    p <- distribucion (roles,"Ratio_RT_out","Ratio RT-out", "Ratio de retweets realizados por tipo de role",0.3)
    plot (p)
```

### Distribución de las respuestas realizadas

```{r  echo=TRUE,fig.width=8, fig.height=6, warning=FALSE}
    p <- distribucion (roles,"Ratio Reply_out","Ratio reply-out", "Ratio de respuestas realizadas por tipo de role",0.25)
    plot (p)
```