Análisis de políticos

1- Descargar tweets

Creo una lista de cuentas de las cuales voy a descargar sus tweets, y además una asignación para saber a quién representa cada cuenta.

La idea original es tener 4 miembros de cada uno de los dos partidos principales, los últimos 4 candidatos en las elecciones 2019 y también las 4 cuentas partidarias en Twitter.

print("Muestra")
[1] "Muestra"
print(Tweets_DF %>% 
  select(text)%>% 
    head(5))
NA

2-Limpieza

Vamos a limpiar ciertos elementos que pueden complicar el análisis del texto, como son los links, los números, los gráficos y pasar todo a minúscula.

Además, creamos varios campos para lo que es la fecha, desagregando el campo en varios distintos, que se van a utilizar a futuro, y también se actualiza el horario a la zona horaria donde fue realizado el tweet (Argentina).

Finalmente filtramos por fecha, la idea es tener solo tweets del periodo 1/3/2020 hasta la fecha de publicación (Sep/2020)

Tweets_DF <-
  Tweets_DF %>%
  ##Todo el texto a minuscula##
  mutate(text = tolower(text)) %>% 
  ##Sin graficos##
  mutate(text = gsub("[^[:graph:]]", " ", text)) %>% 
  ##Sin links##
  mutate(text = gsub("http//S", " ", text)) %>% 
  ##Sin numeros##
  mutate(text = gsub("[[:digit:]]", " ", text)) %>% 
  ##Sin numeros##
  mutate(text = chartr('áéíóúñ','aeioun',text)) %>%
  ##Cambiamos a la zona horaria correspondiente##
  mutate(created_at = with_tz(created_at, "America/Argentina/Buenos_Aires"))%>% 
  ##Separamos en dia y hora el campo created_at##
  separate(created_at, into = c("date", "hour"), sep = " ")%>% 
  ##Separamos la hora en hora,minutos y segundos##
    separate(hour, into = c("hour", "minutes","seconds"), sep = ":")%>% 
  ##Cambiamos la columna con el nombre del politico##
   rename(Politico = screen_name) %>% 
  ##Creamos una columna con el numero de año, mes, dia, nombre de dia y de mes.##
mutate(periodo = year(date), 
         mes = month(date, label = F, abbr = F),
         dia = as.numeric(day(date)),
         dia_sem = wday(date, label = T, abbr = F, week_start = 1),
         dia_per = yday(date),
         date = as.Date(date) 
  ) %>%
  ##Solo vamos a utilizar info de marzo 2020 en adelante##
  filter(periodo == 2020 & mes > 2) 

print("Muestra")
[1] "Muestra"
print(Tweets_DF %>% 
  select(Politico, status_id, periodo, mes, dia)%>% 
    head(10))
NA

3-Normalización

Normalizamos algunos campos, para ayudar al análisis y también a la visualización.

Le agregamos el partido a cada uno de los analizados, y además cambiamos su nombre del @ que vemos en Twitter, a un nombre fácil de entender para todos

Tweets_DF <-
  Tweets_DF %>%
  mutate (Partido = ifelse (Politico == "alferdez", "Peronismo",
                    ifelse (Politico == "CFKArgentina", "Peronismo",
                    ifelse (Politico == "ginesggarcia", "Peronismo", 
                    ifelse (Politico == "Kicillofok", "Peronismo",
                    ifelse (Politico == "UCRNacional", "cuenta partidaria",        
                    ifelse (Politico == "FrenteDeTodos", "cuenta partidaria", 
                    ifelse (Politico == "proargentina", "cuenta partidaria",
                    ifelse (Politico == "PartidoGEN", "cuenta partidaria",
                    ifelse (Politico == "mauriciomacri", "PRO",
                    ifelse (Politico == "PatoBullrich", "PRO",
                    ifelse (Politico == "horaciorlarreta", "PRO",
                    ifelse (Politico == "FernanQuirosBA", "PRO", 
                            "otros candidatos")))))))))))))

Tweets_DF <-
  Tweets_DF %>%
  mutate (Politico = ifelse (Politico == "alferdez", "A.Fernandez",
                    ifelse (Politico == "CFKArgentina", "C.Kirchner",
                    ifelse (Politico == "ginesggarcia", "Gines.GG", 
                    ifelse (Politico == "Kicillofok", "A.Kicillof",
                    ifelse (Politico == "UCRNacional", "UCR",        
                    ifelse (Politico == "FrenteDeTodos", "TODOS", 
                    ifelse (Politico == "proargentina", "PRO",
                    ifelse (Politico == "PartidoGEN", "GEN",
                    ifelse (Politico == "mauriciomacri", "M.Macri",
                    ifelse (Politico == "PatoBullrich", "P.Bullrich",
                    ifelse (Politico == "horaciorlarreta", "H.Larreta",
                    ifelse (Politico == "FernanQuirosBA", "F.Quiros", 
                    ifelse (Politico == "NicolasdelCano", "N.DelCaño",
                    ifelse (Politico == "jlespert", "J.Espert",
                    ifelse (Politico == "RLavagna", "R.Lavagna",
                            "GomezCenturion"
                            ))))))))))))))))

print("Muestra")
[1] "Muestra"
print(Tweets_DF %>% 
  select(Politico, Partido, source)%>% 
    tail(10))

4-Cantidad de tweets

La primera aproximación que vamos a tener, es la cantidad de veces que twitteo cada uno desde marzo del 2020 hasta la fecha de publicación del informe.

Se presentan diferencias considerables entre todos, se deberá normalizar o utilizar proporciones más de una vez

Cantidad_tweets = Tweets_DF %>%
  group_by(Politico, Partido) %>%
  count(Politico)
  
Cantidad_tweets%>%  
  ggplot()+
  aes(x=reorder(Politico, n), y= n, fill= Politico) +
  geom_col() +
  facet_wrap("Partido", scales = "free_y") +
  coord_flip() +
  labs(title = "Cantidad total de tweets", x = "tweets", y = "Cantidad") +
    tema1

5-Fecha de los tweets

Vemos cuando han ido publicando cada uno de los analizados sus tweets, con el fin de mostrar en que época tuvieron más o menos acción.

Tweets_DF %>%
  filter(Partido == "PRO") %>%
  ggplot(aes(x = as.Date(date), fill = Politico)) +
      geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
      scale_x_date(date_labels = "%d-%m", date_breaks = "1 month") +
      labs(x = "fecha de publicación", y = "número de tweets") +
      facet_wrap(~ Politico, ncol = 1) +
      tema2 +
      theme(axis.text.x = element_text(angle = 90))


Tweets_DF %>%
  filter(Partido == "Peronismo") %>%
  ggplot(aes(x = as.Date(date), fill = Politico)) +
      geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
      scale_x_date(date_labels = "%d-%m", date_breaks = "1 month") +
      labs(x = "fecha de publicación", y = "número de tweets") +
      facet_wrap(~ Politico, ncol = 1) +
      tema1 +
      theme(axis.text.x = element_text(angle = 90))


Tweets_DF %>%
  filter(Partido == "otros candidatos") %>%
  ggplot(aes(x = as.Date(date), fill = Politico)) +
      geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
      scale_x_date(date_labels = "%d-%m", date_breaks = "1 month") +
      labs(x = "fecha de publicación", y = "número de tweets") +
      facet_wrap(~ Politico, ncol = 1) +
      tema1 +
      theme(axis.text.x = element_text(angle = 90))


Tweets_DF %>%
  filter(Partido == "cuenta partidaria") %>%
  ggplot(aes(x = as.Date(date), fill = Politico)) +
      geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
      scale_x_date(date_labels = "%d-%m", date_breaks = "1 month") +
      labs(x = "fecha de publicación", y = "número de tweets") +
      facet_wrap(~ Politico, ncol = 1) +
      tema2  +
      theme(axis.text.x = element_text(angle = 90))

6-Cantidad de tweets sobre COVID

El tema más importante del año es el coronavirus, la idea es ver qué porcentaje de los tweets realizados estos meses trato sobre el coronavirus, para eso se van a buscar palabras claves que determinen que el tweet trata sobre la pandemia.

#Buscamos tweets con la palabra covid
Palabras_covid <- "covid|covid-19|covid19|coronavirus|#covid|#covid-19|#covid19|#coronavirus|test|testeo|testeos|pcr|serologico|hisopado|antibioticos|aplanar|curva|cuarentena|contagio|enfermedad|epidemia|pandemia|alarma|gel|cuidados|incubacion|jabon|barbijo|barbijos|mascarilla|mascarillas|mers|sars|vacuna|wuhan|oxford|astra|zeneca|transmision|exponencial|casos|duplicacion|distanciamiento|colapso|salud|letalidad|mortalidad|ventilador|icu|uci|uti|inmunidad|serologica|distanciamiento|virus|asintomatico|caso sospechoso|olfato|gusto|terapia|saturacion|clinica|positividad|positivios|rebaño|inmunidad|hospital|hospitales|aspo|aislamiento"
Tweets_DF$Covid <- grepl(Palabras_covid, Tweets_DF$text, ignore.case ="True")

Tweets_DF %>% 
count(Politico, Partido,Covid) %>%
  group_by(Politico) %>%
  mutate(Proporcion = n / sum(n)) %>%
  mutate(Covid = ifelse(Covid == T, "Sobre COVID", "Otro tema"))%>%
ggplot() +
  aes(Politico, Proporcion, fill = Covid) +
  geom_col() +
  scale_y_continuous(labels = percent_format()) +
      facet_wrap("Partido", scales = "free") +
  theme(legend.position = "top")

7- Wordcloud

La idea de la nube de palabras es saber cuáles son las 200 palabras que más se usaron por los analizados estos meses, como era de esperarse sobresalen “coronavirus”, “covid”, “pandemia” o “cuarentena”

tuits_tokens <-
  Tweets_DF %>%
  unnest_tokens(input = text, output = Palabra, token = "words") %>%
  select(Politico, Palabra, status_id, periodo, mes, hour, Partido) %>%
  mutate(status_id = gsub("<(.*)>+?", "", status_id)) %>%
  filter(!Palabra %in% stopwords("es")) %>%
  filter(!Palabra %in% c("t.co", "https", "vía", "youtube", "amp"))

Palabras_sinhoymas = tuits_tokens  %>%
  filter(Palabra != "mas" & Palabra != "hoy") 

wordcloud(words = Palabras_sinhoymas$Palabra, 
          scale=c(2,.2), 
          max.words=200, random.order=FALSE, rot.per=0.35, 
          colors=brewer.pal(8, "Dark2"),
          )
transformation drops documentstransformation drops documents

8-Descargamos un diccionario

Descargamos un diccionario que tiene las palabras en español, y le asigna un valor entre -5 a 5, mostrando la positividad o negatividad de la palabra.

Eliminamos la palabra “No” que la toma como negativa, cuando en español es un conector a veces, y la palabra “Negro” (Nigga) que la toma con el máximo valor negativo

download.file("https://raw.githubusercontent.com/jboscomendoza/rpubs/master/sentimientos_afinn/lexico_afinn.en.es.csv",
              "lexico_afinn.en.es.csv")
probando la URL 'https://raw.githubusercontent.com/jboscomendoza/rpubs/master/sentimientos_afinn/lexico_afinn.en.es.csv'
Content type 'text/plain; charset=utf-8' length 51625 bytes (50 KB)
downloaded 50 KB
afinn <- read.csv("lexico_afinn.en.es.csv", stringsAsFactors = F, fileEncoding = "latin1") %>% 
  tbl_df()

afinn$Puntuacion <- ifelse(afinn$Palabra == "no", 0, afinn$Puntuacion)
afinn$Puntuacion <- ifelse(afinn$Palabra == "negro", 0, afinn$Puntuacion)

print("Muestra")
[1] "Muestra"
afinn %>%
  select(Palabra, Puntuacion) %>%
    arrange(Puntuacion) %>%
  print(head(10))

afinn %>%
  select(Palabra, Puntuacion) %>%
    arrange(-Puntuacion) %>%
  print(tail(10))

9- Separacion de palabras

Separamos las distintas palabras que usaron cada uno de los políticos en sus tweets, y eliminamos algunas palabras propias de Twitter y las llamadas stopwords que son las palabras más frecuentes en el idioma español.

print ("Muestra")
[1] "Muestra"
print (tuits_tokens %>%
    select(Politico, Palabra) %>%    
         head (10))

10- Le damos valor a las palabras

Unimos el diccionario de puntuación con las palabras que uso cada uno de los analizados, con el fin de que cada palabra tenga un valor, y nos sirva para analizar que escribió cada político.

Las palabras serán: - Si tienen valor mayor a 0 Positivas

tuits_tokens_emociones <-   
 tuits_tokens %>%
inner_join(afinn, ., by = "Palabra") %>%
  mutate(Calificacion = ifelse(Puntuacion > 0, "Positiva", 
                              ifelse(Puntuacion == 0, "Neutral",
                              "Negativa")
                            )
  )      

print ("Muestra")
[1] "Muestra"
print (tuits_tokens_emociones %>%
    select(Politico, Palabra, Puntuacion, Calificacion) %>%    
         tail (10))

11- ¿Quién usa más caracteres?

La idea es buscar cual es el promedio del largo (cantidad de caracteres) de los tweets que realiza cada uno de los analizados.

Mientras más a la derecha este la caja, más largo son los tweets que escriben, en ese aspecto se destacan: - Lavagna, Patricia Bullrich, Larreta y Fernán Quirós son los que escriben los tweets más largos. - Aquellos relacionados al PRO son de escribir tweets más largos

Tweets_DF %>% 
ggplot()+
  aes(x= Politico, y= display_text_width, color= Politico) +
  geom_boxplot () +
    labs(title = "Largo promedio del tweet", x = "Politico", y = "Cantidad caracteres") +
  coord_flip() +
    tema1

12- ¿Quién usa más palabras?

La idea es analizar quien es el que uso más palabras distintas en promedio durante este tiempo, en este caso vamos a dividir por la cantidad de tweets que hizo, así queda normalizado para todos los analizados.

No se cuentan los conectores comunes como “en”, “a”, “de”, etc.

Cantidad_palabras= tuits_tokens%>%
  group_by(Politico, Partido)%>%
  count(Politico)%>%
inner_join(Cantidad_tweets, ., by = "Politico")%>%
  mutate(cantidad_promedio = n.y / n.x)


Cantidad_palabras%>% ggplot()+
  aes(x=reorder(Politico, -cantidad_promedio), y= cantidad_promedio, fill= Politico) +
  geom_col() +
  facet_wrap("Partido.x", scales = "free_y") +
  labs(title = "Uso de palabras", x = "tweets", y = "Cantidad") +
  coord_flip() +
    tema1

NA
NA

13- ¿Quien usa mas palabras distintas?

Buscamos ver el léxico distintivo que hay en cada una de las cuentas, contando sus palabras únicas y se nota:

tuits_tokens%>%
  group_by(Politico, Partido)%>%
  distinct(Palabra)%>%
  count(Politico)%>%
inner_join(Cantidad_tweets, ., by = "Politico")  %>%
  mutate(cantidad_promedio = n.y / n.x) %>% 
  ggplot()+
  aes(x=reorder(Politico, cantidad_promedio), y= cantidad_promedio, fill= Politico) +
  geom_col() +
  facet_wrap("Partido.x", scales = "free_y") +
  labs(title = "Palabras distintas", x = "tweets", y = "Cantidad") +
  coord_flip() +
    tema1

NA

14- Palabras más usadas

Ahora que ya sabemos con qué variedad de palabras, podemos analizar cuáles son las que más usaron En este caso, cada grafico tiene una escala distinta para que no se pierda por la cantidad de tweets realizados.

Las palabras más utilizadas fueron:

tuits_tokens_emociones %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "PRO") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras más usadas") +
     tema1


 tuits_tokens_emociones %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "Peronismo") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras más usadas") +
     tema1

 
  tuits_tokens_emociones %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "otros candidatos") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras más usadas") +
     tema1

  
   tuits_tokens_emociones %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "cuenta partidaria") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras más usadas") +
     tema1

15- Palabras positivas más usadas

Al tener una puntuación cada palabra otorgada por el diccionario de léxico, también podemos buscar cuales son las palabras positivas que más uso cada uno de los políticos.

En este caso:

 tuits_tokens_emociones %>%
    filter(Calificacion ==  "Positiva") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "PRO") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Positivas más usadas") 


 tuits_tokens_emociones %>%
    filter(Calificacion ==  "Positiva") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "Peronismo") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Positivas más usadas") 

 
  tuits_tokens_emociones %>%
    filter(Calificacion ==  "Positiva") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "otros candidatos") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Positivas más usadas") 

  
   tuits_tokens_emociones %>%
    filter(Calificacion ==  "Positiva") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "cuenta partidaria") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Positivas más usadas") 

16- Palabras negativas más usadas

Al tener una puntuación cada palabra otorgada por el diccionario de léxico, también podemos buscar cuales son las palabras negativas que más uso cada uno de los políticos.

 tuits_tokens_emociones %>%
    filter(Calificacion ==  "Negativa") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "PRO") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Negativas más usadas") 


 tuits_tokens_emociones %>%
    filter(Calificacion ==  "Negativa") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "Peronismo") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Negativas más usadas") 

 
  tuits_tokens_emociones %>%
    filter(Calificacion ==  "Negativa") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "otros candidatos") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Negativas más usadas") 

  
   tuits_tokens_emociones %>%
    filter(Calificacion ==  "Negativa") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "cuenta partidaria") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Negativas más usadas") 

17- Sentimientos en el tweet

Volviendo a usar la puntuación del diccionario afinn, volvemos a unir las palabras a los tweets y sacamos el promedio de puntos de todas las palabras, pasando del valor unitario de palabra a un valor unitario por cada tweet publicado.

Tweets_DF <-
  tuits_tokens_emociones %>%
  group_by(status_id) %>%
  summarise(Puntuacion_tweet.x = mean(Puntuacion)) %>%
  left_join(Tweets_DF, ., by = "status_id")
`summarise()` ungrouping output (override with `.groups` argument)
Tweets_DF <-  Tweets_DF %>%
  mutate(Puntuacion_tweet.x_letra = ifelse(is.na(Puntuacion_tweet.x), "Neutral",
                                   ifelse(Puntuacion_tweet.x > 0, "Positiva", 
                                    ifelse(Puntuacion_tweet.x == 0, "Neutral",
                              "Negativa")
                            )
  )      
)

Tweets_DF %>%
  count(Politico, Partido, Puntuacion_tweet.x_letra) %>%
  group_by(Politico) %>%
  mutate(Proporcion = n / sum(n)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = Puntuacion_tweet.x_letra) +
  geom_col() +
  scale_y_continuous(labels = percent_format()) +
      facet_wrap("Partido", scales = "free") +
  theme(legend.position = "top")

NA
NA

18- Sentimientos en el tweet PRO vs Peronismo

Tomamos los 4 miembros que ya analizamos de cada uno de los partidos (PRO y Todos), y lo unimos en un solo gráfico por partido, vemos que la distribución es algo parecido, si bien el Peronismo tuvo un poco más de tweets positivos y menos de tweets negativos, pero no a niveles significativos.

Tweets_DF %>%
  count(Partido, Puntuacion_tweet.x_letra) %>%
  group_by(Partido) %>%
  filter(Partido == "PRO" |Partido == "Peronismo")%>%
  mutate(Proporcion = n / sum(n)) %>%
ggplot() +
  aes(Partido, Proporcion, fill = Puntuacion_tweet.x_letra) +
  geom_col() +
  scale_y_continuous(labels = percent_format()) +
  theme(legend.position = "top")

19- Sentimiento mes a mes

La idea es analizar si hay fluctuaciones en lo que han ido twitteando en el transcurso del tiempo y sus sentimientos.

Tweets_DF$Puntuacion_tweet.x = ifelse(is.na(Tweets_DF$Puntuacion_tweet.x), 0, Tweets_DF$Puntuacion_tweet.x)

Tweets_DF %>%
group_by(Politico, Partido, mes) %>%
  filter(Partido == "PRO")%>%
  summarise(sentimiento = mean(Puntuacion_tweet.x)) %>%
ggplot() +
  aes(mes, sentimiento, color = Politico) +
  geom_hline(yintercept = 0, alpha = .35) +
  geom_line() +
  facet_grid(Politico~.) +
  tema1 +
  theme(legend.position = "none")
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

Tweets_DF %>%
group_by(Politico, Partido, mes) %>%
  filter(Partido == "otros candidatos")%>%
  summarise(sentimiento = mean(Puntuacion_tweet.x)) %>%
ggplot() +
  aes(mes, sentimiento, color = Politico) +
  geom_hline(yintercept = 0, alpha = .35) +
  geom_line() +
  facet_grid(Politico~.) +
  tema1 +
  theme(legend.position = "none")
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

Tweets_DF %>%
group_by(Politico, Partido, mes) %>%
  filter(Partido == "Peronismo")%>%
  summarise(sentimiento = mean(Puntuacion_tweet.x)) %>%
ggplot() +
  aes(mes, sentimiento, color = Politico) +
  geom_hline(yintercept = 0, alpha = .35) +
  geom_line() +
  facet_grid(Politico~.) +
  tema1 +
  theme(legend.position = "none")
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

Tweets_DF %>%
group_by(Politico, Partido, mes) %>%
  filter(Partido == "cuenta partidaria")%>%
  summarise(sentimiento = mean(Puntuacion_tweet.x)) %>%
ggplot() +
  aes(mes, sentimiento, color = Politico) +
  geom_hline(yintercept = 0, alpha = .35) +
  geom_line() +
  facet_grid(Politico~.) +
  tema1 +
  theme(legend.position = "none")
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

20- Boxplot sentimientos

La distribución de los sentimientos entre todos los tweets, aquellos que están encerrados en las cajas son los normales, mientras que los puntos sueltos son tweets aislados a lo que suelen escribir.

Tweets_DF %>%
  ggplot() +
  aes(Politico, Puntuacion_tweet.x, fill = Politico) +
  geom_boxplot() +
  coord_flip() + 
  labs(y= "Sentimiento") +
  tema1

21- Correlación entre lo twitteado PRO vs Peronismo

Se busca a través de las palabras que utilizaron cual es la correlación que hay entre los distintos políticos y sus tweets, y se pueden realizar varias observaciones:

tweets_spread2 <- tuits_tokens %>% 
 filter(Partido ==  "PRO" | Partido == "Peronismo")%>% 
  group_by(Politico, Palabra) %>% 
  count(Palabra) %>%
      spread(key = Politico, value = n, fill = NA, drop = TRUE)
tweets_spread2[is.na(tweets_spread2)] <- 0

names(tweets_spread2) <- c("Palabra", "A.Fernandez", "A.Kicillof", 
                          "C.Kirchner", "F.Quiros", "Gines.GG","H.Larreta", "M.Macri", "P.Bullrich" )

method <- "pearson"
m_cor <- matrix(nrow = 8, ncol = 8)
for (i in 1:dim(m_cor)[1]) {
      for (j in 1:dim(m_cor)[2]) {
            form <- as.formula(paste("~", names(tweets_spread2)[i+1], 
                                      "+", names(tweets_spread2)[j+1]))
            if(i!=j){
                  m_cor[i,j] <- cor.test(form, method = method, 
                                   data = tweets_spread2)$estimate
            }
            if(i==j){m_cor[i,j] <- 1}
      }
}
colnames(m_cor) <- names(tweets_spread2)[2:9]
rownames(m_cor) <- names(tweets_spread2)[2:9]
corrplot(m_cor, method="color", type="upper", order="hclust", 
         addCoef.col = "black", tl.col="black", tl.srt=45,
         sig.level = 0.01, insig = "blank", diag=FALSE)

22- Correlación entre lo twitteado candidatos a presidente.

tweets_spread2 <- tuits_tokens %>% 
  filter(Partido ==  "otros candidatos" | Politico == "A.Fernandez"| Politico == "M.Macri")%>% 
  group_by(Politico, Palabra) %>% 
  count(Palabra) %>%
      spread(key = Politico, value = n, fill = NA, drop = TRUE)
tweets_spread2[is.na(tweets_spread2)] <- 0

names(tweets_spread2) <- c("Palabra", "A.Fernandez", "J.Espert", 
                          "GomezCenturion", "M.Macri", "N.DelCaño","R.Lavagna")

method <- "pearson"
m_cor <- matrix(nrow = 6, ncol = 6)
for (i in 1:dim(m_cor)[1]) {
      for (j in 1:dim(m_cor)[2]) {
            form <- as.formula(paste("~", names(tweets_spread2)[i+1], 
                                      "+", names(tweets_spread2)[j+1]))
            if(i!=j){
                  m_cor[i,j] <- cor.test(form, method = method, 
                                   data = tweets_spread2)$estimate
            }
            if(i==j){m_cor[i,j] <- 1}
      }
}
colnames(m_cor) <- names(tweets_spread2)[2:7]
rownames(m_cor) <- names(tweets_spread2)[2:7]
corrplot(m_cor, method="color", type="upper", order="hclust", 
         addCoef.col = "black", tl.col="black", tl.srt=45,
         sig.level = 0.01, insig = "blank", diag=FALSE)

23- Correlación entre lo twitteado entre cuentas partidarias

Este puede ser un análisis interesante, ya que la cantidad de tweets es significativa para todos.

tweets_spread2 <- tuits_tokens %>% 
  filter(Partido ==  "cuenta partidaria")%>% 
  group_by(Politico, Palabra) %>% 
  count(Palabra) %>%
      spread(key = Politico, value = n, fill = NA, drop = TRUE)
tweets_spread2[is.na(tweets_spread2)] <- 0

names(tweets_spread2) <- c("Palabra", "GEN", "PRO", 
                          "TODOS", "UCR")

method <- "pearson"
m_cor <- matrix(nrow = 4, ncol = 4)
for (i in 1:dim(m_cor)[1]) {
      for (j in 1:dim(m_cor)[2]) {
            form <- as.formula(paste("~", names(tweets_spread2)[i+1], 
                                      "+", names(tweets_spread2)[j+1]))
            if(i!=j){
                  m_cor[i,j] <- cor.test(form, method = method, 
                                   data = tweets_spread2)$estimate
            }
            if(i==j){m_cor[i,j] <- 1}
      }
}
colnames(m_cor) <- names(tweets_spread2)[2:5]
rownames(m_cor) <- names(tweets_spread2)[2:5]
corrplot(m_cor, method="color", type="upper", order="hclust", 
         addCoef.col = "black", tl.col="black", tl.srt=45,
         sig.level = 0.01, insig = "blank", diag=FALSE)

24- Comparación de uso de palabras Macri vs Fernandez

La idea de este gráfico es de mostrar cuales son las palabras más diferencias en su uso, en este caso entre Mauricio Macri y Alberto Fernández


# Pivotaje y despivotaje
tweets_unpivot <- tuits_tokens %>% group_by(Politico, Palabra) %>%
      count(Palabra) %>%
      spread(key = Politico, value = n, fill = 0, drop = TRUE) %>% 
      gather(key = "Politico", value = "n", -Palabra)

                  # Selección de los autores
                  tweets_unpivot2 <- tweets_unpivot %>% 
                        filter(Politico %in% c("M.Macri", "A.Fernandez"))
                  # Se añade el total de palabras de cada autor
                  tweets_unpivot2 <- tweets_unpivot2 %>%
                        left_join(Tweets_DF %>% group_by(Politico) %>%
                                        summarise(N = n()), by = "Politico")
`summarise()` ungrouping output (override with `.groups` argument)
                  # Cálculo de odds y log of odds de cada palabra
                  tweets_logOdds <- tweets_unpivot2 %>% 
                        mutate(odds = (n + 1) / (N + 1)) %>%
                        select(Politico, Palabra, odds) %>% 
                        spread(key = Politico, value = odds)
                  tweets_logOdds[,4] <- log(tweets_logOdds[,2]/tweets_logOdds[,3])
                  names(tweets_logOdds)[4] <- "log_odds"
                  tweets_logOdds[,5] <- abs(tweets_logOdds$log_odds)
                  names(tweets_logOdds)[5] <- "abs_log_odds"
                  tweets_logOdds <- tweets_logOdds %>%
                        mutate(autor_frecuente = if_else(log_odds > 0,
                                                         names(tweets_logOdds)[2],
                                                         names(tweets_logOdds)[3]))

Diferencia_AF <- tweets_logOdds %>% 
  arrange(-abs_log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "A.Fernandez")%>% 
  head(15)

Diferencia_MM <- tweets_logOdds %>% 
  arrange(log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "M.Macri")%>% 
  head(15)

Diferencia_AF_MM <- rbind(Diferencia_AF,Diferencia_MM)

Diferencia_AF_MM%>% 
    ggplot(aes(x = reorder(Palabra, log_odds), y= log_odds, fill = autor_frecuente)) +
    geom_col() +
    labs(x = "-palabra", y = "Uso", title = "Fernandez vs Macri") +
  coord_flip() +
  tema2

25- Comparación de uso de palabras Larreta vs Kicillof

La idea de este gráfico es de mostrar cuales son las palabras más diferencias en su uso, en este caso entre Horacio Larreta y Axel Kicillof



# Pivotaje y despivotaje
tweets_unpivot <- tuits_tokens %>% group_by(Politico, Palabra) %>%
      count(Palabra) %>%
      spread(key = Politico, value = n, fill = 0, drop = TRUE) %>% 
      gather(key = "Politico", value = "n", -Palabra)

                  # Selección de los autores
                  tweets_unpivot2 <- tweets_unpivot %>% 
                        filter(Politico %in% c("H.Larreta", "A.Kicillof"))
                  # Se añade el total de palabras de cada autor
                  tweets_unpivot2 <- tweets_unpivot2 %>%
                        left_join(Tweets_DF %>% group_by(Politico) %>%
                                        summarise(N = n()), by = "Politico")
`summarise()` ungrouping output (override with `.groups` argument)
                  # Cálculo de odds y log of odds de cada palabra
                  tweets_logOdds <- tweets_unpivot2 %>% 
                        mutate(odds = (n + 1) / (N + 1)) %>%
                        select(Politico, Palabra, odds) %>% 
                        spread(key = Politico, value = odds) 
                  tweets_logOdds[,4] <- log(tweets_logOdds[,2]/tweets_logOdds[,3])
                  names(tweets_logOdds)[4] <- "log_odds"
                  tweets_logOdds[,5] <- abs(tweets_logOdds$log_odds)
                  names(tweets_logOdds)[5] <- "abs_log_odds"
                  tweets_logOdds <- tweets_logOdds %>%
                        mutate(autor_frecuente = if_else(log_odds > 0,
                                                         names(tweets_logOdds)[2],
                                                         names(tweets_logOdds)[3]))

Diferencia_AK <- tweets_logOdds %>% 
  arrange(-log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "A.Kicillof")%>% 
  head(15)

Diferencia_HL <- tweets_logOdds %>% 
  arrange(abs_log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "H.Larreta")%>% 
  tail(15)

Diferencia_AK_HL <- rbind(Diferencia_AK,Diferencia_HL)

Diferencia_AK_HL%>% 
    ggplot(aes(x = reorder(Palabra, log_odds), y= log_odds, fill = autor_frecuente)) +
    geom_col() +
    labs(x = "-palabra", y = "Uso", title = "Kicillof vs Larreta") +
  coord_flip() +
  tema2

26- Comparación de uso de palabras Gines vs Quirós

La idea de este gráfico es de mostrar cuales son las palabras más diferencias en su uso, en este caso entre Gines Gonzalez y Fernán Quirós

tweets_unpivot <- tuits_tokens %>% group_by(Politico, Palabra) %>%
      count(Palabra) %>%
      spread(key = Politico, value = n, fill = 0, drop = TRUE) %>% 
      gather(key = "Politico", value = "n", -Palabra)

                  # Selección de los autores
                  tweets_unpivot2 <- tweets_unpivot %>% 
                        filter(Politico %in% c("Gines.GG", "F.Quiros"))
                  # Se añade el total de palabras de cada autor
                  tweets_unpivot2 <- tweets_unpivot2 %>%
                        left_join(Tweets_DF %>% group_by(Politico) %>%
                                        summarise(N = n()), by = "Politico")
`summarise()` ungrouping output (override with `.groups` argument)
                  # Cálculo de odds y log of odds de cada palabra
                  tweets_logOdds <- tweets_unpivot2 %>% 
                        mutate(odds = (n + 1) / (N + 1)) %>%
                        select(Politico, Palabra, odds) %>% 
                        spread(key = Politico, value = odds) 
                  tweets_logOdds[,4] <- log(tweets_logOdds[,2]/tweets_logOdds[,3])
                  names(tweets_logOdds)[4] <- "log_odds"
                  tweets_logOdds[,5] <- abs(tweets_logOdds$log_odds)
                  names(tweets_logOdds)[5] <- "abs_log_odds"
                  tweets_logOdds <- tweets_logOdds %>%
                        mutate(autor_frecuente = if_else(log_odds > 0,
                                                         names(tweets_logOdds)[2],
                                                         names(tweets_logOdds)[3]))

Diferencia_GG <- tweets_logOdds %>% 
  arrange(-log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "Gines.GG")%>% 
  tail(15)

Diferencia_FQ <- tweets_logOdds %>% 
  arrange(-abs_log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "F.Quiros")%>% 
  head(15)

Diferencia_GG_FQ <- rbind(Diferencia_GG,Diferencia_FQ)

Diferencia_GG_FQ%>% 
    ggplot(aes(x = reorder(Palabra, log_odds), y= log_odds, fill = autor_frecuente)) +
    geom_col() +
    labs(x = "-palabra", y = "Uso", title = "Quirós vs Gines") +
  coord_flip() +
  tema2

27- Comparación de uso de palabras Bullrich vs Cristina

La idea de este gráfico es de mostrar cuales son las palabras más diferencias en su uso, en este caso entre Cristina Kirchner y Patricia Bullrich

tweets_unpivot <- tuits_tokens %>% group_by(Politico, Palabra) %>%
      count(Palabra) %>%
      spread(key = Politico, value = n, fill = 0, drop = TRUE) %>% 
      gather(key = "Politico", value = "n", -Palabra)

                  # Selección de los autores
                  tweets_unpivot2 <- tweets_unpivot %>% 
                        filter(Politico %in% c("P.Bullrich", "C.Kirchner"))
                  # Se añade el total de palabras de cada autor
                  tweets_unpivot2 <- tweets_unpivot2 %>%
                        left_join(Tweets_DF %>% group_by(Politico) %>%
                                        summarise(N = n()), by = "Politico")
`summarise()` ungrouping output (override with `.groups` argument)
                  # Cálculo de odds y log of odds de cada palabra
                  tweets_logOdds <- tweets_unpivot2 %>% 
                        mutate(odds = (n + 1) / (N + 1)) %>%
                        select(Politico, Palabra, odds) %>% 
                        spread(key = Politico, value = odds) 
                  tweets_logOdds[,4] <- log(tweets_logOdds[,2]/tweets_logOdds[,3])
                  names(tweets_logOdds)[4] <- "log_odds"
                  tweets_logOdds[,5] <- abs(tweets_logOdds$log_odds)
                  names(tweets_logOdds)[5] <- "abs_log_odds"
                  tweets_logOdds <- tweets_logOdds %>%
                        mutate(autor_frecuente = if_else(log_odds > 0,
                                                         names(tweets_logOdds)[2],
                                                         names(tweets_logOdds)[3]))

Diferencia_PB <- tweets_logOdds %>% 
  arrange(-log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "P.Bullrich")%>% 
  tail(15)

Diferencia_CFK <- tweets_logOdds %>% 
  arrange(-abs_log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "C.Kirchner")%>% 
  head(15)

Diferencia_PB_CFK <- rbind(Diferencia_PB,Diferencia_CFK)

Diferencia_PB_CFK%>% 
    ggplot(aes(x = reorder(Palabra, log_odds), y= log_odds, fill = autor_frecuente)) +
    geom_col() +
    labs(x = "-palabra", y = "Uso", title = "Cristina vs Bullrich") +
  coord_flip() +
  tema2

28- Emociones en los tweets

Ahora analizamos un campo más amplio de emociones que fueron usado por los distintos políticos entre todos los tweets que han ido publicando en este periodo.

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(Partido ==  "cuenta partidaria")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = sentiment) +
  geom_col(position = "stack", color = "black") +
  coord_flip()  +
  scale_y_continuous(expand = c(0,0)) +
  labs(y = "Palabras") +
  theme_minimal()
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)


gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(Partido ==  "PRO")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = sentiment) +
  geom_col(position = "stack", color = "black") +
  coord_flip()  +
  scale_y_continuous(expand = c(0,0)) +
  labs(y = "Palabras") +
  theme_minimal()
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(Partido ==  "Peronismo")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = sentiment) +
  geom_col(position = "stack", color = "black") +
  coord_flip()  +
  scale_y_continuous(expand = c(0,0)) +
  labs(y = "Palabras") +
  theme_minimal()
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(Partido ==  "otros candidatos")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = sentiment) +
  geom_col(position = "stack", color = "black") +
  coord_flip()  +
  scale_y_continuous(expand = c(0,0)) +
  labs(y = "Palabras") +
  theme_minimal()
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

29- Emociones mes a mes

Si bien no hay grandes cambios a la hora de hacer los análisis de sentimientos mes a mes, se nota algunos detalles:

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, mes, sentiment) %>%
  filter(Partido ==  "cuenta partidaria")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
aes(x = mes, y =Proporcion, color = sentiment) +
  geom_point() +
  geom_line(aes(group = sentiment)) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = .4), 
        text = element_text(family = "serif")) +
  tema2 +
  facet_wrap(~ Politico) +
  labs(title = "Cambio de los sentimientos en el tiempo", 
       x = "Mes", y = "Porporción", color = "Sentimiento") 
`summarise()` regrouping output by 'Politico', 'Partido', 'mes' (override with `.groups` argument)

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, mes, sentiment) %>%
  filter(Partido ==  "otros candidatos")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
aes(x = mes, y =Proporcion, color = sentiment) +
  geom_point() +
  geom_line(aes(group = sentiment)) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = .4), 
        text = element_text(family = "serif")) +
  tema2 +
  facet_wrap(~ Politico) +
  labs(title = "Cambio de los sentimientos en el tiempo", 
       x = "Mes", y = "Porporción", color = "Sentimiento") 
`summarise()` regrouping output by 'Politico', 'Partido', 'mes' (override with `.groups` argument)

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, mes, sentiment) %>%
  filter(Partido ==  "Peronismo")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
aes(x = mes, y =Proporcion, color = sentiment) +
  geom_point() +
  geom_line(aes(group = sentiment)) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = .4), 
        text = element_text(family = "serif")) +
  tema2 +
  facet_wrap(~ Politico) +
  labs(title = "Cambio de los sentimientos en el tiempo", 
       x = "Mes", y = "Porporción", color = "Sentimiento") 
`summarise()` regrouping output by 'Politico', 'Partido', 'mes' (override with `.groups` argument)

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, mes, sentiment) %>%
  filter(Partido ==  "PRO")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
aes(x = mes, y =Proporcion, color = sentiment) +
  geom_point() +
  geom_line(aes(group = sentiment)) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = .4), 
        text = element_text(family = "serif")) +
  tema2 +
  facet_wrap(~ Politico) +
  labs(title = "Cambio de los sentimientos en el tiempo", 
       x = "Mes", y = "Porporción", color = "Sentimiento") 
`summarise()` regrouping output by 'Politico', 'Partido', 'mes' (override with `.groups` argument)

30- Comparación de emociones

La idea de comparar las emociones de todos en un gráfico ayuda para una visualización general (eliminando las cuentas partidarias):

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(sentiment != "Positivo" & sentiment !="Negativo" & Partido != "cuenta partidaria")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
    ggplot() +
  aes(Politico, Proporcion, color = sentiment, alpha = Proporcion) +
  geom_point(fill = "white", stroke = 1, shape = 21) +
  geom_text(aes(label = sentiment), vjust = -.9, family = "serif") +
  scale_y_continuous(labels = percent_format ()) +
  tema1 +
  theme(legend.position = "none",
        panel.grid.major.x = element_blank(),
        panel.grid.minor.x = element_blank(),
        text =  element_text(family = "serif")) +
  coord_flip() +
  labs(title = "Sentimientos totales comparativo",
       x = "Politico",
       y = "Proporción del sentimiento")
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(sentiment != "Positivo" & sentiment !="Negativo" & sentiment !="Alegria" & sentiment !="Sorpresa" & Partido != "cuenta partidaria")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
  ggplot() +
  aes(sentiment, Proporcion, color = sentiment) +
  geom_point() +
  geom_text(aes(label = Politico) ,vjust = -.3, size = 3) +
  scale_y_continuous(limits = c(0.15, 0.47)) +
   labs(title = "Sentimientos totales comparativo",
       x = "Politico",
       y = "Proporción del sentimiento") +
  theme_minimal() +
  theme(legend.position = "none")
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

