Análisis de políticos

1- Descargar tweets

Creo una lista de cuentas de las cuales voy a descargar sus tweets, y además una asignación para saber a quién representa cada cuenta.

La idea original es tener 4 miembros de cada uno de los dos partidos principales, los últimos 4 candidatos en las elecciones 2019 y también las 4 cuentas partidarias en Twitter.

print("Muestra")
[1] "Muestra"
print(Tweets_DF %>% 
  select(text)%>% 
    head(5))
NA

2-Limpieza

Vamos a limpiar ciertos elementos que pueden complicar el análisis del texto, como son los links, los números, los gráficos y pasar todo a minúscula.

Además, creamos varios campos para lo que es la fecha, desagregando el campo en varios distintos, que se van a utilizar a futuro, y también se actualiza el horario a la zona horaria donde fue realizado el tweet (Argentina).

Finalmente filtramos por fecha, la idea es tener solo tweets del periodo 1/3/2020 hasta la fecha de publicación (Sep/2020)

Tweets_DF <-
  Tweets_DF %>%
  ##Todo el texto a minuscula##
  mutate(text = tolower(text)) %>% 
  ##Sin graficos##
  mutate(text = gsub("[^[:graph:]]", " ", text)) %>% 
  ##Sin links##
  mutate(text = gsub("http//S", " ", text)) %>% 
  ##Sin numeros##
  mutate(text = gsub("[[:digit:]]", " ", text)) %>% 
  ##Sin numeros##
  mutate(text = chartr('áéíóúñ','aeioun',text)) %>%
  ##Cambiamos a la zona horaria correspondiente##
  mutate(created_at = with_tz(created_at, "America/Argentina/Buenos_Aires"))%>% 
  ##Separamos en dia y hora el campo created_at##
  separate(created_at, into = c("date", "hour"), sep = " ")%>% 
  ##Separamos la hora en hora,minutos y segundos##
    separate(hour, into = c("hour", "minutes","seconds"), sep = ":")%>% 
  ##Cambiamos la columna con el nombre del politico##
   rename(Politico = screen_name) %>% 
  ##Creamos una columna con el numero de año, mes, dia, nombre de dia y de mes.##
mutate(periodo = year(date), 
         mes = month(date, label = F, abbr = F),
         dia = as.numeric(day(date)),
         dia_sem = wday(date, label = T, abbr = F, week_start = 1),
         dia_per = yday(date),
         date = as.Date(date) 
  ) %>%
  ##Solo vamos a utilizar info de marzo 2020 en adelante##
  filter(periodo == 2020 & mes > 2) 

print("Muestra")
[1] "Muestra"
print(Tweets_DF %>% 
  select(Politico, status_id, periodo, mes, dia)%>% 
    head(10))
NA

3-Normalización

Normalizamos algunos campos, para ayudar al análisis y también a la visualización.

Le agregamos el partido a cada uno de los analizados, y además cambiamos su nombre del @ que vemos en Twitter, a un nombre fácil de entender para todos

Tweets_DF <-
  Tweets_DF %>%
  mutate (Partido = ifelse (Politico == "alferdez", "Peronismo",
                    ifelse (Politico == "CFKArgentina", "Peronismo",
                    ifelse (Politico == "ginesggarcia", "Peronismo", 
                    ifelse (Politico == "Kicillofok", "Peronismo",
                    ifelse (Politico == "UCRNacional", "cuenta partidaria",        
                    ifelse (Politico == "FrenteDeTodos", "cuenta partidaria", 
                    ifelse (Politico == "proargentina", "cuenta partidaria",
                    ifelse (Politico == "PartidoGEN", "cuenta partidaria",
                    ifelse (Politico == "mauriciomacri", "PRO",
                    ifelse (Politico == "PatoBullrich", "PRO",
                    ifelse (Politico == "horaciorlarreta", "PRO",
                    ifelse (Politico == "FernanQuirosBA", "PRO", 
                            "otros candidatos")))))))))))))

Tweets_DF <-
  Tweets_DF %>%
  mutate (Politico = ifelse (Politico == "alferdez", "A.Fernandez",
                    ifelse (Politico == "CFKArgentina", "C.Kirchner",
                    ifelse (Politico == "ginesggarcia", "Gines.GG", 
                    ifelse (Politico == "Kicillofok", "A.Kicillof",
                    ifelse (Politico == "UCRNacional", "UCR",        
                    ifelse (Politico == "FrenteDeTodos", "TODOS", 
                    ifelse (Politico == "proargentina", "PRO",
                    ifelse (Politico == "PartidoGEN", "GEN",
                    ifelse (Politico == "mauriciomacri", "M.Macri",
                    ifelse (Politico == "PatoBullrich", "P.Bullrich",
                    ifelse (Politico == "horaciorlarreta", "H.Larreta",
                    ifelse (Politico == "FernanQuirosBA", "F.Quiros", 
                    ifelse (Politico == "NicolasdelCano", "N.DelCaño",
                    ifelse (Politico == "jlespert", "J.Espert",
                    ifelse (Politico == "RLavagna", "R.Lavagna",
                            "GomezCenturion"
                            ))))))))))))))))

print("Muestra")
[1] "Muestra"
print(Tweets_DF %>% 
  select(Politico, Partido, source)%>% 
    tail(10))

4-Cantidad de tweets

La primera aproximación que vamos a tener, es la cantidad de veces que twitteo cada uno desde marzo del 2020 hasta la fecha de publicación del informe.

Se presentan diferencias considerables entre todos, se deberá normalizar o utilizar proporciones más de una vez

Cantidad_tweets = Tweets_DF %>%
  group_by(Politico, Partido) %>%
  count(Politico)
  
Cantidad_tweets%>%  
  ggplot()+
  aes(x=reorder(Politico, n), y= n, fill= Politico) +
  geom_col() +
  facet_wrap("Partido", scales = "free_y") +
  coord_flip() +
  labs(title = "Cantidad total de tweets", x = "tweets", y = "Cantidad") +
    tema1

5-Fecha de los tweets

Vemos cuando han ido publicando cada uno de los analizados sus tweets, con el fin de mostrar en que época tuvieron más o menos acción.

Tweets_DF %>%
  filter(Partido == "PRO") %>%
  ggplot(aes(x = as.Date(date), fill = Politico)) +
      geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
      scale_x_date(date_labels = "%d-%m", date_breaks = "1 month") +
      labs(x = "fecha de publicación", y = "número de tweets") +
      facet_wrap(~ Politico, ncol = 1) +
      tema2 +
      theme(axis.text.x = element_text(angle = 90))


Tweets_DF %>%
  filter(Partido == "Peronismo") %>%
  ggplot(aes(x = as.Date(date), fill = Politico)) +
      geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
      scale_x_date(date_labels = "%d-%m", date_breaks = "1 month") +
      labs(x = "fecha de publicación", y = "número de tweets") +
      facet_wrap(~ Politico, ncol = 1) +
      tema1 +
      theme(axis.text.x = element_text(angle = 90))


Tweets_DF %>%
  filter(Partido == "otros candidatos") %>%
  ggplot(aes(x = as.Date(date), fill = Politico)) +
      geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
      scale_x_date(date_labels = "%d-%m", date_breaks = "1 month") +
      labs(x = "fecha de publicación", y = "número de tweets") +
      facet_wrap(~ Politico, ncol = 1) +
      tema1 +
      theme(axis.text.x = element_text(angle = 90))


Tweets_DF %>%
  filter(Partido == "cuenta partidaria") %>%
  ggplot(aes(x = as.Date(date), fill = Politico)) +
      geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
      scale_x_date(date_labels = "%d-%m", date_breaks = "1 month") +
      labs(x = "fecha de publicación", y = "número de tweets") +
      facet_wrap(~ Politico, ncol = 1) +
      tema2  +
      theme(axis.text.x = element_text(angle = 90))

6-Cantidad de tweets sobre COVID

El tema más importante del año es el coronavirus, la idea es ver qué porcentaje de los tweets realizados estos meses trato sobre el coronavirus, para eso se van a buscar palabras claves que determinen que el tweet trata sobre la pandemia.

#Buscamos tweets con la palabra covid
Palabras_covid <- "covid|covid-19|covid19|coronavirus|#covid|#covid-19|#covid19|#coronavirus|test|testeo|testeos|pcr|serologico|hisopado|antibioticos|aplanar|curva|cuarentena|contagio|enfermedad|epidemia|pandemia|alarma|gel|cuidados|incubacion|jabon|barbijo|barbijos|mascarilla|mascarillas|mers|sars|vacuna|wuhan|oxford|astra|zeneca|transmision|exponencial|casos|duplicacion|distanciamiento|colapso|salud|letalidad|mortalidad|ventilador|icu|uci|uti|inmunidad|serologica|distanciamiento|virus|asintomatico|caso sospechoso|olfato|gusto|terapia|saturacion|clinica|positividad|positivios|rebaño|inmunidad|hospital|hospitales|aspo|aislamiento"
Tweets_DF$Covid <- grepl(Palabras_covid, Tweets_DF$text, ignore.case ="True")

Tweets_DF %>% 
count(Politico, Partido,Covid) %>%
  group_by(Politico) %>%
  mutate(Proporcion = n / sum(n)) %>%
  mutate(Covid = ifelse(Covid == T, "Sobre COVID", "Otro tema"))%>%
ggplot() +
  aes(Politico, Proporcion, fill = Covid) +
  geom_col() +
  scale_y_continuous(labels = percent_format()) +
      facet_wrap("Partido", scales = "free") +
  theme(legend.position = "top")

7- Wordcloud

La idea de la nube de palabras es saber cuáles son las 200 palabras que más se usaron por los analizados estos meses, como era de esperarse sobresalen “coronavirus”, “covid”, “pandemia” o “cuarentena”

tuits_tokens <-
  Tweets_DF %>%
  unnest_tokens(input = text, output = Palabra, token = "words") %>%
  select(Politico, Palabra, status_id, periodo, mes, hour, Partido) %>%
  mutate(status_id = gsub("<(.*)>+?", "", status_id)) %>%
  filter(!Palabra %in% stopwords("es")) %>%
  filter(!Palabra %in% c("t.co", "https", "vía", "youtube", "amp"))

Palabras_sinhoymas = tuits_tokens  %>%
  filter(Palabra != "mas" & Palabra != "hoy") 

wordcloud(words = Palabras_sinhoymas$Palabra, 
          scale=c(2,.2), 
          max.words=200, random.order=FALSE, rot.per=0.35, 
          colors=brewer.pal(8, "Dark2"),
          )
transformation drops documentstransformation drops documents

8-Descargamos un diccionario

Descargamos un diccionario que tiene las palabras en español, y le asigna un valor entre -5 a 5, mostrando la positividad o negatividad de la palabra.

Eliminamos la palabra “No” que la toma como negativa, cuando en español es un conector a veces, y la palabra “Negro” (Nigga) que la toma con el máximo valor negativo

download.file("https://raw.githubusercontent.com/jboscomendoza/rpubs/master/sentimientos_afinn/lexico_afinn.en.es.csv",
              "lexico_afinn.en.es.csv")
probando la URL 'https://raw.githubusercontent.com/jboscomendoza/rpubs/master/sentimientos_afinn/lexico_afinn.en.es.csv'
Content type 'text/plain; charset=utf-8' length 51625 bytes (50 KB)
downloaded 50 KB
afinn <- read.csv("lexico_afinn.en.es.csv", stringsAsFactors = F, fileEncoding = "latin1") %>% 
  tbl_df()

afinn$Puntuacion <- ifelse(afinn$Palabra == "no", 0, afinn$Puntuacion)
afinn$Puntuacion <- ifelse(afinn$Palabra == "negro", 0, afinn$Puntuacion)

print("Muestra")
[1] "Muestra"
afinn %>%
  select(Palabra, Puntuacion) %>%
    arrange(Puntuacion) %>%
  print(head(10))

afinn %>%
  select(Palabra, Puntuacion) %>%
    arrange(-Puntuacion) %>%
  print(tail(10))

9- Separacion de palabras

Separamos las distintas palabras que usaron cada uno de los políticos en sus tweets, y eliminamos algunas palabras propias de Twitter y las llamadas stopwords que son las palabras más frecuentes en el idioma español.

print ("Muestra")
[1] "Muestra"
print (tuits_tokens %>%
    select(Politico, Palabra) %>%    
         head (10))

10- Le damos valor a las palabras

Unimos el diccionario de puntuación con las palabras que uso cada uno de los analizados, con el fin de que cada palabra tenga un valor, y nos sirva para analizar que escribió cada político.

Las palabras serán: - Si tienen valor mayor a 0 Positivas

tuits_tokens_emociones <-   
 tuits_tokens %>%
inner_join(afinn, ., by = "Palabra") %>%
  mutate(Calificacion = ifelse(Puntuacion > 0, "Positiva", 
                              ifelse(Puntuacion == 0, "Neutral",
                              "Negativa")
                            )
  )      

print ("Muestra")
[1] "Muestra"
print (tuits_tokens_emociones %>%
    select(Politico, Palabra, Puntuacion, Calificacion) %>%    
         tail (10))

11- ¿Quién usa más caracteres?

La idea es buscar cual es el promedio del largo (cantidad de caracteres) de los tweets que realiza cada uno de los analizados.

Mientras más a la derecha este la caja, más largo son los tweets que escriben, en ese aspecto se destacan: - Lavagna, Patricia Bullrich, Larreta y Fernán Quirós son los que escriben los tweets más largos. - Aquellos relacionados al PRO son de escribir tweets más largos

Tweets_DF %>% 
ggplot()+
  aes(x= Politico, y= display_text_width, color= Politico) +
  geom_boxplot () +
    labs(title = "Largo promedio del tweet", x = "Politico", y = "Cantidad caracteres") +
  coord_flip() +
    tema1

12- ¿Quién usa más palabras?

La idea es analizar quien es el que uso más palabras distintas en promedio durante este tiempo, en este caso vamos a dividir por la cantidad de tweets que hizo, así queda normalizado para todos los analizados.

No se cuentan los conectores comunes como “en”, “a”, “de”, etc.

Cantidad_palabras= tuits_tokens%>%
  group_by(Politico, Partido)%>%
  count(Politico)%>%
inner_join(Cantidad_tweets, ., by = "Politico")%>%
  mutate(cantidad_promedio = n.y / n.x)


Cantidad_palabras%>% ggplot()+
  aes(x=reorder(Politico, -cantidad_promedio), y= cantidad_promedio, fill= Politico) +
  geom_col() +
  facet_wrap("Partido.x", scales = "free_y") +
  labs(title = "Uso de palabras", x = "tweets", y = "Cantidad") +
  coord_flip() +
    tema1

NA
NA

13- ¿Quien usa mas palabras distintas?

Buscamos ver el léxico distintivo que hay en cada una de las cuentas, contando sus palabras únicas y se nota:

tuits_tokens%>%
  group_by(Politico, Partido)%>%
  distinct(Palabra)%>%
  count(Politico)%>%
inner_join(Cantidad_tweets, ., by = "Politico")  %>%
  mutate(cantidad_promedio = n.y / n.x) %>% 
  ggplot()+
  aes(x=reorder(Politico, cantidad_promedio), y= cantidad_promedio, fill= Politico) +
  geom_col() +
  facet_wrap("Partido.x", scales = "free_y") +
  labs(title = "Palabras distintas", x = "tweets", y = "Cantidad") +
  coord_flip() +
    tema1

NA

14- Palabras más usadas

Ahora que ya sabemos con qué variedad de palabras, podemos analizar cuáles son las que más usaron En este caso, cada grafico tiene una escala distinta para que no se pierda por la cantidad de tweets realizados.

Las palabras más utilizadas fueron:

tuits_tokens_emociones %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "PRO") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras más usadas") +
     tema1


 tuits_tokens_emociones %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "Peronismo") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras más usadas") +
     tema1

 
  tuits_tokens_emociones %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "otros candidatos") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras más usadas") +
     tema1

  
   tuits_tokens_emociones %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "cuenta partidaria") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras más usadas") +
     tema1

15- Palabras positivas más usadas

Al tener una puntuación cada palabra otorgada por el diccionario de léxico, también podemos buscar cuales son las palabras positivas que más uso cada uno de los políticos.

En este caso:

 tuits_tokens_emociones %>%
    filter(Calificacion ==  "Positiva") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "PRO") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Positivas más usadas") 


 tuits_tokens_emociones %>%
    filter(Calificacion ==  "Positiva") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "Peronismo") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Positivas más usadas") 

 
  tuits_tokens_emociones %>%
    filter(Calificacion ==  "Positiva") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "otros candidatos") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Positivas más usadas") 

  
   tuits_tokens_emociones %>%
    filter(Calificacion ==  "Positiva") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "cuenta partidaria") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Positivas más usadas") 

16- Palabras negativas más usadas

Al tener una puntuación cada palabra otorgada por el diccionario de léxico, también podemos buscar cuales son las palabras negativas que más uso cada uno de los políticos.

 tuits_tokens_emociones %>%
    filter(Calificacion ==  "Negativa") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "PRO") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Negativas más usadas") 


 tuits_tokens_emociones %>%
    filter(Calificacion ==  "Negativa") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "Peronismo") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Negativas más usadas") 

 
  tuits_tokens_emociones %>%
    filter(Calificacion ==  "Negativa") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "otros candidatos") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Negativas más usadas") 

  
   tuits_tokens_emociones %>%
    filter(Calificacion ==  "Negativa") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "cuenta partidaria") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Negativas más usadas") 

17- Sentimientos en el tweet

Volviendo a usar la puntuación del diccionario afinn, volvemos a unir las palabras a los tweets y sacamos el promedio de puntos de todas las palabras, pasando del valor unitario de palabra a un valor unitario por cada tweet publicado.

Tweets_DF <-
  tuits_tokens_emociones %>%
  group_by(status_id) %>%
  summarise(Puntuacion_tweet.x = mean(Puntuacion)) %>%
  left_join(Tweets_DF, ., by = "status_id")
`summarise()` ungrouping output (override with `.groups` argument)
Tweets_DF <-  Tweets_DF %>%
  mutate(Puntuacion_tweet.x_letra = ifelse(is.na(Puntuacion_tweet.x), "Neutral",
                                   ifelse(Puntuacion_tweet.x > 0, "Positiva", 
                                    ifelse(Puntuacion_tweet.x == 0, "Neutral",
                              "Negativa")
                            )
  )      
)

Tweets_DF %>%
  count(Politico, Partido, Puntuacion_tweet.x_letra) %>%
  group_by(Politico) %>%
  mutate(Proporcion = n / sum(n)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = Puntuacion_tweet.x_letra) +
  geom_col() +
  scale_y_continuous(labels = percent_format()) +
      facet_wrap("Partido", scales = "free") +
  theme(legend.position = "top")

NA
NA

18- Sentimientos en el tweet PRO vs Peronismo

Tomamos los 4 miembros que ya analizamos de cada uno de los partidos (PRO y Todos), y lo unimos en un solo gráfico por partido, vemos que la distribución es algo parecido, si bien el Peronismo tuvo un poco más de tweets positivos y menos de tweets negativos, pero no a niveles significativos.

Tweets_DF %>%
  count(Partido, Puntuacion_tweet.x_letra) %>%
  group_by(Partido) %>%
  filter(Partido == "PRO" |Partido == "Peronismo")%>%
  mutate(Proporcion = n / sum(n)) %>%
ggplot() +
  aes(Partido, Proporcion, fill = Puntuacion_tweet.x_letra) +
  geom_col() +
  scale_y_continuous(labels = percent_format()) +
  theme(legend.position = "top")

19- Sentimiento mes a mes

La idea es analizar si hay fluctuaciones en lo que han ido twitteando en el transcurso del tiempo y sus sentimientos.

Tweets_DF$Puntuacion_tweet.x = ifelse(is.na(Tweets_DF$Puntuacion_tweet.x), 0, Tweets_DF$Puntuacion_tweet.x)

Tweets_DF %>%
group_by(Politico, Partido, mes) %>%
  filter(Partido == "PRO")%>%
  summarise(sentimiento = mean(Puntuacion_tweet.x)) %>%
ggplot() +
  aes(mes, sentimiento, color = Politico) +
  geom_hline(yintercept = 0, alpha = .35) +
  geom_line() +
  facet_grid(Politico~.) +
  tema1 +
  theme(legend.position = "none")
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

Tweets_DF %>%
group_by(Politico, Partido, mes) %>%
  filter(Partido == "otros candidatos")%>%
  summarise(sentimiento = mean(Puntuacion_tweet.x)) %>%
ggplot() +
  aes(mes, sentimiento, color = Politico) +
  geom_hline(yintercept = 0, alpha = .35) +
  geom_line() +
  facet_grid(Politico~.) +
  tema1 +
  theme(legend.position = "none")
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

Tweets_DF %>%
group_by(Politico, Partido, mes) %>%
  filter(Partido == "Peronismo")%>%
  summarise(sentimiento = mean(Puntuacion_tweet.x)) %>%
ggplot() +
  aes(mes, sentimiento, color = Politico) +
  geom_hline(yintercept = 0, alpha = .35) +
  geom_line() +
  facet_grid(Politico~.) +
  tema1 +
  theme(legend.position = "none")
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

Tweets_DF %>%
group_by(Politico, Partido, mes) %>%
  filter(Partido == "cuenta partidaria")%>%
  summarise(sentimiento = mean(Puntuacion_tweet.x)) %>%
ggplot() +
  aes(mes, sentimiento, color = Politico) +
  geom_hline(yintercept = 0, alpha = .35) +
  geom_line() +
  facet_grid(Politico~.) +
  tema1 +
  theme(legend.position = "none")
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

20- Boxplot sentimientos

La distribución de los sentimientos entre todos los tweets, aquellos que están encerrados en las cajas son los normales, mientras que los puntos sueltos son tweets aislados a lo que suelen escribir.

Tweets_DF %>%
  ggplot() +
  aes(Politico, Puntuacion_tweet.x, fill = Politico) +
  geom_boxplot() +
  coord_flip() + 
  labs(y= "Sentimiento") +
  tema1

21- Correlación entre lo twitteado PRO vs Peronismo

Se busca a través de las palabras que utilizaron cual es la correlación que hay entre los distintos políticos y sus tweets, y se pueden realizar varias observaciones:

tweets_spread2 <- tuits_tokens %>% 
 filter(Partido ==  "PRO" | Partido == "Peronismo")%>% 
  group_by(Politico, Palabra) %>% 
  count(Palabra) %>%
      spread(key = Politico, value = n, fill = NA, drop = TRUE)
tweets_spread2[is.na(tweets_spread2)] <- 0

names(tweets_spread2) <- c("Palabra", "A.Fernandez", "A.Kicillof", 
                          "C.Kirchner", "F.Quiros", "Gines.GG","H.Larreta", "M.Macri", "P.Bullrich" )

method <- "pearson"
m_cor <- matrix(nrow = 8, ncol = 8)
for (i in 1:dim(m_cor)[1]) {
      for (j in 1:dim(m_cor)[2]) {
            form <- as.formula(paste("~", names(tweets_spread2)[i+1], 
                                      "+", names(tweets_spread2)[j+1]))
            if(i!=j){
                  m_cor[i,j] <- cor.test(form, method = method, 
                                   data = tweets_spread2)$estimate
            }
            if(i==j){m_cor[i,j] <- 1}
      }
}
colnames(m_cor) <- names(tweets_spread2)[2:9]
rownames(m_cor) <- names(tweets_spread2)[2:9]
corrplot(m_cor, method="color", type="upper", order="hclust", 
         addCoef.col = "black", tl.col="black", tl.srt=45,
         sig.level = 0.01, insig = "blank", diag=FALSE)

22- Correlación entre lo twitteado candidatos a presidente.

tweets_spread2 <- tuits_tokens %>% 
  filter(Partido ==  "otros candidatos" | Politico == "A.Fernandez"| Politico == "M.Macri")%>% 
  group_by(Politico, Palabra) %>% 
  count(Palabra) %>%
      spread(key = Politico, value = n, fill = NA, drop = TRUE)
tweets_spread2[is.na(tweets_spread2)] <- 0

names(tweets_spread2) <- c("Palabra", "A.Fernandez", "J.Espert", 
                          "GomezCenturion", "M.Macri", "N.DelCaño","R.Lavagna")

method <- "pearson"
m_cor <- matrix(nrow = 6, ncol = 6)
for (i in 1:dim(m_cor)[1]) {
      for (j in 1:dim(m_cor)[2]) {
            form <- as.formula(paste("~", names(tweets_spread2)[i+1], 
                                      "+", names(tweets_spread2)[j+1]))
            if(i!=j){
                  m_cor[i,j] <- cor.test(form, method = method, 
                                   data = tweets_spread2)$estimate
            }
            if(i==j){m_cor[i,j] <- 1}
      }
}
colnames(m_cor) <- names(tweets_spread2)[2:7]
rownames(m_cor) <- names(tweets_spread2)[2:7]
corrplot(m_cor, method="color", type="upper", order="hclust", 
         addCoef.col = "black", tl.col="black", tl.srt=45,
         sig.level = 0.01, insig = "blank", diag=FALSE)

23- Correlación entre lo twitteado entre cuentas partidarias

Este puede ser un análisis interesante, ya que la cantidad de tweets es significativa para todos.

tweets_spread2 <- tuits_tokens %>% 
  filter(Partido ==  "cuenta partidaria")%>% 
  group_by(Politico, Palabra) %>% 
  count(Palabra) %>%
      spread(key = Politico, value = n, fill = NA, drop = TRUE)
tweets_spread2[is.na(tweets_spread2)] <- 0

names(tweets_spread2) <- c("Palabra", "GEN", "PRO", 
                          "TODOS", "UCR")

method <- "pearson"
m_cor <- matrix(nrow = 4, ncol = 4)
for (i in 1:dim(m_cor)[1]) {
      for (j in 1:dim(m_cor)[2]) {
            form <- as.formula(paste("~", names(tweets_spread2)[i+1], 
                                      "+", names(tweets_spread2)[j+1]))
            if(i!=j){
                  m_cor[i,j] <- cor.test(form, method = method, 
                                   data = tweets_spread2)$estimate
            }
            if(i==j){m_cor[i,j] <- 1}
      }
}
colnames(m_cor) <- names(tweets_spread2)[2:5]
rownames(m_cor) <- names(tweets_spread2)[2:5]
corrplot(m_cor, method="color", type="upper", order="hclust", 
         addCoef.col = "black", tl.col="black", tl.srt=45,
         sig.level = 0.01, insig = "blank", diag=FALSE)

24- Comparación de uso de palabras Macri vs Fernandez

La idea de este gráfico es de mostrar cuales son las palabras más diferencias en su uso, en este caso entre Mauricio Macri y Alberto Fernández


# Pivotaje y despivotaje
tweets_unpivot <- tuits_tokens %>% group_by(Politico, Palabra) %>%
      count(Palabra) %>%
      spread(key = Politico, value = n, fill = 0, drop = TRUE) %>% 
      gather(key = "Politico", value = "n", -Palabra)

                  # Selección de los autores
                  tweets_unpivot2 <- tweets_unpivot %>% 
                        filter(Politico %in% c("M.Macri", "A.Fernandez"))
                  # Se añade el total de palabras de cada autor
                  tweets_unpivot2 <- tweets_unpivot2 %>%
                        left_join(Tweets_DF %>% group_by(Politico) %>%
                                        summarise(N = n()), by = "Politico")
`summarise()` ungrouping output (override with `.groups` argument)
                  # Cálculo de odds y log of odds de cada palabra
                  tweets_logOdds <- tweets_unpivot2 %>% 
                        mutate(odds = (n + 1) / (N + 1)) %>%
                        select(Politico, Palabra, odds) %>% 
                        spread(key = Politico, value = odds)
                  tweets_logOdds[,4] <- log(tweets_logOdds[,2]/tweets_logOdds[,3])
                  names(tweets_logOdds)[4] <- "log_odds"
                  tweets_logOdds[,5] <- abs(tweets_logOdds$log_odds)
                  names(tweets_logOdds)[5] <- "abs_log_odds"
                  tweets_logOdds <- tweets_logOdds %>%
                        mutate(autor_frecuente = if_else(log_odds > 0,
                                                         names(tweets_logOdds)[2],
                                                         names(tweets_logOdds)[3]))

Diferencia_AF <- tweets_logOdds %>% 
  arrange(-abs_log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "A.Fernandez")%>% 
  head(15)

Diferencia_MM <- tweets_logOdds %>% 
  arrange(log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "M.Macri")%>% 
  head(15)

Diferencia_AF_MM <- rbind(Diferencia_AF,Diferencia_MM)

Diferencia_AF_MM%>% 
    ggplot(aes(x = reorder(Palabra, log_odds), y= log_odds, fill = autor_frecuente)) +
    geom_col() +
    labs(x = "-palabra", y = "Uso", title = "Fernandez vs Macri") +
  coord_flip() +
  tema2

25- Comparación de uso de palabras Larreta vs Kicillof

La idea de este gráfico es de mostrar cuales son las palabras más diferencias en su uso, en este caso entre Horacio Larreta y Axel Kicillof



# Pivotaje y despivotaje
tweets_unpivot <- tuits_tokens %>% group_by(Politico, Palabra) %>%
      count(Palabra) %>%
      spread(key = Politico, value = n, fill = 0, drop = TRUE) %>% 
      gather(key = "Politico", value = "n", -Palabra)

                  # Selección de los autores
                  tweets_unpivot2 <- tweets_unpivot %>% 
                        filter(Politico %in% c("H.Larreta", "A.Kicillof"))
                  # Se añade el total de palabras de cada autor
                  tweets_unpivot2 <- tweets_unpivot2 %>%
                        left_join(Tweets_DF %>% group_by(Politico) %>%
                                        summarise(N = n()), by = "Politico")
`summarise()` ungrouping output (override with `.groups` argument)
                  # Cálculo de odds y log of odds de cada palabra
                  tweets_logOdds <- tweets_unpivot2 %>% 
                        mutate(odds = (n + 1) / (N + 1)) %>%
                        select(Politico, Palabra, odds) %>% 
                        spread(key = Politico, value = odds) 
                  tweets_logOdds[,4] <- log(tweets_logOdds[,2]/tweets_logOdds[,3])
                  names(tweets_logOdds)[4] <- "log_odds"
                  tweets_logOdds[,5] <- abs(tweets_logOdds$log_odds)
                  names(tweets_logOdds)[5] <- "abs_log_odds"
                  tweets_logOdds <- tweets_logOdds %>%
                        mutate(autor_frecuente = if_else(log_odds > 0,
                                                         names(tweets_logOdds)[2],
                                                         names(tweets_logOdds)[3]))

Diferencia_AK <- tweets_logOdds %>% 
  arrange(-log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "A.Kicillof")%>% 
  head(15)

Diferencia_HL <- tweets_logOdds %>% 
  arrange(abs_log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "H.Larreta")%>% 
  tail(15)

Diferencia_AK_HL <- rbind(Diferencia_AK,Diferencia_HL)

Diferencia_AK_HL%>% 
    ggplot(aes(x = reorder(Palabra, log_odds), y= log_odds, fill = autor_frecuente)) +
    geom_col() +
    labs(x = "-palabra", y = "Uso", title = "Kicillof vs Larreta") +
  coord_flip() +
  tema2

26- Comparación de uso de palabras Gines vs Quirós

La idea de este gráfico es de mostrar cuales son las palabras más diferencias en su uso, en este caso entre Gines Gonzalez y Fernán Quirós

tweets_unpivot <- tuits_tokens %>% group_by(Politico, Palabra) %>%
      count(Palabra) %>%
      spread(key = Politico, value = n, fill = 0, drop = TRUE) %>% 
      gather(key = "Politico", value = "n", -Palabra)

                  # Selección de los autores
                  tweets_unpivot2 <- tweets_unpivot %>% 
                        filter(Politico %in% c("Gines.GG", "F.Quiros"))
                  # Se añade el total de palabras de cada autor
                  tweets_unpivot2 <- tweets_unpivot2 %>%
                        left_join(Tweets_DF %>% group_by(Politico) %>%
                                        summarise(N = n()), by = "Politico")
`summarise()` ungrouping output (override with `.groups` argument)
                  # Cálculo de odds y log of odds de cada palabra
                  tweets_logOdds <- tweets_unpivot2 %>% 
                        mutate(odds = (n + 1) / (N + 1)) %>%
                        select(Politico, Palabra, odds) %>% 
                        spread(key = Politico, value = odds) 
                  tweets_logOdds[,4] <- log(tweets_logOdds[,2]/tweets_logOdds[,3])
                  names(tweets_logOdds)[4] <- "log_odds"
                  tweets_logOdds[,5] <- abs(tweets_logOdds$log_odds)
                  names(tweets_logOdds)[5] <- "abs_log_odds"
                  tweets_logOdds <- tweets_logOdds %>%
                        mutate(autor_frecuente = if_else(log_odds > 0,
                                                         names(tweets_logOdds)[2],
                                                         names(tweets_logOdds)[3]))

Diferencia_GG <- tweets_logOdds %>% 
  arrange(-log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "Gines.GG")%>% 
  tail(15)

Diferencia_FQ <- tweets_logOdds %>% 
  arrange(-abs_log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "F.Quiros")%>% 
  head(15)

Diferencia_GG_FQ <- rbind(Diferencia_GG,Diferencia_FQ)

Diferencia_GG_FQ%>% 
    ggplot(aes(x = reorder(Palabra, log_odds), y= log_odds, fill = autor_frecuente)) +
    geom_col() +
    labs(x = "-palabra", y = "Uso", title = "Quirós vs Gines") +
  coord_flip() +
  tema2

27- Comparación de uso de palabras Bullrich vs Cristina

La idea de este gráfico es de mostrar cuales son las palabras más diferencias en su uso, en este caso entre Cristina Kirchner y Patricia Bullrich

tweets_unpivot <- tuits_tokens %>% group_by(Politico, Palabra) %>%
      count(Palabra) %>%
      spread(key = Politico, value = n, fill = 0, drop = TRUE) %>% 
      gather(key = "Politico", value = "n", -Palabra)

                  # Selección de los autores
                  tweets_unpivot2 <- tweets_unpivot %>% 
                        filter(Politico %in% c("P.Bullrich", "C.Kirchner"))
                  # Se añade el total de palabras de cada autor
                  tweets_unpivot2 <- tweets_unpivot2 %>%
                        left_join(Tweets_DF %>% group_by(Politico) %>%
                                        summarise(N = n()), by = "Politico")
`summarise()` ungrouping output (override with `.groups` argument)
                  # Cálculo de odds y log of odds de cada palabra
                  tweets_logOdds <- tweets_unpivot2 %>% 
                        mutate(odds = (n + 1) / (N + 1)) %>%
                        select(Politico, Palabra, odds) %>% 
                        spread(key = Politico, value = odds) 
                  tweets_logOdds[,4] <- log(tweets_logOdds[,2]/tweets_logOdds[,3])
                  names(tweets_logOdds)[4] <- "log_odds"
                  tweets_logOdds[,5] <- abs(tweets_logOdds$log_odds)
                  names(tweets_logOdds)[5] <- "abs_log_odds"
                  tweets_logOdds <- tweets_logOdds %>%
                        mutate(autor_frecuente = if_else(log_odds > 0,
                                                         names(tweets_logOdds)[2],
                                                         names(tweets_logOdds)[3]))

Diferencia_PB <- tweets_logOdds %>% 
  arrange(-log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "P.Bullrich")%>% 
  tail(15)

Diferencia_CFK <- tweets_logOdds %>% 
  arrange(-abs_log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "C.Kirchner")%>% 
  head(15)

Diferencia_PB_CFK <- rbind(Diferencia_PB,Diferencia_CFK)

Diferencia_PB_CFK%>% 
    ggplot(aes(x = reorder(Palabra, log_odds), y= log_odds, fill = autor_frecuente)) +
    geom_col() +
    labs(x = "-palabra", y = "Uso", title = "Cristina vs Bullrich") +
  coord_flip() +
  tema2

28- Emociones en los tweets

Ahora analizamos un campo más amplio de emociones que fueron usado por los distintos políticos entre todos los tweets que han ido publicando en este periodo.

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(Partido ==  "cuenta partidaria")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = sentiment) +
  geom_col(position = "stack", color = "black") +
  coord_flip()  +
  scale_y_continuous(expand = c(0,0)) +
  labs(y = "Palabras") +
  theme_minimal()
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)


gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(Partido ==  "PRO")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = sentiment) +
  geom_col(position = "stack", color = "black") +
  coord_flip()  +
  scale_y_continuous(expand = c(0,0)) +
  labs(y = "Palabras") +
  theme_minimal()
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(Partido ==  "Peronismo")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = sentiment) +
  geom_col(position = "stack", color = "black") +
  coord_flip()  +
  scale_y_continuous(expand = c(0,0)) +
  labs(y = "Palabras") +
  theme_minimal()
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(Partido ==  "otros candidatos")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = sentiment) +
  geom_col(position = "stack", color = "black") +
  coord_flip()  +
  scale_y_continuous(expand = c(0,0)) +
  labs(y = "Palabras") +
  theme_minimal()
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

29- Emociones mes a mes

Si bien no hay grandes cambios a la hora de hacer los análisis de sentimientos mes a mes, se nota algunos detalles:

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, mes, sentiment) %>%
  filter(Partido ==  "cuenta partidaria")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
aes(x = mes, y =Proporcion, color = sentiment) +
  geom_point() +
  geom_line(aes(group = sentiment)) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = .4), 
        text = element_text(family = "serif")) +
  tema2 +
  facet_wrap(~ Politico) +
  labs(title = "Cambio de los sentimientos en el tiempo", 
       x = "Mes", y = "Porporción", color = "Sentimiento") 
`summarise()` regrouping output by 'Politico', 'Partido', 'mes' (override with `.groups` argument)

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, mes, sentiment) %>%
  filter(Partido ==  "otros candidatos")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
aes(x = mes, y =Proporcion, color = sentiment) +
  geom_point() +
  geom_line(aes(group = sentiment)) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = .4), 
        text = element_text(family = "serif")) +
  tema2 +
  facet_wrap(~ Politico) +
  labs(title = "Cambio de los sentimientos en el tiempo", 
       x = "Mes", y = "Porporción", color = "Sentimiento") 
`summarise()` regrouping output by 'Politico', 'Partido', 'mes' (override with `.groups` argument)

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, mes, sentiment) %>%
  filter(Partido ==  "Peronismo")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
aes(x = mes, y =Proporcion, color = sentiment) +
  geom_point() +
  geom_line(aes(group = sentiment)) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = .4), 
        text = element_text(family = "serif")) +
  tema2 +
  facet_wrap(~ Politico) +
  labs(title = "Cambio de los sentimientos en el tiempo", 
       x = "Mes", y = "Porporción", color = "Sentimiento") 
`summarise()` regrouping output by 'Politico', 'Partido', 'mes' (override with `.groups` argument)

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, mes, sentiment) %>%
  filter(Partido ==  "PRO")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
aes(x = mes, y =Proporcion, color = sentiment) +
  geom_point() +
  geom_line(aes(group = sentiment)) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = .4), 
        text = element_text(family = "serif")) +
  tema2 +
  facet_wrap(~ Politico) +
  labs(title = "Cambio de los sentimientos en el tiempo", 
       x = "Mes", y = "Porporción", color = "Sentimiento") 
`summarise()` regrouping output by 'Politico', 'Partido', 'mes' (override with `.groups` argument)

30- Comparación de emociones

La idea de comparar las emociones de todos en un gráfico ayuda para una visualización general (eliminando las cuentas partidarias):

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(sentiment != "Positivo" & sentiment !="Negativo" & Partido != "cuenta partidaria")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
    ggplot() +
  aes(Politico, Proporcion, color = sentiment, alpha = Proporcion) +
  geom_point(fill = "white", stroke = 1, shape = 21) +
  geom_text(aes(label = sentiment), vjust = -.9, family = "serif") +
  scale_y_continuous(labels = percent_format ()) +
  tema1 +
  theme(legend.position = "none",
        panel.grid.major.x = element_blank(),
        panel.grid.minor.x = element_blank(),
        text =  element_text(family = "serif")) +
  coord_flip() +
  labs(title = "Sentimientos totales comparativo",
       x = "Politico",
       y = "Proporción del sentimiento")
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(sentiment != "Positivo" & sentiment !="Negativo" & sentiment !="Alegria" & sentiment !="Sorpresa" & Partido != "cuenta partidaria")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
  ggplot() +
  aes(sentiment, Proporcion, color = sentiment) +
  geom_point() +
  geom_text(aes(label = Politico) ,vjust = -.3, size = 3) +
  scale_y_continuous(limits = c(0.15, 0.47)) +
   labs(title = "Sentimientos totales comparativo",
       x = "Politico",
       y = "Proporción del sentimiento") +
  theme_minimal() +
  theme(legend.position = "none")
`summarise()` regrouping output by 'Politico', 'Partido' (override with `.groups` argument)

---
title: "Analisis de twitter: Políticos en cuarentena"
output: html_notebook
---

<center> <span style="color: #02182B;"> <h2> Análisis de políticos </h2> </span> </center>

<center> <span style="color: #282F44;"> <h3> 1- Descargar tweets </h3> </span> </center>

Creo una lista de cuentas de las cuales voy a descargar sus tweets, y además una asignación para saber a quién representa cada cuenta.

La idea original es tener 4 miembros de cada uno de los dos partidos principales, los últimos 4 candidatos en las elecciones 2019 y también las 4 cuentas partidarias en Twitter.

  - **Frente de todos**: *Alberto Fernández, Cristina Kirchner, Gines González García y Axel Kicillof*
  - **PRO**: *Mauricio Macri, Horacio Rodríguez Larreta, Fernán Quiroz y Patricia Bullrich*
  - **Otros candidatos**: *José Luis Espert, Roberto Lavagna, Juan José Gómez Centurión y Nicolas del Caño*
  - **Partidarias**: *Frente de Todos, PRO, GEN y Unión Cívica Radical*

```{r}
candidatos <- list("alferdez", 
                   "CFKArgentina", 
                   "ginesggarcia",
                   "Kicillofok",
                   "PartidoGEN", 
                   "FrenteDeTodos",
                    "mauriciomacri",
                   "PatoBullrich",
                   "horaciorlarreta",
                   "FernanQuirosBA",
                   "proargentina",
                   "UCRNacional",
                   "jlespert",
                   "NicolasdelCano",
                   "RLavagna",
                   "juanjomalvinas")

tipocuenta <- list ("Peronismo","cuenta partidaria", "PRO","otros candidatos" )

 Tweets<-map(candidatos, function(x){
    get_timeline(user = x, n = 3200, includeRts = F, excludeReplies = F)
     } )
 
Tweets_DF<- do_call_rbind(Tweets)

print("Muestra")
print(Tweets_DF %>% 
  select(text)%>% 
    head(5))

```


<center> <span style="color: #282F44;"> <h3> 2-Limpieza </h3> </span> </center>


Vamos a limpiar ciertos elementos que pueden complicar el análisis del texto, como son los links, los números, los gráficos y pasar todo a minúscula.

Además, creamos varios campos para lo que es la fecha, desagregando el campo en varios distintos, que se van a utilizar a futuro, y también se actualiza el horario a la zona horaria donde fue realizado el tweet *(Argentina)*.

Finalmente filtramos por fecha, la idea es tener solo tweets del periodo 1/3/2020 hasta la fecha de publicación *(Sep/2020)*

```{r}
Tweets_DF <-
  Tweets_DF %>%
  ##Todo el texto a minuscula##
  mutate(text = tolower(text)) %>% 
  ##Sin graficos##
  mutate(text = gsub("[^[:graph:]]", " ", text)) %>% 
  ##Sin links##
  mutate(text = gsub("http//S", " ", text)) %>% 
  ##Sin numeros##
  mutate(text = gsub("[[:digit:]]", " ", text)) %>% 
  ##Sin numeros##
  mutate(text = chartr('áéíóúñ','aeioun',text)) %>%
  ##Cambiamos a la zona horaria correspondiente##
  mutate(created_at = with_tz(created_at, "America/Argentina/Buenos_Aires"))%>% 
  ##Separamos en dia y hora el campo created_at##
  separate(created_at, into = c("date", "hour"), sep = " ")%>% 
  ##Separamos la hora en hora,minutos y segundos##
    separate(hour, into = c("hour", "minutes","seconds"), sep = ":")%>% 
  ##Cambiamos la columna con el nombre del politico##
   rename(Politico = screen_name) %>% 
  ##Creamos una columna con el numero de año, mes, dia, nombre de dia y de mes.##
mutate(periodo = year(date), 
         mes = month(date, label = F, abbr = F),
         dia = as.numeric(day(date)),
         dia_sem = wday(date, label = T, abbr = F, week_start = 1),
         dia_per = yday(date),
         date = as.Date(date) 
  ) %>%
  ##Solo vamos a utilizar info de marzo 2020 en adelante##
  filter(periodo == 2020 & mes > 2) 

print("Muestra")
print(Tweets_DF %>% 
  select(Politico, status_id, periodo, mes, dia)%>% 
    head(10))

```

<center> <span style="color: #282F44;"> <h3> 3-Normalización </h3> </span> </center>


Normalizamos algunos campos, para ayudar al análisis y también a la visualización.

Le agregamos el partido a cada uno de los analizados, y además cambiamos su nombre del @ que vemos en Twitter, a un nombre fácil de entender para todos


```{r}
Tweets_DF <-
  Tweets_DF %>%
  mutate (Partido = ifelse (Politico == "alferdez", "Peronismo",
                    ifelse (Politico == "CFKArgentina", "Peronismo",
                    ifelse (Politico == "ginesggarcia", "Peronismo", 
                    ifelse (Politico == "Kicillofok", "Peronismo",
                    ifelse (Politico == "UCRNacional", "cuenta partidaria",        
                    ifelse (Politico == "FrenteDeTodos", "cuenta partidaria", 
                    ifelse (Politico == "proargentina", "cuenta partidaria",
                    ifelse (Politico == "PartidoGEN", "cuenta partidaria",
                    ifelse (Politico == "mauriciomacri", "PRO",
                    ifelse (Politico == "PatoBullrich", "PRO",
                    ifelse (Politico == "horaciorlarreta", "PRO",
                    ifelse (Politico == "FernanQuirosBA", "PRO", 
                            "otros candidatos")))))))))))))

Tweets_DF <-
  Tweets_DF %>%
  mutate (Politico = ifelse (Politico == "alferdez", "A.Fernandez",
                    ifelse (Politico == "CFKArgentina", "C.Kirchner",
                    ifelse (Politico == "ginesggarcia", "Gines.GG", 
                    ifelse (Politico == "Kicillofok", "A.Kicillof",
                    ifelse (Politico == "UCRNacional", "UCR",        
                    ifelse (Politico == "FrenteDeTodos", "TODOS", 
                    ifelse (Politico == "proargentina", "PRO",
                    ifelse (Politico == "PartidoGEN", "GEN",
                    ifelse (Politico == "mauriciomacri", "M.Macri",
                    ifelse (Politico == "PatoBullrich", "P.Bullrich",
                    ifelse (Politico == "horaciorlarreta", "H.Larreta",
                    ifelse (Politico == "FernanQuirosBA", "F.Quiros", 
                    ifelse (Politico == "NicolasdelCano", "N.DelCaño",
                    ifelse (Politico == "jlespert", "J.Espert",
                    ifelse (Politico == "RLavagna", "R.Lavagna",
                            "GomezCenturion"
                            ))))))))))))))))

print("Muestra")
print(Tweets_DF %>% 
  select(Politico, Partido, source)%>% 
    tail(10))
```


<center> <span style="color: #282F44;"> <h3> 4-Cantidad de tweets </h3> </span> </center>


La primera aproximación que vamos a tener, es la cantidad de veces que twitteo cada uno desde marzo del 2020 hasta la fecha de publicación del informe.

Se presentan diferencias considerables entre todos, se deberá normalizar o utilizar proporciones más de una vez

  - *Macri y Lavagna tienen menos tweets que el resto*
  - *Cristina Kirchner es también de poca participación*
  - *Las cuentas de Frente de Todos, Espert, Del Caño y la UCR son la de más utilización*
  
  
```{r}
Cantidad_tweets = Tweets_DF %>%
  group_by(Politico, Partido) %>%
  count(Politico)
  
Cantidad_tweets%>%  
  ggplot()+
  aes(x=reorder(Politico, n), y= n, fill= Politico) +
  geom_col() +
  facet_wrap("Partido", scales = "free_y") +
  coord_flip() +
  labs(title = "Cantidad total de tweets", x = "tweets", y = "Cantidad") +
    tema1
```


<center> <span style="color: #282F44;"> <h3> 5-Fecha de los tweets </h3> </span> </center>


Vemos cuando han ido publicando cada uno de los analizados sus tweets, con el fin de mostrar en que época tuvieron más o menos acción.

  - *En el caso de la cuenta de Frente de todos, como tuvo más de 3200 tweets, el análisis arranca desde los            primeros días de abril*


```{r}
Tweets_DF %>%
  filter(Partido == "PRO") %>%
  ggplot(aes(x = as.Date(date), fill = Politico)) +
      geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
      scale_x_date(date_labels = "%d-%m", date_breaks = "1 month") +
      labs(x = "fecha de publicación", y = "número de tweets") +
      facet_wrap(~ Politico, ncol = 1) +
      tema2 +
      theme(axis.text.x = element_text(angle = 90))

Tweets_DF %>%
  filter(Partido == "Peronismo") %>%
  ggplot(aes(x = as.Date(date), fill = Politico)) +
      geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
      scale_x_date(date_labels = "%d-%m", date_breaks = "1 month") +
      labs(x = "fecha de publicación", y = "número de tweets") +
      facet_wrap(~ Politico, ncol = 1) +
      tema1 +
      theme(axis.text.x = element_text(angle = 90))

Tweets_DF %>%
  filter(Partido == "otros candidatos") %>%
  ggplot(aes(x = as.Date(date), fill = Politico)) +
      geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
      scale_x_date(date_labels = "%d-%m", date_breaks = "1 month") +
      labs(x = "fecha de publicación", y = "número de tweets") +
      facet_wrap(~ Politico, ncol = 1) +
      tema1 +
      theme(axis.text.x = element_text(angle = 90))

Tweets_DF %>%
  filter(Partido == "cuenta partidaria") %>%
  ggplot(aes(x = as.Date(date), fill = Politico)) +
      geom_histogram(position = "identity", bins = 20, show.legend = FALSE) +
      scale_x_date(date_labels = "%d-%m", date_breaks = "1 month") +
      labs(x = "fecha de publicación", y = "número de tweets") +
      facet_wrap(~ Politico, ncol = 1) +
      tema2  +
      theme(axis.text.x = element_text(angle = 90))
```



<center> <span style="color: #282F44;"> <h3> 6-Cantidad de tweets sobre COVID </h3> </span> </center>
El tema más importante del año es el coronavirus, la idea es ver qué porcentaje de los tweets realizados estos meses trato sobre el coronavirus, para eso se van a buscar palabras claves que determinen que el tweet trata sobre la pandemia.

  - *Claramente los ministros son los que más hablaron sobre el Coronavirus, con el 75% de sus tweets.*
  
  - *Siguen los gobernadores Kiciloff y Larreta, que trataron sobre la evolución de la pandemia en sus distritos.* 

  - *En menor medida hablaron los líderes de los dos principales partidos.*

  - *Del Caño es el que más hablo entre los otros candidatos, lo sigue Espert, mientras que Lavagna y Gómez Centurión     hablaron muy poco.*

  - *Las cuentas partidarias, salvo las de la UCR no fueron muy usadas para hablar sobre el Coronavirus*


```{r}
#Buscamos tweets con la palabra covid
Palabras_covid <- "covid|covid-19|covid19|coronavirus|#covid|#covid-19|#covid19|#coronavirus|test|testeo|testeos|pcr|serologico|hisopado|antibioticos|aplanar|curva|cuarentena|contagio|enfermedad|epidemia|pandemia|alarma|gel|cuidados|incubacion|jabon|barbijo|barbijos|mascarilla|mascarillas|mers|sars|vacuna|wuhan|oxford|astra|zeneca|transmision|exponencial|casos|duplicacion|distanciamiento|colapso|salud|letalidad|mortalidad|ventilador|icu|uci|uti|inmunidad|serologica|distanciamiento|virus|asintomatico|caso sospechoso|olfato|gusto|terapia|saturacion|clinica|positividad|positivios|rebaño|inmunidad|hospital|hospitales|aspo|aislamiento"
Tweets_DF$Covid <- grepl(Palabras_covid, Tweets_DF$text, ignore.case ="True")

Tweets_DF %>% 
count(Politico, Partido,Covid) %>%
  group_by(Politico) %>%
  mutate(Proporcion = n / sum(n)) %>%
  mutate(Covid = ifelse(Covid == T, "Sobre COVID", "Otro tema"))%>%
ggplot() +
  aes(Politico, Proporcion, fill = Covid) +
  geom_col() +
  scale_y_continuous(labels = percent_format()) +
      facet_wrap("Partido", scales = "free") +
  theme(legend.position = "top")
```



<center> <span style="color: #282F44;"> <h3>  7- Wordcloud </h3> </span> </center>
La idea de la nube de palabras es saber cuáles son las 200 palabras que más se usaron por los analizados estos meses, como era de esperarse sobresalen **"coronavirus"**, **"covid"**, **"pandemia"** o **"cuarentena"**


```{r}
tuits_tokens <-
  Tweets_DF %>%
  unnest_tokens(input = text, output = Palabra, token = "words") %>%
  select(Politico, Palabra, status_id, periodo, mes, hour, Partido) %>%
  mutate(status_id = gsub("<(.*)>+?", "", status_id)) %>%
  filter(!Palabra %in% stopwords("es")) %>%
  filter(!Palabra %in% c("t.co", "https", "vÃ­a", "youtube", "amp"))

Palabras_sinhoymas = tuits_tokens  %>%
  filter(Palabra != "mas" & Palabra != "hoy") 

wordcloud(words = Palabras_sinhoymas$Palabra, 
          scale=c(2,.2), 
          max.words=200, random.order=FALSE, rot.per=0.35, 
          colors=brewer.pal(8, "Dark2"),
          )


```



<center> <span style="color: #282F44;"> <h3> 8-Descargamos un diccionario </h3> </span> </center>


Descargamos un diccionario que tiene las palabras en español, y le asigna un valor entre -5 a 5, mostrando la positividad o negatividad de la palabra.

Eliminamos la palabra *"No"* que la toma como negativa, cuando en español es un conector a veces, y la palabra *“Negro”* (Nigga) que la toma con el máximo valor negativo


```{r}
download.file("https://raw.githubusercontent.com/jboscomendoza/rpubs/master/sentimientos_afinn/lexico_afinn.en.es.csv",
              "lexico_afinn.en.es.csv")

afinn <- read.csv("lexico_afinn.en.es.csv", stringsAsFactors = F, fileEncoding = "latin1") %>% 
  tbl_df()

afinn$Puntuacion <- ifelse(afinn$Palabra == "no", 0, afinn$Puntuacion)
afinn$Puntuacion <- ifelse(afinn$Palabra == "negro", 0, afinn$Puntuacion)

print("Muestra")
afinn %>%
  select(Palabra, Puntuacion) %>%
    arrange(Puntuacion) %>%
  print(head(10))

afinn %>%
  select(Palabra, Puntuacion) %>%
    arrange(-Puntuacion) %>%
  print(tail(10))
```




<center> <span style="color: #282F44;"> <h3> 9- Separacion de palabras </h3> </span> </center>


Separamos las distintas palabras que usaron cada uno de los políticos en sus tweets, y eliminamos algunas palabras propias de Twitter y las llamadas stopwords que son las palabras más frecuentes en el idioma español.


```{r}
print ("Muestra")
print (tuits_tokens %>%
    select(Politico, Palabra) %>%    
         head (10))
```

<center> <span style="color: #282F44;"> <h3> 10- Le damos valor a las palabras </h3> </span> </center>


Unimos el diccionario de puntuación con las palabras que uso cada uno de los analizados, con el fin de que cada palabra tenga un valor, y nos sirva para analizar que escribió cada político.

Las palabras serán: 
  -  Si tienen valor mayor a 0 **Positivas** 
  
  -  Si son menores a 0 **Negativas** 
  
  -  En caso de que la palabra no tenga carga de sentimientos**Neutrales** 


```{r}
tuits_tokens_emociones <-   
 tuits_tokens %>%
inner_join(afinn, ., by = "Palabra") %>%
  mutate(Calificacion = ifelse(Puntuacion > 0, "Positiva", 
                              ifelse(Puntuacion == 0, "Neutral",
                              "Negativa")
                            )
  )      

print ("Muestra")
print (tuits_tokens_emociones %>%
    select(Politico, Palabra, Puntuacion, Calificacion) %>%    
         tail (10))
```



<center> <span style="color: #282F44;"> <h3> 11- ¿Quién usa más caracteres? </h3> </span> </center>


La idea es buscar cual es el promedio del largo (cantidad de caracteres) de los tweets que realiza cada uno de los analizados.

Mientras más a la derecha este la caja, más largo son los tweets que escriben, en ese aspecto se destacan: 
  -	*Lavagna, Patricia Bullrich, Larreta y Fernán Quirós son los que escriben los tweets más largos.* 
  -	*Aquellos relacionados al PRO son de escribir tweets más largos*


```{r}
Tweets_DF %>% 
ggplot()+
  aes(x= Politico, y= display_text_width, color= Politico) +
  geom_boxplot () +
    labs(title = "Largo promedio del tweet", x = "Politico", y = "Cantidad caracteres") +
  coord_flip() +
    tema1
```




<center> <span style="color: #282F44;"> <h3> 12- ¿Quién usa más palabras? </h3> </span> </center>


La idea es analizar quien es el que uso más palabras distintas en promedio durante este tiempo, en este caso vamos a dividir por la cantidad de tweets que hizo, así queda normalizado para todos los analizados.

*No se cuentan los conectores comunes como "en", "a", "de", etc.*

  -	*Espert esta abajo de las 15 palabras por tweet, es el de menor uso.*
  -	*El resto está en una cantidad similares de entre 15 y 20 palabras.*


```{r}
Cantidad_palabras= tuits_tokens%>%
  group_by(Politico, Partido)%>%
  count(Politico)%>%
inner_join(Cantidad_tweets, ., by = "Politico")%>%
  mutate(cantidad_promedio = n.y / n.x)


Cantidad_palabras%>% ggplot()+
  aes(x=reorder(Politico, -cantidad_promedio), y= cantidad_promedio, fill= Politico) +
  geom_col() +
  facet_wrap("Partido.x", scales = "free_y") +
  labs(title = "Uso de palabras", x = "tweets", y = "Cantidad") +
  coord_flip() +
    tema1


```




<center> <span style="color: #282F44;"> <h3>  13- ¿Quien usa mas palabras distintas? </h3> </span> </center>

Buscamos ver el léxico distintivo que hay en cada una de las cuentas, contando sus palabras únicas y se nota: 

-	*Diferencias entre Lavagna, Macri, Cristina con el resto de los que escriben*

-	*Espert que es el de léxico menos variado*


```{r}
tuits_tokens%>%
  group_by(Politico, Partido)%>%
  distinct(Palabra)%>%
  count(Politico)%>%
inner_join(Cantidad_tweets, ., by = "Politico")  %>%
  mutate(cantidad_promedio = n.y / n.x) %>% 
  ggplot()+
  aes(x=reorder(Politico, cantidad_promedio), y= cantidad_promedio, fill= Politico) +
  geom_col() +
  facet_wrap("Partido.x", scales = "free_y") +
  labs(title = "Palabras distintas", x = "tweets", y = "Cantidad") +
  coord_flip() +
    tema1
  
```




<center> <span style="color: #282F44;"> <h3> 14- Palabras más usadas </h3> </span> </center>

Ahora que ya sabemos con qué variedad de palabras, podemos analizar cuáles son las que más usaron
En este caso, cada grafico tiene una escala distinta para que no se pierda por la cantidad de tweets realizados.

Las palabras más utilizadas fueron: 

- "*evitar*"
- "*deuda*"
- "*justicia*" 
- "*libertad*" usada principalmente por Espert.


```{r}
tuits_tokens_emociones %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "PRO") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras más usadas") +
     tema1

 tuits_tokens_emociones %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "Peronismo") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras más usadas") +
     tema1
 
  tuits_tokens_emociones %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "otros candidatos") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras más usadas") +
     tema1
  
   tuits_tokens_emociones %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "cuenta partidaria") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras más usadas") +
     tema1
```




<center> <span style="color: #282F44;"> <h3> 15- Palabras positivas más usadas </h3> </span> </center>

Al tener una puntuación cada palabra otorgada por el diccionario de léxico, también podemos buscar cuales son las palabras positivas que más uso cada uno de los políticos.

En este caso: 

- Se nota el uso de las palabras **"libertad"** y **"justicia"** que son consideradas positivas

- Aparece bastante el uso de la palabra **"gracias"**, principalmente de aquellas cuentas relacionada a la salud **(Gines González García y Fernán Quirós)**


```{r}
 tuits_tokens_emociones %>%
    filter(Calificacion ==  "Positiva") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "PRO") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Positivas más usadas") 

 tuits_tokens_emociones %>%
    filter(Calificacion ==  "Positiva") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "Peronismo") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Positivas más usadas") 
 
  tuits_tokens_emociones %>%
    filter(Calificacion ==  "Positiva") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "otros candidatos") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Positivas más usadas") 
  
   tuits_tokens_emociones %>%
    filter(Calificacion ==  "Positiva") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "cuenta partidaria") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Positivas más usadas") 
```




<center> <span style="color: #282F44;"> <h3> 16- Palabras negativas más usadas </h3> </span> </center>


Al tener una puntuación cada palabra otorgada por el diccionario de léxico, también podemos buscar cuales son las palabras negativas que más uso cada uno de los políticos.

  -	*Evitar*, *Emergencia* o *Problema* son las palabras que más aparecen, dentro del principal tema de habla que es la pandemia. 

  -	*Deuda* es otra palabra muy utilizada, un tema difícil de esquivar este año.



```{r}
 tuits_tokens_emociones %>%
    filter(Calificacion ==  "Negativa") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "PRO") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Negativas más usadas") 

 tuits_tokens_emociones %>%
    filter(Calificacion ==  "Negativa") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "Peronismo") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Negativas más usadas") 
 
  tuits_tokens_emociones %>%
    filter(Calificacion ==  "Negativa") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "otros candidatos") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Negativas más usadas") 
  
   tuits_tokens_emociones %>%
    filter(Calificacion ==  "Negativa") %>%
    group_by(Partido, Politico) %>%
    count(Palabra, sort = T) %>%
     slice_max(order_by = n, n= 10) %>%
      filter(Partido ==  "cuenta partidaria") %>%
    ggplot() +
    aes(Palabra, n, fill = Politico) +
    geom_col() +
    facet_wrap("Politico", scales = "free") +
    scale_y_continuous(expand = c(0, 0)) +
    coord_flip() +
    labs(title = "Palabras Negativas más usadas") 
```




<center> <span style="color: #282F44;"> <h3>  17- Sentimientos en el tweet </h3> </span> </center>


Volviendo a usar la puntuación del diccionario afinn, volvemos a unir las palabras a los tweets y sacamos el promedio de puntos de todas las palabras, pasando del valor unitario de palabra a un valor unitario por cada tweet publicado.

  - *La mayoría de los tweets fueron neutros.*
  
  - *Los más positivos en este transcurso fueron M. Macri, A. Fernandez y R. Lavagna.*
  
  - *Los más negativos fueron N. Del Caño y la cuenta oficial del PRO.*


```{r}
Tweets_DF <-
  tuits_tokens_emociones %>%
  group_by(status_id) %>%
  summarise(Puntuacion_tweet.x = mean(Puntuacion)) %>%
  left_join(Tweets_DF, ., by = "status_id")


Tweets_DF <-  Tweets_DF %>%
  mutate(Puntuacion_tweet.x_letra = ifelse(is.na(Puntuacion_tweet.x), "Neutral",
                                   ifelse(Puntuacion_tweet.x > 0, "Positiva", 
                                    ifelse(Puntuacion_tweet.x == 0, "Neutral",
                              "Negativa")
                            )
  )      
)

Tweets_DF %>%
  count(Politico, Partido, Puntuacion_tweet.x_letra) %>%
  group_by(Politico) %>%
  mutate(Proporcion = n / sum(n)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = Puntuacion_tweet.x_letra) +
  geom_col() +
  scale_y_continuous(labels = percent_format()) +
      facet_wrap("Partido", scales = "free") +
  theme(legend.position = "top")


```




<center> <span style="color: #282F44;"> <h3> 18- Sentimientos en el tweet PRO vs Peronismo </h3> </span> </center>


Tomamos los 4 miembros que ya analizamos de cada uno de los partidos *(PRO y Todos)*, y lo unimos en un solo gráfico por partido, vemos que la distribución es algo parecido, si bien el Peronismo tuvo un poco más de tweets positivos y menos de tweets negativos, pero no a niveles significativos.


```{r}
Tweets_DF %>%
  count(Partido, Puntuacion_tweet.x_letra) %>%
  group_by(Partido) %>%
  filter(Partido == "PRO" |Partido == "Peronismo")%>%
  mutate(Proporcion = n / sum(n)) %>%
ggplot() +
  aes(Partido, Proporcion, fill = Puntuacion_tweet.x_letra) +
  geom_col() +
  scale_y_continuous(labels = percent_format()) +
  theme(legend.position = "top")
```




<center> <span style="color: #282F44;"> <h3>  19- Sentimiento mes a mes </h3> </span> </center>


La idea es analizar si hay fluctuaciones en lo que han ido twitteando en el transcurso del tiempo y sus sentimientos.

  - En el **PRO** no hubo grandes cambios, los últimos tweets de Bullrich son más positivo.
  
  - Entre los otros candidatos **Nicolas Del Caño** siempre es negativo, pero viene siendo menos negativo ultimamente.
  
  - Entre el **Frente de Todos** hay mucha fluctuación, el Presidente parece estar en un camino hacia la negatividad.
  

```{r}
Tweets_DF$Puntuacion_tweet.x = ifelse(is.na(Tweets_DF$Puntuacion_tweet.x), 0, Tweets_DF$Puntuacion_tweet.x)

Tweets_DF %>%
group_by(Politico, Partido, mes) %>%
  filter(Partido == "PRO")%>%
  summarise(sentimiento = mean(Puntuacion_tweet.x)) %>%
ggplot() +
  aes(mes, sentimiento, color = Politico) +
  geom_hline(yintercept = 0, alpha = .35) +
  geom_line() +
  facet_grid(Politico~.) +
  tema1 +
  theme(legend.position = "none")

Tweets_DF %>%
group_by(Politico, Partido, mes) %>%
  filter(Partido == "otros candidatos")%>%
  summarise(sentimiento = mean(Puntuacion_tweet.x)) %>%
ggplot() +
  aes(mes, sentimiento, color = Politico) +
  geom_hline(yintercept = 0, alpha = .35) +
  geom_line() +
  facet_grid(Politico~.) +
  tema1 +
  theme(legend.position = "none")

Tweets_DF %>%
group_by(Politico, Partido, mes) %>%
  filter(Partido == "Peronismo")%>%
  summarise(sentimiento = mean(Puntuacion_tweet.x)) %>%
ggplot() +
  aes(mes, sentimiento, color = Politico) +
  geom_hline(yintercept = 0, alpha = .35) +
  geom_line() +
  facet_grid(Politico~.) +
  tema1 +
  theme(legend.position = "none")

Tweets_DF %>%
group_by(Politico, Partido, mes) %>%
  filter(Partido == "cuenta partidaria")%>%
  summarise(sentimiento = mean(Puntuacion_tweet.x)) %>%
ggplot() +
  aes(mes, sentimiento, color = Politico) +
  geom_hline(yintercept = 0, alpha = .35) +
  geom_line() +
  facet_grid(Politico~.) +
  tema1 +
  theme(legend.position = "none")
```




<center> <span style="color: #282F44;"> <h3>  20- Boxplot sentimientos </h3> </span> </center>

La distribución de los sentimientos entre todos los tweets, aquellos que están encerrados en las cajas son los normales, mientras que los puntos sueltos son tweets aislados a lo que suelen escribir.

  - *Espert no presenta ningun tipo de patrón de sentimientos*


```{r}
Tweets_DF %>%
  ggplot() +
  aes(Politico, Puntuacion_tweet.x, fill = Politico) +
  geom_boxplot() +
  coord_flip() + 
  labs(y= "Sentimiento") +
  tema1
```




<center> <span style="color: #282F44;"> <h3> 21- Correlación entre lo twitteado PRO vs Peronismo</h3> </span> </center>

Se busca a través de las palabras que utilizaron cual es la correlación que hay entre los distintos políticos y sus tweets, y se pueden realizar varias observaciones:

  - *Quirós y Larreta son los de mayor correlación, demostrando un buen manejo de la comunicación porteña, donde ambos siguen en misma dirección.*

  - *Macri es el de menor correlación con el resto de los participantes, pero así mismo tiene lógica que su mayor nivel de relación lo tenga con Bullrich.*

  - *Entre Kiciloff y Gines, hay una relación importante, así como también de ellos dos con sus similares porteños (Quirós y Larreta).*

  - *Cristina Kirchner es otra que no tiene un alto nivel de relación en sus tweets con otros políticos.*

  - *Es sorprendente que uno de los mayores niveles de relación en cuanto lo que se comunica este entre Alberto Fernández y Patricia Bullrich.*



```{r}
tweets_spread2 <- tuits_tokens %>% 
 filter(Partido ==  "PRO" | Partido == "Peronismo")%>% 
  group_by(Politico, Palabra) %>% 
  count(Palabra) %>%
      spread(key = Politico, value = n, fill = NA, drop = TRUE)
tweets_spread2[is.na(tweets_spread2)] <- 0

names(tweets_spread2) <- c("Palabra", "A.Fernandez", "A.Kicillof", 
                          "C.Kirchner", "F.Quiros", "Gines.GG","H.Larreta", "M.Macri", "P.Bullrich" )

method <- "pearson"
m_cor <- matrix(nrow = 8, ncol = 8)
for (i in 1:dim(m_cor)[1]) {
      for (j in 1:dim(m_cor)[2]) {
            form <- as.formula(paste("~", names(tweets_spread2)[i+1], 
                                      "+", names(tweets_spread2)[j+1]))
            if(i!=j){
                  m_cor[i,j] <- cor.test(form, method = method, 
                                   data = tweets_spread2)$estimate
            }
            if(i==j){m_cor[i,j] <- 1}
      }
}
colnames(m_cor) <- names(tweets_spread2)[2:9]
rownames(m_cor) <- names(tweets_spread2)[2:9]
corrplot(m_cor, method="color", type="upper", order="hclust", 
         addCoef.col = "black", tl.col="black", tl.srt=45,
         sig.level = 0.01, insig = "blank", diag=FALSE)

```




<center> <span style="color: #282F44;"> <h3> 22- Correlación entre lo twitteado candidatos a presidente. </h3> </span> </center>


-	La relación entre lo que escriben los candidatos tiene un clúster que se destaca sobre el resto que es la relación entre Espert, Gómez Centurión y Alberto Fernández.

-	Nicolas Del Caño tiene un alto nivel de relación con Gómez Centurión, y en medida mediana con Alberto Fernández y Espert.

-	Lavagna y Macri no presentan una gran correlación con el resto de los políticos.


```{r}
tweets_spread2 <- tuits_tokens %>% 
  filter(Partido ==  "otros candidatos" | Politico == "A.Fernandez"| Politico == "M.Macri")%>% 
  group_by(Politico, Palabra) %>% 
  count(Palabra) %>%
      spread(key = Politico, value = n, fill = NA, drop = TRUE)
tweets_spread2[is.na(tweets_spread2)] <- 0

names(tweets_spread2) <- c("Palabra", "A.Fernandez", "J.Espert", 
                          "GomezCenturion", "M.Macri", "N.DelCaño","R.Lavagna")

method <- "pearson"
m_cor <- matrix(nrow = 6, ncol = 6)
for (i in 1:dim(m_cor)[1]) {
      for (j in 1:dim(m_cor)[2]) {
            form <- as.formula(paste("~", names(tweets_spread2)[i+1], 
                                      "+", names(tweets_spread2)[j+1]))
            if(i!=j){
                  m_cor[i,j] <- cor.test(form, method = method, 
                                   data = tweets_spread2)$estimate
            }
            if(i==j){m_cor[i,j] <- 1}
      }
}
colnames(m_cor) <- names(tweets_spread2)[2:7]
rownames(m_cor) <- names(tweets_spread2)[2:7]
corrplot(m_cor, method="color", type="upper", order="hclust", 
         addCoef.col = "black", tl.col="black", tl.srt=45,
         sig.level = 0.01, insig = "blank", diag=FALSE)
```




<center> <span style="color: #282F44;"> <h3> 23- Correlación entre lo twitteado entre cuentas partidarias</h3> </span> </center>


Este puede ser un análisis interesante, ya que la cantidad de tweets es significativa para todos.

-	Sorpresivamente el máximo nivel de relación se da entre la UCR y TODOS, dos partidos que hoy se presentan como opuesto

-	Tiene mayor lógica la alta relación entre el PRO y la UCR.

-	El GEN pareciera ser el partido que escribe de manera más distinta al resto.

-	Sin embargo, podemos notar que, a diferencia de las cuentas individuales, las partidarias tienen más relación, por su lenguaje más neutro y comunicación orgánica.


```{r}
tweets_spread2 <- tuits_tokens %>% 
  filter(Partido ==  "cuenta partidaria")%>% 
  group_by(Politico, Palabra) %>% 
  count(Palabra) %>%
      spread(key = Politico, value = n, fill = NA, drop = TRUE)
tweets_spread2[is.na(tweets_spread2)] <- 0

names(tweets_spread2) <- c("Palabra", "GEN", "PRO", 
                          "TODOS", "UCR")

method <- "pearson"
m_cor <- matrix(nrow = 4, ncol = 4)
for (i in 1:dim(m_cor)[1]) {
      for (j in 1:dim(m_cor)[2]) {
            form <- as.formula(paste("~", names(tweets_spread2)[i+1], 
                                      "+", names(tweets_spread2)[j+1]))
            if(i!=j){
                  m_cor[i,j] <- cor.test(form, method = method, 
                                   data = tweets_spread2)$estimate
            }
            if(i==j){m_cor[i,j] <- 1}
      }
}
colnames(m_cor) <- names(tweets_spread2)[2:5]
rownames(m_cor) <- names(tweets_spread2)[2:5]
corrplot(m_cor, method="color", type="upper", order="hclust", 
         addCoef.col = "black", tl.col="black", tl.srt=45,
         sig.level = 0.01, insig = "blank", diag=FALSE)
```





<center> <span style="color: #282F44;"> <h3> 24- Comparación de uso de palabras Macri vs Fernandez </h3> </span> </center>


La idea de este gráfico es de mostrar cuales son las palabras más diferencias en su uso, en este caso entre *Mauricio Macri* y *Alberto Fernández*


```{r}

# Pivotaje y despivotaje
tweets_unpivot <- tuits_tokens %>% group_by(Politico, Palabra) %>%
      count(Palabra) %>%
      spread(key = Politico, value = n, fill = 0, drop = TRUE) %>% 
      gather(key = "Politico", value = "n", -Palabra)


                  # Selección de los autores
                  tweets_unpivot2 <- tweets_unpivot %>% 
                        filter(Politico %in% c("M.Macri", "A.Fernandez"))
                  # Se añade el total de palabras de cada autor
                  tweets_unpivot2 <- tweets_unpivot2 %>%
                        left_join(Tweets_DF %>% group_by(Politico) %>%
                                        summarise(N = n()), by = "Politico")
                  # Cálculo de odds y log of odds de cada palabra
                  tweets_logOdds <- tweets_unpivot2 %>% 
                        mutate(odds = (n + 1) / (N + 1)) %>%
                        select(Politico, Palabra, odds) %>% 
                        spread(key = Politico, value = odds)
                  tweets_logOdds[,4] <- log(tweets_logOdds[,2]/tweets_logOdds[,3])
                  names(tweets_logOdds)[4] <- "log_odds"
                  tweets_logOdds[,5] <- abs(tweets_logOdds$log_odds)
                  names(tweets_logOdds)[5] <- "abs_log_odds"
                  tweets_logOdds <- tweets_logOdds %>%
                        mutate(autor_frecuente = if_else(log_odds > 0,
                                                         names(tweets_logOdds)[2],
                                                         names(tweets_logOdds)[3]))

Diferencia_AF <- tweets_logOdds %>% 
  arrange(-abs_log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "A.Fernandez")%>% 
  head(15)

Diferencia_MM <- tweets_logOdds %>% 
  arrange(log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "M.Macri")%>% 
  head(15)

Diferencia_AF_MM <- rbind(Diferencia_AF,Diferencia_MM)

Diferencia_AF_MM%>% 
    ggplot(aes(x = reorder(Palabra, log_odds), y= log_odds, fill = autor_frecuente)) +
    geom_col() +
    labs(x = "-palabra", y = "Uso", title = "Fernandez vs Macri") +
  coord_flip() +
  tema2

```




<center> <span style="color: #282F44;"> <h3> 25- Comparación de uso de palabras Larreta vs Kicillof </h3> </span> </center>


La idea de este gráfico es de mostrar cuales son las palabras más diferencias en su uso, en este caso entre *Horacio Larreta* y *Axel Kicillof*



```{r}


# Pivotaje y despivotaje
tweets_unpivot <- tuits_tokens %>% group_by(Politico, Palabra) %>%
      count(Palabra) %>%
      spread(key = Politico, value = n, fill = 0, drop = TRUE) %>% 
      gather(key = "Politico", value = "n", -Palabra)


                  # Selección de los autores
                  tweets_unpivot2 <- tweets_unpivot %>% 
                        filter(Politico %in% c("H.Larreta", "A.Kicillof"))
                  # Se añade el total de palabras de cada autor
                  tweets_unpivot2 <- tweets_unpivot2 %>%
                        left_join(Tweets_DF %>% group_by(Politico) %>%
                                        summarise(N = n()), by = "Politico")
                  # Cálculo de odds y log of odds de cada palabra
                  tweets_logOdds <- tweets_unpivot2 %>% 
                        mutate(odds = (n + 1) / (N + 1)) %>%
                        select(Politico, Palabra, odds) %>% 
                        spread(key = Politico, value = odds) 
                  tweets_logOdds[,4] <- log(tweets_logOdds[,2]/tweets_logOdds[,3])
                  names(tweets_logOdds)[4] <- "log_odds"
                  tweets_logOdds[,5] <- abs(tweets_logOdds$log_odds)
                  names(tweets_logOdds)[5] <- "abs_log_odds"
                  tweets_logOdds <- tweets_logOdds %>%
                        mutate(autor_frecuente = if_else(log_odds > 0,
                                                         names(tweets_logOdds)[2],
                                                         names(tweets_logOdds)[3]))

Diferencia_AK <- tweets_logOdds %>% 
  arrange(-log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "A.Kicillof")%>% 
  head(15)

Diferencia_HL <- tweets_logOdds %>% 
  arrange(abs_log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "H.Larreta")%>% 
  tail(15)

Diferencia_AK_HL <- rbind(Diferencia_AK,Diferencia_HL)

Diferencia_AK_HL%>% 
    ggplot(aes(x = reorder(Palabra, log_odds), y= log_odds, fill = autor_frecuente)) +
    geom_col() +
    labs(x = "-palabra", y = "Uso", title = "Kicillof vs Larreta") +
  coord_flip() +
  tema2

```




<center> <span style="color: #282F44;"> <h3> 26- Comparación de uso de palabras Gines vs Quirós </h3> </span> </center>


La idea de este gráfico es de mostrar cuales son las palabras más diferencias en su uso, en este caso entre *Gines Gonzalez* y *Fernán Quirós*


```{r}
tweets_unpivot <- tuits_tokens %>% group_by(Politico, Palabra) %>%
      count(Palabra) %>%
      spread(key = Politico, value = n, fill = 0, drop = TRUE) %>% 
      gather(key = "Politico", value = "n", -Palabra)


                  # Selección de los autores
                  tweets_unpivot2 <- tweets_unpivot %>% 
                        filter(Politico %in% c("Gines.GG", "F.Quiros"))
                  # Se añade el total de palabras de cada autor
                  tweets_unpivot2 <- tweets_unpivot2 %>%
                        left_join(Tweets_DF %>% group_by(Politico) %>%
                                        summarise(N = n()), by = "Politico")
                  # Cálculo de odds y log of odds de cada palabra
                  tweets_logOdds <- tweets_unpivot2 %>% 
                        mutate(odds = (n + 1) / (N + 1)) %>%
                        select(Politico, Palabra, odds) %>% 
                        spread(key = Politico, value = odds) 
                  tweets_logOdds[,4] <- log(tweets_logOdds[,2]/tweets_logOdds[,3])
                  names(tweets_logOdds)[4] <- "log_odds"
                  tweets_logOdds[,5] <- abs(tweets_logOdds$log_odds)
                  names(tweets_logOdds)[5] <- "abs_log_odds"
                  tweets_logOdds <- tweets_logOdds %>%
                        mutate(autor_frecuente = if_else(log_odds > 0,
                                                         names(tweets_logOdds)[2],
                                                         names(tweets_logOdds)[3]))

Diferencia_GG <- tweets_logOdds %>% 
  arrange(-log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "Gines.GG")%>% 
  tail(15)

Diferencia_FQ <- tweets_logOdds %>% 
  arrange(-abs_log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "F.Quiros")%>% 
  head(15)

Diferencia_GG_FQ <- rbind(Diferencia_GG,Diferencia_FQ)

Diferencia_GG_FQ%>% 
    ggplot(aes(x = reorder(Palabra, log_odds), y= log_odds, fill = autor_frecuente)) +
    geom_col() +
    labs(x = "-palabra", y = "Uso", title = "Quirós vs Gines") +
  coord_flip() +
  tema2
```




<center> <span style="color: #282F44;"> <h3> 27- Comparación de uso de palabras Bullrich vs Cristina </h3> </span> </center>


La idea de este gráfico es de mostrar cuales son las palabras más diferencias en su uso, en este caso entre *Cristina Kirchner* y *Patricia Bullrich*


```{r}
tweets_unpivot <- tuits_tokens %>% group_by(Politico, Palabra) %>%
      count(Palabra) %>%
      spread(key = Politico, value = n, fill = 0, drop = TRUE) %>% 
      gather(key = "Politico", value = "n", -Palabra)


                  # Selección de los autores
                  tweets_unpivot2 <- tweets_unpivot %>% 
                        filter(Politico %in% c("P.Bullrich", "C.Kirchner"))
                  # Se añade el total de palabras de cada autor
                  tweets_unpivot2 <- tweets_unpivot2 %>%
                        left_join(Tweets_DF %>% group_by(Politico) %>%
                                        summarise(N = n()), by = "Politico")
                  # Cálculo de odds y log of odds de cada palabra
                  tweets_logOdds <- tweets_unpivot2 %>% 
                        mutate(odds = (n + 1) / (N + 1)) %>%
                        select(Politico, Palabra, odds) %>% 
                        spread(key = Politico, value = odds) 
                  tweets_logOdds[,4] <- log(tweets_logOdds[,2]/tweets_logOdds[,3])
                  names(tweets_logOdds)[4] <- "log_odds"
                  tweets_logOdds[,5] <- abs(tweets_logOdds$log_odds)
                  names(tweets_logOdds)[5] <- "abs_log_odds"
                  tweets_logOdds <- tweets_logOdds %>%
                        mutate(autor_frecuente = if_else(log_odds > 0,
                                                         names(tweets_logOdds)[2],
                                                         names(tweets_logOdds)[3]))

Diferencia_PB <- tweets_logOdds %>% 
  arrange(-log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "P.Bullrich")%>% 
  tail(15)

Diferencia_CFK <- tweets_logOdds %>% 
  arrange(-abs_log_odds, bygroup = FALSE)%>% 
  filter(autor_frecuente == "C.Kirchner")%>% 
  head(15)

Diferencia_PB_CFK <- rbind(Diferencia_PB,Diferencia_CFK)

Diferencia_PB_CFK%>% 
    ggplot(aes(x = reorder(Palabra, log_odds), y= log_odds, fill = autor_frecuente)) +
    geom_col() +
    labs(x = "-palabra", y = "Uso", title = "Cristina vs Bullrich") +
  coord_flip() +
  tema2
```




<center> <span style="color: #282F44;"> <h3>  28- Emociones en los tweets </h3> </span> </center>

Ahora analizamos un campo más amplio de emociones que fueron usado por los distintos políticos entre todos los tweets que han ido publicando en este periodo.

  -	Entre los miembros del **PRO** y el **Peronismo** se destaca la *confianza* como principal sentimiento expuesto

  -	En cuentas como la de **Espert** o **Del Caño** lo que más muestran sus tweets es el *miedo*.

  -	Las cuentas del **PRO** y **Peronismo**, principalmente por los ministros y jefes de gobiernos buscan un sentimiento de *anticipación*

  -	Otras cuentas son mayores el tono de *angustia* sobre el tiempo.

  -	La *tristeza* es un sentimiento general que está incorporado en todos los tweets, y se entiende por la situación compleja que significa una pandemia.


```{r}
TextSentiment <- get_nrc_sentiment(Tweets_DF$text)
names(TextSentiment) <- c ("Angustia", "Anticipacion", "Disgusto", "Miedo", "Alegria", "Tristeza", "Sorpresa", "Confianza", "Negativo", "Positivo" )

Tweets_DF_sentimiento <- cbind(Tweets_DF, TextSentiment)


gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(Partido ==  "cuenta partidaria")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = sentiment) +
  geom_col(position = "stack", color = "black") +
  coord_flip()  +
  scale_y_continuous(expand = c(0,0)) +
  labs(y = "Palabras") +
  theme_minimal()

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(Partido ==  "PRO")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = sentiment) +
  geom_col(position = "stack", color = "black") +
  coord_flip()  +
  scale_y_continuous(expand = c(0,0)) +
  labs(y = "Palabras") +
  theme_minimal()

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(Partido ==  "Peronismo")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = sentiment) +
  geom_col(position = "stack", color = "black") +
  coord_flip()  +
  scale_y_continuous(expand = c(0,0)) +
  labs(y = "Palabras") +
  theme_minimal()

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(Partido ==  "otros candidatos")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
  aes(Politico, Proporcion, fill = sentiment) +
  geom_col(position = "stack", color = "black") +
  coord_flip()  +
  scale_y_continuous(expand = c(0,0)) +
  labs(y = "Palabras") +
  theme_minimal()
```




<center> <span style="color: #282F44;"> <h3>  29- Emociones mes a mes </h3> </span> </center>

Si bien no hay grandes cambios a la hora de hacer los análisis de sentimientos mes a mes, se nota algunos detalles:

- Los ministros de salud cada vez transmiten mayor *confianza*.

- Los llamados otros candidatos va decayendo la transmisión de *confianza*.

- **Larreta** si bien tiene bajas en el sentimiento de *confianza*, sigue exponiendo uno de *anticipación*.

- **Kicillof** cada vez tiene mayor mensaje de *angustia*.



```{r}
gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, mes, sentiment) %>%
  filter(Partido ==  "cuenta partidaria")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
aes(x = mes, y =Proporcion, color = sentiment) +
  geom_point() +
  geom_line(aes(group = sentiment)) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = .4), 
        text = element_text(family = "serif")) +
  tema2 +
  facet_wrap(~ Politico) +
  labs(title = "Cambio de los sentimientos en el tiempo", 
       x = "Mes", y = "Porporción", color = "Sentimiento") 

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, mes, sentiment) %>%
  filter(Partido ==  "otros candidatos")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
aes(x = mes, y =Proporcion, color = sentiment) +
  geom_point() +
  geom_line(aes(group = sentiment)) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = .4), 
        text = element_text(family = "serif")) +
  tema2 +
  facet_wrap(~ Politico) +
  labs(title = "Cambio de los sentimientos en el tiempo", 
       x = "Mes", y = "Porporción", color = "Sentimiento") 


gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, mes, sentiment) %>%
  filter(Partido ==  "Peronismo")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
aes(x = mes, y =Proporcion, color = sentiment) +
  geom_point() +
  geom_line(aes(group = sentiment)) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = .4), 
        text = element_text(family = "serif")) +
  tema2 +
  facet_wrap(~ Politico) +
  labs(title = "Cambio de los sentimientos en el tiempo", 
       x = "Mes", y = "Porporción", color = "Sentimiento") 

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, mes, sentiment) %>%
  filter(Partido ==  "PRO")%>%
  filter(sentiment != "Positivo" & sentiment !="Negativo")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
ggplot() +
aes(x = mes, y =Proporcion, color = sentiment) +
  geom_point() +
  geom_line(aes(group = sentiment)) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1, vjust = .4), 
        text = element_text(family = "serif")) +
  tema2 +
  facet_wrap(~ Politico) +
  labs(title = "Cambio de los sentimientos en el tiempo", 
       x = "Mes", y = "Porporción", color = "Sentimiento") 
```




<center> <span style="color: #282F44;"> <h3> 30- Comparación de emociones </h3> </span> </center>


La idea de comparar las emociones de todos en un gráfico ayuda para una visualización general (eliminando las cuentas partidarias):

- Si bien la cantidad de tweets de **Macri** son pocos, es el que mayor *confianza* transmite.

- Aquellos que tienen poder electo son los que más *confianza* buscan en sus tweets.

- Los candidatos que han perdido, tienen mezcla de sentimientos, con alto nivel de *miedo* y *angustia* en sus escritos.

- *Se descartan aquellos sentimientos que representen menos del 10% de los tweets.*



```{r}
gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(sentiment != "Positivo" & sentiment !="Negativo" & Partido != "cuenta partidaria")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
    ggplot() +
  aes(Politico, Proporcion, color = sentiment, alpha = Proporcion) +
  geom_point(fill = "white", stroke = 1, shape = 21) +
  geom_text(aes(label = sentiment), vjust = -.9, family = "serif") +
  scale_y_continuous(labels = percent_format ()) +
  tema1 +
  theme(legend.position = "none",
        panel.grid.major.x = element_blank(),
        panel.grid.minor.x = element_blank(),
        text =  element_text(family = "serif")) +
  coord_flip() +
  labs(title = "Sentimientos totales comparativo",
       x = "Politico",
       y = "Proporción del sentimiento")

gather(Tweets_DF_sentimiento, "sentiment", "values", 103:112) %>%
  group_by(Politico, Partido, sentiment) %>%
  filter(sentiment != "Positivo" & sentiment !="Negativo" & sentiment !="Alegria" & sentiment !="Sorpresa" & Partido != "cuenta partidaria")%>%
    summarise(Total = sum(values)) %>%
      mutate(Proporcion = Total / sum(Total)) %>%
  ggplot() +
  aes(sentiment, Proporcion, color = sentiment) +
  geom_point() +
  geom_text(aes(label = Politico) ,vjust = -.3, size = 3) +
  scale_y_continuous(limits = c(0.15, 0.47)) +
   labs(title = "Sentimientos totales comparativo",
       x = "Politico",
       y = "Proporción del sentimiento") +
  theme_minimal() +
  theme(legend.position = "none")


```
