Presentación

La idea de este artículo es analizar tanto la actividad discursiva del Presidente de Argentina Alberto Fernández como las repercusiones de sus palabras. A través de la descarga de todos sus tweets emitidos durante el período que va desde el 13/3 hasta el 13/4, se espera recuperar las principales cifras y elementos que describan las formas por las cuales elige comunicar sus mensajes en la red y el alcance de los mismos en el contexto de la crisis del COVID-19. Por otra parte, tambien se incluye en este análisis los discursos emitidos y el análisis de algunas menciones de usuarios al Presidente. Las bases de trabajo fueron conformadas mediante la descarga de tweets a través del paquete Rtweet y del paquete twarc. Los discursos fueron descargados del sitio

Descriptivos

Luego de la descarga y posterior limpieza de los datos, procederemos a analizar la cantidad de tweets emitidos considerando variables temporales. La Base contiene un total de 251 de tweets publicados desde 2020-03-13 hasta 2020-04-13.

Se aprecia una fuerte actividad durante los días posteriores a la enunciación de la Cuarentena y en los primeros días de abril.

Se puede ver picos de actividad durante las horas nocturnas, donde el Presidente dedica tiempo a responder saludos y consultas.

Otro dato relevante es evaluar la proporción de mensajes que se envían según el dispositivo. Tambien es posible analizar la evolución de esta variable

Iphone representa la plataforma mayoritaria en relación al envio de mensajes con el 92.03%.

Por otra parte, tambien es representativo de la efectividad de un mensaje el denominado ratio de los tweets. Consiste en un cálculo que es basicamente el cociente entre la cantidad de respuestas del tweet y la suma del número de favs y rt. De esta manera, si el ratio es álto es señal de una mala difusión de los mensajes.

El gráfico muestra una muy buena performance de los mensajes emitidos teniendo en cuenta que no se supera el 0,5 de ratio. Esto significa que los mensajes del Presidente tuvieron menos respuestas en comparación con retwits o favs.

A continuación se muestra el mensaje mas retuiteado y el mas faveado.


Tweet con mayor cantidad de favs

Tweet con mayor cantidad de Retweets

Nube de palabras

Una buena manera de representar las palabras utilizadas consiste en conformar las nubes de palabras o bag of words. Basicamente se trata de visualizar cuales son los términos de mayor uso mostrando su peso en relación a los otros.

Esta es la nube de palabras del año en Twitter de Alberto Fernández

Palabras positivas

Palabras negativas

Las palabras positivas están vinculadas a sentimientos de cariño y saludos, mientras que en las negativas se encuentra “distancia” debido a las recomendaciones de aislamiento.

Discursos

Luego de analizar los tweets emitidos por el Presidente, llega el turno de ver que dicen sus discursos. Tomaremos los discursos del dia 13, 20 y 30 de marzo, con el objetivo de analizar cuales son las palabras que fueron tomando mayor protagonismo.

La cantidad de palabras emitidas creció considerablemente en relación al primer discurso. Veamos ahora las nubes de palabras de todos los discursos

Discurso 13-03

Se observa una fuerte y lógica presencia de la palabra “Coronavirus” al igual que “personas”. El 20 de marzo, el Presidente dió inicio formal a la cuartentena obligatoria. Estas fueron las palabras más utilizadas

Discurso 20-03

Tal cual se aprecia, la palabra “economía” comienza a tomar mayor protagonismo. El dia 30 de marzo se prolongó la cuarentena, con los siguientes términos.

Discurso 30-03

En este último discurso, la palabra protagonista es “cuarentena”. Tambien puede resultar significativo evaluar el peso de la economia y la salud en cada uno de los discursos analizados.

Puede apreciarse que la palabra “economía” no aparece en el primer discurso, sino en los siguientes.

Menciones

Cerramos el informe con un breve análisis de las menciones a la cuenta de Alberto Fernandez. Estos tweets pueden ser respuestas a mensajes del Presidente como asi tambien mensajes hacia su figura. La base de trabajo contiene 184968 tweets recolectados entre el 13 y el 19 de marzo. Veamos como se distribuye esta muestra si tomamos en consideración el dispositivo por el cual fueron emitidos los mensajes.

Mas del 60 % de los mensajes recolectados fueron emitidos desde un dispositivo Android.

Veamos ahora la nube de palabras de estos mensajes

A continuación, la nube de palabras positivas.

A continuación, la nube de palabras negativas.

Para cerrar, clasificaremos todas las palabras de esta recolección con el diccionario NRC. Este diccionario clasifica palabras según una mayor cantidad de sentimientos.

#carga de diccionario NRC
hashnrc_data <- get_nrc_sentiment(char_v = BaseTokens$word, language = 'spanish')

hashnrc_data <- hashnrc_data %>% 
  rename('anticipación'=anticipation,
           'ira'=anger,
           'disgusto'=disgust,
           'miedo'=fear,
           'alegría'=joy,
           'tristeza'=sadness,
           'sorpresa'=surprise,
           'confianza'=trust,
           'negativa'=negative,
           'positiva'=positive)

#Manipulación de data
base_emocionhash <- data.frame(t(hashnrc_data))
base_emocionhash <- data.frame(rowSums(base_emocionhash))
names(base_emocionhash)[1] <- "total"
base_emocionhash <- cbind('sentimiento'=rownames(base_emocionhash),base_emocionhash)
rownames(base_emocionhash) <- NULL

#Graficamos
# ggplot(base_emocionhash[1:8,], aes(x = sentimiento, y = round(cuenta/sum(cuenta)*100, 1), fill = sentimiento)) + 
#   geom_bar(stat = "identity") +
#   labs(title='Elecciones Alberto Fernandez - Sentiment Analysis (NRC)',
#        subtitle = 'Trabajo Final Taller de Análisis de Texto del CPS',
#        caption='Fuente: Twitter',
#        x = "Sentimiento", 
#        y = "Frecuencia") +
#   geom_text(aes(label = paste(round(cuenta/sum(cuenta)*100, 1), '%')),
#             vjust = 1.5, color = "black",
#             size = 4)

base_emocionhash2 <- base_emocionhash %>% 
  head(8) %>% 
  mutate(color = case_when(sentimiento == "miedo"~ "#ff4d4d",
                           sentimiento == "ira"~ "#ff4d4d",
                           sentimiento == "disgusto"~ "#ff4d4d",
                           sentimiento == "tristeza"~ "#ff4d4d",
                           sentimiento == "anticipación"~ "#36b336",
                           sentimiento == "alegría"~ "#36b336",
                           sentimiento == "sorpresa"~ "#36b336",
                           sentimiento == "confianza"~ "#36b336",)) %>% 
  arrange(total) %>% 
  mutate("%" = round((total/sum(total)*100),2))

x <- c("total", "%")
y <- sprintf("{point.%s}", c("total", "%"))
tltip <- tooltip_table(x, y)

Grafico11 <-  highchart() %>% 
  hc_title(text="Sentimientos")%>%
  #hc_chart(type="column") %>%
  hc_xAxis(categories = base_emocionhash2$sentimiento) %>%
  hc_add_series(base_emocionhash2,"column", hcaes(base_emocionhash2$sentimiento,base_emocionhash2$`%`, color = base_emocionhash2$color), name = "Sentimientos") %>% 
  hc_tooltip(useHTML = TRUE,
    headerFormat = as.character(tags$small("{point.x: %Y %b}")),
    pointFormat = tltip
  )



Grafico11

Las palabras vinculadas con el sentimiento de confianza son las mayoritarias.


  1. Soy sociólogo (FSOC-UBA). Me dedico al analisis de datos en temas como el estudio de la opinión pública, comportamiento electoral, analisis de texto, redes sociales y consumos culturales, todo mediante R y Python. Dirijo el Observatorio de Opinión Publica en ACDES y escribo en mi blog de temas de R y en mi blog de temas de generales. Contacto:

---
title: "Análisis de Tweets"
author: "Ferchero Juan Guillermo (@guilleadhonorem)^[ _Soy sociólogo (FSOC-UBA). Me dedico al analisis de datos en temas como el estudio de la opinión pública, comportamiento electoral, analisis de texto, redes sociales y consumos culturales, todo mediante R y Python. Dirijo el Observatorio de Opinión Publica  en_ [ACDES](http://www.acdesweb.org/) _y escribo en_ [mi blog de temas de R](https://rpubs.com/guilleferchero) _y en_ [mi blog de temas de generales](https://bitacoramodernablog.wordpress.com). _Contacto_: guilleferchero@gmail.com]"
date: "Marzo de 2020"
output:
  html_document:
    code_download: true
    code_folding: hide
    toc: TRUE
    depth: 5
    always_allow_html: true
subtitle: Explorando los discursos de Alberto y sus repercusiones
---
    
<br>
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, message = FALSE, warning = FALSE)
```
     
# Presentación

```{r echo=FALSE, message=FALSE, warning=FALSE}


# se borran todos los objetos de la memoria

rm(list =ls())

# se cargan librerias de trabajo
library(rtweet)
library("tidyverse")
library(tm)
library(ggwordcloud)
library(proustr)
library(syuzhet)
library(SnowballC)
library(knitr)
library(kableExtra)
library(tidytext)
library(lubridate)
library(highcharter)
library(wordcloud)
library(ggtern)


#Levantamos una versión de SDAL 

sdal <- read.csv('sdal.csv', encoding = 'UTF-8')

```
<div style="text-align: justify">

La idea de este artículo es analizar tanto la actividad discursiva del Presidente de Argentina Alberto Fernández como las repercusiones de sus palabras. A través de la descarga de todos sus tweets emitidos durante el período que va desde el 13/3 hasta el 13/4, se espera recuperar las principales cifras y elementos que describan las formas por las cuales elige comunicar sus mensajes en la red y el alcance de los mismos en el contexto de la crisis del COVID-19. Por otra parte, tambien se incluye en este análisis los discursos emitidos y el análisis de algunas menciones de usuarios al Presidente.
Las bases de trabajo fueron conformadas mediante la descarga de tweets a través del paquete [Rtweet](https://rtweet.info/) y del paquete [twarc](https://github.com/DocNow/twarc). Los discursos fueron descargados del [sitio](https://www.casarosada.gob.ar/informacion/discursos)


<div/>

```{r echo=FALSE, message=FALSE, warning=FALSE}
#Levantamos la base con Tweets de Alberto

Base <- read.csv("alberto.csv", encoding = "UTF-8")

BaseC <- Base %>%
  mutate(fecha = as.Date(date)) %>% 
  filter(fecha >= '2020-03-13') %>% 
  mutate(hora=as.numeric(substr(time,1,2)))



cantidad <- nrow(BaseC)

desde <- min(BaseC$fecha)

hasta <- max(BaseC$fecha)

```


## Descriptivos

<div style="text-align: justify">

Luego de la descarga y posterior limpieza de los datos, procederemos a analizar la cantidad de tweets emitidos considerando variables temporales. La Base contiene un total de `r cantidad` de tweets publicados desde `r desde` hasta `r hasta`.

<div/>



```{r echo=FALSE, message=FALSE, warning=FALSE}

#VERSION HIGHCHART
options(highcharter.theme = hc_theme_ggplot2())
Tabla_1 <- BaseC %>% 
  select(fecha) %>%
  group_by(fecha) %>%
  arrange(fecha) %>%
  summarise(total = n()) 



Grafico1 <-  highchart() %>% 
  hc_title(text="Cantidad de tweets por día")%>%
  hc_chart(type="line") %>%
  hc_xAxis(categories = Tabla_1$fecha) %>%
  hc_add_series(Tabla_1$total, name="Cantidad de Tweets") 

Grafico1

```
<div style="text-align: justify">

Se aprecia una fuerte actividad durante los días posteriores a la enunciación de la Cuarentena y en los primeros días de abril.

<div/>

```{r echo=FALSE, message=FALSE, warning=FALSE}
#VERSION HIGHCHART
options(highcharter.theme = hc_theme_ggplot2())
Tabla_2 <- BaseC %>% 
  select(hora) %>%
  group_by(hora) %>%
  arrange(hora) %>%
  summarise(total = n()) 



Grafico2 <-  highchart() %>% 
  hc_title(text="Número de tweets según hora")%>%
  hc_chart(type="line") %>%
  hc_colors(color = "#B71C1C") %>% 
  hc_xAxis(categories = Tabla_2$hora) %>%
  hc_add_series(Tabla_2$total, name="Cantidad de Tweets") 

Grafico2
```

<div style="text-align: justify">
Se puede ver picos de actividad durante las horas nocturnas, donde el Presidente dedica tiempo a responder saludos y consultas.

Otro dato relevante es evaluar la proporción de mensajes que se envían según el dispositivo. Tambien es posible analizar la evolución de esta variable

<div/>

```{r echo=FALSE, message=FALSE, warning=FALSE}

options(scipen=999)

BaseAlberto <- read.csv("BaseTweetsalberto.csv")

BaseSource <- BaseAlberto %>% 
  select(status_id,source) %>% 
  rename(id = status_id, disp = source)

BaseCS <- left_join(BaseC,BaseSource, by = 'id')


#VERSION HIGHCHART
options(highcharter.theme = hc_theme_ggplot2())
Tabla_3 <- BaseCS %>% 
  select(disp) %>%
  group_by(disp) %>%
  summarise(total = n()) %>% 
  mutate(prop = round((total/sum(total)*100),2)) %>% 
  arrange(-total, -disp)

Porcentajeiphone <- Tabla_3 %>% 
  select(disp,prop) %>% 
  head(1) %>% 
  select(prop)

dato1 <- Porcentajeiphone$prop


Grafico3 <-  hchart(Tabla_3, "treemap", hcaes(x = disp, value = total, color =  prop))%>% 
  hc_title(text="Cantidad de tweets por dispositivo")

Grafico3

Tabla_4 <- BaseCS %>% 
  select(disp, fecha) %>%
  group_by(disp,fecha) %>%
  arrange(fecha) %>%
  summarise(total = n()) 


Grafico4 <-  Tabla_4 %>% 
  hchart("line",hcaes(x = fecha, y = total, group = disp)) %>% 
  hc_title(text="Cantidad de tweets según més por dispositivo")
  
Grafico4  


```

<div style="text-align: justify">
Iphone representa la plataforma mayoritaria en relación al envio de mensajes con el `r dato1`%. 

Por otra parte, tambien es representativo de la efectividad de un mensaje el denominado ratio de los tweets. Consiste en un cálculo que es basicamente el cociente entre la cantidad de respuestas del tweet y la suma del número de favs y rt. De esta manera, si el ratio es álto es señal de una mala difusión de los mensajes.

<div/>
```{r echo=FALSE, message=FALSE, warning=FALSE}

BaseRatiosel <- BaseC %>% 
  select(id,date,time,tweet,replies_count, retweets_count, likes_count) %>% 
  mutate(fecha = as.Date(date)) %>% 
  mutate(ratio = round(replies_count/(retweets_count + likes_count),2),
         label = ratio) %>% 
  filter(retweets_count != '0' & likes_count != '0')

Tabla_5 <- BaseRatiosel %>% 
  select(fecha,ratio) %>% 
  arrange(fecha)


Grafico5 <-  highchart() %>% 
  hc_title(text="Evolución de Ratio")%>%
  hc_chart(type="line") %>%
  hc_xAxis(categories = Tabla_5$fecha) %>%
  hc_add_series(Tabla_5$ratio, name="Ratio") %>% 
  hc_colors("#122c91")

Grafico5
```
<div style="text-align: justify">

El gráfico muestra una muy buena performance de los mensajes emitidos teniendo en cuenta que no se supera el 0,5 de ratio. Esto significa que los mensajes del Presidente tuvieron menos respuestas en comparación con retwits o favs.

<div/>

```{r echo=FALSE, message=FALSE, warning=FALSE}

Tabla_6 <- BaseRatiosel %>% 
  select(fecha,retweets_count) %>% 
  group_by(fecha) %>% 
  summarise(RT=sum(retweets_count)) %>% 
  arrange(fecha)


Grafico6 <-  highchart() %>% 
  hc_title(text="Evolución de Retweets")%>%
  hc_chart(type="line") %>%
  hc_xAxis(categories = Tabla_6$fecha) %>%
  hc_add_series(Tabla_6$RT, name="Retweets") %>% 
  hc_colors("#D55E00")

Grafico6
```


```{r echo=FALSE, message=FALSE, warning=FALSE}
Tabla_7 <- BaseRatiosel %>% 
  select(fecha,likes_count) %>% 
  group_by(fecha) %>% 
  summarise(FAVS=sum(likes_count)) %>% 
  arrange(fecha)


Grafico7 <-  highchart() %>% 
  hc_title(text="Evolución de Favs")%>%
  hc_chart(type="line") %>%
  hc_xAxis(categories = Tabla_7$fecha) %>%
  hc_add_series(Tabla_7$FAVS, name="Favs") %>% 
  hc_colors("#001247")

Grafico7

```

<div style="text-align: justify">
A continuación se muestra el mensaje mas retuiteado y el mas faveado.
<div/>

```{r echo=FALSE, message=FALSE, warning=FALSE}

options(scipen=999)

MensajeMasRetuiteado <- BaseC %>% 
  select(id, tweet, retweets_count) %>% 
  arrange(desc(retweets_count)) %>% 
  head(1)

MensajeMasFaveado <- BaseC %>% 
  select(id, tweet, likes_count) %>% 
  arrange(desc(likes_count)) %>% 
  head(1)


fav <- MensajeMasFaveado$id
RT <- MensajeMasRetuiteado$id

# kable(MensajeMasFaveado, align = "r") %>%
#   kable_styling(bootstrap_options = "striped", full_width = F, position = "center") 
# 
# kable(MensajeMasRetuiteado, align = "r") %>%
#   kable_styling(bootstrap_options = "striped", full_width = F, position = "center")

```
<br>

### Tweet con mayor cantidad de favs


```{r echo=FALSE, message=FALSE, warning=FALSE,out.width = "800px", out.height="500px",fig.align='left'}

library(tweetrmd)

knitr::include_graphics("tweetfavsalberto.jpg")



```



### Tweet con mayor cantidad de Retweets

```{r echo=FALSE, message=FALSE, warning=FALSE}

tweet_screenshot(tweet_url("alferdez", RT))

```

## Nube de palabras

<div style="text-align: justify">
Una buena manera de representar las palabras utilizadas consiste en conformar las nubes de palabras o bag of words. Basicamente se trata de visualizar cuales son los términos de mayor uso mostrando su peso en relación a los otros.

Esta es la nube de palabras del año en Twitter de Alberto Fernández

<div/>
```{r echo=FALSE, message=FALSE, warning=FALSE}

palabras_inutiles <- c('rt','u' ,'t.co', 'https', 'tan', 'Alberto', 'Fernandez', 'alberto', 'fernandez', 'fernández', 'cada')

Base1 <- as.data.frame(BaseCS)
Base1$tweet <- as.character(Base1$tweet)


BaseTokens <- Base1 %>%
  filter(retweet=="False") %>% 
  unnest_tokens(palabra, tweet) %>%
    count(palabra, sort=TRUE) %>%
    filter(!palabra%in%stopwords('es')) %>%
    filter(!palabra%in%palabras_inutiles) %>%
    filter(str_detect(palabra, "^[a-zA-z]|^#|^@"))%>%
    arrange(desc(n)) %>% 
    rename('word'=palabra)

wordcloud(BaseTokens$word,BaseTokens$n,scale=c(4,.1),random.order=FALSE,random.color=TRUE,rot.per=0.4,colors=brewer.pal(7,"Dark2"))


```


### Palabras positivas

```{r echo=FALSE, message=FALSE, warning=FALSE}
BaseTokensSDAL <- left_join(BaseTokens, sdal)

TweetsPos <- BaseTokensSDAL %>% 
  filter(!is.na(media_agrado)) %>%
  arrange(desc(media_agrado), desc(n))
 
TokenPos <- TweetsPos %>% 
  head(100)


wordcloud(TokenPos$word,TokenPos$n,scale=c(4,.1),random.order=FALSE,random.color=TRUE,rot.per=0.4,colors=brewer.pal(7,"Dark2"))
```


### Palabras negativas

```{r echo=FALSE, message=FALSE, warning=FALSE}
BaseTokensSDAL <- left_join(BaseTokens, sdal)
  TweetsNeg <- BaseTokensSDAL %>% 
  filter(!is.na(media_agrado)) %>%
  arrange(media_agrado, desc(n))
  
  
TokenNeg <- TweetsNeg %>% 
head(100)


wordcloud(TokenNeg$word,TokenNeg$n,scale=c(4,.1),random.order=FALSE,random.color=TRUE,rot.per=0.4,colors=brewer.pal(7,"Dark2"))
```
<div style="text-align: justify">

Las palabras positivas están vinculadas a sentimientos de cariño y saludos, mientras que en las negativas se encuentra "distancia" debido a las recomendaciones de aislamiento.  
 
<div/>


## Discursos

<div style="text-align: justify">
Luego de analizar los tweets emitidos por el Presidente, llega el turno de ver que dicen sus discursos. Tomaremos los discursos del dia 13, 20 y 30 de marzo, con el objetivo de analizar cuales son las palabras que fueron tomando mayor protagonismo. 

<div/>

```{r echo=FALSE, message=FALSE, warning=FALSE}
#Levantamos los discursos

#trabajamos el primer discurso

Discurso1 <- read.table("Discurso13-03.txt", sep="\r", encoding = "UTF-8")

BaseD1 <- as.data.frame(Discurso1)
BaseD1$V1 <- as.character(BaseD1$V1)
palabras1 <- BaseD1 %>% 
  unnest_tokens(palabra, V1) %>% 
  mutate(Fecha = "13-03")

cantd1 <- nrow(palabras1)

palabras1.1 <- palabras1 %>% 
count(palabra, sort=TRUE) %>%
    filter(!palabra%in%stopwords('es')) %>%
    filter(!palabra%in%palabras_inutiles) %>%
    filter(str_detect(palabra, "^[a-zA-z]|^#|^@"))%>%
    arrange(desc(n)) %>% 
    rename('word'=palabra)%>% 
    mutate(Fecha = "13-03")

#trabajamos el segundo discurso

Discurso2 <- read.table("Discurso20-03.txt", sep="\r", encoding = "UTF-8")

BaseD2 <- as.data.frame(Discurso2)
BaseD2$V1 <- as.character(BaseD2$V1)
palabras2 <- BaseD2 %>% 
  unnest_tokens(palabra, V1) %>% 
  mutate(Fecha = "20-03")

cantd2 <- nrow(palabras2)

palabras2.1 <- palabras2 %>% 
count(palabra, sort=TRUE) %>%
    filter(!palabra%in%stopwords('es')) %>%
    filter(!palabra%in%palabras_inutiles) %>%
    filter(str_detect(palabra, "^[a-zA-z]|^#|^@"))%>%
    arrange(desc(n)) %>% 
    rename('word'=palabra)%>% 
    mutate(Fecha = "20-03")

#trabajamos el tercer discurso

Discurso3 <- read.table("Discurso30-03.txt", sep="\r", encoding = "UTF-8")

BaseD3 <- as.data.frame(Discurso3)
BaseD3$V1 <- as.character(BaseD3$V1)
palabras3 <- BaseD3 %>% 
  unnest_tokens(palabra, V1) %>% 
  mutate(Fecha = "30-03")

cantd3 <- nrow(palabras3)

palabras3.1 <- palabras3 %>% 
count(palabra, sort=TRUE) %>%
    filter(!palabra%in%stopwords('es')) %>%
    filter(!palabra%in%palabras_inutiles) %>%
    filter(str_detect(palabra, "^[a-zA-z]|^#|^@"))%>%
    arrange(desc(n)) %>% 
    rename('word'=palabra)%>% 
    mutate(Fecha = "30-03")


#graficos descriptivos

discursostodos <- rbind(palabras1,palabras2,palabras3)
palabrastodos <- rbind(palabras1.1,palabras2.1,palabras3.1)

Tabla_8 <- discursostodos %>% 
  select(Fecha) %>% 
  group_by(Fecha) %>% 
  summarise(palabras=n()) %>% 
  arrange(Fecha)


Grafico8 <-  highchart() %>% 
  hc_title(text="Cantidad de Palabras")%>%
  hc_chart(type="bar") %>%
  hc_xAxis(categories = Tabla_8$Fecha) %>%
  hc_add_series(Tabla_8$palabras, name="Palabras") %>% 
  hc_colors("#319b95")

Grafico8


```


La cantidad de palabras emitidas creció considerablemente en relación al primer discurso. Veamos ahora las nubes de palabras de todos los discursos

### Discurso 13-03

```{r echo=FALSE, message=FALSE, warning=FALSE}

#nube de palabras discurso 1

wordcloud(palabras1.1$word,BaseTokens$n,scale=c(4,.1),random.order=FALSE,random.color=TRUE,rot.per=0.4,colors=brewer.pal(7,"Dark2"))



```

<div style="text-align: justify">

Se observa una fuerte y lógica presencia de la palabra "Coronavirus" al igual que "personas". El 20 de marzo, el Presidente dió inicio formal a la cuartentena obligatoria. Estas fueron las palabras más utilizadas

<div/>

### Discurso 20-03
```{r echo=FALSE, message=FALSE, warning=FALSE}

#nube de palabras discurso 2

wordcloud(palabras2.1$word,BaseTokens$n,scale=c(4,.1),random.order=FALSE,random.color=TRUE,rot.per=0.4,colors=brewer.pal(7,"Dark2"))


```

<div style="text-align: justify">

Tal cual se aprecia, la palabra "economía" comienza a tomar mayor protagonismo. El dia 30 de marzo se prolongó la cuarentena, con los siguientes términos. 

<div/>

### Discurso 30-03
```{r echo=FALSE, message=FALSE, warning=FALSE}



wordcloud(palabras3.1$word,BaseTokens$n,scale=c(4,.1),random.order=FALSE,random.color=TRUE,rot.per=0.4,colors=brewer.pal(7,"Dark2"))



```

<div style="text-align: justify">

En este último discurso, la palabra protagonista es "cuarentena". Tambien puede resultar significativo evaluar el peso de la economia y la salud en cada uno de los discursos analizados.

<div/>

```{r echo=FALSE, message=FALSE, warning=FALSE}

Tabla_9 <- palabrastodos %>% 
  filter(word %in% c('salud','economía')) %>% 
  arrange(Fecha) %>% 
  spread(key = word,value = n)



Grafico9 <-  highchart() %>% 
  hc_title(text="Evolución de palabras clave")%>%
  hc_chart(type="column") %>%
  hc_xAxis(categories = Tabla_9$Fecha) %>%
  hc_add_series(Tabla_9$salud, name="Salud", color = "#2c698d" ) %>% 
  hc_add_series(Tabla_9$economía, name="Economía", color = "#272643" )
Grafico9

```

<div style="text-align: justify">

Puede apreciarse que la palabra "economía" no aparece en el primer discurso, sino en los siguientes.


<div/>

```{r echo=FALSE, message=FALSE, warning=FALSE}

#levantamos base con menciones

basehash <- read.csv("tweetsAlbertohash.csv", encoding = "UTF-8")

cant2 <- nrow(basehash)


```

## Menciones


<div style="text-align: justify">

Cerramos el informe con un breve análisis de las menciones a la cuenta de Alberto Fernandez. Estos tweets pueden ser respuestas a mensajes del Presidente como asi tambien mensajes hacia su figura. La base de trabajo contiene `r cant2` tweets recolectados entre el 13 y el 19 de marzo.
Veamos como se distribuye esta muestra si tomamos en consideración el dispositivo por el cual fueron emitidos los mensajes.

<div/>

```{r echo=FALSE, message=FALSE, warning=FALSE}

Tabla_10 <- basehash %>% 
  select(source) %>%
  group_by(source) %>%
  summarise(total = n()) %>% 
  mutate(prop = round((total/sum(total)*100),2)) %>% 
  arrange(-total, -source) %>% 
  head(6)

# Porcentajeiphone <- Tabla_3 %>% 
#   select(disp,prop) %>% 
#   head(1) %>% 
#   select(prop)
# 
# dato1 <- Porcentajeiphone$prop


Grafico10 <-  hchart(Tabla_10, "treemap", hcaes(x = source, value = total, color =  prop))%>% 
  hc_title(text="Cantidad de tweets por dispositivo")

Grafico10


```

<div style="text-align: justify">

Mas del 60 % de los mensajes recolectados fueron emitidos desde un dispositivo Android.

Veamos ahora la nube de palabras de estos mensajes

<div/>

```{r echo=FALSE, message=FALSE, warning=FALSE}

palabras_inutiles <- c('rt','u' ,'t.co', 'https', 'tan', 'Alberto', 'Fernandez', 'alberto', 'fernandez', 'fernández', 'cada', 'alferdez', 'n','s','q','m','d','est','as','alferdezprensa', 'danteforesi')

basehash <- as.data.frame(basehash)
basehash$text <- as.character(basehash$text)


BaseTokens <- basehash %>%
  unnest_tokens(palabra, text) %>%
    count(palabra, sort=TRUE) %>%
    filter(!palabra%in%stopwords('es')) %>%
    filter(!palabra%in%palabras_inutiles) %>%
    filter(str_detect(palabra, "^[a-zA-z]|^#|^@"))%>%
    arrange(desc(n)) %>% 
    rename('word'=palabra)

wordcloud(BaseTokens$word,BaseTokens$n,scale=c(4,.1),random.order=FALSE,random.color=FALSE,rot.per=0.4,colors=brewer.pal(7,"Dark2"),max.words = 100)


```

<div style="text-align: justify">

A continuación, la nube de palabras positivas.

<div/>

```{r echo=FALSE, message=FALSE, warning=FALSE}

BaseTokensSDAL2 <- left_join(BaseTokens, sdal)

TweetsPos <- BaseTokensSDAL2 %>% 
  filter(!is.na(media_agrado)) %>%
  arrange(desc(media_agrado), desc(n))
 
TokenPos <- TweetsPos %>% 
  head(100)


wordcloud(TokenPos$word,TokenPos$n,scale=c(4,.1),random.order=FALSE,random.color=TRUE,rot.per=0.4,colors=brewer.pal(7,"Dark2"))

```

<div style="text-align: justify">

A continuación, la nube de palabras negativas.

<div/>


```{r echo=FALSE, message=FALSE, warning=FALSE}

BaseTokensSDAL2 <- left_join(BaseTokens, sdal)

TweetsNeg <- BaseTokensSDAL2 %>% 
  filter(!is.na(media_agrado)) %>%
  arrange(media_agrado, desc(n))
 
TokenNeg <- TweetsNeg %>% 
  head(100)


wordcloud(TokenNeg$word,TokenNeg$n,scale=c(4,.1),random.order=FALSE,random.color=TRUE,rot.per=0.4,colors=brewer.pal(7,"Dark2"))

```

<div style="text-align: justify">

Para cerrar, clasificaremos todas las palabras de esta recolección con el diccionario NRC. Este diccionario clasifica palabras según una mayor cantidad de sentimientos.

<div/>

```{r}
#carga de diccionario NRC
hashnrc_data <- get_nrc_sentiment(char_v = BaseTokens$word, language = 'spanish')

hashnrc_data <- hashnrc_data %>% 
  rename('anticipación'=anticipation,
           'ira'=anger,
           'disgusto'=disgust,
           'miedo'=fear,
           'alegría'=joy,
           'tristeza'=sadness,
           'sorpresa'=surprise,
           'confianza'=trust,
           'negativa'=negative,
           'positiva'=positive)

#Manipulación de data
base_emocionhash <- data.frame(t(hashnrc_data))
base_emocionhash <- data.frame(rowSums(base_emocionhash))
names(base_emocionhash)[1] <- "total"
base_emocionhash <- cbind('sentimiento'=rownames(base_emocionhash),base_emocionhash)
rownames(base_emocionhash) <- NULL

#Graficamos
# ggplot(base_emocionhash[1:8,], aes(x = sentimiento, y = round(cuenta/sum(cuenta)*100, 1), fill = sentimiento)) + 
#   geom_bar(stat = "identity") +
#   labs(title='Elecciones Alberto Fernandez - Sentiment Analysis (NRC)',
#        subtitle = 'Trabajo Final Taller de Análisis de Texto del CPS',
#        caption='Fuente: Twitter',
#        x = "Sentimiento", 
#        y = "Frecuencia") +
#   geom_text(aes(label = paste(round(cuenta/sum(cuenta)*100, 1), '%')),
#             vjust = 1.5, color = "black",
#             size = 4)

base_emocionhash2 <- base_emocionhash %>% 
  head(8) %>% 
  mutate(color = case_when(sentimiento == "miedo"~ "#ff4d4d",
                           sentimiento == "ira"~ "#ff4d4d",
                           sentimiento == "disgusto"~ "#ff4d4d",
                           sentimiento == "tristeza"~ "#ff4d4d",
                           sentimiento == "anticipación"~ "#36b336",
                           sentimiento == "alegría"~ "#36b336",
                           sentimiento == "sorpresa"~ "#36b336",
                           sentimiento == "confianza"~ "#36b336",)) %>% 
  arrange(total) %>% 
  mutate("%" = round((total/sum(total)*100),2))

x <- c("total", "%")
y <- sprintf("{point.%s}", c("total", "%"))
tltip <- tooltip_table(x, y)

Grafico11 <-  highchart() %>% 
  hc_title(text="Sentimientos")%>%
  #hc_chart(type="column") %>%
  hc_xAxis(categories = base_emocionhash2$sentimiento) %>%
  hc_add_series(base_emocionhash2,"column", hcaes(base_emocionhash2$sentimiento,base_emocionhash2$`%`, color = base_emocionhash2$color), name = "Sentimientos") %>% 
  hc_tooltip(useHTML = TRUE,
    headerFormat = as.character(tags$small("{point.x: %Y %b}")),
    pointFormat = tltip
  )



Grafico11


```

<div style="text-align: justify">

Las palabras vinculadas con el sentimiento de confianza son las mayoritarias. 

<div/>
