## # A tibble: 6 x 8
##      X1 autor  fecha               tweet_id is_retweet cont_fav cont_rt texto   
##   <dbl> <chr>  <dttm>                 <dbl> <lgl>         <dbl>   <dbl> <chr>   
## 1     1 clari~ 2020-04-01 21:57:14  1.25e18 FALSE             4       1 "River ~
## 2     2 clari~ 2020-04-01 21:53:58  1.25e18 FALSE             5      10 "Corona~
## 3     3 clari~ 2020-04-01 21:47:41  1.25e18 FALSE            36      34 "WhatsA~
## 4     4 clari~ 2020-04-01 21:35:24  1.25e18 FALSE           227      19 "Alejan~
## 5     5 clari~ 2020-04-01 21:35:22  1.25e18 FALSE             2       0 "Corona~
## 6     6 clari~ 2020-04-01 21:35:20  1.25e18 FALSE             1       0 "Corona~
## # A tibble: 6 x 8
##      X1 autor   fecha               tweet_id is_retweet cont_fav cont_rt token  
##   <dbl> <chr>   <dttm>                 <dbl> <lgl>         <dbl>   <dbl> <chr>  
## 1     1 clarin~ 2020-04-01 21:57:14  1.25e18 FALSE             4       1 "river"
## 2     2 clarin~ 2020-04-01 21:57:14  1.25e18 FALSE             4       1 "ilusi~
## 3     3 clarin~ 2020-04-01 21:57:14  1.25e18 FALSE             4       1 "regre~
## 4     4 clarin~ 2020-04-01 21:57:14  1.25e18 FALSE             4       1 "gonza~
## 5     5 clarin~ 2020-04-01 21:57:14  1.25e18 FALSE             4       1 "higua~
## 6     6 clarin~ 2020-04-01 21:57:14  1.25e18 FALSE             4       1 "si"

#Frecuencia de palabras

A la hora de entender que caracteriza los mensajes de cada noticiero, es interesante estudiar qué palabras emplea, con qué frecuencia, así como el significado de las mismas.

##Total palabras utilizadas

## Palabras distintas utilizadas

## Longitud media de los tweets por usuario

Palabras más utilizadas

## # A tibble: 52 x 3
## # Groups:   autor [5]
##    autor    token          n
##    <chr>    <chr>      <int>
##  1 alferdez argentina    280
##  2 alferdez m�s        246
##  3 alferdez vamos        225
##  4 alferdez gracias      215
##  5 alferdez hoy          144
##  6 alferdez vos          142
##  7 alferdez macri        139
##  8 alferdez solo         131
##  9 alferdez argentinos   119
## 10 alferdez pa�s       107
## # ... with 42 more rows

# Correlación entre usuarios por palabras utilizadas

Para poder valorar adecuadamente el nivel de correlación es interesante conocer el número de palabras comunes entre cada par de autores.

##  [1] "Palabras comunes entre clarincom y infobae : 3757" 
##  [2] "Palabras comunes entre clarincom y C5N : 3133"     
##  [3] "Palabras comunes entre clarincom y alferdez : 2409"
##  [4] "Palabras comunes entre clarincom y pagina12 : 2961"
##  [5] "Palabras comunes entre infobae y C5N : 3097"       
##  [6] "Palabras comunes entre infobae y alferdez : 2502"  
##  [7] "Palabras comunes entre infobae y pagina12 : 3034"  
##  [8] "Palabras comunes entre C5N y alferdez : 2492"      
##  [9] "Palabras comunes entre C5N y pagina12 : 2942"      
## [10] "Palabras comunes entre alferdez y pagina12 : 2359"

#Comparación en el uso de palabras El log of odds ratio de las frecuencias (esta comparación se hace por pares).

## # A tibble: 6 x 6
## # Groups:   token [6]
##   token       clarincom   infobae log_odds abs_log_odds autor_frecuente
##   <chr>           <dbl>     <dbl>    <dbl>        <dbl> <chr>          
## 1 aaajoficial 0.0000373 0.0000330    0.122        0.122 clarincom      
## 2 aabadonh    0.0000373 0.0000330    0.122        0.122 clarincom      
## 3 aampm       0.0000373 0.0000330    0.122        0.122 clarincom      
## 4 aar�n     0.0000373 0.0000330    0.122        0.122 clarincom      
## 5 abad        0.0000373 0.0000330    0.122        0.122 clarincom      
## 6 abajo       0.0000373 0.0000330    0.122        0.122 clarincom
## [[1]]

## 
## [[2]]

## 
## [[3]]

## 
## [[4]]

## 
## [[5]]

## 
## [[6]]

## 
## [[7]]

## 
## [[8]]

## 
## [[9]]

## 
## [[10]]

Análisis de sentimientos

Se hace un analisis en función de la clasficiacion nrc, clasficiando cada palabra en sentimiento positivo o negativo.

En base a cada palabra se acumula el valor de los sentimientos.

sent <- read_csv("sent.csv", locale = locale(encoding = "WINDOWS-1252"))
## Warning: Missing column names filled in: 'X1' [1]
## Parsed with column specification:
## cols(
##   X1 = col_double(),
##   texto = col_character(),
##   ira = col_double(),
##   anticipacion = col_double(),
##   aversion = col_double(),
##   miedo = col_double(),
##   alegria = col_double(),
##   tristeza = col_double(),
##   sorpresa = col_double(),
##   confianza = col_double(),
##   negativo = col_double(),
##   positivo = col_double()
## )
tweets_sent2 <- read_csv("tweets_sent2.csv")
## Warning: Missing column names filled in: 'X1' [1]
## Parsed with column specification:
## cols(
##   .default = col_double(),
##   autor = col_character(),
##   fecha = col_date(format = ""),
##   is_retweet = col_logical(),
##   token = col_character(),
##   tipo = col_character(),
##   emocion = col_character()
## )
## See spec(...) for full column specifications.
tweets_sent <-  read_csv("tweets_sent.csv")
## Warning: Missing column names filled in: 'X1' [1]
## Warning: Duplicated column names deduplicated: 'X1' => 'X1_1' [2]
## Parsed with column specification:
## cols(
##   .default = col_double(),
##   autor = col_character(),
##   fecha = col_datetime(format = ""),
##   is_retweet = col_logical(),
##   token = col_character(),
##   tipo = col_character()
## )
## See spec(...) for full column specifications.