## # A tibble: 6 x 8
## X1 autor fecha tweet_id is_retweet cont_fav cont_rt texto
## <dbl> <chr> <dttm> <dbl> <lgl> <dbl> <dbl> <chr>
## 1 1 clari~ 2020-04-01 21:57:14 1.25e18 FALSE 4 1 "River ~
## 2 2 clari~ 2020-04-01 21:53:58 1.25e18 FALSE 5 10 "Corona~
## 3 3 clari~ 2020-04-01 21:47:41 1.25e18 FALSE 36 34 "WhatsA~
## 4 4 clari~ 2020-04-01 21:35:24 1.25e18 FALSE 227 19 "Alejan~
## 5 5 clari~ 2020-04-01 21:35:22 1.25e18 FALSE 2 0 "Corona~
## 6 6 clari~ 2020-04-01 21:35:20 1.25e18 FALSE 1 0 "Corona~
## # A tibble: 6 x 8
## X1 autor fecha tweet_id is_retweet cont_fav cont_rt token
## <dbl> <chr> <dttm> <dbl> <lgl> <dbl> <dbl> <chr>
## 1 1 clarin~ 2020-04-01 21:57:14 1.25e18 FALSE 4 1 "river"
## 2 2 clarin~ 2020-04-01 21:57:14 1.25e18 FALSE 4 1 "ilusi~
## 3 3 clarin~ 2020-04-01 21:57:14 1.25e18 FALSE 4 1 "regre~
## 4 4 clarin~ 2020-04-01 21:57:14 1.25e18 FALSE 4 1 "gonza~
## 5 5 clarin~ 2020-04-01 21:57:14 1.25e18 FALSE 4 1 "higua~
## 6 6 clarin~ 2020-04-01 21:57:14 1.25e18 FALSE 4 1 "si"
#Frecuencia de palabras
A la hora de entender que caracteriza los mensajes de cada noticiero, es interesante estudiar qué palabras emplea, con qué frecuencia, asà como el significado de las mismas.
##Total palabras utilizadas
## Palabras distintas utilizadas
## Longitud media de los tweets por usuario
## # A tibble: 52 x 3
## # Groups: autor [5]
## autor token n
## <chr> <chr> <int>
## 1 alferdez argentina 280
## 2 alferdez m�s 246
## 3 alferdez vamos 225
## 4 alferdez gracias 215
## 5 alferdez hoy 144
## 6 alferdez vos 142
## 7 alferdez macri 139
## 8 alferdez solo 131
## 9 alferdez argentinos 119
## 10 alferdez pa�s 107
## # ... with 42 more rows
# Correlación entre usuarios por palabras utilizadas
Para poder valorar adecuadamente el nivel de correlación es interesante conocer el número de palabras comunes entre cada par de autores.
## [1] "Palabras comunes entre clarincom y infobae : 3757"
## [2] "Palabras comunes entre clarincom y C5N : 3133"
## [3] "Palabras comunes entre clarincom y alferdez : 2409"
## [4] "Palabras comunes entre clarincom y pagina12 : 2961"
## [5] "Palabras comunes entre infobae y C5N : 3097"
## [6] "Palabras comunes entre infobae y alferdez : 2502"
## [7] "Palabras comunes entre infobae y pagina12 : 3034"
## [8] "Palabras comunes entre C5N y alferdez : 2492"
## [9] "Palabras comunes entre C5N y pagina12 : 2942"
## [10] "Palabras comunes entre alferdez y pagina12 : 2359"
#Comparación en el uso de palabras El log of odds ratio de las frecuencias (esta comparación se hace por pares).
## # A tibble: 6 x 6
## # Groups: token [6]
## token clarincom infobae log_odds abs_log_odds autor_frecuente
## <chr> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 aaajoficial 0.0000373 0.0000330 0.122 0.122 clarincom
## 2 aabadonh 0.0000373 0.0000330 0.122 0.122 clarincom
## 3 aampm 0.0000373 0.0000330 0.122 0.122 clarincom
## 4 aar�n 0.0000373 0.0000330 0.122 0.122 clarincom
## 5 abad 0.0000373 0.0000330 0.122 0.122 clarincom
## 6 abajo 0.0000373 0.0000330 0.122 0.122 clarincom
## [[1]]
##
## [[2]]
##
## [[3]]
##
## [[4]]
##
## [[5]]
##
## [[6]]
##
## [[7]]
##
## [[8]]
##
## [[9]]
##
## [[10]]
Se hace un analisis en función de la clasficiacion nrc, clasficiando cada palabra en sentimiento positivo o negativo.
En base a cada palabra se acumula el valor de los sentimientos.
sent <- read_csv("sent.csv", locale = locale(encoding = "WINDOWS-1252"))
## Warning: Missing column names filled in: 'X1' [1]
## Parsed with column specification:
## cols(
## X1 = col_double(),
## texto = col_character(),
## ira = col_double(),
## anticipacion = col_double(),
## aversion = col_double(),
## miedo = col_double(),
## alegria = col_double(),
## tristeza = col_double(),
## sorpresa = col_double(),
## confianza = col_double(),
## negativo = col_double(),
## positivo = col_double()
## )
tweets_sent2 <- read_csv("tweets_sent2.csv")
## Warning: Missing column names filled in: 'X1' [1]
## Parsed with column specification:
## cols(
## .default = col_double(),
## autor = col_character(),
## fecha = col_date(format = ""),
## is_retweet = col_logical(),
## token = col_character(),
## tipo = col_character(),
## emocion = col_character()
## )
## See spec(...) for full column specifications.
tweets_sent <- read_csv("tweets_sent.csv")
## Warning: Missing column names filled in: 'X1' [1]
## Warning: Duplicated column names deduplicated: 'X1' => 'X1_1' [2]
## Parsed with column specification:
## cols(
## .default = col_double(),
## autor = col_character(),
## fecha = col_datetime(format = ""),
## is_retweet = col_logical(),
## token = col_character(),
## tipo = col_character()
## )
## See spec(...) for full column specifications.