1. Análisis de palabras y documentos
Una de las principales preguntas que nos hacemos en tareas de mineo de texto y procesamiento del lenguaje natural es ¿cómo cuantificar de qué se trata un documento?. Para llevar a cabo esta tarea, cuando ya tenemos los datos pre-procesados, podemos calcular medidas sobre cada uno de los tokens, es decir, podemos empezar a extraer características. Tres medidas muy usadas son:
Frecuencias (term frequency): Esta mide qué tan frecuentemente una palabra aparece en un documento.
Frecuencia inversa en documentos (inverse document frequency): A veces existen palabras que aparecen muchas veces pero que no son importantes. Para separar este tipo de palabras podemos utilizar el enfoque de la frecuencia inversa en documentos. Esta medida decrece conforme la palabra aparezca en más documentos. \[idf(palabra) = ln\left(\frac{n_{\text{documentos}}}{n_{\text{documentos con el término}}}\right)\]
Tf-Idf (Term frequency - inverse document frequency): Esta medida combina las dos anteriores. Es decir, mide la importancia de una palabra por su frecuencia general, pero la penaliza según más frecuente se haga entre varios documentos.
1.1. Análisis por palabras
Como primera aproximación, veremos cuáles son las palabras más frecuentes en cada uno de los datasets de noticias que hemos venido trabajando. Para ello, primero cargaremos los datos:
library(tidyverse)
library(tidytext)
tidy_Velasco_annotated = readRDS("Caso1_Noticias/tidy_Velasco_annotated.RDS")
tidy_Velasco = tidy_Velasco_annotated %>%
filter(!is.na(lemma))
tidy_Larrea_annotated = readRDS("Caso1_Noticias/tidy_Larrea_annotated.RDS")
tidy_Larrea = tidy_Larrea_annotated %>%
filter(!is.na(lemma))
tidy_Freile_annotated = readRDS("Caso1_Noticias/tidy_Freile_annotated.RDS")
tidy_Freile = tidy_Freile_annotated %>%
filter(!is.na(lemma))
ejemplo_Velasco = unique(tidy_Velasco$doc_id)[1]
ejemplo_Larrea = unique(tidy_Larrea$doc_id)[1]
ejemplo_Freile = unique(tidy_Freile$doc_id)[2]
Con los datos cargados, exploraremos la frecuencia de palabras como se muestra a continuación:
token1_Velasco = tidy_Velasco %>%
count(doc_id, upos, lemma, sort = TRUE) %>%
group_by(doc_id) %>%
mutate(total = sum(n))
token1_Velasco %>%
filter(doc_id==ejemplo_Velasco) %>%
select(doc_id, lemma, upos, n, total) %>%
head()
token1_Larrea = tidy_Larrea %>%
count(doc_id, upos, lemma, sort = TRUE) %>%
group_by(doc_id) %>%
mutate(total = sum(n))
token1_Larrea %>%
filter(doc_id==ejemplo_Larrea) %>%
select(doc_id, lemma, upos, n, total) %>%
head()
token1_Freile = tidy_Freile %>%
count(doc_id, upos, lemma, sort = TRUE) %>%
group_by(doc_id) %>%
mutate(total = sum(n))
token1_Freile %>%
filter(doc_id==ejemplo_Freile) %>%
select(doc_id, lemma, upos, n, total) %>%
head()
Estos datos los podemos graficar para obtener mejores primeras conclusiones:
token1_Velasco %>%
filter(doc_id %in% unique(token1_Velasco$doc_id)[1:4]) %>%
filter(upos %in% c('NOUN','PROPN','VERB','ADJ')) %>%
group_by(doc_id, upos) %>%
slice_max(order_by = n/total, n=3) %>%
ggplot(aes(x=reorder_within(lemma, n/total, list(doc_id,upos)), y=n/total, fill = upos)) +
geom_col() +
scale_x_reordered()+
coord_flip()+
facet_wrap(vars(doc_id), scales = "free") +
labs(x="Frecuencia relativa de cada palabra en cada documento", y="Frecuencia",
title = "Frecuencias relativas: Cuatro noticias de Juan Fernando Velasco")+
theme(legend.position = "bottom")

Aquí podemos observar que la frecuencia relativa de las palabras va en general, máximo hasta un poco más arriba del 2% con respecto al total de palabras.
1.2. Tf-idf
La medida Tf-idf lo que hace es buscar las palabras importantes en el contenido de un documento midiendo su frecuencia general y penalizándola según más frecuente se haga entre varios documentos. Es decir, buscamos las palabras frecuentes pero no comunes.
En R esto se logra como:
library(tidytext)
token1_Velasco = token1_Velasco %>%
filter(upos %in% c('NOUN','PROPN','VERB','ADJ')) %>%
bind_tf_idf(lemma, doc_id, n)
A value for tf_idf is negative:
Input should have exactly one row per document-term combination.
token1_Velasco %>%
select(-total) %>%
arrange(desc(tf_idf))
La medida de tf_idf nos muestra qué palabras son más importantes dentro de cada documento, con respecto a su colección (conjunto de noticias).
Esto lo podemos observar gráficamente:
token1_Velasco %>%
filter(doc_id %in% unique(token1_Velasco$doc_id)[1:4]) %>%
arrange(desc(tf_idf)) %>%
mutate(lemma = factor(lemma, levels = rev(unique(lemma)))) %>%
group_by(doc_id) %>%
top_n(15) %>%
ungroup() %>%
ggplot(aes(reorder_within(lemma, tf_idf, doc_id), tf_idf, fill = doc_id)) +
geom_col(show.legend = FALSE) +
scale_x_reordered()+
labs(x = NULL, y = "tf-idf",
title = "tf-idf: Cuatro noticias de Juan Fernando Velasco") +
facet_wrap(~doc_id, ncol = 2, scales = "free") +
coord_flip()
Selecting by tf_idf

2. Análisis exploratorio de n-gramas
Usualmente, para ver qué tan seguido una palabra x es seguida de una palabra y podemos construir un modelo relacional entre ellas, y ese será nuestro objetivo al final de este análisis.
2.1. Construcción de bigramas
Para construir los bigramas (o n-gramas de dimensión dos) recordemos el código que utilizamos en la última clase, sobre los datasets de noticias originales. Trabajaremos sobre dichos datasets en pos de ver las relaciones de las palabras incluso con artículos y preposiciones.
noticiasVelascoDF = readRDS("Caso1_Noticias/noticiasVelascoDF.RDS")
noticiasLarreaDF = readRDS("Caso1_Noticias/noticiasLarreaDF.RDS")
noticiasFreileDF = readRDS("Caso1_Noticias/noticiasFreileDF.RDS")
bigramas_Velasco = noticiasVelascoDF %>%
unnest_tokens(bigrama, Noticia, token = "ngrams", n = 2)
bigramas_Velasco %>%
filter(Titular==ejemplo_Velasco) %>%
select(Titular, bigrama)
bigramas_Larrea = noticiasLarreaDF %>%
unnest_tokens(bigrama, Noticia, token = "ngrams", n = 2)
bigramas_Larrea %>%
filter(Titular==ejemplo_Larrea) %>%
select(Titular, bigrama)
bigramas_Freile = noticiasFreileDF %>%
unnest_tokens(bigrama, Noticia, token = "ngrams", n = 2)
bigramas_Freile %>%
filter(Titular==ejemplo_Freile) %>%
select(Titular, bigrama)
2.2. Conteo y tf-idf de bigramas
Sobre los bigramas construidos en el literal anterior realicemos el conteo de tokens, quitando primero las palabras vacías, como aprendimos en la clase anterior.
library(readxl)
stopwords_es_1 = read_excel("Diccionarios/Stopwords/CustomStopWords.xlsx")
names(stopwords_es_1) = c("Token","Fuente")
stopwords_es_2 = tibble(Token=tm::stopwords(kind = "es"), Fuente="tm")
stopwords_es = rbind(stopwords_es_1, stopwords_es_2)
stopwords_es = stopwords_es[!duplicated(stopwords_es$Token),]
remove(stopwords_es_1, stopwords_es_2)
bigramas_Velasco = bigramas_Velasco %>%
separate(bigrama, c("palabra1", "palabra2"), sep = " ") %>%
filter(!palabra1 %in% c(stopwords_es$Token)) %>%
filter(!palabra2 %in% c(stopwords_es$Token))
bigramas_frec_Velasco = bigramas_Velasco %>%
count(Titular, palabra1, palabra2, sort = TRUE) %>%
unite(bigrama, palabra1, palabra2, sep = " ")
bigramas_frec_Velasco %>% select(bigrama, n) %>% head()
bigramas_Larrea = bigramas_Larrea %>%
separate(bigrama, c("palabra1", "palabra2"), sep = " ") %>%
filter(!palabra1 %in% c(stopwords_es$Token)) %>%
filter(!palabra2 %in% c(stopwords_es$Token))
bigramas_frec_Larrea = bigramas_Larrea %>%
count(Titular, palabra1, palabra2, sort = TRUE) %>%
unite(bigrama, palabra1, palabra2, sep = " ")
bigramas_frec_Larrea %>% select(bigrama, n) %>% head()
bigramas_Freile = bigramas_Freile %>%
separate(bigrama, c("palabra1", "palabra2"), sep = " ") %>%
filter(!palabra1 %in% c(stopwords_es$Token)) %>%
filter(!palabra2 %in% c(stopwords_es$Token))
bigramas_frec_Freile = bigramas_Freile %>%
count(Titular, palabra1, palabra2, sort = TRUE) %>%
unite(bigrama, palabra1, palabra2, sep = " ")
bigramas_frec_Freile %>% select(bigrama, n) %>% head()
Ahora, realicemos el tf-idf en estos datasets:
bigramas_tfidf_Velasco = bigramas_frec_Velasco %>%
bind_tf_idf(bigrama, Titular, n)
bigramas_tfidf_Velasco %>% arrange(desc(tf_idf))
bigramas_tfidf_Larrea = bigramas_frec_Larrea %>%
bind_tf_idf(bigrama, Titular, n)
bigramas_tfidf_Larrea %>% arrange(desc(tf_idf))
bigramas_tfidf_Freile = bigramas_frec_Freile %>%
bind_tf_idf(bigrama, Titular, n)
bigramas_tfidf_Freile %>% arrange(desc(tf_idf))
La utilidad adicional de utilizar bigramas es que podemos darle contexto al análisis de sentimientos.
2.3. Red de bigramas
Cuando tenemos bigramas o n-gramas de dimensión mayor a 2, es interesante visualizar las relaciones de manera simultánea a través de un grafo. Un grafo es sencillamente la combinación de nodos interconectados. Tales grafos se pueden construir a partir de un objeto tidy ya que solo requiere de 3 variables:
El paquete igraph se vale de la librería ggraph para realizar grafos a partir de datos en formato tidy. Esto lo haremos como se muestra a continuación.
library(igraph)
bigrama_grafo_Velasco = bigramas_Velasco %>%
count(palabra1, palabra2, sort = TRUE) %>%
filter(n >= 6) %>%
graph_from_data_frame()
bigrama_grafo_Velasco
IGRAPH 49e5247 DN-- 108 68 --
+ attr: name (v/c), n (e/n)
+ edges from 49e5247 (vertex names):
[1] juan ->fernando fernando ->velasco correo ->electrónico electrónico->requerido
[5] requerido ->asunto maría ->paula paula ->romo sector ->cultural
[9] lenín ->moreno rafael ->correa ana ->maría andrés ->arauz
[13] covid ->19 redes ->sociales biblioteca ->nacional cultura ->juan
[17] gestores ->culturales lucio ->gutiérrez consejo ->nacional electoral ->cne
[21] nacional ->electoral presidente ->lenín artes ->vivas gustavo ->larrea
[25] movimiento ->construye césar ->montúfar fuerza ->ecuador guillermo ->celi
[29] guillermo ->lasso asamblea ->política carlos ->sagnay cultura ->ecuatoriana
+ ... omitted several edges
bigrama_grafo_Larrea = bigramas_Larrea %>%
count(palabra1, palabra2, sort = TRUE) %>%
filter(n >= 6) %>%
graph_from_data_frame()
bigrama_grafo_Larrea
IGRAPH 4a68ae3 DN-- 210 150 --
+ attr: name (v/c), n (e/n)
+ edges from 4a68ae3 (vertex names):
[1] gustavo ->larrea rafael ->correa consejo ->nacional
[4] nacional ->electoral maría ->paula paula ->romo
[7] electoral ->cne candidato ->presidencial guillermo ->lasso
[10] lucio ->gutiérrez organizaciones->políticas andrés ->arauz
[13] isidro ->romero correo ->electrónico electrónico ->requerido
[16] requerido ->asunto ecuatoriano ->unido gerson ->almeida
[19] asamblea ->política alianza ->país sociedad ->patriótica
[22] alexandra ->peralta 08 ->2020 centro ->democrático
+ ... omitted several edges
bigrama_grafo_Freile = bigramas_Freile %>%
count(palabra1, palabra2, sort = TRUE) %>%
filter(n >= 6) %>%
graph_from_data_frame()
bigrama_grafo_Freile
IGRAPH 4af695d DN-- 190 131 --
+ attr: name (v/c), n (e/n)
+ edges from 4af695d (vertex names):
[1] consejo ->nacional nacional ->electoral electoral ->cne
[4] rafael ->correa candidato ->presidencial organizaciones->políticas
[7] josé ->freile maría ->paula paula ->romo
[10] pedro ->josé lucio ->gutiérrez yaku ->pérez
[13] 08 ->2020 gustavo ->larrea isidro ->romero
[16] guillermo ->lasso ximena ->peña andrés ->arauz
[19] correo ->electrónico electrónico ->requerido fernando ->velasco
[22] gerson ->almeida juan ->fernando requerido ->asunto
+ ... omitted several edges
library(ggraph)
set.seed(123)
ggraph(bigrama_grafo_Velasco, layout = "fr") +
geom_edge_link() +
geom_node_point() +
geom_node_label(aes(label = name), vjust = 1, hjust = 1)

ggraph(bigrama_grafo_Larrea, layout = "fr") +
geom_edge_link() +
geom_node_point() +
geom_node_label(aes(label = name), vjust = 1, hjust = 1)

ggraph(bigrama_grafo_Freile, layout = "fr") +
geom_edge_link() +
geom_node_point() +
geom_node_label(aes(label = name), vjust = 1, hjust = 1)

3. Nubes de palabras
Para realizar nubes de palabras, que coloquen el tamaño de las palabras acorde a su frecuencia, utilizaremos la librería wordcloud2.
library(echarts4r)
# library(stringi)
wc_Velasco = tidy_Velasco_annotated %>%
filter(upos %in% c("NOUN","PROPN", "ADJ", "VERB")) %>%
count(lemma, sort=T) %>%
filter(n > 20) %>%
e_color_range(n, color) %>%
e_charts() %>%
e_cloud(lemma, n, color) %>%
e_tooltip()
wc_Velasco
