1. Análisis de palabras y documentos



Una de las principales preguntas que nos hacemos en tareas de mineo de texto y procesamiento del lenguaje natural es ¿cómo cuantificar de qué se trata un documento?. Para llevar a cabo esta tarea, cuando ya tenemos los datos pre-procesados, podemos calcular medidas sobre cada uno de los tokens, es decir, podemos empezar a extraer características. Tres medidas muy usadas son:

  • Frecuencias (term frequency): Esta mide qué tan frecuentemente una palabra aparece en un documento.

  • Frecuencia inversa en documentos (inverse document frequency): A veces existen palabras que aparecen muchas veces pero que no son importantes. Para separar este tipo de palabras podemos utilizar el enfoque de la frecuencia inversa en documentos. Esta medida decrece conforme la palabra aparezca en más documentos. \[idf(palabra) = ln\left(\frac{n_{\text{documentos}}}{n_{\text{documentos con el término}}}\right)\]

  • Tf-Idf (Term frequency - inverse document frequency): Esta medida combina las dos anteriores. Es decir, mide la importancia de una palabra por su frecuencia general, pero la penaliza según más frecuente se haga entre varios documentos.

1.1. Análisis por palabras

Como primera aproximación, veremos cuáles son las palabras más frecuentes en cada uno de los datasets de noticias que hemos venido trabajando. Para ello, primero cargaremos los datos:

library(tidyverse)
library(tidytext)

tidy_Velasco_annotated = readRDS("Caso1_Noticias/tidy_Velasco_annotated.RDS")
tidy_Velasco = tidy_Velasco_annotated %>% 
  filter(!is.na(lemma)) 

tidy_Larrea_annotated = readRDS("Caso1_Noticias/tidy_Larrea_annotated.RDS")
tidy_Larrea = tidy_Larrea_annotated %>% 
  filter(!is.na(lemma))

tidy_Freile_annotated = readRDS("Caso1_Noticias/tidy_Freile_annotated.RDS")
tidy_Freile = tidy_Freile_annotated %>% 
  filter(!is.na(lemma))

ejemplo_Velasco = unique(tidy_Velasco$doc_id)[1]
ejemplo_Larrea = unique(tidy_Larrea$doc_id)[1]
ejemplo_Freile = unique(tidy_Freile$doc_id)[2]

Con los datos cargados, exploraremos la frecuencia de palabras como se muestra a continuación:

token1_Velasco = tidy_Velasco %>% 
  count(doc_id, upos, lemma, sort = TRUE) %>% 
  group_by(doc_id) %>%
  mutate(total = sum(n))

token1_Velasco %>% 
  filter(doc_id==ejemplo_Velasco) %>% 
  select(doc_id, lemma, upos, n, total) %>% 
  head()
token1_Larrea = tidy_Larrea %>% 
  count(doc_id, upos, lemma, sort = TRUE) %>% 
  group_by(doc_id) %>%
  mutate(total = sum(n))

token1_Larrea %>% 
  filter(doc_id==ejemplo_Larrea) %>% 
  select(doc_id, lemma, upos, n, total) %>% 
  head()
token1_Freile = tidy_Freile %>% 
  count(doc_id, upos, lemma, sort = TRUE) %>% 
  group_by(doc_id) %>%
  mutate(total = sum(n))

token1_Freile %>% 
  filter(doc_id==ejemplo_Freile) %>% 
  select(doc_id, lemma, upos, n, total) %>% 
  head()

Estos datos los podemos graficar para obtener mejores primeras conclusiones:

token1_Velasco %>% 
  filter(doc_id %in% unique(token1_Velasco$doc_id)[1:4]) %>% 
  filter(upos %in% c('NOUN','PROPN','VERB','ADJ')) %>% 
  group_by(doc_id, upos) %>% 
  slice_max(order_by = n/total, n=3) %>% 
  ggplot(aes(x=reorder_within(lemma, n/total, list(doc_id,upos)), y=n/total, fill = upos)) +
  geom_col() +
  scale_x_reordered()+
  coord_flip()+
  facet_wrap(vars(doc_id), scales = "free") + 
  labs(x="Frecuencia relativa de cada palabra en cada documento", y="Frecuencia",
       title = "Frecuencias relativas: Cuatro noticias de Juan Fernando Velasco")+
  theme(legend.position = "bottom")

Aquí podemos observar que la frecuencia relativa de las palabras va en general, máximo hasta un poco más arriba del 2% con respecto al total de palabras.

1.2. Tf-idf

La medida Tf-idf lo que hace es buscar las palabras importantes en el contenido de un documento midiendo su frecuencia general y penalizándola según más frecuente se haga entre varios documentos. Es decir, buscamos las palabras frecuentes pero no comunes.

En R esto se logra como:

library(tidytext)
token1_Velasco = token1_Velasco %>%
  filter(upos %in% c('NOUN','PROPN','VERB','ADJ')) %>% 
  bind_tf_idf(lemma, doc_id, n)
A value for tf_idf is negative:
 Input should have exactly one row per document-term combination.
token1_Velasco %>%
  select(-total) %>%
  arrange(desc(tf_idf))

La medida de tf_idf nos muestra qué palabras son más importantes dentro de cada documento, con respecto a su colección (conjunto de noticias).

Esto lo podemos observar gráficamente:

token1_Velasco %>%
  filter(doc_id %in% unique(token1_Velasco$doc_id)[1:4]) %>% 
  arrange(desc(tf_idf)) %>%
  mutate(lemma = factor(lemma, levels = rev(unique(lemma)))) %>% 
  group_by(doc_id) %>% 
  top_n(15) %>% 
  ungroup() %>%
  ggplot(aes(reorder_within(lemma, tf_idf, doc_id), tf_idf, fill = doc_id)) +
  geom_col(show.legend = FALSE) +
  scale_x_reordered()+
  labs(x = NULL, y = "tf-idf",
       title = "tf-idf: Cuatro noticias de Juan Fernando Velasco") +
  facet_wrap(~doc_id, ncol = 2, scales = "free") +
  coord_flip()
Selecting by tf_idf

2. Análisis exploratorio de n-gramas

Usualmente, para ver qué tan seguido una palabra x es seguida de una palabra y podemos construir un modelo relacional entre ellas, y ese será nuestro objetivo al final de este análisis.

2.1. Construcción de bigramas

Para construir los bigramas (o n-gramas de dimensión dos) recordemos el código que utilizamos en la última clase, sobre los datasets de noticias originales. Trabajaremos sobre dichos datasets en pos de ver las relaciones de las palabras incluso con artículos y preposiciones.

noticiasVelascoDF = readRDS("Caso1_Noticias/noticiasVelascoDF.RDS")
noticiasLarreaDF = readRDS("Caso1_Noticias/noticiasLarreaDF.RDS")
noticiasFreileDF = readRDS("Caso1_Noticias/noticiasFreileDF.RDS")
bigramas_Velasco = noticiasVelascoDF %>%
  unnest_tokens(bigrama, Noticia, token = "ngrams", n = 2)

bigramas_Velasco %>% 
  filter(Titular==ejemplo_Velasco) %>% 
  select(Titular, bigrama)
bigramas_Larrea = noticiasLarreaDF %>%
  unnest_tokens(bigrama, Noticia, token = "ngrams", n = 2)

bigramas_Larrea %>% 
  filter(Titular==ejemplo_Larrea) %>% 
  select(Titular, bigrama)
bigramas_Freile = noticiasFreileDF %>%
  unnest_tokens(bigrama, Noticia, token = "ngrams", n = 2)

bigramas_Freile %>% 
  filter(Titular==ejemplo_Freile) %>% 
  select(Titular, bigrama)

2.2. Conteo y tf-idf de bigramas

Sobre los bigramas construidos en el literal anterior realicemos el conteo de tokens, quitando primero las palabras vacías, como aprendimos en la clase anterior.

library(readxl)
stopwords_es_1 = read_excel("Diccionarios/Stopwords/CustomStopWords.xlsx")
names(stopwords_es_1) = c("Token","Fuente")
stopwords_es_2 = tibble(Token=tm::stopwords(kind = "es"), Fuente="tm")
stopwords_es = rbind(stopwords_es_1, stopwords_es_2)
stopwords_es = stopwords_es[!duplicated(stopwords_es$Token),]
remove(stopwords_es_1, stopwords_es_2)
bigramas_Velasco = bigramas_Velasco %>%
  separate(bigrama, c("palabra1", "palabra2"), sep = " ") %>%
  filter(!palabra1 %in% c(stopwords_es$Token)) %>%
  filter(!palabra2 %in% c(stopwords_es$Token))

bigramas_frec_Velasco = bigramas_Velasco %>% 
  count(Titular, palabra1, palabra2, sort = TRUE) %>% 
  unite(bigrama, palabra1, palabra2, sep = " ")

bigramas_frec_Velasco %>% select(bigrama, n) %>% head()
bigramas_Larrea = bigramas_Larrea %>%
  separate(bigrama, c("palabra1", "palabra2"), sep = " ") %>%
  filter(!palabra1 %in% c(stopwords_es$Token)) %>%
  filter(!palabra2 %in% c(stopwords_es$Token))

bigramas_frec_Larrea = bigramas_Larrea %>% 
  count(Titular, palabra1, palabra2, sort = TRUE) %>% 
  unite(bigrama, palabra1, palabra2, sep = " ")

bigramas_frec_Larrea %>% select(bigrama, n) %>% head()
bigramas_Freile = bigramas_Freile %>%
  separate(bigrama, c("palabra1", "palabra2"), sep = " ") %>%
  filter(!palabra1 %in% c(stopwords_es$Token)) %>%
  filter(!palabra2 %in% c(stopwords_es$Token))

bigramas_frec_Freile = bigramas_Freile %>% 
  count(Titular, palabra1, palabra2, sort = TRUE) %>% 
  unite(bigrama, palabra1, palabra2, sep = " ")

bigramas_frec_Freile %>% select(bigrama, n) %>% head()

Ahora, realicemos el tf-idf en estos datasets:

bigramas_tfidf_Velasco = bigramas_frec_Velasco %>%
  bind_tf_idf(bigrama, Titular, n)

bigramas_tfidf_Velasco %>% arrange(desc(tf_idf))
bigramas_tfidf_Larrea = bigramas_frec_Larrea %>%
  bind_tf_idf(bigrama, Titular, n)

bigramas_tfidf_Larrea %>% arrange(desc(tf_idf))
bigramas_tfidf_Freile = bigramas_frec_Freile %>%
  bind_tf_idf(bigrama, Titular, n)

bigramas_tfidf_Freile %>% arrange(desc(tf_idf))

La utilidad adicional de utilizar bigramas es que podemos darle contexto al análisis de sentimientos.

2.3. Red de bigramas

Cuando tenemos bigramas o n-gramas de dimensión mayor a 2, es interesante visualizar las relaciones de manera simultánea a través de un grafo. Un grafo es sencillamente la combinación de nodos interconectados. Tales grafos se pueden construir a partir de un objeto tidy ya que solo requiere de 3 variables:

  • Origen
  • Destino
  • Peso

El paquete igraph se vale de la librería ggraph para realizar grafos a partir de datos en formato tidy. Esto lo haremos como se muestra a continuación.

library(igraph)

bigrama_grafo_Velasco = bigramas_Velasco %>%
  count(palabra1, palabra2, sort = TRUE) %>% 
  filter(n >= 6) %>%
  graph_from_data_frame()

bigrama_grafo_Velasco
IGRAPH 49e5247 DN-- 108 68 -- 
+ attr: name (v/c), n (e/n)
+ edges from 49e5247 (vertex names):
 [1] juan       ->fernando    fernando   ->velasco     correo     ->electrónico electrónico->requerido  
 [5] requerido  ->asunto      maría      ->paula       paula      ->romo        sector     ->cultural   
 [9] lenín      ->moreno      rafael     ->correa      ana        ->maría       andrés     ->arauz      
[13] covid      ->19          redes      ->sociales    biblioteca ->nacional    cultura    ->juan       
[17] gestores   ->culturales  lucio      ->gutiérrez   consejo    ->nacional    electoral  ->cne        
[21] nacional   ->electoral   presidente ->lenín       artes      ->vivas       gustavo    ->larrea     
[25] movimiento ->construye   césar      ->montúfar    fuerza     ->ecuador     guillermo  ->celi       
[29] guillermo  ->lasso       asamblea   ->política    carlos     ->sagnay      cultura    ->ecuatoriana
+ ... omitted several edges
bigrama_grafo_Larrea = bigramas_Larrea %>%
  count(palabra1, palabra2, sort = TRUE) %>% 
  filter(n >= 6) %>%
  graph_from_data_frame()

bigrama_grafo_Larrea
IGRAPH 4a68ae3 DN-- 210 150 -- 
+ attr: name (v/c), n (e/n)
+ edges from 4a68ae3 (vertex names):
 [1] gustavo       ->larrea       rafael        ->correa       consejo       ->nacional    
 [4] nacional      ->electoral    maría         ->paula        paula         ->romo        
 [7] electoral     ->cne          candidato     ->presidencial guillermo     ->lasso       
[10] lucio         ->gutiérrez    organizaciones->políticas    andrés        ->arauz       
[13] isidro        ->romero       correo        ->electrónico  electrónico   ->requerido   
[16] requerido     ->asunto       ecuatoriano   ->unido        gerson        ->almeida     
[19] asamblea      ->política     alianza       ->país         sociedad      ->patriótica  
[22] alexandra     ->peralta      08            ->2020         centro        ->democrático 
+ ... omitted several edges
bigrama_grafo_Freile = bigramas_Freile %>%
  count(palabra1, palabra2, sort = TRUE) %>% 
  filter(n >= 6) %>%
  graph_from_data_frame()

bigrama_grafo_Freile
IGRAPH 4af695d DN-- 190 131 -- 
+ attr: name (v/c), n (e/n)
+ edges from 4af695d (vertex names):
 [1] consejo       ->nacional     nacional      ->electoral    electoral     ->cne         
 [4] rafael        ->correa       candidato     ->presidencial organizaciones->políticas   
 [7] josé          ->freile       maría         ->paula        paula         ->romo        
[10] pedro         ->josé         lucio         ->gutiérrez    yaku          ->pérez       
[13] 08            ->2020         gustavo       ->larrea       isidro        ->romero      
[16] guillermo     ->lasso        ximena        ->peña         andrés        ->arauz       
[19] correo        ->electrónico  electrónico   ->requerido    fernando      ->velasco     
[22] gerson        ->almeida      juan          ->fernando     requerido     ->asunto      
+ ... omitted several edges
library(ggraph)
set.seed(123)

ggraph(bigrama_grafo_Velasco, layout = "fr") +
  geom_edge_link() +
  geom_node_point() +
  geom_node_label(aes(label = name), vjust = 1, hjust = 1)

ggraph(bigrama_grafo_Larrea, layout = "fr") +
  geom_edge_link() +
  geom_node_point() +
  geom_node_label(aes(label = name), vjust = 1, hjust = 1)

ggraph(bigrama_grafo_Freile, layout = "fr") +
  geom_edge_link() +
  geom_node_point() +
  geom_node_label(aes(label = name), vjust = 1, hjust = 1)

3. Nubes de palabras

Para realizar nubes de palabras, que coloquen el tamaño de las palabras acorde a su frecuencia, utilizaremos la librería wordcloud2.

library(echarts4r)
# library(stringi)
wc_Velasco = tidy_Velasco_annotated %>% 
  filter(upos %in% c("NOUN","PROPN", "ADJ", "VERB")) %>%
  count(lemma, sort=T) %>% 
  filter(n > 20) %>% 
  e_color_range(n, color) %>%
  e_charts() %>%
  e_cloud(lemma, n, color) %>% 
  e_tooltip()
wc_Velasco

4. Extracción de palabras clave

El generar conclusiones e insight de un texto con miles de líneas y palabras puede ser abordado desde varias perspectivas. Una de ellas es la extracción de palabras claves, que puede ser conseguida a través de algoritmos de NLP. Esta será entonces nuestra última misión en este capítulo.

Acorde a Thushara et al. (2019), algunos de los algoritmos de extracción de palabras clave son:

  • RAKE (Rapid Automatic Keyword Extraction): Es un algoritmo no supervisado independiente del idioma que obtiene palabras clave a través del análisis de la frecuencia y grado (co-ocurrencia) de las palabras.
  • TextRank: Es una técnica no supervisada basada en grafos que obtiene el resumen de un texto. Está basada sobretodo en etiquetado POS.
  • PositionRank: Es un algoritmo basado en grafos que busca frases al inicio de los documentos y los candidatiza a ser clave.

4.1. RAKE

La librería udpipe incluye el algoritmo RAKE para extracción de palabras clave. Este es un algoritmo no supervisado independiente del idioma que obtiene palabras clave a través del análisis de la frecuencia y grado (co-ocurrencia) de las palabras. Específicamiente, sigue estos pasos:

  • Se extraen las palabras candidatas del conjunto de palabras, después de haber quitado palabras vacías e irrelevantes.
  • Se calcula un score para cada palabra a través de:
    • Se busca cuántas veces ocurre una palabra y cuántas veces co-ocurre con otra.
    • Se construye el score como el ratio de co-ocurrencias versus frecuencia.
  • Se ordena el score de mayor a menor y las primeras serán las palabras clave.

A continuación veremos ejemplos de la aplicación de esta técnica para palabras y n-gramas.

library(udpipe)
Registered S3 method overwritten by 'data.table':
  method           from
  print.data.table     
Velasco_keywords = keywords_rake(x = tidy_Velasco, term = "lemma", group = "doc_id", relevant = tidy_Velasco$upos %in% c("NOUN", "ADJ","PROPN","VERB"), ngram_max = 3)
head(Velasco_keywords)
Larrea_keywords = keywords_rake(x = tidy_Larrea, term = "lemma", group = "doc_id", relevant = tidy_Larrea$upos %in% c("NOUN", "ADJ","PROPN","VERB"), ngram_max = 3)
head(Larrea_keywords)
Freile_keywords = keywords_rake(x = tidy_Freile, term = "lemma", group = "doc_id", relevant = tidy_Freile$upos %in% c("NOUN", "ADJ","PROPN","VERB"), ngram_max = 3)
head(Freile_keywords)

5. Bibliografía

Silge, J. & Robinson, D. (2017), Text Mining with R, a tidy approach.

Thushara, M. G., Mownika, T. & Mangamuru, R. (2019), «A comparative study on different keyword extraction algorithms», Proceedings of the 3rd International Conference on Computing Methodologies and Communication, ICCMC 2019, No. March.

