1. Análisis de palabras y documentos



Una de las principales preguntas que nos hacemos en tareas de mineo de texto y procesamiento del lenguaje natural es ¿cómo cuantificar de qué se trata un documento?. Para llevar a cabo esta tarea, cuando ya tenemos los datos pre-procesados, podemos calcular medidas sobre cada uno de los tokens, es decir, podemos empezar a extraer características. Tres medidas muy usadas son:

  • Frecuencias (term frequency): Esta mide qué tan frecuentemente una palabra aparece en un documento.

  • Frecuencia inversa en documentos (inverse document frequency): A veces existen palabras que aparecen muchas veces pero que no son importantes. Para separar este tipo de palabras podemos utilizar el enfoque de la frecuencia inversa en documentos. Esta medida decrece conforme la palabra aparezca en más documentos. \[idf(palabra) = ln\left(\frac{n_{\text{documentos}}}{n_{\text{documentos con el término}}}\right)\]

  • Tf-Idf (Term frequency - inverse document frequency): Esta medida combina las dos anteriores. Es decir, mide la importancia de una palabra por su frecuencia general, pero la penaliza según más frecuente se haga entre varios documentos.

1.1. Análisis por palabras

Como primera aproximación, veremos cuáles son las palabras más frecuentes en cada uno de los datasets de noticias que hemos venido trabajando. Para ello, primero cargaremos los datos:

library(tidyverse)
library(tidytext)

tidy_Velasco_annotated = readRDS("Caso1_Noticias/tidy_Velasco_annotated.RDS")
tidy_Velasco = tidy_Velasco_annotated %>% 
  filter(!is.na(lemma)) 

tidy_Larrea_annotated = readRDS("Caso1_Noticias/tidy_Larrea_annotated.RDS")
tidy_Larrea = tidy_Larrea_annotated %>% 
  filter(!is.na(lemma))

tidy_Freile_annotated = readRDS("Caso1_Noticias/tidy_Freile_annotated.RDS")
tidy_Freile = tidy_Freile_annotated %>% 
  filter(!is.na(lemma))

ejemplo_Velasco = unique(tidy_Velasco$doc_id)[1]
ejemplo_Larrea = unique(tidy_Larrea$doc_id)[1]
ejemplo_Freile = unique(tidy_Freile$doc_id)[2]

Con los datos cargados, exploraremos la frecuencia de palabras como se muestra a continuación:

token1_Velasco = tidy_Velasco %>% 
  count(doc_id, upos, lemma, sort = TRUE) %>% 
  group_by(doc_id) %>%
  mutate(total = sum(n))

token1_Velasco %>% 
  filter(doc_id==ejemplo_Velasco) %>% 
  select(doc_id, lemma, upos, n, total) %>% 
  head()
token1_Larrea = tidy_Larrea %>% 
  count(doc_id, upos, lemma, sort = TRUE) %>% 
  group_by(doc_id) %>%
  mutate(total = sum(n))

token1_Larrea %>% 
  filter(doc_id==ejemplo_Larrea) %>% 
  select(doc_id, lemma, upos, n, total) %>% 
  head()
token1_Freile = tidy_Freile %>% 
  count(doc_id, upos, lemma, sort = TRUE) %>% 
  group_by(doc_id) %>%
  mutate(total = sum(n))

token1_Freile %>% 
  filter(doc_id==ejemplo_Freile) %>% 
  select(doc_id, lemma, upos, n, total) %>% 
  head()

Estos datos los podemos graficar para obtener mejores primeras conclusiones:

token1_Velasco %>% 
  filter(doc_id %in% unique(token1_Velasco$doc_id)[1:4]) %>% 
  filter(upos %in% c('NOUN','PROPN','VERB','ADJ')) %>% 
  group_by(doc_id, upos) %>% 
  slice_max(order_by = n/total, n=3) %>% 
  ggplot(aes(x=reorder_within(lemma, n/total, list(doc_id,upos)), y=n/total, fill = upos)) +
  geom_col() +
  scale_x_reordered()+
  coord_flip()+
  facet_wrap(vars(doc_id), scales = "free") + 
  labs(x="Frecuencia relativa de cada palabra en cada documento", y="Frecuencia",
       title = "Frecuencias relativas: Cuatro noticias de Juan Fernando Velasco")+
  theme(legend.position = "bottom")

Aquí podemos observar que la frecuencia relativa de las palabras va en general, máximo hasta un poco más arriba del 2% con respecto al total de palabras.

1.2. Tf-idf

La medida Tf-idf lo que hace es buscar las palabras importantes en el contenido de un documento midiendo su frecuencia general y penalizándola según más frecuente se haga entre varios documentos. Es decir, buscamos las palabras frecuentes pero no comunes.

En R esto se logra como:

library(tidytext)
token1_Velasco = token1_Velasco %>%
  filter(upos %in% c('NOUN','PROPN','VERB','ADJ')) %>% 
  bind_tf_idf(lemma, doc_id, n)
A value for tf_idf is negative:
 Input should have exactly one row per document-term combination.
token1_Velasco %>%
  select(-total) %>%
  arrange(desc(tf_idf))

La medida de tf_idf nos muestra qué palabras son más importantes dentro de cada documento, con respecto a su colección (conjunto de noticias).

Esto lo podemos observar gráficamente:

token1_Velasco %>%
  filter(doc_id %in% unique(token1_Velasco$doc_id)[1:4]) %>% 
  arrange(desc(tf_idf)) %>%
  mutate(lemma = factor(lemma, levels = rev(unique(lemma)))) %>% 
  group_by(doc_id) %>% 
  top_n(15) %>% 
  ungroup() %>%
  ggplot(aes(reorder_within(lemma, tf_idf, doc_id), tf_idf, fill = doc_id)) +
  geom_col(show.legend = FALSE) +
  scale_x_reordered()+
  labs(x = NULL, y = "tf-idf",
       title = "tf-idf: Cuatro noticias de Juan Fernando Velasco") +
  facet_wrap(~doc_id, ncol = 2, scales = "free") +
  coord_flip()
Selecting by tf_idf

2. Análisis exploratorio de n-gramas

Usualmente, para ver qué tan seguido una palabra x es seguida de una palabra y podemos construir un modelo relacional entre ellas, y ese será nuestro objetivo al final de este análisis.

2.1. Construcción de bigramas

Para construir los bigramas (o n-gramas de dimensión dos) recordemos el código que utilizamos en la última clase, sobre los datasets de noticias originales. Trabajaremos sobre dichos datasets en pos de ver las relaciones de las palabras incluso con artículos y preposiciones.

noticiasVelascoDF = readRDS("Caso1_Noticias/noticiasVelascoDF.RDS")
noticiasLarreaDF = readRDS("Caso1_Noticias/noticiasLarreaDF.RDS")
noticiasFreileDF = readRDS("Caso1_Noticias/noticiasFreileDF.RDS")
bigramas_Velasco = noticiasVelascoDF %>%
  unnest_tokens(bigrama, Noticia, token = "ngrams", n = 2)

bigramas_Velasco %>% 
  filter(Titular==ejemplo_Velasco) %>% 
  select(Titular, bigrama)
bigramas_Larrea = noticiasLarreaDF %>%
  unnest_tokens(bigrama, Noticia, token = "ngrams", n = 2)

bigramas_Larrea %>% 
  filter(Titular==ejemplo_Larrea) %>% 
  select(Titular, bigrama)
bigramas_Freile = noticiasFreileDF %>%
  unnest_tokens(bigrama, Noticia, token = "ngrams", n = 2)

bigramas_Freile %>% 
  filter(Titular==ejemplo_Freile) %>% 
  select(Titular, bigrama)

2.2. Conteo y tf-idf de bigramas

Sobre los bigramas construidos en el literal anterior realicemos el conteo de tokens, quitando primero las palabras vacías, como aprendimos en la clase anterior.

library(readxl)
stopwords_es_1 = read_excel("Diccionarios/Stopwords/CustomStopWords.xlsx")
names(stopwords_es_1) = c("Token","Fuente")
stopwords_es_2 = tibble(Token=tm::stopwords(kind = "es"), Fuente="tm")
stopwords_es = rbind(stopwords_es_1, stopwords_es_2)
stopwords_es = stopwords_es[!duplicated(stopwords_es$Token),]
remove(stopwords_es_1, stopwords_es_2)
bigramas_Velasco = bigramas_Velasco %>%
  separate(bigrama, c("palabra1", "palabra2"), sep = " ") %>%
  filter(!palabra1 %in% c(stopwords_es$Token)) %>%
  filter(!palabra2 %in% c(stopwords_es$Token))

bigramas_frec_Velasco = bigramas_Velasco %>% 
  count(Titular, palabra1, palabra2, sort = TRUE) %>% 
  unite(bigrama, palabra1, palabra2, sep = " ")

bigramas_frec_Velasco %>% select(bigrama, n) %>% head()
bigramas_Larrea = bigramas_Larrea %>%
  separate(bigrama, c("palabra1", "palabra2"), sep = " ") %>%
  filter(!palabra1 %in% c(stopwords_es$Token)) %>%
  filter(!palabra2 %in% c(stopwords_es$Token))

bigramas_frec_Larrea = bigramas_Larrea %>% 
  count(Titular, palabra1, palabra2, sort = TRUE) %>% 
  unite(bigrama, palabra1, palabra2, sep = " ")

bigramas_frec_Larrea %>% select(bigrama, n) %>% head()
bigramas_Freile = bigramas_Freile %>%
  separate(bigrama, c("palabra1", "palabra2"), sep = " ") %>%
  filter(!palabra1 %in% c(stopwords_es$Token)) %>%
  filter(!palabra2 %in% c(stopwords_es$Token))

bigramas_frec_Freile = bigramas_Freile %>% 
  count(Titular, palabra1, palabra2, sort = TRUE) %>% 
  unite(bigrama, palabra1, palabra2, sep = " ")

bigramas_frec_Freile %>% select(bigrama, n) %>% head()

Ahora, realicemos el tf-idf en estos datasets:

bigramas_tfidf_Velasco = bigramas_frec_Velasco %>%
  bind_tf_idf(bigrama, Titular, n)

bigramas_tfidf_Velasco %>% arrange(desc(tf_idf))
bigramas_tfidf_Larrea = bigramas_frec_Larrea %>%
  bind_tf_idf(bigrama, Titular, n)

bigramas_tfidf_Larrea %>% arrange(desc(tf_idf))
bigramas_tfidf_Freile = bigramas_frec_Freile %>%
  bind_tf_idf(bigrama, Titular, n)

bigramas_tfidf_Freile %>% arrange(desc(tf_idf))

La utilidad adicional de utilizar bigramas es que podemos darle contexto al análisis de sentimientos.

2.3. Red de bigramas

Cuando tenemos bigramas o n-gramas de dimensión mayor a 2, es interesante visualizar las relaciones de manera simultánea a través de un grafo. Un grafo es sencillamente la combinación de nodos interconectados. Tales grafos se pueden construir a partir de un objeto tidy ya que solo requiere de 3 variables:

  • Origen
  • Destino
  • Peso

El paquete igraph se vale de la librería ggraph para realizar grafos a partir de datos en formato tidy. Esto lo haremos como se muestra a continuación.

library(igraph)

bigrama_grafo_Velasco = bigramas_Velasco %>%
  count(palabra1, palabra2, sort = TRUE) %>% 
  filter(n >= 6) %>%
  graph_from_data_frame()

bigrama_grafo_Velasco
IGRAPH 49e5247 DN-- 108 68 -- 
+ attr: name (v/c), n (e/n)
+ edges from 49e5247 (vertex names):
 [1] juan       ->fernando    fernando   ->velasco     correo     ->electrónico electrónico->requerido  
 [5] requerido  ->asunto      maría      ->paula       paula      ->romo        sector     ->cultural   
 [9] lenín      ->moreno      rafael     ->correa      ana        ->maría       andrés     ->arauz      
[13] covid      ->19          redes      ->sociales    biblioteca ->nacional    cultura    ->juan       
[17] gestores   ->culturales  lucio      ->gutiérrez   consejo    ->nacional    electoral  ->cne        
[21] nacional   ->electoral   presidente ->lenín       artes      ->vivas       gustavo    ->larrea     
[25] movimiento ->construye   césar      ->montúfar    fuerza     ->ecuador     guillermo  ->celi       
[29] guillermo  ->lasso       asamblea   ->política    carlos     ->sagnay      cultura    ->ecuatoriana
+ ... omitted several edges
bigrama_grafo_Larrea = bigramas_Larrea %>%
  count(palabra1, palabra2, sort = TRUE) %>% 
  filter(n >= 6) %>%
  graph_from_data_frame()

bigrama_grafo_Larrea
IGRAPH 4a68ae3 DN-- 210 150 -- 
+ attr: name (v/c), n (e/n)
+ edges from 4a68ae3 (vertex names):
 [1] gustavo       ->larrea       rafael        ->correa       consejo       ->nacional    
 [4] nacional      ->electoral    maría         ->paula        paula         ->romo        
 [7] electoral     ->cne          candidato     ->presidencial guillermo     ->lasso       
[10] lucio         ->gutiérrez    organizaciones->políticas    andrés        ->arauz       
[13] isidro        ->romero       correo        ->electrónico  electrónico   ->requerido   
[16] requerido     ->asunto       ecuatoriano   ->unido        gerson        ->almeida     
[19] asamblea      ->política     alianza       ->país         sociedad      ->patriótica  
[22] alexandra     ->peralta      08            ->2020         centro        ->democrático 
+ ... omitted several edges
bigrama_grafo_Freile = bigramas_Freile %>%
  count(palabra1, palabra2, sort = TRUE) %>% 
  filter(n >= 6) %>%
  graph_from_data_frame()

bigrama_grafo_Freile
IGRAPH 4af695d DN-- 190 131 -- 
+ attr: name (v/c), n (e/n)
+ edges from 4af695d (vertex names):
 [1] consejo       ->nacional     nacional      ->electoral    electoral     ->cne         
 [4] rafael        ->correa       candidato     ->presidencial organizaciones->políticas   
 [7] josé          ->freile       maría         ->paula        paula         ->romo        
[10] pedro         ->josé         lucio         ->gutiérrez    yaku          ->pérez       
[13] 08            ->2020         gustavo       ->larrea       isidro        ->romero      
[16] guillermo     ->lasso        ximena        ->peña         andrés        ->arauz       
[19] correo        ->electrónico  electrónico   ->requerido    fernando      ->velasco     
[22] gerson        ->almeida      juan          ->fernando     requerido     ->asunto      
+ ... omitted several edges
library(ggraph)
set.seed(123)

ggraph(bigrama_grafo_Velasco, layout = "fr") +
  geom_edge_link() +
  geom_node_point() +
  geom_node_label(aes(label = name), vjust = 1, hjust = 1)

ggraph(bigrama_grafo_Larrea, layout = "fr") +
  geom_edge_link() +
  geom_node_point() +
  geom_node_label(aes(label = name), vjust = 1, hjust = 1)

ggraph(bigrama_grafo_Freile, layout = "fr") +
  geom_edge_link() +
  geom_node_point() +
  geom_node_label(aes(label = name), vjust = 1, hjust = 1)

3. Nubes de palabras

Para realizar nubes de palabras, que coloquen el tamaño de las palabras acorde a su frecuencia, utilizaremos la librería wordcloud2.

library(echarts4r)
# library(stringi)
wc_Velasco = tidy_Velasco_annotated %>% 
  filter(upos %in% c("NOUN","PROPN", "ADJ", "VERB")) %>%
  count(lemma, sort=T) %>% 
  filter(n > 20) %>% 
  e_color_range(n, color) %>%
  e_charts() %>%
  e_cloud(lemma, n, color) %>% 
  e_tooltip()
wc_Velasco

4. Extracción de palabras clave

El generar conclusiones e insight de un texto con miles de líneas y palabras puede ser abordado desde varias perspectivas. Una de ellas es la extracción de palabras claves, que puede ser conseguida a través de algoritmos de NLP. Esta será entonces nuestra última misión en este capítulo.

Acorde a Thushara et al. (2019), algunos de los algoritmos de extracción de palabras clave son:

  • RAKE (Rapid Automatic Keyword Extraction): Es un algoritmo no supervisado independiente del idioma que obtiene palabras clave a través del análisis de la frecuencia y grado (co-ocurrencia) de las palabras.
  • TextRank: Es una técnica no supervisada basada en grafos que obtiene el resumen de un texto. Está basada sobretodo en etiquetado POS.
  • PositionRank: Es un algoritmo basado en grafos que busca frases al inicio de los documentos y los candidatiza a ser clave.

4.1. RAKE

La librería udpipe incluye el algoritmo RAKE para extracción de palabras clave. Este es un algoritmo no supervisado independiente del idioma que obtiene palabras clave a través del análisis de la frecuencia y grado (co-ocurrencia) de las palabras. Específicamiente, sigue estos pasos:

  • Se extraen las palabras candidatas del conjunto de palabras, después de haber quitado palabras vacías e irrelevantes.
  • Se calcula un score para cada palabra a través de:
    • Se busca cuántas veces ocurre una palabra y cuántas veces co-ocurre con otra.
    • Se construye el score como el ratio de co-ocurrencias versus frecuencia.
  • Se ordena el score de mayor a menor y las primeras serán las palabras clave.

A continuación veremos ejemplos de la aplicación de esta técnica para palabras y n-gramas.

library(udpipe)
Registered S3 method overwritten by 'data.table':
  method           from
  print.data.table     
Velasco_keywords = keywords_rake(x = tidy_Velasco, term = "lemma", group = "doc_id", relevant = tidy_Velasco$upos %in% c("NOUN", "ADJ","PROPN","VERB"), ngram_max = 3)
head(Velasco_keywords)
Larrea_keywords = keywords_rake(x = tidy_Larrea, term = "lemma", group = "doc_id", relevant = tidy_Larrea$upos %in% c("NOUN", "ADJ","PROPN","VERB"), ngram_max = 3)
head(Larrea_keywords)
Freile_keywords = keywords_rake(x = tidy_Freile, term = "lemma", group = "doc_id", relevant = tidy_Freile$upos %in% c("NOUN", "ADJ","PROPN","VERB"), ngram_max = 3)
head(Freile_keywords)

5. Bibliografía

Silge, J. & Robinson, D. (2017), Text Mining with R, a tidy approach.

Thushara, M. G., Mownika, T. & Mangamuru, R. (2019), «A comparative study on different keyword extraction algorithms», Proceedings of the 3rd International Conference on Computing Methodologies and Communication, ICCMC 2019, No. March.

---
title: "Análisis de comportamiento en redes sociales usando Procesamiento del Lenguaje Natural"
subtitle: 'Capítulo 4: Técnicas de análisis exploratorio de datos de texto'
author: Hugo Porras
output: 
  html_notebook:
    css: Estilos.css
    toc: true
    toc_depth: 2
    toc_float:
      collapsed: true
      smooth_scroll: false
bibliography: Bibliografia.bib
csl: cepal.xml
nocite: | 
  @Silge2017, @Thushara2019
---

# **1. Análisis de palabras y documentos**

<br></br>
<center><a><img width="50%" src="figs/03_EDA.png"></a></center>
<br></br>

Una de las principales preguntas que nos hacemos en tareas de mineo de texto y procesamiento del lenguaje natural es **¿cómo cuantificar de qué se trata un documento?**. Para llevar a cabo esta tarea, cuando ya tenemos los datos pre-procesados, podemos calcular medidas sobre cada uno de los tokens, es decir, podemos empezar a extraer características. Tres medidas muy usadas son:

+ **Frecuencias (term frequency)**: Esta mide qué tan frecuentemente una palabra aparece en un documento.
+ **Frecuencia inversa en documentos (inverse document frequency)**: A veces existen palabras que aparecen muchas veces pero que no son importantes. Para separar este tipo de palabras podemos utilizar el enfoque de la frecuencia inversa en documentos. Esta medida decrece conforme la palabra aparezca en más documentos.
\[idf(palabra) = ln\left(\frac{n_{\text{documentos}}}{n_{\text{documentos con el término}}}\right)\]

+ **Tf-Idf (Term frequency - inverse document frequency)**: Esta medida combina las dos anteriores. Es decir, mide la importancia de una palabra por su frecuencia general, pero la penaliza según más frecuente se haga entre varios documentos.

## **1.1. Análisis por palabras**

Como primera aproximación, veremos cuáles son las palabras más frecuentes en cada uno de los datasets de noticias que hemos venido trabajando. Para ello, primero cargaremos los datos:

```{r, message=FALSE, warning=FALSE}
library(tidyverse)
library(tidytext)

tidy_Velasco_annotated = readRDS("Caso1_Noticias/tidy_Velasco_annotated.RDS")
tidy_Velasco = tidy_Velasco_annotated %>% 
  filter(!is.na(lemma)) 

tidy_Larrea_annotated = readRDS("Caso1_Noticias/tidy_Larrea_annotated.RDS")
tidy_Larrea = tidy_Larrea_annotated %>% 
  filter(!is.na(lemma))

tidy_Freile_annotated = readRDS("Caso1_Noticias/tidy_Freile_annotated.RDS")
tidy_Freile = tidy_Freile_annotated %>% 
  filter(!is.na(lemma))

ejemplo_Velasco = unique(tidy_Velasco$doc_id)[1]
ejemplo_Larrea = unique(tidy_Larrea$doc_id)[1]
ejemplo_Freile = unique(tidy_Freile$doc_id)[2]
```

Con los datos cargados, exploraremos la frecuencia de palabras como se muestra a continuación:

```{r}
token1_Velasco = tidy_Velasco %>% 
  count(doc_id, upos, lemma, sort = TRUE) %>% 
  group_by(doc_id) %>%
  mutate(total = sum(n))

token1_Velasco %>% 
  filter(doc_id==ejemplo_Velasco) %>% 
  select(doc_id, lemma, upos, n, total) %>% 
  head()
```

```{r}
token1_Larrea = tidy_Larrea %>% 
  count(doc_id, upos, lemma, sort = TRUE) %>% 
  group_by(doc_id) %>%
  mutate(total = sum(n))

token1_Larrea %>% 
  filter(doc_id==ejemplo_Larrea) %>% 
  select(doc_id, lemma, upos, n, total) %>% 
  head()
```

```{r}
token1_Freile = tidy_Freile %>% 
  count(doc_id, upos, lemma, sort = TRUE) %>% 
  group_by(doc_id) %>%
  mutate(total = sum(n))

token1_Freile %>% 
  filter(doc_id==ejemplo_Freile) %>% 
  select(doc_id, lemma, upos, n, total) %>% 
  head()
```


Estos datos los podemos graficar para obtener mejores primeras conclusiones:

```{r fig.height = 8}
token1_Velasco %>% 
  filter(doc_id %in% unique(token1_Velasco$doc_id)[1:4]) %>% 
  filter(upos %in% c('NOUN','PROPN','VERB','ADJ')) %>% 
  group_by(doc_id, upos) %>% 
  slice_max(order_by = n/total, n=3) %>% 
  ggplot(aes(x=reorder_within(lemma, n/total, list(doc_id,upos)), y=n/total, fill = upos)) +
  geom_col() +
  scale_x_reordered()+
  coord_flip()+
  facet_wrap(vars(doc_id), scales = "free") + 
  labs(x="Frecuencia relativa de cada palabra en cada documento", y="Frecuencia",
       title = "Frecuencias relativas: Cuatro noticias de Juan Fernando Velasco")+
  theme(legend.position = "bottom")
```

Aquí podemos observar que la frecuencia relativa de las palabras va en general, máximo hasta un poco más arriba del 2% con respecto al total de palabras.

<!-- ## **1.2. Ley de Zipf** -->

<!-- En datos de texto, las distribuciones con colas largas son usuales. En una matriz término documento veremos esto reflejado en que la matriz es dispersa (tiene muchas entradas igual a cero). George Zipf, lingüista estadounidense establece respecto a estas distribuciones que **''la frecuencia relativa de aparecimiento de una palabra está inversamente relacionada con su rango''**. En efecto, al ordenar las palabras por frecuencia de mayor a menor, colocaremos su rango como un número entero, empezando en uno. -->

<!-- En R, podemos ver la ley de Zipf como: -->

<!-- ```{r} -->
<!-- rango_frec_Yunda = token1_Yunda %>%  -->
<!--   group_by(doc_id) %>%  -->
<!--   mutate(rango = row_number(),  -->
<!--          `term frequency` = n/total) -->

<!-- rango_frec_Yunda %>%  -->
<!--   filter(doc_id==ejemplo_Yunda) %>%  -->
<!--   head() -->
<!-- ``` -->

<!-- ```{r} -->
<!-- rango_frec_Viteri = token1_Viteri %>%  -->
<!--   group_by(doc_id) %>%  -->
<!--   mutate(rango = row_number(),  -->
<!--          `term frequency` = n/total) -->

<!-- rango_frec_Viteri %>%  -->
<!--   filter(doc_id==ejemplo_Viteri) %>%  -->
<!--   head() -->
<!-- ``` -->

<!-- Gráficamente: -->

<!-- ```{r} -->
<!-- rango_frec_Yunda %>%  -->
<!--   ggplot(aes(rango, `term frequency`, color = doc_id)) +  -->
<!--   geom_line(size = 1.1, alpha = 0.8, show.legend = FALSE) +  -->
<!--   scale_x_log10() + -->
<!--   scale_y_log10() + -->
<!--   labs(title = "Ley de Zipf: Jorge Yunda, Quito") -->
<!-- ``` -->

<!-- ```{r} -->
<!-- rango_frec_Viteri %>%  -->
<!--   ggplot(aes(rango, `term frequency`, color = doc_id)) +  -->
<!--   geom_line(size = 1.1, alpha = 0.8, show.legend = FALSE) +  -->
<!--   scale_x_log10() + -->
<!--   scale_y_log10() + -->
<!--   labs(title = "Ley de Zipf: Cynthia Viteri, Quito") -->
<!-- ``` -->

<!-- Como se puede observar, en efecto la relación en el rango y la frecuencia relativa de las palabras para los noticias analizadas es inversa. ¿Qué tal si estimamos esta relación a través de una regresión lineal? -->

<!-- ```{r} -->
<!-- summary(lm(log10(`term frequency`) ~ log10(rango), data = rango_frec_Yunda)) -->
<!-- ``` -->

<!-- ```{r} -->
<!-- summary(lm(log10(`term frequency`) ~ log10(rango), data = rango_frec_Viteri)) -->
<!-- ``` -->

<!-- La regresión confirma la dirección de la ley de Zipf, que gráficamente se ve como: -->

<!-- ```{r} -->
<!-- rango_frec_Yunda %>%  -->
<!--   ggplot(aes(rango, `term frequency`, color = doc_id)) +  -->
<!--   geom_abline(intercept = -1.4, slope = -0.5, color = "gray50", linetype = 2) + -->
<!--   geom_line(size = 1.1, alpha = 0.8, show.legend = FALSE) +  -->
<!--   scale_x_log10() + -->
<!--   scale_y_log10() + -->
<!--   labs(Title="Ley de Zipf ajustada por regresión: Jorge Yunda, Quito") -->
<!-- ``` -->

<!-- ```{r} -->
<!-- rango_frec_Viteri %>%  -->
<!--   ggplot(aes(rango, `term frequency`, color = doc_id)) +  -->
<!--   geom_abline(intercept = -1.5, slope = -0.4, color = "gray50", linetype = 2) + -->
<!--   geom_line(size = 1.1, alpha = 0.8, show.legend = FALSE) +  -->
<!--   scale_x_log10() + -->
<!--   scale_y_log10() + -->
<!--   labs(Title="Ley de Zipf ajustada por regresión: Cynthia Viteri, Guayaquil") -->
<!-- ``` -->

## **1.2. Tf-idf**

La medida Tf-idf lo que hace es buscar las palabras importantes en el contenido de un documento midiendo su frecuencia general y penalizándola según más frecuente se haga entre varios documentos. Es decir, buscamos las palabras frecuentes pero no comunes. 

En R esto se logra como:

```{r}
library(tidytext)
token1_Velasco = token1_Velasco %>%
  filter(upos %in% c('NOUN','PROPN','VERB','ADJ')) %>% 
  bind_tf_idf(lemma, doc_id, n)

token1_Velasco %>%
  select(-total) %>%
  arrange(desc(tf_idf))
```

La medida de tf_idf nos muestra qué palabras son más importantes dentro de cada documento, con respecto a su colección (conjunto de noticias).

Esto lo podemos observar gráficamente:

```{r fig.height = 7}
token1_Velasco %>%
  filter(doc_id %in% unique(token1_Velasco$doc_id)[1:4]) %>% 
  arrange(desc(tf_idf)) %>%
  mutate(lemma = factor(lemma, levels = rev(unique(lemma)))) %>% 
  group_by(doc_id) %>% 
  top_n(15) %>% 
  ungroup() %>%
  ggplot(aes(reorder_within(lemma, tf_idf, doc_id), tf_idf, fill = doc_id)) +
  geom_col(show.legend = FALSE) +
  scale_x_reordered()+
  labs(x = NULL, y = "tf-idf",
       title = "tf-idf: Cuatro noticias de Juan Fernando Velasco") +
  facet_wrap(~doc_id, ncol = 2, scales = "free") +
  coord_flip()
```

# **2. Análisis exploratorio de n-gramas**

Usualmente, para ver qué tan seguido una palabra *x* es seguida de una palabra *y* podemos construir un modelo relacional entre ellas, y ese será nuestro objetivo al final de este análisis.

## **2.1. Construcción de bigramas**

Para construir los bigramas (o n-gramas de dimensión dos) recordemos el código que utilizamos en la última clase, sobre los datasets de noticias originales. Trabajaremos sobre dichos datasets en pos de ver las relaciones de las palabras incluso con artículos y preposiciones.

```{r}
noticiasVelascoDF = readRDS("Caso1_Noticias/noticiasVelascoDF.RDS")
noticiasLarreaDF = readRDS("Caso1_Noticias/noticiasLarreaDF.RDS")
noticiasFreileDF = readRDS("Caso1_Noticias/noticiasFreileDF.RDS")
```

```{r}
bigramas_Velasco = noticiasVelascoDF %>%
  unnest_tokens(bigrama, Noticia, token = "ngrams", n = 2)

bigramas_Velasco %>% 
  filter(Titular==ejemplo_Velasco) %>% 
  select(Titular, bigrama)
```

```{r}
bigramas_Larrea = noticiasLarreaDF %>%
  unnest_tokens(bigrama, Noticia, token = "ngrams", n = 2)

bigramas_Larrea %>% 
  filter(Titular==ejemplo_Larrea) %>% 
  select(Titular, bigrama)
```

```{r}
bigramas_Freile = noticiasFreileDF %>%
  unnest_tokens(bigrama, Noticia, token = "ngrams", n = 2)

bigramas_Freile %>% 
  filter(Titular==ejemplo_Freile) %>% 
  select(Titular, bigrama)
```

## **2.2. Conteo y tf-idf de bigramas**

Sobre los bigramas construidos en el literal anterior realicemos el conteo de tokens, quitando primero las palabras vacías, como aprendimos en la clase anterior.

```{r}
library(readxl)
stopwords_es_1 = read_excel("Diccionarios/Stopwords/CustomStopWords.xlsx")
names(stopwords_es_1) = c("Token","Fuente")
stopwords_es_2 = tibble(Token=tm::stopwords(kind = "es"), Fuente="tm")
stopwords_es = rbind(stopwords_es_1, stopwords_es_2)
stopwords_es = stopwords_es[!duplicated(stopwords_es$Token),]
remove(stopwords_es_1, stopwords_es_2)
```


```{r}
bigramas_Velasco = bigramas_Velasco %>%
  separate(bigrama, c("palabra1", "palabra2"), sep = " ") %>%
  filter(!palabra1 %in% c(stopwords_es$Token)) %>%
  filter(!palabra2 %in% c(stopwords_es$Token))

bigramas_frec_Velasco = bigramas_Velasco %>% 
  count(Titular, palabra1, palabra2, sort = TRUE) %>% 
  unite(bigrama, palabra1, palabra2, sep = " ")

bigramas_frec_Velasco %>% select(bigrama, n) %>% head()
```

```{r}
bigramas_Larrea = bigramas_Larrea %>%
  separate(bigrama, c("palabra1", "palabra2"), sep = " ") %>%
  filter(!palabra1 %in% c(stopwords_es$Token)) %>%
  filter(!palabra2 %in% c(stopwords_es$Token))

bigramas_frec_Larrea = bigramas_Larrea %>% 
  count(Titular, palabra1, palabra2, sort = TRUE) %>% 
  unite(bigrama, palabra1, palabra2, sep = " ")

bigramas_frec_Larrea %>% select(bigrama, n) %>% head()
```

```{r}
bigramas_Freile = bigramas_Freile %>%
  separate(bigrama, c("palabra1", "palabra2"), sep = " ") %>%
  filter(!palabra1 %in% c(stopwords_es$Token)) %>%
  filter(!palabra2 %in% c(stopwords_es$Token))

bigramas_frec_Freile = bigramas_Freile %>% 
  count(Titular, palabra1, palabra2, sort = TRUE) %>% 
  unite(bigrama, palabra1, palabra2, sep = " ")

bigramas_frec_Freile %>% select(bigrama, n) %>% head()
```


Ahora, realicemos el tf-idf en estos datasets:

```{r}
bigramas_tfidf_Velasco = bigramas_frec_Velasco %>%
  bind_tf_idf(bigrama, Titular, n)

bigramas_tfidf_Velasco %>% arrange(desc(tf_idf))
```

```{r}
bigramas_tfidf_Larrea = bigramas_frec_Larrea %>%
  bind_tf_idf(bigrama, Titular, n)

bigramas_tfidf_Larrea %>% arrange(desc(tf_idf))
```

```{r}
bigramas_tfidf_Freile = bigramas_frec_Freile %>%
  bind_tf_idf(bigrama, Titular, n)

bigramas_tfidf_Freile %>% arrange(desc(tf_idf))
```


La utilidad adicional de utilizar bigramas es que podemos darle contexto al análisis de sentimientos.

## **2.3. Red de bigramas**

Cuando tenemos bigramas o n-gramas de dimensión mayor a 2, es interesante visualizar las relaciones de manera simultánea a través de un grafo. Un grafo es sencillamente la combinación de nodos interconectados. Tales grafos se pueden construir a partir de un objeto tidy ya que solo requiere de 3 variables:

+ Origen
+ Destino
+ Peso

El paquete *igraph* se vale de la librería *ggraph* para realizar grafos a partir de datos en formato tidy. Esto lo haremos como se muestra a continuación.

```{r, message=FALSE, warning=F}
library(igraph)

bigrama_grafo_Velasco = bigramas_Velasco %>%
  count(palabra1, palabra2, sort = TRUE) %>% 
  filter(n >= 6) %>%
  graph_from_data_frame()

bigrama_grafo_Velasco
```
```{r}
bigrama_grafo_Larrea = bigramas_Larrea %>%
  count(palabra1, palabra2, sort = TRUE) %>% 
  filter(n >= 6) %>%
  graph_from_data_frame()

bigrama_grafo_Larrea
```
```{r}
bigrama_grafo_Freile = bigramas_Freile %>%
  count(palabra1, palabra2, sort = TRUE) %>% 
  filter(n >= 6) %>%
  graph_from_data_frame()

bigrama_grafo_Freile
```


```{r fig.height=10, fig.width=10, warning=FALSE, message=FALSE}
library(ggraph)
set.seed(123)

ggraph(bigrama_grafo_Velasco, layout = "fr") +
  geom_edge_link() +
  geom_node_point() +
  geom_node_label(aes(label = name), vjust = 1, hjust = 1)
```

```{r fig.height=10, fig.width=10}
ggraph(bigrama_grafo_Larrea, layout = "fr") +
  geom_edge_link() +
  geom_node_point() +
  geom_node_label(aes(label = name), vjust = 1, hjust = 1)
```

```{r fig.height=10, fig.width=10}
ggraph(bigrama_grafo_Freile, layout = "fr") +
  geom_edge_link() +
  geom_node_point() +
  geom_node_label(aes(label = name), vjust = 1, hjust = 1)
```


# **3. Nubes de palabras** 

Para realizar nubes de palabras, que coloquen el tamaño de las palabras acorde a su frecuencia, utilizaremos la librería *wordcloud2*.

```{r, message=FALSE, warning=FALSE}
library(echarts4r)
# library(stringi)
wc_Velasco = tidy_Velasco_annotated %>% 
  filter(upos %in% c("NOUN","PROPN", "ADJ", "VERB")) %>%
  count(lemma, sort=T) %>% 
  filter(n > 20) %>% 
  e_color_range(n, color) %>%
  e_charts() %>%
  e_cloud(lemma, n, color) %>% 
  e_tooltip()
wc_Velasco
```

# **4. Extracción de palabras clave**

El generar conclusiones e insight de un texto con miles de líneas y palabras puede ser abordado desde varias perspectivas. Una de ellas es la extracción de palabras claves, que puede ser conseguida a través de algoritmos de NLP. Esta será entonces nuestra última misión en este capítulo.

Acorde a Thushara *et al.* (2019), algunos de los algoritmos de extracción de palabras clave son:

+ RAKE (Rapid Automatic Keyword Extraction):  Es un algoritmo no supervisado independiente del idioma que obtiene palabras clave a través del análisis de la frecuencia y grado (co-ocurrencia) de las palabras.
+ TextRank: Es una técnica no supervisada basada en grafos que obtiene el resumen de un texto. Está basada sobretodo en etiquetado POS.
+ PositionRank: Es un algoritmo basado en grafos que busca frases al inicio de los documentos y los candidatiza a ser clave.

## **4.1. RAKE**

La librería *udpipe* incluye el algoritmo RAKE para extracción de palabras clave. Este es un algoritmo no supervisado independiente del idioma que obtiene palabras clave a través del análisis de la frecuencia y grado (co-ocurrencia) de las palabras. Específicamiente, sigue estos pasos:

+ Se extraen las palabras candidatas del conjunto de palabras, después de haber quitado palabras vacías e irrelevantes.
+ Se calcula un score para cada palabra a través de:
  + Se busca cuántas veces ocurre una palabra y cuántas veces co-ocurre con otra.
  + Se construye el score como el ratio de co-ocurrencias versus frecuencia.
+ Se ordena el score de mayor a menor y las primeras serán las palabras clave.

A continuación veremos ejemplos de la aplicación de esta técnica para palabras y n-gramas.

```{r}
library(udpipe)
Velasco_keywords = keywords_rake(x = tidy_Velasco, term = "lemma", group = "doc_id", relevant = tidy_Velasco$upos %in% c("NOUN", "ADJ","PROPN","VERB"), ngram_max = 3)
head(Velasco_keywords)
```

```{r}
Larrea_keywords = keywords_rake(x = tidy_Larrea, term = "lemma", group = "doc_id", relevant = tidy_Larrea$upos %in% c("NOUN", "ADJ","PROPN","VERB"), ngram_max = 3)
head(Larrea_keywords)
```

```{r}
Freile_keywords = keywords_rake(x = tidy_Freile, term = "lemma", group = "doc_id", relevant = tidy_Freile$upos %in% c("NOUN", "ADJ","PROPN","VERB"), ngram_max = 3)
head(Freile_keywords)
```

<!-- # **5. Caso práctico** -->

<!-- Para aprobar este curso el estudiante deberá hacer un trabajo práctico con todo lo que aprendimos. -->

<!-- En base a las técnicas de obtención, estructuración, pre-procesamiento y análisis exploratorio de datos de texto revisadas en clase, definir un objetivo de análisis para un caso de estudio de selección personal. Sobre este objetivo realizar cada paso definido en la sección “Flujo de trabajo sobre datos de texto” del numeral 1.1. del capítulo 3. Es decir, el estudiante deberá: -->

<!-- + Definir un objetivo de análisis. -->
<!-- + Obtener los datos a través de web scrapping, documentos pdf o usar un dataset apropiado. -->
<!-- + Realizar la estructuración y pre-proceseamiento de los datos, incluyendo y no limitándose a: dar formato tidy a los datos, tokenizar, lematizar, realizar stemming, remover stopwords, etc. Cabe notar que, según su objetivo de estudio, la lematización y stemming podría no ser necesarias. -->
<!-- + Realizar el análisis exploratorio sobre palabras, n-gramas o algún token deseado. Se pueden usar nubes de palabras, análisis de frecuencias, grafos, y otras técnicas que el estudiante considere apropiada. -->
<!-- Como única restricción a esta tarea se establece que no se podrán utilizar los dataset de noticias ni literatura incluidas en los notebooks de las clases. -->

<!-- El tiempo límite para la entrega de la actividad se mencionará en el último día de clase, pero no será inferior a los 15 días. El análisis se entregará como un script comentado o con un cuaderno de trabajo realizado en lenguaje R sobre un IDE apropiado (RStudio, JupyterLab, JupyterNotebook, etc). -->

<!-- Aquellos trabajos sin conclusiones acerca de los resultados serán calificados con una nota de cero. -->


# **5. Bibliografía**
