1. Análisis no supervisado: Métodos de clustering

1.1. Definiciones necesarias para el análisis

Aprendizaje no supervisado: Tenemos un conjunto variable continuas o categóricas sobre las cuales deseamos aprender o descrubrir un patrón de comportamiento. Tales patrones pueden ser descubiertos a través de técnicas de reducción de dimensionalidad o técnicas de agrupamiento, las cuales son definidas brevemente a continuación.

Reducción de dimensionalidad: Los métodos de reducción de dimensionalidad consisten en resumir y visualizar la información más importante contenida en un dataset. Existen varias técnicas alrededor de esta temática, tanto si asumimos que existen patrones lineales como no lineales en los datos. A continuación se enumeran algunas de estas técnicas, clasificándolas acorde al tipo de datos con el que estemos trabajando y algunos de los paquetes existentes para su uso:

TipoVariables Tecnica Librerias
Numéricos Análisis de componentes principales, t-SNE base, FactoMineR, Rtsne
Categóricos Análisis de correspondencias múltiples FactoMiner, ade4, epMCA
Mixtos Análisis factorial mixto FactoMiner

Clustering: Las técnicas de agrupamiento o clustering nos permiten obtener conocimiento a partir del descubrimiento de patrones existentes en los datos. Específicamente, el objetivo de los métodos de clustering yacen en la identificación de grupos de objetos similares en un conjunto de datos de interés a través de una medida de similaridad entre puntos (e.g la distancia euclideana). A continuación se enumeran algunas de estas técnicas, clasificándolas acorde al tipo de datos con el que estemos trabajando y algunos de los paquetes existentes para su uso:

TipoVariables Tecnica Librerias
Numéricos k-medias, GMM, CLARA, Asignación Latente de Dirichlet LDA cluster, FactoMineR, mclust, topicmodels
Categóricos k-modas, otras medidas de distancia klaR
Mixtos k-prototypes, otras medidas de distancia clustMixType

1.2. Introducción al modelado de tópicos

Dentro del PLN, un modelo de tópicos es un algoritmo de aprendizaje del lenguaje que identifica tópicos o temáticas en las cuales las palabras que comparten un contexto similar aparecen juntas. Es muy similar a agrupar palabras similares, salvo que estamos utilizando una técnica de agrupación difusa, es decir, cada palabra va a tener una probabilidad determinada de clasificar en una temática, al igual que los documentos.

Una de las técnicas más comunes para el modelado de tópicos es la Asignación Latente de Dirichlet o LDA (aunque existen otros métodos como los modelos de tópicos correlacionados). El modelo LDA utiliza como principal insumo las matrices documento término con medidas tales como la frecuencia de palabras, idf, tf-idf, etc. Para más información puedes consultar el Capítulo 4 del curso.

Específicamente, el algoritmo de Asignación Latente de Dirichlet es un modelo generativo que permite que conjuntos de observaciones puedan ser explicados por grupos no observados que explican porqué algunas partes de los datos son similares. Por ejemplo, si las observaciones son palabras en documentos, presupone que cada documento es una mezcla de un pequeño número de categorías (también denominados como tópicos) y la aparición de cada palabra en un documento se debe a una de las categorías a las que el documento pertenece.

Para optimizar el número de tópicos creados por esta técnica se utilizan cuatro métricas desarrolladas por Arun y otros (2010), Juan y otros (2009), Deveaud, SanJuan y Bellot (2014) y Griffiths y Steyvers (2004), dos de las cuales deben ser minimizadas, y las otras dos, maximizadas, a través del entrenamiento de varios modelos de tópicos.

1.3. Caso de estudio: Agrupación de tópicos en la literatura de Howard Phillips Lovecraft

Al analizar datos provenientes de la literatura podremos descubrir que esta, a pesar de pertenecer a un género, puede realcionarse a una gran variedad de temáticas. En este caso de estudio analizaremos los datos procesados en el Capítulo 3 para obtener las principales temáticas incluidas en las obras de uno de los mejores escritores de terror del siglo XX: Howard Phillips Lovecraft, la cual ha inspirado un sinúmero de obras, incluyendo series de televisión, películas y videojuegos.

Con estas definiciones en mente, y habiendo definido el caso entre manos, podemos preparar el terreno para realizar el modelado cargando las librerías y los datos a ser usados.

# Carga de librerías
library(tm)
library(tidyverse)
library(tidytext)
library(ggrepel)
library(topicmodels)
library(ldatuning)
library(stopwords)
library(udpipe)

# Carga de datos
necronomicon_df = readRDS("Caso2_Literatura/NecronomiconDF.RDS")

2. Modelo de agrupación de tópicos

2.1. Anotación y procesamiento de las historias

Para comenzar el análisis, revisemos una de las historias disponibles:

necronomicon_df %>% filter(Titulo=="Nyarlathotep") %>% pull(Historia) %>% str(nchar.max = 500)
 chr "Y al fin vino del interior de Egipto El extraño Oscuro ante el que se inclinaban los fellás; Silencioso, descarnado, enigmáticamente altivo Y envuelto en telas rojas como las llamas del sol poniente. A su alrededor se apretaban las masas, ansiosas de sus órdenes, Pero al marcharse no podían repetir lo que habían oído; Mientras por las naciones se propagaba la pavorosa noticia De que las bestias salvajes le seguían lamiéndole las manos. Pronto comenzó en el mar un nacimiento pern"| __truncated__
Error in gregexpr(calltext, singleline, fixed = TRUE) : 
  regular expression is invalid UTF-8

Luego, es necesario que procesemos los datos de texto cargados, realizando las siguientes tareas:

  • Etiquetado morfosintáctico
  • Lematización
  • Remoción de stopwords

Esto lo logramos a través del siguiente código (guardando los datos, dado que la tarea es computacionalmente pesada).

# Eliminación de caracteres particulares
necronomicon_df = necronomicon_df %>% 
  mutate(Historia = str_squish(str_replace_all(Historia,"—"," ")))

# Anotación de datos
model_spanish = udpipe_load_model("spanish-gsd-ud-2.5-191206.udpipe")
necronomicon_tokenizado_df = udpipe_annotate(model_spanish, necronomicon_df$Historia, 
                                             doc_id = necronomicon_df$Titulo)
necronomicon_tokenizado_df = necronomicon_tokenizado_df %>% 
  as_tibble() %>% mutate(lemma=tolower(lemma))

# Filtrado de stopwords
necronomicon_tokenizado_df = necronomicon_tokenizado_df %>% 
  filter(!lemma %in% stopwords(language = "es", source = "nltk"),
         !token %in% stopwords(language = "es", source = "nltk"))

# Guardado de datos procesados
saveRDS(necronomicon_tokenizado_df, "Caso2_Literatura/necronomicon_tokenizado_df.RDS")

Observemos un ejemplo del resultado de este procesamiento.

necronomicon_tokenizado_df %>% 
  filter(doc_id=="Nyarlathotep") %>% 
  head(10)

2.2. Creación de la matriz documento-término

Una vez que los datos han sido tokenizados y anotados, podemos crear el principal insumo del análisis LDA: la matriz documento término, para ello utilizaremos únicamente sustantivos, verbos, adjetivos y nombres propios con el objetivo de eliminar del análisis todas las posibles palabras que puedan causarnos ruido.

Para lograrlo usaremos el siguiente código.

# Conteo de lemmas y tf-idf por cada documento
necronomicon_tfidf_df = necronomicon_tokenizado_df %>% 
  filter(!is.na(lemma)) %>% 
  filter(upos %in% c("VERB","ADJ","NOUN","PROPN")) %>% 
  count(doc_id, lemma) %>% 
  bind_tf_idf(lemma, doc_id, n)
  
# Creación de matriz documento término
necronomicon_dtm = necronomicon_tfidf_df %>%
  cast_dtm(doc_id, lemma, n)

necronomicon_dtm
<<DocumentTermMatrix (documents: 76, terms: 19586)>>
Non-/sparse entries: 90409/1398127
Sparsity           : 94%
Maximal term length: 35
Weighting          : term frequency (tf)

Observemos cómo se ha construido esta matriz.

as.matrix(necronomicon_dtm)[1:6,1:6]
                                              Terms
Docs                                           abalanzar abandonado abandonar abdul abertura abierto
  A Través De Las Puertas De La Llave De Plata         1          2         3     1        1       2
  Aire Frío                                            0          0         2     0        0       2
  Al Otro Lado De La Barrera Del Sueño                 0          0         2     0        0       2
  Arthur Jermyn                                        0          0         2     0        0       0
  Azathoth                                             1          0         0     0        0       0
  Celephaïs                                            0          0         0     0        0       0

2.3. Selección del número de tópicos

Una vez construida la matriz documento término, utilizaremos las cuatro medidas especificadas anteriormente para seleccionar el número óptimo de tópicos. Esto lo haremos gracias a la librería ldatuning. Cabe notar en este punto que de las medidas especificadas, dos deben ser minimizadas, mientras que las otras dos deben ser maximizadas, acorde al gráfico ejecutado.

# Selección del número óptimo de tópicos
necronomicon_ntopics = FindTopicsNumber(necronomicon_dtm,
                              topics = seq(from = 2, to = 20, by = 1),
                              metrics = c("Griffiths2004", "CaoJuan2009", "Arun2010", "Deveaud2014"),
                              method = "Gibbs",
                              control = list(seed = 123),
                              mc.cores = 4,
                              verbose = TRUE)
fit models... done.
calculate metrics:
  Griffiths2004... done.
  CaoJuan2009... done.
  Arun2010... done.
  Deveaud2014... done.
gc()
           used  (Mb) gc trigger  (Mb) max used  (Mb)
Ncells  2844982 152.0    6441458 344.1  6441458 344.1
Vcells 11174100  85.3   35197756 268.6 43997194 335.7
FindTopicsNumber_plot(necronomicon_ntopics)

Como se puede notar, para 9 tópicos dos de las medidas alcanzan casi su nivel mínimo, mientras que las otras dos casi se maximizan.

2.4. Modelado de tópicos

Una vez que hayamos seleccionado el número adecuado de tópicos, estimamos el modelo seleccionado.

# Modelo LDA final
necronomicon_lda = LDA(necronomicon_dtm, k = 9, method = "Gibbs", control = list(seed=123))

Una vez que el modelo haya sido estimado, este nos arrojará dos matrices: Beta y Gamma. La matriz Beta denota la probabilidad de cada palabra de pertenecer a cada tópico y la matriz Beta muestra la probabilidad de cada documento de pertenecer a cada tópico. Para entenderlo de mejor manera, realicemos un gráfico de cada matriz.

# Obtención de matriz beta
necronomicon_beta_lda = tidy(necronomicon_lda, matrix = "beta")

# Gráfico de palabras más probables por tópico
necronomicon_beta_lda %>%
  group_by(topic) %>%
  slice_max(order_by = beta, n = 10) %>%
  ggplot(aes(x=reorder_within(term, beta, topic), beta, fill = as.factor(topic))) +
  scale_x_reordered()+
  geom_col(show.legend = FALSE) +
  facet_wrap(vars(topic), scales = "free") +
  coord_flip()+
  labs(x="Palabra")+
  theme(text=element_text(size=11))

# Obtención de matriz beta
necronomicon_gamma_lda = tidy(necronomicon_lda, matrix = "gamma")

# Gráfico de documentos más probables por tópico
necronomicon_gamma_lda %>%
  group_by(topic) %>%
  slice_max(order_by = gamma, n = 3) %>%
  ggplot(aes(x=reorder_within(document, gamma, topic), gamma, fill = as.factor(topic))) +
  scale_x_reordered()+
  geom_col(show.legend = FALSE) +
  facet_wrap(vars(topic), scales = "free", ncol = 2) +
  coord_flip()+
  labs(x="Documento")+
  theme(text=element_text(size=11))

Como podemos observar (salvo un mejor criterio), los cuentos se encuentran agrupados dentro de temáticas similares.

Finalmente, guardaremos los resultados de las matrices Beta y Gamma con la finalidad de volverlas a visualizar (con herramientas como Word Embeddings y t-SNE) en el próximo capítulo

saveRDS(necronomicon_gamma_lda, "Caso2_Literatura/necronomicon_gamma_lda.RDS")
saveRDS(necronomicon_beta_lda, "Caso2_Literatura/necronomicon_beta_lda.RDS")

3. Bibliografía

Arun, R. y otros (2010), «On finding the natural number of topics with latent dirichlet allocation: Some observations», Advances in knowledge discovery and data mining.
Deveaud, R., SanJuan, É. & Bellot, P. (2014), «Accurate and effective latent concept modeling for ad hoc information retrieval».
Griffiths, T. L. & Steyvers, M. (2004), «Finding scientific topics», Proceedings of the National Academy of Sciences.
Juan, C. y otros (2009), «A density-based method for adaptive lda model selection», Neurocomputing.
---
title: "Análisis de comportamiento en redes sociales usando Procesamiento del Lenguaje Natural"
subtitle: 'Capítulo 8: Aprendizaje no supervisado, Clustering'
author: Hugo Porras
output:
  html_notebook:
    css: Estilos.css
    toc: true
    toc_depth: 2
    toc_float:
      collapsed: true
      smooth_scroll: false
bibliography: Bibliografia.bib
csl: cepal.xml
---

```{r echo=F, message=F, warning=F, error=FALSE}
library(kableExtra)
```


# **1. Análisis no supervisado: Métodos de clustering**

## **1.1. Definiciones necesarias para el análisis**

**Aprendizaje no supervisado:** Tenemos un conjunto variable continuas o categóricas sobre las cuales deseamos aprender o descrubrir un patrón de comportamiento. Tales patrones pueden ser descubiertos a través de técnicas de reducción de dimensionalidad o técnicas de agrupamiento, las cuales son definidas brevemente a continuación.

![](figs/08_UnsupervisedLearning.png)

**Reducción de dimensionalidad:** Los métodos de reducción de dimensionalidad consisten en resumir y visualizar la información más importante contenida en un dataset. Existen varias técnicas alrededor de esta temática, tanto si asumimos que existen patrones lineales como no lineales en los datos. A continuación se enumeran algunas de estas técnicas, clasificándolas acorde al tipo de datos con el que estemos trabajando y algunos de los paquetes existentes para su uso:

```{r, echo=FALSE}
kable_styling(kbl(data.frame("TipoVariables"=c("Numéricos","Categóricos","Mixtos"),
               "Tecnica"=c("Análisis de componentes principales, t-SNE",
                           "Análisis de correspondencias múltiples",
                           "Análisis factorial mixto"),
               "Librerias" = c("base, FactoMineR, Rtsne", "FactoMiner, ade4, epMCA", "FactoMiner"), 
               stringsAsFactors = F)))
```

**Clustering:** Las técnicas de agrupamiento o clustering nos permiten obtener conocimiento a partir del descubrimiento de patrones existentes en los datos. Específicamente, el objetivo de los métodos de clustering yacen en la identificación de grupos de objetos similares en un conjunto de datos de interés a través de una medida de similaridad entre puntos (e.g la distancia euclideana). A continuación se enumeran algunas de estas técnicas, clasificándolas acorde al tipo de datos con el que estemos trabajando y algunos de los paquetes existentes para su uso:

```{r, echo=FALSE}
library(kableExtra)
kable_styling(kbl(data.frame("TipoVariables"=c("Numéricos","Categóricos","Mixtos"),
               "Tecnica"=c("k-medias, GMM, CLARA, Asignación Latente de Dirichlet LDA",
                           "k-modas, otras medidas de distancia",
                           "k-prototypes, otras medidas de distancia"),
               "Librerias" = c("cluster, FactoMineR, mclust, topicmodels", "klaR", "clustMixType"), 
               stringsAsFactors = F)))
```

## **1.2. Introducción al modelado de tópicos**

Dentro del PLN, un modelo de tópicos es un algoritmo de aprendizaje del lenguaje que identifica tópicos o temáticas en las cuales las palabras que comparten un contexto similar aparecen juntas. Es muy similar a agrupar palabras similares, salvo que estamos utilizando una técnica de agrupación difusa, es decir, cada palabra va a tener una probabilidad determinada de clasificar en una temática, al igual que los documentos.

Una de las técnicas más comunes para el modelado de tópicos es la Asignación Latente de Dirichlet o LDA (aunque existen otros métodos como los modelos de tópicos correlacionados). El modelo LDA utiliza como principal insumo las matrices documento término con medidas tales como la frecuencia de palabras, idf, tf-idf, etc. Para más información puedes consultar el [Capítulo 4](https://rpubs.com/hugoporras/nlp_capitulo4) del curso.

Específicamente, el algoritmo de Asignación Latente de Dirichlet es un modelo generativo que permite que conjuntos de observaciones puedan ser explicados por grupos no observados que explican porqué algunas partes de los datos son similares. Por ejemplo, si las observaciones son palabras en documentos, presupone que cada documento es una mezcla de un pequeño número de categorías (también denominados como tópicos) y la aparición de cada palabra en un documento se debe a una de las categorías a las que el documento pertenece. 

Para optimizar el número de tópicos creados por esta técnica se utilizan cuatro métricas desarrolladas por @Rajkumar2010, @Juan2009, @Deveaud2014 y @Griffiths2004, dos de las cuales deben ser minimizadas, y las otras dos, maximizadas, a través del entrenamiento de varios modelos de tópicos.

![](figs/08_topic_model.png)

## **1.3. Caso de estudio: Agrupación de tópicos en la literatura de Howard Phillips Lovecraft**

Al analizar datos provenientes de la literatura podremos descubrir que esta, a pesar de pertenecer a un género, puede realcionarse a una gran variedad de temáticas. En este caso de estudio analizaremos los datos procesados en el [Capítulo 3](https://rpubs.com/hugoporras/nlp_capitulo3) para obtener las principales temáticas incluidas en las obras de uno de los mejores escritores de terror del siglo XX: Howard Phillips Lovecraft, la cual ha inspirado un sinúmero de obras, incluyendo series de televisión, películas y videojuegos.

![](figs/08_lovecraft_country.jpeg)

Con estas definiciones en mente, y habiendo definido el caso entre manos, podemos preparar el terreno para realizar el modelado cargando las librerías y los datos a ser usados.

```{r message=F, warning=F}
# Carga de librerías
library(tm)
library(tidyverse)
library(tidytext)
library(ggrepel)
library(topicmodels)
library(ldatuning)
library(stopwords)
library(udpipe)

# Carga de datos
necronomicon_df = readRDS("Caso2_Literatura/NecronomiconDF.RDS")
```

# **2. Modelo de agrupación de tópicos**

## **2.1. Anotación y procesamiento de las historias**

Para comenzar el análisis, revisemos una de las historias disponibles:

```{r}
necronomicon_df %>% filter(Titulo=="Nyarlathotep") %>% pull(Historia) %>% str(nchar.max = 500)
```

![](figs/08_nyarlathotep.jpg)

Luego, es necesario que procesemos los datos de texto cargados, realizando las siguientes tareas:

+ Etiquetado morfosintáctico
+ Lematización
+ Remoción de stopwords

Esto lo logramos a través del siguiente código (guardando los datos, dado que la tarea es computacionalmente pesada).

```{r}
# Eliminación de caracteres particulares
necronomicon_df = necronomicon_df %>% 
  mutate(Historia = str_squish(str_replace_all(Historia,"—"," ")))

# Anotación de datos
model_spanish = udpipe_load_model("spanish-gsd-ud-2.5-191206.udpipe")
necronomicon_tokenizado_df = udpipe_annotate(model_spanish, necronomicon_df$Historia, 
                                             doc_id = necronomicon_df$Titulo)
necronomicon_tokenizado_df = necronomicon_tokenizado_df %>% 
  as_tibble() %>% mutate(lemma=tolower(lemma))

# Filtrado de stopwords
necronomicon_tokenizado_df = necronomicon_tokenizado_df %>% 
  filter(!lemma %in% stopwords(language = "es", source = "nltk"),
         !token %in% stopwords(language = "es", source = "nltk"))

# Guardado de datos procesados
saveRDS(necronomicon_tokenizado_df, "Caso2_Literatura/necronomicon_tokenizado_df.RDS")
```

Observemos un ejemplo del resultado de este procesamiento.
 
```{r}
necronomicon_tokenizado_df %>% 
  filter(doc_id=="Nyarlathotep") %>% 
  head(10)
```

## **2.2. Creación de la matriz documento-término**

Una vez que los datos han sido tokenizados y anotados, podemos crear el principal insumo del análisis LDA: la matriz documento término, para ello utilizaremos únicamente sustantivos, verbos, adjetivos y nombres propios con el objetivo de eliminar del análisis todas las posibles palabras que puedan causarnos ruido. 

Para lograrlo usaremos el siguiente código.
 
```{r}
# Conteo de lemmas y tf-idf por cada documento
necronomicon_tfidf_df = necronomicon_tokenizado_df %>% 
  filter(!is.na(lemma)) %>% 
  filter(upos %in% c("VERB","ADJ","NOUN","PROPN")) %>% 
  count(doc_id, lemma) %>% 
  bind_tf_idf(lemma, doc_id, n)
  
# Creación de matriz documento término
necronomicon_dtm = necronomicon_tfidf_df %>%
  cast_dtm(doc_id, lemma, n)

necronomicon_dtm
```

Observemos cómo se ha construido esta matriz.

```{r}
as.matrix(necronomicon_dtm)[1:6,1:6]
```

## **2.3. Selección del número de tópicos**

Una vez construida la matriz documento término, utilizaremos las cuatro medidas especificadas anteriormente para seleccionar el número óptimo de tópicos. Esto lo haremos gracias a la librería *ldatuning*. Cabe notar en este punto que de las medidas especificadas, dos deben ser minimizadas, mientras que las otras dos deben ser maximizadas, acorde al gráfico ejecutado.

```{r}
# Selección del número óptimo de tópicos
necronomicon_ntopics = FindTopicsNumber(necronomicon_dtm,
                              topics = seq(from = 2, to = 20, by = 1),
                              metrics = c("Griffiths2004", "CaoJuan2009", "Arun2010", "Deveaud2014"),
                              method = "Gibbs",
                              control = list(seed = 123),
                              mc.cores = 4,
                              verbose = TRUE)
gc()
FindTopicsNumber_plot(necronomicon_ntopics)
```

Como se puede notar, para 9 tópicos dos de  las medidas alcanzan casi su nivel mínimo, mientras que las otras dos casi se maximizan.

## **2.4. Modelado de tópicos**

Una vez que hayamos seleccionado el número adecuado de tópicos, estimamos el modelo seleccionado.

```{r}
# Modelo LDA final
necronomicon_lda = LDA(necronomicon_dtm, k = 9, method = "Gibbs", control = list(seed=123))
```

Una vez que el modelo haya sido estimado, este nos arrojará dos matrices: Beta y Gamma. La matriz Beta denota la probabilidad de cada palabra de pertenecer a cada tópico y la matriz Beta muestra la probabilidad de cada documento de pertenecer a cada tópico. Para entenderlo de mejor manera, realicemos un gráfico de cada matriz.

```{r}
# Obtención de matriz beta
necronomicon_beta_lda = tidy(necronomicon_lda, matrix = "beta")

# Gráfico de palabras más probables por tópico
necronomicon_beta_lda %>%
  group_by(topic) %>%
  slice_max(order_by = beta, n = 10) %>%
  ggplot(aes(x=reorder_within(term, beta, topic), beta, fill = as.factor(topic))) +
  scale_x_reordered()+
  geom_col(show.legend = FALSE) +
  facet_wrap(vars(topic), scales = "free") +
  coord_flip()+
  labs(x="Palabra")+
  theme(text=element_text(size=11))
```

```{r}
# Obtención de matriz beta
necronomicon_gamma_lda = tidy(necronomicon_lda, matrix = "gamma")

# Gráfico de documentos más probables por tópico
necronomicon_gamma_lda %>%
  group_by(topic) %>%
  slice_max(order_by = gamma, n = 3) %>%
  ggplot(aes(x=reorder_within(document, gamma, topic), gamma, fill = as.factor(topic))) +
  scale_x_reordered()+
  geom_col(show.legend = FALSE) +
  facet_wrap(vars(topic), scales = "free", ncol = 2) +
  coord_flip()+
  labs(x="Documento")+
  theme(text=element_text(size=11))
```

Como podemos observar (salvo un mejor criterio), los cuentos se encuentran agrupados dentro de temáticas similares. 

Finalmente, guardaremos los resultados de las matrices Beta y Gamma con la finalidad de volverlas a visualizar (con herramientas como Word Embeddings y t-SNE) en el próximo capítulo

```{r}
saveRDS(necronomicon_gamma_lda, "Caso2_Literatura/necronomicon_gamma_lda.RDS")
saveRDS(necronomicon_beta_lda, "Caso2_Literatura/necronomicon_beta_lda.RDS")
```


# **3. Bibliografía**
