Paquetes necesarios

Empezamos por cargar a nuestro espacio de trabajo los paquetes que usaremos:

library(tm)
Cargando paquete requerido: NLP
library(SnowballC)
library(wordcloud)
Cargando paquete requerido: RColorBrewer
library(ggplot2)

Adjuntando el paquete: ‘ggplot2’

The following object is masked from ‘package:NLP’:

    annotate
library(dplyr)

Adjuntando el paquete: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union
library(readr)
library(cluster)

Nuestro texto: Niebla

El texto con el que trabajeremos es el texto del libro Niebla de Miguel de Unamuno que se puede descargar en Gutenberg.

Una vez hemos almacenado este documento a nuestro directorio de trabajo, procedemos a leerlo usando la función read_lines de readr.

Nuestro interés está en el contenido de este libro y no en los avisos legales de Gutenberg, prólogo y anotaciones, así que los omitiremos de la lectura. Empezaremos a leer el documento desde la línea 420, que es donde termina el prólogo, introducción e índice de Niebla, para ello nos saltaremos (skip) 419 líneas previas. De manera complementaria, detendremos la lectura en la línea 8313, que es donde inician los avisos legales de Gutenberg, por lo tanto leeremos un máximo (nmax) de 8313-419 líneas.

Realizamos estas operaciones y asignamos el resultado al objeto nov_raw.

nov_raw <- read_lines(file.choose(), skip = 419, n_max = 8313-419)

Preparación del texto

El objeto nov_raw que obtuvimos es uno de tipo character, con 7894 elementos.

str(nov_raw)
 chr [1:7894] "NIEBLA" "" "" "" "" "I" "" "" ...

Cada uno de estos elementos corresponde a un renglón de Niebla y tiene ancho máximo 70 caracteres, pues este es el ancho usado en los textos electrónicos de Gutenberg. Esta es una cantidad muy pequeña de texto para encontrar asociaciones entre palabras, por lo que necesitamos crear elementos con una mayor cantidad de caracteres en cada uno.

Por lo tanto, crearemos elementos del tamaño aproximado a un párrafo.

Creación de “párrafos”

Creamos un vector llamado diez con 10 repeticiones (rep) de los números desde 1 hasta el número de renglones en el documento, dividido entre 10 (length(nov_raw)/10.

Con esto, tendremos un vector con diez 1, luego diez 2, etc, hasta llegar al número máxico de grupos de diez posibles en función del número de renglones de nuestro documento.

Usaremos estos números para hacer grupos de diez renglones consecutivos.

diez <- rep(1:ceiling(length(nov_raw)/10), each = 10)

De este vector, nos quedamos con un número de elementos igual al número de renglones del objeto nov_raw (length(nov_raw)), para facilitar combinarlos.

diez <- diez[1:length(nov_raw)]

Combinamos diez con now_raw y los asignamos al objeto nov_text. Así tenemos una columna con los renglones de texto y otra con un número que identifica a qué grupo de diez renglones pertenece.

Además, convertimos a data.frame para que las columnas estén identificadas con un nombre, lo cual será útil en los siguientes pasos.

nov_text <- cbind(diez, nov_raw) %>% data.frame()

Como sólo necesitamos la columna con los ahora párrafos de texto, con eso nos quedamos. Aprovechamos para transformar nov_text en una matrix, pues esto nos facilitará los pasos siguientes.

nov_text <- nov_text %>% select(nov_raw) %>% as.matrix

dim(nov_text)
[1] 7894    1

Limpieza del texto

Necesitamos limpiar el texto de caracteres que son de poca utilidad en la mineria de textos.

Empezamos por aseguramos de que no queden caracteres especiales de la codificación, como saltos de línea y tabulaciones, con un poco de ayuda de Regular Expressions.

nov_text <- gsub("[[:cntrl:]]", " ", nov_text)

Convertimos todo a minúsculas.

nov_text <- tolower(nov_text)

Usamos removeWords con stopwords(“spanish”) para eliminar palabras vacias, es decir, aquellas con poco valor para el análisis, tales como algunas preposiciones y muletillas.

nov_text <- removeWords(nov_text, words = stopwords("spanish"))

Nos deshacemos de la puntuación, puesto que fin y fin. son identificadas como palabras diferentes, lo cual no deseamos.

nov_text <- removePunctuation(nov_text)

En este caso, removemos los números, pues en Niebla no hay fechas y otras cantidades que deseemos conservar.


<!-- rnb-source-begin eyJkYXRhIjoiYGBgclxubm92X3RleHQgPC0gcmVtb3ZlTnVtYmVycyhub3ZfdGV4dClcblxuYGBgIn0= -->

```r
nov_text <- removeNumbers(nov_text)

```

<!-- rnb-source-end -->
```r
nov_text <- removeNumbers(nov_text)

<!-- rnb-source-end -->


<!-- rnb-output-end -->

<!-- rnb-chunk-end -->


<!-- rnb-text-begin -->


Por último eliminamos los espacios vacios excesivos, muchos de ellos introducidos por las transformaciones anteriores.


<!-- rnb-text-end -->


<!-- rnb-chunk-begin -->


<!-- rnb-output-begin eyJkYXRhIjoiXG48IS0tIHJuYi1zb3VyY2UtYmVnaW4gZXlKa1lYUmhJam9pWUdCZ2NseHVibTkyWDNSbGVIUWdQQzBnYzNSeWFYQlhhR2wwWlhOd1lXTmxLRzV2ZGw5MFpYaDBLVnh1WEc1Z1lHQWlmUT09IC0tPlxuXG5gYGByXG5ub3ZfdGV4dCA8LSBzdHJpcFdoaXRlc3BhY2Uobm92X3RleHQpXG5cbmBgYFxuXG48IS0tIHJuYi1zb3VyY2UtZW5kIC0tPlxuIn0= -->


<!-- rnb-source-begin eyJkYXRhIjoiYGBgclxubm92X3RleHQgPC0gc3RyaXBXaGl0ZXNwYWNlKG5vdl90ZXh0KVxuXG5gYGAifQ== -->

```r
nov_text <- stripWhitespace(nov_text)

Análisis del Corpus

Con nuestro documento preparado, procedemos a crear nuestro Corpus, es decir, esto es nuestro acervo de documentos a analizar.

En nuestro caso, nuestro Corpus se compone de todos los parrafos del libro Niebla y los asignaremos al objeto nov_corpus usando las funciones VectorSource y Corpus.

nov_corpus <- Corpus(VectorSource(nov_text))

nov_corpus
<<SimpleCorpus>>
Metadata:  corpus specific: 1, document level (indexed): 0
Content:  documents: 7894

Como podemos ver, nustro Copus está compuesto por 7894 documentos. Los siguientes análisis se harán a partir de este Corpus.

# Crear la matriz TDM (Term Document Matrix)
nov_tdm <- TermDocumentMatrix(nov_corpus, control = list(
  wordLengths = c(1, Inf),
  removeNumbers = TRUE,
  removePunctuation = TRUE,
  stopwords = stopwords("spanish")
))

Nube de palabras

# Obtener las palabras y frecuencias
word_freqs <- sort(rowSums(as.matrix(nov_tdm)), decreasing = TRUE)
palabras <- names(word_freqs)
frecuencias <- word_freqs

# Crear la nube de palabras
wordcloud(palabras, frecuencias, max.words = 80, random.order = F, colors = brewer.pal(name = "Dark2", n = 8))

Podemos observar que en nuestro Corpus aun se encuentran palabras de poco interés para el análisis, tales como “usted”, “tal” y “sino”, lo cual nos indica que debemos realizar una segunda limpieza de nuestros textos.

Más depuración

Como observamos en las nubes de palabras que generamos, aún tenemos palabras que aparecen con mucha frecuencia en nuestro texto que en realidad no son de mucha utilidad para el análisis.

Usaremos la función removeWords indicando en el argumento words que palabras deseamos eliminar de nuestro Corpus.

Esta función requiere de un vector de caracteres como argumento principal, así que para esta operación usaremos nuestro objeto nov_text.

Una vez hecho esto, usaremos nuestra nueva versión de nov_text para generar nuestro Corpus y para mapearlo como documento de texto plano.

nov_text <- removeWords(nov_text, words = c("usted", "pues", "tal", "tan", "así", "dijo", "cómo", "sino", "entonces", "aunque", "don", "doña"))

# Crear un nuevo corpus con las palabras eliminadas
nov_corpus <- Corpus(VectorSource(nov_text))

# Generar la matriz TDM
nov_tdm <- TermDocumentMatrix(nov_corpus, control = list(
    wordLengths = c(1, Inf),
    removeNumbers = TRUE,
    removePunctuation = TRUE,
    stopwords = stopwords("spanish")
))

Generamos un nube de palabras nueva, en la cual es posible ver una diferencia significativa en su composición.

# Obtener las palabras y frecuencias
word_freqs <- sort(rowSums(as.matrix(nov_tdm)), decreasing = TRUE)
palabras <- names(word_freqs)
frecuencias <- word_freqs

# Crear la nube de palabras
wordcloud(palabras, frecuencias, max.words = 80, random.order = F, colors = brewer.pal(name = "Dark2", n = 8))

Una última depuración..

# Eliminar las palabras adicionales 
nov_text <- removeWords(nov_text, words = c("usted", "pues", "tal", "tan", "así", "dijo", "cómo", "sino", "entonces", "aunque", "don", "doña"))

# Eliminar caracteres "-" "?", "¿"
nov_text <- gsub("[\\-\\?\\¿\\¡\\—¡\\«\\»]", " ", nov_text) 

# Crear un nuevo corpus con las palabras eliminadas
nov_corpus <- Corpus(VectorSource(nov_text))

# Generar la matriz TDM
nov_tdm <- TermDocumentMatrix(nov_corpus, control = list(
    wordLengths = c(1, Inf),
    removeNumbers = TRUE,
    removePunctuation = TRUE,
    stopwords = stopwords("spanish")
))

# Obtener las palabras y frecuencias
word_freqs <- sort(rowSums(as.matrix(nov_tdm)), decreasing = TRUE)
palabras <- names(word_freqs)
frecuencias <- word_freqs

# Crear la nube de palabras
wordcloud(palabras, frecuencias, max.words = 80, random.order = F, colors = brewer.pal(name = "Dark2", n = 8))

Otra forma de graficarlo

library(wordcloud2)
Registered S3 method overwritten by 'htmlwidgets':
  method           from         
  print.htmlwidget tools:rstudio
##webshot::install_phantomjs()
d <- data.frame(word = palabras,freq=frecuencias)
wordcloud2(d,shape = "diamond",size = 0.4)

Análisis de sentimientos

library(tidytext)
library(textdata)
library(tidyr)
library(reshape2)

Adjuntando el paquete: ‘reshape2’

The following object is masked from ‘package:tidyr’:

    smiths

El paquete tidytext contiene 3 diccionarios distintos:

nrc<-get_sentiments("nrc")
Base_ana<-d %>% inner_join(nrc,"word") # Unimos el data de sentiemientos con nuestras palabras para que las clasifique según concordancia
Base_ana<-arrange(Base_ana,-freq) #ordenamos de forma descendente por frecuencia

Nube de palabras por sentimiento

b5<-data.frame(Base_ana %>% group_by(word,sentiment) %>% summarise(n=n())) %>% arrange(-n)
`summarise()` has grouped output by 'word'. You can override using the `.groups` argument.
b5 %>% acast(word~sentiment,fill = 0,value.var = "n") %>% #llenar los missing values con cero
  comparison.cloud(max.words = 500, #Maximo de palabras a representar
                   colors = brewer.pal(n = 10,"Paired"), #Cantidad de colores diferentes equivalente a cantidad de sentimientos
                   title.size = 1,title.colors = "black", #Color de titulos de sentimientos 
                   title.bg.colors = "white") #Resaltado de titulos

Top 10 por sentimiento

Base_ana %>% group_by(sentiment) %>% top_n(10, freq) %>% # Las 10 palabras con mayor frecuencia clasificadas por su respectivo sentimiento
  ungroup() %>%
  mutate(word=reorder(word,freq)) %>% 
  ggplot(aes(x=word,y=freq,fill=sentiment))+
  geom_col()+ # grafico de columnas
  facet_wrap(facets = ~sentiment,nrow = 3,scales = "free")+ #scales="free" para cada grafico de barra me ponga su propio eje x, es decir sus propias palabras
  coord_flip() + # De horizontal pasa a vertical
  theme_light() + theme(axis.text.y = element_text(size = 7), 
                          axis.text.x = element_text(size = 5)) + theme_bw()

Sentimientos predominantes

Base_ana %>%  group_by(sentiment) %>% summarise(n=n()) %>% 
  ungroup() %>% mutate(sentiment=reorder(sentiment,-n)) %>% 
  ggplot(aes(x=sentiment,y=n)) + geom_col(aes(fill=sentiment)) + 
  theme_classic() + labs(title="Cantidad de sentimientos encontrados",
                         y="Frecuencia",fill="Sentimiento",x="Sentimiento") + 
  theme(plot.title = element_text(face="bold",hjust = 0.5),
        legend.title = element_text(face="bold"))

