Paquetes necesarios
Empezamos por cargar a nuestro espacio de trabajo los paquetes que
usaremos:
- tm, específico para minería de textos.
- wordcloud, para graficar nubes de palabras.
- ggplot2, una gramática de gráficas que expande las funciones base de
R.
- dplyr, con funciones auxiliares para manipular y transformar datos.
En particular, el operador %>% permite escribir funciones más
legibles para seres humanos.
- readr, facilitará leer y escribir documentos.
library(tm)
Cargando paquete requerido: NLP
library(SnowballC)
library(wordcloud)
Cargando paquete requerido: RColorBrewer
library(ggplot2)
Adjuntando el paquete: ‘ggplot2’
The following object is masked from ‘package:NLP’:
annotate
library(dplyr)
Adjuntando el paquete: ‘dplyr’
The following objects are masked from ‘package:stats’:
filter, lag
The following objects are masked from ‘package:base’:
intersect, setdiff, setequal, union
library(readr)
library(cluster)
Nuestro texto: Niebla
El texto con el que trabajeremos es el texto del libro Niebla de
Miguel de Unamuno que se puede descargar en Gutenberg.
Una vez hemos almacenado este documento a nuestro directorio de
trabajo, procedemos a leerlo usando la función read_lines de readr.
Nuestro interés está en el contenido de este libro y no en los avisos
legales de Gutenberg, prólogo y anotaciones, así que los omitiremos de
la lectura. Empezaremos a leer el documento desde la línea 420, que es
donde termina el prólogo, introducción e índice de Niebla, para ello nos
saltaremos (skip) 419 líneas previas. De manera complementaria,
detendremos la lectura en la línea 8313, que es donde inician los avisos
legales de Gutenberg, por lo tanto leeremos un máximo (nmax) de 8313-419
líneas.
Realizamos estas operaciones y asignamos el resultado al objeto
nov_raw.
nov_raw <- read_lines(file.choose(), skip = 419, n_max = 8313-419)
Preparación del texto
El objeto nov_raw que obtuvimos es uno de tipo character, con 7894
elementos.
str(nov_raw)
chr [1:7894] "NIEBLA" "" "" "" "" "I" "" "" ...
Cada uno de estos elementos corresponde a un renglón de Niebla y
tiene ancho máximo 70 caracteres, pues este es el ancho usado en los
textos electrónicos de Gutenberg. Esta es una cantidad muy pequeña de
texto para encontrar asociaciones entre palabras, por lo que necesitamos
crear elementos con una mayor cantidad de caracteres en cada uno.
Por lo tanto, crearemos elementos del tamaño aproximado a un
párrafo.
Creación de “párrafos”
Creamos un vector llamado diez con 10 repeticiones (rep) de los
números desde 1 hasta el número de renglones en el documento, dividido
entre 10 (length(nov_raw)/10.
Con esto, tendremos un vector con diez 1, luego diez 2, etc, hasta
llegar al número máxico de grupos de diez posibles en función del número
de renglones de nuestro documento.
Usaremos estos números para hacer grupos de diez renglones
consecutivos.
diez <- rep(1:ceiling(length(nov_raw)/10), each = 10)
De este vector, nos quedamos con un número de elementos igual al
número de renglones del objeto nov_raw (length(nov_raw)), para facilitar
combinarlos.
diez <- diez[1:length(nov_raw)]
Combinamos diez con now_raw y los asignamos al objeto nov_text. Así
tenemos una columna con los renglones de texto y otra con un número que
identifica a qué grupo de diez renglones pertenece.
Además, convertimos a data.frame para que las columnas estén
identificadas con un nombre, lo cual será útil en los siguientes
pasos.
nov_text <- cbind(diez, nov_raw) %>% data.frame()
Como sólo necesitamos la columna con los ahora párrafos de texto, con
eso nos quedamos. Aprovechamos para transformar nov_text en una matrix,
pues esto nos facilitará los pasos siguientes.
nov_text <- nov_text %>% select(nov_raw) %>% as.matrix
dim(nov_text)
[1] 7894 1
Limpieza del texto
Necesitamos limpiar el texto de caracteres que son de poca utilidad
en la mineria de textos.
Empezamos por aseguramos de que no queden caracteres especiales de la
codificación, como saltos de línea y tabulaciones, con un poco de ayuda
de Regular Expressions.
nov_text <- gsub("[[:cntrl:]]", " ", nov_text)
Convertimos todo a minúsculas.
nov_text <- tolower(nov_text)
Usamos removeWords con stopwords(“spanish”) para eliminar palabras
vacias, es decir, aquellas con poco valor para el análisis, tales como
algunas preposiciones y muletillas.
nov_text <- removeWords(nov_text, words = stopwords("spanish"))
Nos deshacemos de la puntuación, puesto que fin y fin. son
identificadas como palabras diferentes, lo cual no deseamos.
nov_text <- removePunctuation(nov_text)
En este caso, removemos los números, pues en Niebla no hay fechas y
otras cantidades que deseemos conservar.
<!-- rnb-source-begin eyJkYXRhIjoiYGBgclxubm92X3RleHQgPC0gcmVtb3ZlTnVtYmVycyhub3ZfdGV4dClcblxuYGBgIn0= -->
```r
nov_text <- removeNumbers(nov_text)
```
<!-- rnb-source-end -->
```r
nov_text <- removeNumbers(nov_text)
<!-- rnb-source-end -->
<!-- rnb-output-end -->
<!-- rnb-chunk-end -->
<!-- rnb-text-begin -->
Por último eliminamos los espacios vacios excesivos, muchos de ellos introducidos por las transformaciones anteriores.
<!-- rnb-text-end -->
<!-- rnb-chunk-begin -->
<!-- rnb-output-begin eyJkYXRhIjoiXG48IS0tIHJuYi1zb3VyY2UtYmVnaW4gZXlKa1lYUmhJam9pWUdCZ2NseHVibTkyWDNSbGVIUWdQQzBnYzNSeWFYQlhhR2wwWlhOd1lXTmxLRzV2ZGw5MFpYaDBLVnh1WEc1Z1lHQWlmUT09IC0tPlxuXG5gYGByXG5ub3ZfdGV4dCA8LSBzdHJpcFdoaXRlc3BhY2Uobm92X3RleHQpXG5cbmBgYFxuXG48IS0tIHJuYi1zb3VyY2UtZW5kIC0tPlxuIn0= -->
<!-- rnb-source-begin eyJkYXRhIjoiYGBgclxubm92X3RleHQgPC0gc3RyaXBXaGl0ZXNwYWNlKG5vdl90ZXh0KVxuXG5gYGAifQ== -->
```r
nov_text <- stripWhitespace(nov_text)
Análisis del Corpus
Con nuestro documento preparado, procedemos a crear nuestro Corpus,
es decir, esto es nuestro acervo de documentos a analizar.
En nuestro caso, nuestro Corpus se compone de todos los parrafos del
libro Niebla y los asignaremos al objeto nov_corpus usando las funciones
VectorSource y Corpus.
nov_corpus <- Corpus(VectorSource(nov_text))
nov_corpus
<<SimpleCorpus>>
Metadata: corpus specific: 1, document level (indexed): 0
Content: documents: 7894
Como podemos ver, nustro Copus está compuesto por 7894 documentos.
Los siguientes análisis se harán a partir de este Corpus.
# Crear la matriz TDM (Term Document Matrix)
nov_tdm <- TermDocumentMatrix(nov_corpus, control = list(
wordLengths = c(1, Inf),
removeNumbers = TRUE,
removePunctuation = TRUE,
stopwords = stopwords("spanish")
))
Nube de palabras
# Obtener las palabras y frecuencias
word_freqs <- sort(rowSums(as.matrix(nov_tdm)), decreasing = TRUE)
palabras <- names(word_freqs)
frecuencias <- word_freqs
# Crear la nube de palabras
wordcloud(palabras, frecuencias, max.words = 80, random.order = F, colors = brewer.pal(name = "Dark2", n = 8))

Podemos observar que en nuestro Corpus aun se encuentran palabras de
poco interés para el análisis, tales como “usted”, “tal” y “sino”, lo
cual nos indica que debemos realizar una segunda limpieza de nuestros
textos.
Más depuración
Como observamos en las nubes de palabras que generamos, aún tenemos
palabras que aparecen con mucha frecuencia en nuestro texto que en
realidad no son de mucha utilidad para el análisis.
Usaremos la función removeWords indicando en el argumento words que
palabras deseamos eliminar de nuestro Corpus.
Esta función requiere de un vector de caracteres como argumento
principal, así que para esta operación usaremos nuestro objeto
nov_text.
Una vez hecho esto, usaremos nuestra nueva versión de nov_text para
generar nuestro Corpus y para mapearlo como documento de texto
plano.
nov_text <- removeWords(nov_text, words = c("usted", "pues", "tal", "tan", "así", "dijo", "cómo", "sino", "entonces", "aunque", "don", "doña"))
# Crear un nuevo corpus con las palabras eliminadas
nov_corpus <- Corpus(VectorSource(nov_text))
# Generar la matriz TDM
nov_tdm <- TermDocumentMatrix(nov_corpus, control = list(
wordLengths = c(1, Inf),
removeNumbers = TRUE,
removePunctuation = TRUE,
stopwords = stopwords("spanish")
))
Generamos un nube de palabras nueva, en la cual es posible ver una
diferencia significativa en su composición.
# Obtener las palabras y frecuencias
word_freqs <- sort(rowSums(as.matrix(nov_tdm)), decreasing = TRUE)
palabras <- names(word_freqs)
frecuencias <- word_freqs
# Crear la nube de palabras
wordcloud(palabras, frecuencias, max.words = 80, random.order = F, colors = brewer.pal(name = "Dark2", n = 8))

Una última depuración..
# Eliminar las palabras adicionales
nov_text <- removeWords(nov_text, words = c("usted", "pues", "tal", "tan", "así", "dijo", "cómo", "sino", "entonces", "aunque", "don", "doña"))
# Eliminar caracteres "-" "?", "¿"
nov_text <- gsub("[\\-\\?\\¿\\¡\\—¡\\«\\»]", " ", nov_text)
# Crear un nuevo corpus con las palabras eliminadas
nov_corpus <- Corpus(VectorSource(nov_text))
# Generar la matriz TDM
nov_tdm <- TermDocumentMatrix(nov_corpus, control = list(
wordLengths = c(1, Inf),
removeNumbers = TRUE,
removePunctuation = TRUE,
stopwords = stopwords("spanish")
))
# Obtener las palabras y frecuencias
word_freqs <- sort(rowSums(as.matrix(nov_tdm)), decreasing = TRUE)
palabras <- names(word_freqs)
frecuencias <- word_freqs
# Crear la nube de palabras
wordcloud(palabras, frecuencias, max.words = 80, random.order = F, colors = brewer.pal(name = "Dark2", n = 8))

Otra forma de graficarlo
library(wordcloud2)
Registered S3 method overwritten by 'htmlwidgets':
method from
print.htmlwidget tools:rstudio
##webshot::install_phantomjs()
d <- data.frame(word = palabras,freq=frecuencias)
wordcloud2(d,shape = "diamond",size = 0.4)
Análisis de sentimientos
library(tidytext)
library(textdata)
library(tidyr)
library(reshape2)
Adjuntando el paquete: ‘reshape2’
The following object is masked from ‘package:tidyr’:
smiths
El paquete tidytext contiene 3 diccionarios distintos:
- affin: asigna a cada palabra un valor entre -5 y 5. Siendo -5 el
máximo de negatividad y +5 el máximo de positividad.
- bing: clasifica las palabras de forma binaria
positivo/negativo.
- nrc: clasifica cada palabra en uno o más de los siguientes
sentimientos: positive, negative, anger, anticipation, disgust, fear,
joy, sadness, surprise, and trust.
nrc<-get_sentiments("nrc")
Base_ana<-d %>% inner_join(nrc,"word") # Unimos el data de sentiemientos con nuestras palabras para que las clasifique según concordancia
Base_ana<-arrange(Base_ana,-freq) #ordenamos de forma descendente por frecuencia
Nube de palabras por sentimiento
b5<-data.frame(Base_ana %>% group_by(word,sentiment) %>% summarise(n=n())) %>% arrange(-n)
`summarise()` has grouped output by 'word'. You can override using the `.groups` argument.
b5 %>% acast(word~sentiment,fill = 0,value.var = "n") %>% #llenar los missing values con cero
comparison.cloud(max.words = 500, #Maximo de palabras a representar
colors = brewer.pal(n = 10,"Paired"), #Cantidad de colores diferentes equivalente a cantidad de sentimientos
title.size = 1,title.colors = "black", #Color de titulos de sentimientos
title.bg.colors = "white") #Resaltado de titulos

Top 10 por sentimiento
Base_ana %>% group_by(sentiment) %>% top_n(10, freq) %>% # Las 10 palabras con mayor frecuencia clasificadas por su respectivo sentimiento
ungroup() %>%
mutate(word=reorder(word,freq)) %>%
ggplot(aes(x=word,y=freq,fill=sentiment))+
geom_col()+ # grafico de columnas
facet_wrap(facets = ~sentiment,nrow = 3,scales = "free")+ #scales="free" para cada grafico de barra me ponga su propio eje x, es decir sus propias palabras
coord_flip() + # De horizontal pasa a vertical
theme_light() + theme(axis.text.y = element_text(size = 7),
axis.text.x = element_text(size = 5)) + theme_bw()

Sentimientos predominantes
Base_ana %>% group_by(sentiment) %>% summarise(n=n()) %>%
ungroup() %>% mutate(sentiment=reorder(sentiment,-n)) %>%
ggplot(aes(x=sentiment,y=n)) + geom_col(aes(fill=sentiment)) +
theme_classic() + labs(title="Cantidad de sentimientos encontrados",
y="Frecuencia",fill="Sentimiento",x="Sentimiento") +
theme(plot.title = element_text(face="bold",hjust = 0.5),
legend.title = element_text(face="bold"))

