Librerías

Se presentan en este documento un uso, básico de dos librerías o paquetes de R, para generar nubes de palabras, ó WordCloud por su nombre en inglés. Una de ellas es wordcloud2 y la otra, wordcloud.

Además de estas librerías, es necesario hacer uso de otras librerías, que permiten la depuración del texto antes de crear la nube de palabras. Este paso es esencial en el proceso de minería de texto.

tm (para minería de texto)
SnowballC (para palabras compuestas o conjugadas)
RColorBrewer (editar el color)

Paquete `wordcloud2`

Es probablemente la mejor forma de construir nubes de palabras con R. Debemos tener en cuenta que es un widget HTML. Por lo tanto el formato de salida predeterminado es HTML, pero también es posible obtener en formato PNG, o PDF.

Haremos algunos ejemplos, con una lista de palabras (demoFreq) de demostración contenida en el paquete tm.

NOTA: para no tener inconvenientes con algunas de las funciones de la libería, se recomienda hacer su instalación desde el repositorio de GithHub. La instalación desde el CRAN, genera algunos errores cuando se usan algunas funciones como lettercloud().

Instalar el paquete

# se recomienda hacer la instalación de esta manera
devtools::install_github("lchiffon/wordcloud2")

Importar la librería

library(wordcloud2)

Ejemplo de nube de palabras

library(tm)
wordcloud2(data=demoFreq, size = 0.7)

Sintaxis

La sintaxis general de esta función es:

wordcloud2(data, size, color, backgroundcolor, shape, minrotation, maxrotation)

data = es el archivo de datos de entrada.
size = el tamaño de las palabras que serán mostradas en la gráfico de la nube.
color = será el color de las palabras.
backgroundcolor = para ajustar el color de fonde del gŕafico.
shape = la forma que tendrá la nube de palabras (star, cardioid, circle, triangle, …).
min/max rotation = el ángulo de rotación de las palabras.

Agregar colores personalizados al texto en la nube de palabras.

Haremos uso de los colores rojo y negro para dar color a las palabras.

color: random-light, random-dark.
rep_len(c()): definir color manualmente.

wordcloud2(data=demoFreq, size = 0.7, color = rep_len(c('Black','Red'), nrow(demoFreq)))

Editando el color de fondo de la nube de palabras.

wordcloud2(data=demoFreq, size = 0.7, color = 'random-light',backgroundColor = 'Black')

Crear una nube de palabras con forma personalizada

La forma de la “nube” para dibujar puede ser una palabra clave presente. Algunas formas disponibles son ‘círcle’ (predeterminado), ‘cardioid’ (curva en forma de manzana o corazón, la ecuación polar más conocida), ‘diamond’ (alias del cuadrado), ‘triangle-forward’, ‘triangle’, ‘pentagon’, y ‘star’.

wordcloud2(data=demoFreq,size = 0.5,shape = 'star')

Tambíen es posible hacer uso de imágenes importadas en formato jpg o png como máscara, para dar forma a la nube de palabras.

wordcloud2(data = demoFreq, figPath = "peaceAndLove.jpg", size = 0.5, color = "skyblue", backgroundColor="black")

Probando con imagen en formato png.

figPath = system.file("tijeras.png", package = "wordcloud2")

wordcloud2(data = demoFreq, figPath = "tijeras.png", size = 1,color = "steelblue")

Rotando el texto

En la nube de palabras puede rotar el texto en los gráficos. La función wordcloud2 ofrece características como la rotación mínima y máxima junto con la relación de rotación para facilitar los ángulos.

wordcloud2(demoFreq, size = 1, minRotation = -0.52, maxRotation = -0.52, rotateRatio = 2)

Letras Chinas

wordcloud2(demoFreqC, size = 2, fontFamily = "????????????", color = "random-light", backgroundColor = "Black")

Letra o Texto como forma de la Nube de Palabras

La función letterCloud() permite usar una letra o una palabra como máscara para la nube de palabras:

letterCloud(data = demoFreq, word = "C", color='random-light' , backgroundColor="black")

letterCloud(data = demoFreq, word = "PAZ", color="black", backgroundColor="orange")

Exportar la Nube de Palabras

Es posible exportar la nube de palabras en formato png o pdf usando RStudio, o usando la librería webshot.

# cargar wordcloud2
library(wordcloud2) 

# instalar webshot
library(webshot)
webshot::install_phantomjs()

# Construir nube de puntos
my_graph <- wordcloud2(data = demoFreq, size=1.5)

Crear la nube de palabras como un objeto html, en el directorio de trabajo.

# guardar en html
library("htmlwidgets")
saveWidget(my_graph,"tmp.html",selfcontained = FALSE)

Crea la nube de palabras como objeto pdf, y como imagen png.

# guardar in png or pdf
webshot("tmp.html","fig_1.pdf", delay =5, vwidth = 480, vheight=480)
webshot("tmp.html","fig_1.png", delay =5, vwidth = 480, vheight=480)

Paquete `wordcluod`

Para los siguientes ejemplos, usaremos fragmentos del texto, EL CONOCIMIENTO DE LA IGNORANCIA, de Karl Popper.

Creación de archivo .txt

Lo primero que haremos será copiar y pegar el texto deseado en un archivo de texto plano con extensión .txt, lo guardaremos en nuestra carpeta de trabajo.

El archivo en este caso, se llamará texto.txt.

Importar el archivo .txt

Importaremos el archivo creado en nuestro computador anteriormente. La función solicitará elegir el archivo, abriendo una ventana con ruta a las carpetas de la memoria del pc. Seleccionamos el archivo, en este caso texto.txt.

text <- readLines(file.choose())

Si se encuentra trabajando desde la IDE de RStudio, veŕa que se ha creado un objeto llamado text que es de tipo character.

NOTA: También es posible importar un archivo alojado en un sitio web a través de una URL.

# Leer archivo de texto desde internet.
filePath <- "http://www.sthda.com/sthda/RDoc/example-files/martin-luther-king-i-have-a-dream-speech.txt"
text <- readLines(filePath)

Cargar la información como Corpus

El texto se carga usando la función Corpus() del paquete de minería de texto tm. Corpus es una lista de un documento (en nuestro caso, solo tenemos un documento).

La función VectorSource() crea un corpus de vectores de caracteres.

docs <- Corpus(VectorSource(text))

Inspeccionar el contenido del documento

inspect(docs)

Transformación de la Información

La transformación se realiza usando la función tm_map() para reemplazar, por ejemplo, caracteres especiales del texto.

Por ejemplo es posible hacer el reemplazo de los caracteres /, @, |, ), (, por un espacio.

# función para reemplazar caracteres
toSpace <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))

docs <- tm_map(docs, toSpace, "/")
docs <- tm_map(docs, toSpace, "@")
docs <- tm_map(docs, toSpace, "\\|")

Limpiando el texto

La función tm_map() se usa para eliminar espacios en blanco innecesarios, para convertir el texto a minúsculas, para eliminar palabras vacías comunes como “el”, “nosotros”.

El valor de información de las “stopwords” es cercano a cero debido al hecho de que son tan comunes en un idioma. Es útil eliminar este tipo de palabras antes de realizar más análisis. Para las “stopwords”, los idiomas admitidos son danés, holandés, inglés, finlandés, francés, alemán, húngaro, italiano, noruego, portugués, ruso, español y sueco. (danish, dutch, english, finnish, french, german, hungarian, italian, norwegian, portuguese, russian, spanish and swedish).

Los nombres de los idiomas distinguen entre mayúsculas y minúsculas.

También puede eliminar números y puntuación con los argumentos removeNumbers y removePunctuation.

Otro paso importante de preprocesamiento es hacer una derivación del texto (text stemming), que reduzca las palabras a su forma original o en el caso de los verbos a su forma infinitiva. En otras palabras, este proceso elimina los sufijos de las palabras para simplificarlo y obtener el origen común. Por ejemplo, un proceso text stemming reduce las palabras “en movimiento”, “movido” y “movimiento” a la palabra raíz, “mover”.

Este proceso, requiere del paquete SnowballC.

# Convertir a letras minúsculas el texto.
docs <- tm_map(docs, content_transformer(tolower))
# Remover números
docs <- tm_map(docs, removeNumbers)
# Remover stopwords comunes
docs <- tm_map(docs, removeWords, stopwords("spanish"))
# Remover una palabra en particular.

# Se especifica las stopwords como un vector de caracteres.
#docs <- tm_map(docs, removeWords, c("blabla1", "blabla2")) 

# remover signos de puntuación
docs <- tm_map(docs, removePunctuation)
# Eliminar espacios en blanco extras.
docs <- tm_map(docs, stripWhitespace)

# Text stemming
# docs <- tm_map(docs, stemDocument)

Construir matriz de términos del documento

La matriz de documentos es una tabla que contiene la frecuencia de las palabras. Los nombres de las columnas son palabras y los nombres de las filas son documentos. La función TermDocumentMatrix() del paquete de minería de texto se puede utilizar de la siguiente manera:

#crear matriz documento de términos
dtm <- TermDocumentMatrix(docs)
matriz <- as.matrix(dtm)
# ordenar filas de la matriz en orden descendente
v <- sort(rowSums(matriz),decreasing=TRUE)
# convertir a data frame
d <- data.frame(word = names(v),freq=v)
# mostrar los primeros 10 términos que más se repiten
head(d, 10)

Generar la Nube de Palabras

La función wordcluod() recibe una base de datos.

Sintaxis
- words (vector de palabras.)
- freq (vector de frecuencias de las palabras.)
- scale (vector de longitud 2, que indica el rango del tamaño de las palabras.)
- min.freq (palabras con una frecuencia por debajo de este valor no serán mostradas.)
- max.words (Número máximo de palabras a mostrar.)
- random.order (trazar palabras en orden aleatorio. Si es falso, se trazarán con una frecuencia decreciente. )
- rot.per (proporción de palabras con rotación de 90 grados)

library(wordcloud)
library(RColorBrewer)

set.seed(4321)
wordcloud(words = d$word, freq = d$freq, scale = , min.freq = 1,
          max.words=200, random.order=FALSE, rot.per=0.35, 
          colors=brewer.pal(8, "Paired"),
          family="serif")

Referencias

LS0tCnRpdGxlOiAiTnViZSBkZSBQYWxhYnJhcyBjb24gUiIKc3VidGl0bGU6ICJIZXJyYW1pZW50YSBwYXJhIE1pbmVyw61hIGRlIFRleHRvLiIKYXV0aG9yOiAiQ1JHIgpkYXRlOiAiSnVsaW8vMjAyMSIKb3V0cHV0OiAKICBodG1sX25vdGVib29rOgogICAgdG9jOiB0cnVlCiAgICB0b2NfZmxvYXQ6IHRydWUKICAgIHRoZW1lOiByZWFkYWJsZQotLS0KCmBgYHtyIHNldHVwLCBpbmNsdWRlPUZBTFNFfQprbml0cjo6b3B0c19jaHVuayRzZXQoZWNobyA9IFRSVUUpCmBgYAoKCiMgTGlicmVyw61hcwoKU2UgcHJlc2VudGFuIGVuIGVzdGUgZG9jdW1lbnRvIHVuIHVzbywgYsOhc2ljbyBkZSBkb3MgbGlicmVyw61hcyBvIHBhcXVldGVzIGRlIFIsIHBhcmEgZ2VuZXJhciBudWJlcyBkZSBwYWxhYnJhcywgw7MgKldvcmRDbG91ZCogcG9yIHN1IG5vbWJyZSBlbiBpbmdsw6lzLiBVbmEgZGUgZWxsYXMgZXMgYHdvcmRjbG91ZDJgIHkgbGEgb3RyYSwgYHdvcmRjbG91ZGAuCgpBZGVtw6FzIGRlIGVzdGFzIGxpYnJlcsOtYXMsIGVzIG5lY2VzYXJpbyBoYWNlciB1c28gZGUgb3RyYXMgbGlicmVyw61hcywgcXVlIHBlcm1pdGVuIGxhIGRlcHVyYWNpw7NuIGRlbCB0ZXh0byBhbnRlcyBkZSBjcmVhciBsYSBudWJlIGRlIHBhbGFicmFzLiBFc3RlIHBhc28gZXMgZXNlbmNpYWwgZW4gZWwgcHJvY2VzbyBkZSBtaW5lcsOtYSBkZSB0ZXh0by4KCiogYHRtYCAocGFyYSBtaW5lcsOtYSBkZSB0ZXh0bykgCiogYFNub3diYWxsQ2AgKHBhcmEgcGFsYWJyYXMgY29tcHVlc3RhcyBvIGNvbmp1Z2FkYXMpCiogYFJDb2xvckJyZXdlcmAgKGVkaXRhciBlbCBjb2xvcikKCgojIFBhcXVldGUgYHdvcmRjbG91ZDJgCgpFcyBwcm9iYWJsZW1lbnRlIGxhIG1lam9yIGZvcm1hIGRlIGNvbnN0cnVpciBudWJlcyBkZSBwYWxhYnJhcyBjb24gUi4gRGViZW1vcyB0ZW5lciBlbiBjdWVudGEgcXVlIGVzIHVuIHdpZGdldCBIVE1MLiBQb3IgbG8gdGFudG8gZWwgZm9ybWF0byBkZSBzYWxpZGEgcHJlZGV0ZXJtaW5hZG8gZXMgSFRNTCwgcGVybyB0YW1iacOpbiBlcyBwb3NpYmxlIG9idGVuZXIgZW4gZm9ybWF0byBQTkcsIG8gUERGLgoKSGFyZW1vcyBhbGd1bm9zIGVqZW1wbG9zLCBjb24gdW5hIGxpc3RhIGRlIHBhbGFicmFzIChgZGVtb0ZyZXFgKSBkZSBkZW1vc3RyYWNpw7NuIGNvbnRlbmlkYSBlbiBlbCBwYXF1ZXRlIGB0bWAuCgo+IE5PVEE6IHBhcmEgbm8gdGVuZXIgaW5jb252ZW5pZW50ZXMgY29uIGFsZ3VuYXMgZGUgbGFzIGZ1bmNpb25lcyBkZSBsYSBsaWJlcsOtYSwgc2UgcmVjb21pZW5kYSBoYWNlciBzdSBpbnN0YWxhY2nDs24gZGVzZGUgZWwgcmVwb3NpdG9yaW8gZGUgW0dpdGhIdWJdKGh0dHBzOi8vZ2l0aHViLmNvbS9sY2hpZmZvbi93b3JkY2xvdWQyKS4gTGEgaW5zdGFsYWNpw7NuIGRlc2RlIGVsIENSQU4sIGdlbmVyYSBhbGd1bm9zIGVycm9yZXMgY3VhbmRvIHNlIHVzYW4gYWxndW5hcyBmdW5jaW9uZXMgY29tbyBgbGV0dGVyY2xvdWQoKWAuIAoKCiogKipJbnN0YWxhciBlbCBwYXF1ZXRlKioKYGBge3IsIGV2YWw9RkFMU0V9CiMgc2UgcmVjb21pZW5kYSBoYWNlciBsYSBpbnN0YWxhY2nDs24gZGUgZXN0YSBtYW5lcmEKZGV2dG9vbHM6Omluc3RhbGxfZ2l0aHViKCJsY2hpZmZvbi93b3JkY2xvdWQyIikKYGBgCgo8YnI+CgoqICoqSW1wb3J0YXIgbGEgbGlicmVyw61hKioKYGBge3J9CmxpYnJhcnkod29yZGNsb3VkMikKYGBgCgo8YnI+CgoqICoqRWplbXBsbyBkZSBudWJlIGRlIHBhbGFicmFzKioKCmBgYHtyLCBmaWcud2lkdGg9NywgZmlnLmhlaWdodD01fQpsaWJyYXJ5KHRtKQp3b3JkY2xvdWQyKGRhdGE9ZGVtb0ZyZXEsIHNpemUgPSAwLjcpCmBgYAoKIyMgU2ludGF4aXMKCkxhIHNpbnRheGlzIGdlbmVyYWwgZGUgZXN0YSBmdW5jacOzbiBlczoKCioqYHdvcmRjbG91ZDIoZGF0YSwgc2l6ZSwgY29sb3IsIGJhY2tncm91bmRjb2xvciwgc2hhcGUsIG1pbnJvdGF0aW9uLCBtYXhyb3RhdGlvbilgKioKCiogYGRhdGFgID0gZXMgZWwgYXJjaGl2byBkZSBkYXRvcyBkZSBlbnRyYWRhLgoqIGBzaXplYCA9IGVsIHRhbWHDsW8gZGUgbGFzIHBhbGFicmFzIHF1ZSBzZXLDoW4gbW9zdHJhZGFzIGVuIGxhIGdyw6FmaWNvIGRlIGxhIG51YmUuCiogYGNvbG9yYCA9IHNlcsOhIGVsIGNvbG9yIGRlIGxhcyBwYWxhYnJhcy4KKiBgYmFja2dyb3VuZGNvbG9yYCA9IHBhcmEgYWp1c3RhciBlbCBjb2xvciBkZSBmb25kZSBkZWwgZ8WVYWZpY28uCiogYHNoYXBlYCA9IGxhIGZvcm1hIHF1ZSB0ZW5kcsOhIGxhIG51YmUgZGUgcGFsYWJyYXMgKHN0YXIsIGNhcmRpb2lkLCBjaXJjbGUsIHRyaWFuZ2xlLCAuLi4pLgoqIGBtaW4vbWF4IHJvdGF0aW9uYCA9IGVsIMOhbmd1bG8gZGUgcm90YWNpw7NuIGRlIGxhcyBwYWxhYnJhcy4KCgojIyBBZ3JlZ2FyIGNvbG9yZXMgcGVyc29uYWxpemFkb3MgYWwgdGV4dG8gZW4gbGEgbnViZSBkZSBwYWxhYnJhcy4KCkhhcmVtb3MgdXNvIGRlIGxvcyBjb2xvcmVzIHJvam8geSBuZWdybyBwYXJhIGRhciBjb2xvciBhIGxhcyBwYWxhYnJhcy4KCiogYGNvbG9yOmAgcmFuZG9tLWxpZ2h0LCByYW5kb20tZGFyay4KKiBgcmVwX2xlbihjKCkpOmAgZGVmaW5pciBjb2xvciBtYW51YWxtZW50ZS4KCmBgYHtyfQp3b3JkY2xvdWQyKGRhdGE9ZGVtb0ZyZXEsIHNpemUgPSAwLjcsIGNvbG9yID0gcmVwX2xlbihjKCdCbGFjaycsJ1JlZCcpLCBucm93KGRlbW9GcmVxKSkpCmBgYAoKPCEtLSAhW10ocm9qb25lZ3JvLnBuZykgLS0+CgojIyBFZGl0YW5kbyBlbCBjb2xvciBkZSBmb25kbyBkZSBsYSBudWJlIGRlIHBhbGFicmFzLgoKCmBgYHtyfQp3b3JkY2xvdWQyKGRhdGE9ZGVtb0ZyZXEsIHNpemUgPSAwLjcsIGNvbG9yID0gJ3JhbmRvbS1saWdodCcsYmFja2dyb3VuZENvbG9yID0gJ0JsYWNrJykKYGBgCgo8IS0tICFbXShmb25kb25lZ3JvLnBuZykgLS0+CgoKIyMgQ3JlYXIgdW5hIG51YmUgZGUgcGFsYWJyYXMgY29uIGZvcm1hIHBlcnNvbmFsaXphZGEgCgpMYSBmb3JtYSBkZSBsYSAibnViZSIgcGFyYSBkaWJ1amFyIHB1ZWRlIHNlciB1bmEgcGFsYWJyYSBjbGF2ZSBwcmVzZW50ZS4gQWxndW5hcyBmb3JtYXMgZGlzcG9uaWJsZXMgc29uICdjw61yY2xlJyAocHJlZGV0ZXJtaW5hZG8pLCAnY2FyZGlvaWQnIChjdXJ2YSBlbiBmb3JtYSBkZSBtYW56YW5hIG8gY29yYXrDs24sIGxhIGVjdWFjacOzbiBwb2xhciBtw6FzIGNvbm9jaWRhKSwgJ2RpYW1vbmQnIChhbGlhcyBkZWwgY3VhZHJhZG8pLCAndHJpYW5nbGUtZm9yd2FyZCcsICd0cmlhbmdsZScsICdwZW50YWdvbicsIHkgJ3N0YXInLiAKCmBgYHtyfQp3b3JkY2xvdWQyKGRhdGE9ZGVtb0ZyZXEsc2l6ZSA9IDAuNSxzaGFwZSA9ICdzdGFyJykKYGBgCgo8IS0tICFbXShlc3RyZWxsYS5wbmcpIC0tPgoKClRhbWLDrWVuIGVzIHBvc2libGUgaGFjZXIgdXNvIGRlIGltw6FnZW5lcyBpbXBvcnRhZGFzIGVuIGZvcm1hdG8ganBnIG8gcG5nIGNvbW8gbcOhc2NhcmEsICBwYXJhIGRhciBmb3JtYSBhIGxhIG51YmUgZGUgcGFsYWJyYXMuCgpgYGB7ciwgZXZhbD1GQUxTRX0Kd29yZGNsb3VkMihkYXRhID0gZGVtb0ZyZXEsIGZpZ1BhdGggPSAicGVhY2VBbmRMb3ZlLmpwZyIsIHNpemUgPSAwLjUsIGNvbG9yID0gInNreWJsdWUiLCBiYWNrZ3JvdW5kQ29sb3I9ImJsYWNrIikKYGBgCgohW10ocGF6eWFtb3IucG5nKQoKUHJvYmFuZG8gY29uIGltYWdlbiBlbiBmb3JtYXRvIHBuZy4KCmBgYHtyLCBldmFsPUZBTFNFfQpmaWdQYXRoID0gc3lzdGVtLmZpbGUoInRpamVyYXMucG5nIiwgcGFja2FnZSA9ICJ3b3JkY2xvdWQyIikKCndvcmRjbG91ZDIoZGF0YSA9IGRlbW9GcmVxLCBmaWdQYXRoID0gInRpamVyYXMucG5nIiwgc2l6ZSA9IDEsY29sb3IgPSAic3RlZWxibHVlIikKYGBgCgohW10odGlqZXJwYWwucG5nKQoKPGJyPgoKIyMgUm90YW5kbyBlbCB0ZXh0bwoKRW4gbGEgbnViZSBkZSBwYWxhYnJhcyBwdWVkZSByb3RhciBlbCB0ZXh0byBlbiBsb3MgZ3LDoWZpY29zLiBMYSBmdW5jacOzbiB3b3JkY2xvdWQyIG9mcmVjZSBjYXJhY3RlcsOtc3RpY2FzIGNvbW8gbGEgcm90YWNpw7NuIG3DrW5pbWEgeSBtw6F4aW1hIGp1bnRvIGNvbiBsYSByZWxhY2nDs24gZGUgcm90YWNpw7NuIHBhcmEgZmFjaWxpdGFyIGxvcyDDoW5ndWxvcy4gCgpgYGB7cn0Kd29yZGNsb3VkMihkZW1vRnJlcSwgc2l6ZSA9IDEsIG1pblJvdGF0aW9uID0gLTAuNTIsIG1heFJvdGF0aW9uID0gLTAuNTIsIHJvdGF0ZVJhdGlvID0gMikKYGBgCjwhLS0gIVtdKHJvdGFkby5wbmcpIC0tPgoKCiMjIExldHJhcyBDaGluYXMKCmBgYHtyfQp3b3JkY2xvdWQyKGRlbW9GcmVxQywgc2l6ZSA9IDIsIGZvbnRGYW1pbHkgPSAiPz8/Pz8/Pz8/Pz8/IiwgY29sb3IgPSAicmFuZG9tLWxpZ2h0IiwgYmFja2dyb3VuZENvbG9yID0gIkJsYWNrIikKYGBgCgo8IS0tICFbXShjaGluYXMucG5nKSAtLT4KCiMjIExldHJhIG8gVGV4dG8gY29tbyBmb3JtYSBkZSBsYSBOdWJlIGRlIFBhbGFicmFzCgpMYSBmdW5jacOzbiBgbGV0dGVyQ2xvdWQoKWAgcGVybWl0ZSB1c2FyIHVuYSBsZXRyYSBvIHVuYSBwYWxhYnJhIGNvbW8gbcOhc2NhcmEgcGFyYSBsYSBudWJlIGRlIHBhbGFicmFzOiAKCgpgYGB7ciwgZXZhbD1GQUxTRX0KbGV0dGVyQ2xvdWQoZGF0YSA9IGRlbW9GcmVxLCB3b3JkID0gIkMiLCBjb2xvcj0ncmFuZG9tLWxpZ2h0JyAsIGJhY2tncm91bmRDb2xvcj0iYmxhY2siKQpgYGAKCiFbXShsYWMucG5nKQoKPGJyPgoKYGBge3IsIGV2YWw9RkFMU0V9CmxldHRlckNsb3VkKGRhdGEgPSBkZW1vRnJlcSwgd29yZCA9ICJQQVoiLCBjb2xvcj0iYmxhY2siLCBiYWNrZ3JvdW5kQ29sb3I9Im9yYW5nZSIpCmBgYAoKIVtdKHBhenBhbC5wbmcpCgoKIyBFeHBvcnRhciBsYSBOdWJlIGRlIFBhbGFicmFzCgpFcyBwb3NpYmxlIGV4cG9ydGFyIGxhIG51YmUgZGUgcGFsYWJyYXMgZW4gZm9ybWF0byBwbmcgbyBwZGYgdXNhbmRvIFJTdHVkaW8sIG8gdXNhbmRvIGxhIGxpYnJlcsOtYSBgd2Vic2hvdGAuCgoKYGBge3IsIGV2YWw9RkFMU0V9CiMgY2FyZ2FyIHdvcmRjbG91ZDIKbGlicmFyeSh3b3JkY2xvdWQyKSAKCiMgaW5zdGFsYXIgd2Vic2hvdApsaWJyYXJ5KHdlYnNob3QpCndlYnNob3Q6Omluc3RhbGxfcGhhbnRvbWpzKCkKCiMgQ29uc3RydWlyIG51YmUgZGUgcHVudG9zCm15X2dyYXBoIDwtIHdvcmRjbG91ZDIoZGF0YSA9IGRlbW9GcmVxLCBzaXplPTEuNSkKCmBgYAoKPGJyPgoKKiBDcmVhciBsYSBudWJlIGRlIHBhbGFicmFzIGNvbW8gdW4gb2JqZXRvIGh0bWwsIGVuIGVsIGRpcmVjdG9yaW8gZGUgdHJhYmFqby4KCmBgYHtyLCBldmFsPUZBTFNFfQojIGd1YXJkYXIgZW4gaHRtbApsaWJyYXJ5KCJodG1sd2lkZ2V0cyIpCnNhdmVXaWRnZXQobXlfZ3JhcGgsInRtcC5odG1sIixzZWxmY29udGFpbmVkID0gRkFMU0UpCmBgYAoKPGJyPgoKKiBDcmVhIGxhIG51YmUgZGUgcGFsYWJyYXMgY29tbyBvYmpldG8gcGRmLCB5IGNvbW8gaW1hZ2VuIHBuZy4KCmBgYHtyLCBldmFsPUZBTFNFfQojIGd1YXJkYXIgaW4gcG5nIG9yIHBkZgp3ZWJzaG90KCJ0bXAuaHRtbCIsImZpZ18xLnBkZiIsIGRlbGF5ID01LCB2d2lkdGggPSA0ODAsIHZoZWlnaHQ9NDgwKQp3ZWJzaG90KCJ0bXAuaHRtbCIsImZpZ18xLnBuZyIsIGRlbGF5ID01LCB2d2lkdGggPSA0ODAsIHZoZWlnaHQ9NDgwKQpgYGAKCgoKIyBQYXF1ZXRlIGB3b3JkY2x1b2RgCgpQYXJhIGxvcyBzaWd1aWVudGVzIGVqZW1wbG9zLCB1c2FyZW1vcyBmcmFnbWVudG9zIGRlbCB0ZXh0bywgKkVMIENPTk9DSU1JRU5UTyBERSBMQSBJR05PUkFOQ0lBKiwgZGUgS2FybCBQb3BwZXIuIAoKCiMjIENyZWFjacOzbiBkZSBhcmNoaXZvIC50eHQKCkxvIHByaW1lcm8gcXVlIGhhcmVtb3Mgc2Vyw6EgY29waWFyIHkgcGVnYXIgZWwgdGV4dG8gZGVzZWFkbyBlbiB1biBhcmNoaXZvIGRlIHRleHRvIHBsYW5vIGNvbiBleHRlbnNpw7NuIGAudHh0YCwgbG8gZ3VhcmRhcmVtb3MgZW4gbnVlc3RyYSBjYXJwZXRhIGRlIHRyYWJham8uCgpFbCBhcmNoaXZvIGVuIGVzdGUgY2Fzbywgc2UgbGxhbWFyw6EgYHRleHRvLnR4dGAuCgoKIyMgSW1wb3J0YXIgZWwgYXJjaGl2byAudHh0CgpJbXBvcnRhcmVtb3MgZWwgYXJjaGl2byBjcmVhZG8gZW4gbnVlc3RybyBjb21wdXRhZG9yIGFudGVyaW9ybWVudGUuIExhIGZ1bmNpw7NuIHNvbGljaXRhcsOhIGVsZWdpciBlbCBhcmNoaXZvLCBhYnJpZW5kbyB1bmEgdmVudGFuYSAgY29uIHJ1dGEgYSBsYXMgY2FycGV0YXMgZGUgbGEgbWVtb3JpYSBkZWwgcGMuIFNlbGVjY2lvbmFtb3MgZWwgYXJjaGl2bywgZW4gZXN0ZSBjYXNvIGB0ZXh0by50eHRgLgoKCmBgYHtyLCBldmFsPUZBTFNFfQp0ZXh0IDwtIHJlYWRMaW5lcyhmaWxlLmNob29zZSgpKQpgYGAKClNpIHNlIGVuY3VlbnRyYSB0cmFiYWphbmRvIGRlc2RlIGxhIElERSBkZSBSU3R1ZGlvLCB2ZcWVYSBxdWUgc2UgaGEgY3JlYWRvIHVuIG9iamV0byBsbGFtYWRvIGB0ZXh0YCBxdWUgZXMgZGUgdGlwbyAqY2hhcmFjdGVyKi4KCjxicj4KCj4gTk9UQTogVGFtYmnDqW4gZXMgcG9zaWJsZSBpbXBvcnRhciB1biBhcmNoaXZvIGFsb2phZG8gZW4gdW4gc2l0aW8gd2ViIGEgdHJhdsOpcyBkZSB1bmEgVVJMLgoKYGBge3IsIGV2YWw9RkFMU0V9CiMgTGVlciBhcmNoaXZvIGRlIHRleHRvIGRlc2RlIGludGVybmV0LgpmaWxlUGF0aCA8LSAiaHR0cDovL3d3dy5zdGhkYS5jb20vc3RoZGEvUkRvYy9leGFtcGxlLWZpbGVzL21hcnRpbi1sdXRoZXIta2luZy1pLWhhdmUtYS1kcmVhbS1zcGVlY2gudHh0Igp0ZXh0IDwtIHJlYWRMaW5lcyhmaWxlUGF0aCkKYGBgCgoKIyMgQ2FyZ2FyIGxhIGluZm9ybWFjacOzbiBjb21vICoqQ29ycHVzKioKCkVsIHRleHRvIHNlIGNhcmdhIHVzYW5kbyBsYSBmdW5jacOzbiBgQ29ycHVzKClgIGRlbCBwYXF1ZXRlIGRlIG1pbmVyw61hIGRlIHRleHRvIGB0bWAuIENvcnB1cyBlcyB1bmEgbGlzdGEgZGUgdW4gZG9jdW1lbnRvIChlbiBudWVzdHJvIGNhc28sIHNvbG8gdGVuZW1vcyB1biBkb2N1bWVudG8pLgoKTGEgZnVuY2nDs24gYFZlY3RvclNvdXJjZSgpYCBjcmVhIHVuIGNvcnB1cyBkZSB2ZWN0b3JlcyBkZSBjYXJhY3RlcmVzLgoKYGBge3J9CmRvY3MgPC0gQ29ycHVzKFZlY3RvclNvdXJjZSh0ZXh0KSkKYGBgCgoqIEluc3BlY2Npb25hciBlbCBjb250ZW5pZG8gZGVsIGRvY3VtZW50bwoKYGBge3IsIGV2YWw9RkFMU0V9Cmluc3BlY3QoZG9jcykKYGBgCgojIyBUcmFuc2Zvcm1hY2nDs24gZGUgbGEgSW5mb3JtYWNpw7NuCgpMYSB0cmFuc2Zvcm1hY2nDs24gc2UgcmVhbGl6YSB1c2FuZG8gbGEgZnVuY2nDs24gYHRtX21hcCgpYCBwYXJhIHJlZW1wbGF6YXIsIHBvciBlamVtcGxvLCBjYXJhY3RlcmVzIGVzcGVjaWFsZXMgZGVsIHRleHRvLiAKClBvciBlamVtcGxvIGVzIHBvc2libGUgaGFjZXIgZWwgcmVlbXBsYXpvIGRlIGxvcyBjYXJhY3RlcmVzIGAvYCwgYEBgLCBgfGAsIGApYCwgYChgLCAgcG9yIHVuIGVzcGFjaW8uCgpgYGB7ciwgd2FybmluZz1GQUxTRX0KIyBmdW5jacOzbiBwYXJhIHJlZW1wbGF6YXIgY2FyYWN0ZXJlcwp0b1NwYWNlIDwtIGNvbnRlbnRfdHJhbnNmb3JtZXIoZnVuY3Rpb24gKHggLCBwYXR0ZXJuICkgZ3N1YihwYXR0ZXJuLCAiICIsIHgpKQoKZG9jcyA8LSB0bV9tYXAoZG9jcywgdG9TcGFjZSwgIi8iKQpkb2NzIDwtIHRtX21hcChkb2NzLCB0b1NwYWNlLCAiQCIpCmRvY3MgPC0gdG1fbWFwKGRvY3MsIHRvU3BhY2UsICJcXHwiKQpgYGAKCgojIyBMaW1waWFuZG8gZWwgdGV4dG8KCkxhIGZ1bmNpw7NuIGB0bV9tYXAoKWAgc2UgdXNhIHBhcmEgZWxpbWluYXIgZXNwYWNpb3MgZW4gYmxhbmNvIGlubmVjZXNhcmlvcywgcGFyYSBjb252ZXJ0aXIgZWwgdGV4dG8gYSBtaW7DunNjdWxhcywgcGFyYSBlbGltaW5hciBwYWxhYnJhcyB2YWPDrWFzIGNvbXVuZXMgY29tbyAiZWwiLCAibm9zb3Ryb3MiLgoKRWwgdmFsb3IgZGUgaW5mb3JtYWNpw7NuIGRlIGxhcyAiW3N0b3B3b3Jkc10oaHR0cHM6Ly9lbi53aWtpcGVkaWEub3JnL3dpa2kvU3RvcF93b3JkKSIgZXMgY2VyY2FubyBhIGNlcm8gZGViaWRvIGFsIGhlY2hvIGRlIHF1ZSBzb24gdGFuIGNvbXVuZXMgZW4gdW4gaWRpb21hLiBFcyDDunRpbCBlbGltaW5hciBlc3RlIHRpcG8gZGUgcGFsYWJyYXMgYW50ZXMgZGUgcmVhbGl6YXIgbcOhcyBhbsOhbGlzaXMuIFBhcmEgbGFzICJzdG9wd29yZHMiLCBsb3MgaWRpb21hcyBhZG1pdGlkb3Mgc29uIGRhbsOpcywgaG9sYW5kw6lzLCBpbmdsw6lzLCBmaW5sYW5kw6lzLCBmcmFuY8OpcywgYWxlbcOhbiwgaMO6bmdhcm8sIGl0YWxpYW5vLCBub3J1ZWdvLCBwb3J0dWd1w6lzLCBydXNvLCBlc3Bhw7FvbCB5IHN1ZWNvLiAoYGRhbmlzaCwgZHV0Y2gsIGVuZ2xpc2gsIGZpbm5pc2gsIGZyZW5jaCwgZ2VybWFuLCBodW5nYXJpYW4sIGl0YWxpYW4sIG5vcndlZ2lhbiwgcG9ydHVndWVzZSwgcnVzc2lhbiwgc3BhbmlzaCBhbmQgc3dlZGlzaGApLgoKTG9zIG5vbWJyZXMgZGUgbG9zIGlkaW9tYXMgZGlzdGluZ3VlbiBlbnRyZSBtYXnDunNjdWxhcyB5IG1pbsO6c2N1bGFzLgoKVGFtYmnDqW4gcHVlZGUgZWxpbWluYXIgbsO6bWVyb3MgeSBwdW50dWFjacOzbiBjb24gbG9zIGFyZ3VtZW50b3MgYHJlbW92ZU51bWJlcnNgIHkgYHJlbW92ZVB1bmN0dWF0aW9uYC4KCk90cm8gcGFzbyBpbXBvcnRhbnRlIGRlIHByZXByb2Nlc2FtaWVudG8gZXMgaGFjZXIgdW5hIGRlcml2YWNpw7NuIGRlbCB0ZXh0byAoKip0ZXh0IHN0ZW1taW5nKiopLCAgcXVlIHJlZHV6Y2EgbGFzIHBhbGFicmFzIGEgc3UgZm9ybWEgb3JpZ2luYWwgbyBlbiBlbCBjYXNvIGRlIGxvcyB2ZXJib3MgYSBzdSBmb3JtYSBpbmZpbml0aXZhLiBFbiBvdHJhcyBwYWxhYnJhcywgZXN0ZSBwcm9jZXNvIGVsaW1pbmEgbG9zIHN1Zmlqb3MgZGUgbGFzIHBhbGFicmFzIHBhcmEgc2ltcGxpZmljYXJsbyB5IG9idGVuZXIgZWwgb3JpZ2VuIGNvbcO6bi4gUG9yIGVqZW1wbG8sIHVuIHByb2Nlc28gKip0ZXh0IHN0ZW1taW5nKiogcmVkdWNlIGxhcyBwYWxhYnJhcyAiZW4gbW92aW1pZW50byIsICJtb3ZpZG8iIHkgIm1vdmltaWVudG8iIGEgbGEgcGFsYWJyYSByYcOteiwgIm1vdmVyIi4gCgpFc3RlIHByb2Nlc28sIHJlcXVpZXJlIGRlbCBwYXF1ZXRlIGBTbm93YmFsbENgLgoKYGBge3IsIHdhcm5pbmc9RkFMU0V9CiMgQ29udmVydGlyIGEgbGV0cmFzIG1pbsO6c2N1bGFzIGVsIHRleHRvLgpkb2NzIDwtIHRtX21hcChkb2NzLCBjb250ZW50X3RyYW5zZm9ybWVyKHRvbG93ZXIpKQojIFJlbW92ZXIgbsO6bWVyb3MKZG9jcyA8LSB0bV9tYXAoZG9jcywgcmVtb3ZlTnVtYmVycykKIyBSZW1vdmVyIHN0b3B3b3JkcyBjb211bmVzCmRvY3MgPC0gdG1fbWFwKGRvY3MsIHJlbW92ZVdvcmRzLCBzdG9wd29yZHMoInNwYW5pc2giKSkKIyBSZW1vdmVyIHVuYSBwYWxhYnJhIGVuIHBhcnRpY3VsYXIuCgojIFNlIGVzcGVjaWZpY2EgbGFzIHN0b3B3b3JkcyBjb21vIHVuIHZlY3RvciBkZSBjYXJhY3RlcmVzLgojZG9jcyA8LSB0bV9tYXAoZG9jcywgcmVtb3ZlV29yZHMsIGMoImJsYWJsYTEiLCAiYmxhYmxhMiIpKSAKCiMgcmVtb3ZlciBzaWdub3MgZGUgcHVudHVhY2nDs24KZG9jcyA8LSB0bV9tYXAoZG9jcywgcmVtb3ZlUHVuY3R1YXRpb24pCiMgRWxpbWluYXIgZXNwYWNpb3MgZW4gYmxhbmNvIGV4dHJhcy4KZG9jcyA8LSB0bV9tYXAoZG9jcywgc3RyaXBXaGl0ZXNwYWNlKQoKIyBUZXh0IHN0ZW1taW5nCiMgZG9jcyA8LSB0bV9tYXAoZG9jcywgc3RlbURvY3VtZW50KQpgYGAKCiMjIENvbnN0cnVpciBtYXRyaXogZGUgdMOpcm1pbm9zIGRlbCBkb2N1bWVudG8KCkxhIG1hdHJpeiBkZSBkb2N1bWVudG9zIGVzIHVuYSB0YWJsYSBxdWUgY29udGllbmUgbGEgZnJlY3VlbmNpYSBkZSBsYXMgcGFsYWJyYXMuIExvcyBub21icmVzIGRlIGxhcyBjb2x1bW5hcyBzb24gcGFsYWJyYXMgeSBsb3Mgbm9tYnJlcyBkZSBsYXMgZmlsYXMgc29uIGRvY3VtZW50b3MuIExhIGZ1bmNpw7NuIGBUZXJtRG9jdW1lbnRNYXRyaXgoKWAgZGVsIHBhcXVldGUgZGUgbWluZXLDrWEgZGUgdGV4dG8gc2UgcHVlZGUgdXRpbGl6YXIgZGUgbGEgc2lndWllbnRlIG1hbmVyYTogCgpgYGB7cn0KI2NyZWFyIG1hdHJpeiBkb2N1bWVudG8gZGUgdMOpcm1pbm9zCmR0bSA8LSBUZXJtRG9jdW1lbnRNYXRyaXgoZG9jcykKbWF0cml6IDwtIGFzLm1hdHJpeChkdG0pCiMgb3JkZW5hciBmaWxhcyBkZSBsYSBtYXRyaXogZW4gb3JkZW4gZGVzY2VuZGVudGUKdiA8LSBzb3J0KHJvd1N1bXMobWF0cml6KSxkZWNyZWFzaW5nPVRSVUUpCiMgY29udmVydGlyIGEgZGF0YSBmcmFtZQpkIDwtIGRhdGEuZnJhbWUod29yZCA9IG5hbWVzKHYpLGZyZXE9dikKIyBtb3N0cmFyIGxvcyBwcmltZXJvcyAxMCB0w6lybWlub3MgcXVlIG3DoXMgc2UgcmVwaXRlbgpoZWFkKGQsIDEwKQpgYGAKCgojIyBHZW5lcmFyIGxhIE51YmUgZGUgUGFsYWJyYXMKCkxhIGZ1bmNpw7NuIGB3b3JkY2x1b2QoKWAgcmVjaWJlIHVuYSBiYXNlIGRlIGRhdG9zLgoKCiogU2ludGF4aXMKCiAgICAqIGB3b3Jkc2AgKHZlY3RvciBkZSBwYWxhYnJhcy4pCiAgICAqIGBmcmVxYCAodmVjdG9yIGRlIGZyZWN1ZW5jaWFzIGRlIGxhcyBwYWxhYnJhcy4pCiAgICAqIGBzY2FsZWAgKHZlY3RvciBkZSBsb25naXR1ZCAyLCBxdWUgaW5kaWNhIGVsIHJhbmdvIGRlbCB0YW1hw7FvIGRlIGxhcyBwYWxhYnJhcy4pCiAgICAqIGBtaW4uZnJlcWAgKHBhbGFicmFzIGNvbiB1bmEgZnJlY3VlbmNpYSBwb3IgZGViYWpvIGRlIGVzdGUgdmFsb3Igbm8gc2Vyw6FuIG1vc3RyYWRhcy4pCiAgICAqIGBtYXgud29yZHNgIChOw7ptZXJvIG3DoXhpbW8gZGUgcGFsYWJyYXMgYSBtb3N0cmFyLikKICAgICogYHJhbmRvbS5vcmRlcmAgKHRyYXphciBwYWxhYnJhcyBlbiBvcmRlbiBhbGVhdG9yaW8uIFNpIGVzIGZhbHNvLCBzZSB0cmF6YXLDoW4gY29uIHVuYSBmcmVjdWVuY2lhIGRlY3JlY2llbnRlLiApCiAgICAqIGByb3QucGVyYCAocHJvcG9yY2nDs24gZGUgcGFsYWJyYXMgY29uIHJvdGFjacOzbiBkZSA5MCBncmFkb3MpCiAgIAogICAKYGBge3J9CmxpYnJhcnkod29yZGNsb3VkKQpsaWJyYXJ5KFJDb2xvckJyZXdlcikKYGBgIAoKCmBgYHtyLCB3YXJuaW5nPUZBTFNFLCBmaWcud2lkdGg9NSwgZmlnLmhlaWdodD01fQpzZXQuc2VlZCg0MzIxKQp3b3JkY2xvdWQod29yZHMgPSBkJHdvcmQsIGZyZXEgPSBkJGZyZXEsIHNjYWxlID0gLCBtaW4uZnJlcSA9IDEsCiAgICAgICAgICBtYXgud29yZHM9MjAwLCByYW5kb20ub3JkZXI9RkFMU0UsIHJvdC5wZXI9MC4zNSwgCiAgICAgICAgICBjb2xvcnM9YnJld2VyLnBhbCg4LCAiUGFpcmVkIiksCiAgICAgICAgICBmYW1pbHk9InNlcmlmIikKYGBgCgoKCgoKIyBSZWZlcmVuY2lhcwoKKiBodHRwczovL3d3dy5yLWdyYXBoLWdhbGxlcnkuY29tL3dvcmRjbG91ZC5odG1sCgoqIGh0dHA6Ly93d3cuc3RoZGEuY29tL2VuZ2xpc2gvd2lraS90ZXh0LW1pbmluZy1hbmQtd29yZC1jbG91ZC1mdW5kYW1lbnRhbHMtaW4tci01LXNpbXBsZS1zdGVwcy15b3Utc2hvdWxkLWtub3cKCiogaHR0cHM6Ly93d3cuam91cm5hbGRldi5jb20vNDM5NDIvd29yZC1jbG91ZC1yCgoqIGh0dHBzOi8vdG93YXJkc2RhdGFzY2llbmNlLmNvbS9jcmVhdGUtYS13b3JkLWNsb3VkLXdpdGgtci1iZGUzZTc0MjJlOGE=

Nube de Palabras con R

Herramienta para Minería de Texto.

CRG

Julio/2021

Librerías

Paquete `wordcloud2`

Sintaxis

Agregar colores personalizados al texto en la nube de palabras.

Editando el color de fondo de la nube de palabras.

Crear una nube de palabras con forma personalizada

Rotando el texto

Letras Chinas

Letra o Texto como forma de la Nube de Palabras

Exportar la Nube de Palabras

Paquete `wordcluod`

Creación de archivo .txt

Importar el archivo .txt

Cargar la información como Corpus

Transformación de la Información

Limpiando el texto

Construir matriz de términos del documento

Generar la Nube de Palabras

Referencias

Nube de Palabras con R

Herramienta para Minería de Texto.

CRG

Julio/2021

Librerías

Paquete wordcloud2

Sintaxis

Agregar colores personalizados al texto en la nube de palabras.

Editando el color de fondo de la nube de palabras.

Crear una nube de palabras con forma personalizada

Rotando el texto

Letras Chinas

Letra o Texto como forma de la Nube de Palabras

Exportar la Nube de Palabras

Paquete wordcluod

Creación de archivo .txt

Importar el archivo .txt

Cargar la información como Corpus

Transformación de la Información

Limpiando el texto

Construir matriz de términos del documento

Generar la Nube de Palabras

Referencias

Paquete `wordcloud2`

Paquete `wordcluod`