Text mining, also known as text data mining, equivalent to text analytics, is the process of deriving high-quality information from text. High-quality information is typically obtained through the design of patterns and trends through means such as the learning of statistical patterns. Text mining generally involves the process of structuring the input text (generally analysis, along with adding some derived linguistic features and removing others, and then inserting them into a database), deriving patterns within structured data and, finally, evaluation and interpretation. of departure. “High quality” in text mining generally refers to a combination of relevance, novelty and interesting. Typical text mining tasks include categorizing text, grouping text, extracting concepts / entities, producing granular taxonomies, analyzing sentiments, summarizing documents, and modeling relationships between entities (i.e. , the learning relationships between named entities).
Text analysis involves information retrieval, lexical analysis to study word frequency distributions, pattern recognition, labeling / annotation, information extraction, data extraction techniques, including link analysis and associations, visualization and predictive analytics. The overall goal is essentially to convert text to data for analysis, through the application of Natural Language Processing (NLP) and analytical methods.
A typical application is to scan a set of documents written in natural language and model the set of documents for predictive classification purposes, or fill a database or search index with the extracted information.
The goal of this project is just to display that you’ve gotten used to working with the data and that you are on track to create your prediction algorithm. Please submit a report on R Pubs (http://rpubs.com/) that explains your exploratory analysis and your goals for the eventual app and algorithm. This document should be concise and explain only the major features of the data you have identified and briefly summarize your plans for creating the prediction algorithm and Shiny app in a way that would be understandable to a non-data scientist manager. You should make use of tables and plots to illustrate important summaries of the data set. The motivation for this project is to: 1. Demonstrate that you’ve downloaded the data and have successfully loaded it in.2. Create a basic report of summary statistics about the data sets.3. Report any interesting findings that you amassed so far.4. Get feedback on your plans for creating a prediction algorithm and Shiny app.
The data used for this workshop are the first 15 pages of Gabriel García Márquez’s book - One Hundred Years of Solitude, which corresponds to a written text and winner of the Nobel Prize for Literature in 1982 and is considered the masterpiece of Spanish American literature . The objective is to carry out a text analysis of this writing, implementing the techniques learned from preprocessing, tokenization, stemming, similarity and implementing a clusterization model.
library(SnowballC)
library(NLP)
library(tm)
library(openNLP)
library(openNLPdata)
library(SnowballC)
library(RColorBrewer)
library(wordcloud)
library(ggplot2)
##
## Attaching package: 'ggplot2'
## The following object is masked from 'package:NLP':
##
## annotate
library(base)
library(sf)
## Linking to GEOS 3.8.0, GDAL 3.0.4, PROJ 6.3.1
library(abind)
library(stars)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(rJava)
library(readr)
library(cluster)
library(stringr)
The file is in text format with a txt extension, which contains the information of the first 15 pages of the book. As a working tool we will use RStudio where the work development will be implemented. The file to upload is named hundred.txt. with a disk size of 27.1 KB.
cname <- file.path( "C:/Users/FGO/Desktop/carpeta")
datos<-VCorpus(DirSource(cname),readerControl = list(language = "lat"))
summary(datos)
## Length Class Mode
## cien.txt 2 PlainTextDocument list
It is of great importance to have the vision of loading the document within the tool, for this reason the following commands are executed like this:
####PREPARATION OF THE TEXT
str(datos)
## List of 1
## $ cien.txt:List of 2
## ..$ content: chr [1:411] "Gabriel García Márquez" "Cien años de soledad" "Para Jomi García Ascot" "y María Luisa Elio" ...
## ..$ meta :List of 7
## .. ..$ author : chr(0)
## .. ..$ datetimestamp: POSIXlt[1:1], format: "2020-05-26 01:25:35"
## .. ..$ description : chr(0)
## .. ..$ heading : chr(0)
## .. ..$ id : chr "cien.txt"
## .. ..$ language : chr "lat"
## .. ..$ origin : chr(0)
## .. ..- attr(*, "class")= chr "TextDocumentMeta"
## ..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
## - attr(*, "class")= chr [1:2] "VCorpus" "Corpus"
####GET RESULTS FROM THE DOCUMENT
inspect(datos[1])
## <<VCorpus>>
## Metadata: corpus specific: 0, document level (indexed): 0
## Content: documents: 1
##
## [[1]]
## <<PlainTextDocument>>
## Metadata: 7
## Content: chars: 26977
####DETAIL INFORMATION OF FILE INFORMATION
writeLines(as.character(datos[1]))
## list(list(content = c("Gabriel García Márquez", "Cien años de soledad", "Para Jomi García Ascot", "y María Luisa Elio", "Cien años de soledad Gabriel García Márquez", "Muchos años después, frente al pelotón de fusilamiento, el coronel", "Aureliano Buendía había de recordar aquella tarde remota en que su", "padre lo llevó a conocer el hielo. Macondo era entonces una aldea de", "veinte casas de barro y cañabrava construidas a la orilla de un río de", "aguas diáfanas que se precipitaban por un lecho de piedras pulidas,",
## "blancas y enormes como huevos prehistóricos. El mundo era tan", "reciente, que muchas cosas carecían de nombre, y para mencionarlas", "había que señalarías con el dedo. Todos los años, por el mes de marzo,", "una familia de gitanos desarrapados plantaba su carpa cerca de la aldea,", "y con un grande alboroto de pitos y timbales daban a conocer los", "nuevos inventos. Primero llevaron el imán. Un gitano corpulento, de", "barba montaraz y manos de gorrión, que se presentó con el nombre de", "Melquiades, hizo una truculenta demostración pública de lo que él",
## "mismo llamaba la octava maravilla de los sabios alquimistas de", "Macedonia. Fue de casa en casa arrastrando dos lingotes metálicos, y", "todo el mundo se espantó al ver que los calderos, las pailas, las tenazas", "y los anafes se caían de su sitio, y las maderas crujían por la", "desesperación de los clavos y los tornillos tratando de desenclavarse, y", "aun los objetos perdidos desde hacía mucho tiempo aparecían por donde", "más se les había buscado, y se arrastraban en desbandada turbulenta",
## "detrás de los fierros mágicos de Melquíades. «Las cosas, tienen vida", "propia -pregonaba el gitano con áspero acento-, todo es cuestión de", "despertarles el ánima.» José Arcadio Buendía, cuya desaforada", "imaginación iba siempre más lejos que el ingenio de la naturaleza, y aun", "más allá del milagro y la magia, pensó que era posible servirse de", "aquella invención inútil para desentrañar el oro de la tierra. Melquíades,", "que era un hombre honrado, le previno: «Para eso no sirve.» Pero José",
## "Arcadio Buendía no creía en aquel tiempo en la honradez de los gitanos,", "así que cambió su mulo y una partida de chivos por los dos lingotes", "imantados. Úrsula Iguarán, su mujer, que contaba con aquellos", "animales para ensanchar el desmedrado patrimonio doméstico, no", "consiguió disuadirlo. «Muy pronto ha de sobrarnos oro para empedrar la", "casa», replicó su marido. Durante varios meses se empeñó en", "demostrar el acierto de sus conjeturas. Exploró palmo a palmo la región,", "inclusive el fondo del río, arrastrando los dos lingotes de hierro y",
## "recitando en voz alta el conjuro de Melquíades. Lo único que logró ", "desenterrar fue una armadura del siglo xv con todas sus partes soldadas", "por un cascote de óxido, cuyo interior tenía la resonancia hueca de un", "enorme calabazo lleno de piedras. Cuando José Arcadio Buendía y los", "cuatro hombres de su expedición lograron desarticular la armadura,", "encontraron dentro un esqueleto calcificado que llevaba colgado en el", "cuello un relicario de cobre con un rizo de mujer.", "En marzo volvieron los gitanos. Esta vez llevaban un catalejo y una",
## "lupa del tamaño de un tambor, que exhibieron como el último", "descubrimiento de los judíos de Amsterdam. Sentaron una gitana en un", "extremo de la aldea e instalaron el catalejo a la entrada de la carpa.", "Mediante el pago de cinco reales, la gente se asomaba al catalejo y veía", "a la gitana al alcance de su mano. «La ciencia ha eliminado las", "distancias», pregonaba Melquíades. «Dentro de poco, el hombre podrá", "ver lo que ocurre en cualquier lugar de la tierra, sin moverse de su", "casa.» Un mediodía ardiente hicieron una asombrosa demostración con",
## "la lupa gigantesca: pusieron un montón de hierba seca en mitad de la", "calle y le prendieron fuego mediante la concentración de los rayos", "solares. José Arcadio Buendía, que aún no acababa de consolarse por el", "fracaso de sus imanes, concibió la idea de utilizar aquel invento como un", "arma de guerra. Melquíades, otra vez, trató de disuadirlo. Pero terminó", "por aceptar los dos lingotes imantados y tres piezas de dinero colonial a", "cambio de la lupa. Úrsula lloró de consternación. Aquel dinero formaba",
## "parte de un cofre de monedas de oro que su padre había acumulado en", "toda una vida de privaciones, y que ella había enterrado debajo de la", "cama en espera de una buena ocasión para invertirías. José Arcadio", "Buendía no trató siquiera de consolarla, entregado por entero a sus", "experimentos tácticos con la abnegación de un científico y aun a riesgo", "de su propia vida. Tratando de demostrar los efectos de la lupa en la", "tropa enemiga, se expuso él mismo a la concentración de los rayos",
## "solares y sufrió quemaduras que se convirtieron en úlceras y tardaron", "mucho tiempo en sanar. Ante las protestas de su mujer, alarmada por", "tan peligrosa inventiva, estuvo a punto de incendiar la casa. Pasaba", "largas horas en su cuarto, haciendo cálculos sobre las posibilidades", "estratégicas de su arma novedosa, hasta que logró componer un manual", "de una asombrosa claridad didáctica y un poder de convicción", "irresistible. Lo envió a las autoridades acompañado de numerosos", "testimonios sobre sus experiencias y de varios pliegos de dibujos",
## "explicativos, al cuidado de un mensajero que atravesó la sierra, y se", "extravió en pantanos desmesurados, remontó ríos tormentosos y estuvo", "a punto de perecer bajo el azote de las fieras, la desesperación y la", "peste, antes de conseguir una ruta de enlace con las mulas del correo. A", "pesar de que el viaje a la capital era en aquel tiempo poco menos que", "imposible, José Arcadio Buendia prometía intentarlo tan pronto como se", "lo ordenara el gobierno, con el fin de hacer demostraciones prácticas de ",
## "su invento ante los poderes militares, y adiestrarlos personalmente en", "las complicadas artes de la guerra solar. Durante varios años esperó la", "respuesta. Por último, cansado de esperar, se lamentó ante Melquíades", "del fracaso de su iniciativa, y el gitano dio entonces una prueba", "convincente de honradez: le devolvió los doblones a cambio de la lupa,", "y le dejó además unos mapas portugueses y varios instrumentos de", "navegación. De su puño y letra escribió una apretada síntesis de los",
## "estudios del monje Hermann, que dejó a su disposición para que pudiera", "servirse del astrolabio, la brújula y el sextante. José Arcadio Buendía", "pasó los largos meses de lluvia encerrado en un cuartito que construyó", "en el fondo de la casa para que nadie perturbara sus experimentos.", "Habiendo abandonado por completo las obligaciones domésticas,", "permaneció noches enteras en el patio vigilando el curso de los astros, y", "estuvo a punto de contraer una insolación por tratar de establecer un",
## "método exacto para encontrar el mediodía. Cuando se hizo experto en el", "uso y manejo de sus instrumentos, tuvo una noción del espacio que le", "permitió navegar por mares incógnitos, visitar territorios deshabitados y", "trabar relación con seres espléndidos, sin necesidad de abandonar su", "gabinete. Fue ésa la época en que adquirió el hábito de hablar a solas,", "paseándose por la casa sin hacer caso de nadie, mientras Úrsula y los", "niños se partían el espinazo en la huerta cuidando el plátano y la",
## "malanga, la yuca y el ñame, la ahuyama y la berenjena. De pronto, sin", "ningún anuncio, su actividad febril se interrumpió y fue sustituida por", "una especie de fascinación. Estuvo varios días como hechizado,", "repitiéndose a sí mismo en voz baja un sartal de asombrosas", "conjeturas, sin dar crédito a su propio entendimiento. Por fin, un martes", "de diciembre, a la hora del almuerzo, soltó de un golpe toda la carga de", "su tormento. Los niños habían de recordar por el resto de su vida la",
## "augusta solemnidad con que su padre se sentó a la cabecera de la", "mesa, temblando de fiebre, devastado por la prolongada vigilia y por el", "encono de su imaginación, y les reveló su descubrimiento.", "-La tierra es redonda como una naranja.", "Úrsula perdió la paciencia. «Si has de volverte loco, vuélvete tú solo -", "gritó-. Pero no trates de inculcar a los niños tus ideas de gitano.» José", "Arcadio Buendía, impasible, no se dejó amedrentar por la desesperación", "de su mujer, que en un rapto de cólera le destrozó el astrolabio contra",
## "el suelo. Construyó otro, reunió en el cuartito a los hombres del pueblo", "y les demostró, con teorías que para todos resultaban incomprensibles,", "la posibilidad de regresar al punto de partida navegando siempre hacia", "el Oriente. Toda la aldea estaba convencida de que José Arcadio Buendía", "había perdido el juicio, cuando llegó Melquíades a poner las cosas en su", "punto. Exaltó en público la inteligencia de aquel hombre que por pura", "especulación astronómica había construido una teoría ya comprobada en",
## "la práctica, aunque desconocida hasta entonces en Macondo, y como ", "una prueba de su admiración le hizo un regalo que había de ejercer una", "influencia terminante en el futuro de la aldea: un laboratorio de", "alquimia.", "Para esa época, Melquíades había envejecido con una rapidez", "asombrosa. En sus primeros viajes parecía tener la misma edad de José", "Arcadio Buendia. Pero mientras éste conservaba su fuerza descomunal,", "que le permitía derribar un caballo agarrándolo por las orejas, el gitano",
## "parecía estragado por una dolencia tenaz. Era, en realidad, el resultado", "de múltiples y raras enfermedades contraídas en sus incontables viajes", "alrededor del mundo. Según él mismo le contó a José Arcadio Buendia", "mientras lo ayudaba a montar el laboratorio, la muerte lo seguía a todas", "partes, husmeándole los pantalones, pero sin decidirse a darle el", "zarpazo final. Era un fugitivo de cuantas plagas y catástrofes habían", "flagelado al género humano. Sobrevivió a la pelagra en Persia, al",
## "escorbuto en el archipiélago de Malasia, a la lepra en Alejandría, al", "beriberi en el Japón, a la peste bubónica en Madagascar, al terremoto de", "Sicilia y a un naufragio multitudinario en el estrecho de Magallanes.", "Aquel ser prodigioso que decía poseer las claves de Nostradamus, era", "un hombre lúgubre, envuelto en un aura triste, con una mirada asiática", "que parecía conocer el otro lado de las cosas. Usaba un sombrero", "grande y negro, como las alas extendidas de un cuervo, y un chaleco de",
## "terciopelo patinado por el verdín de los siglos. Pero a pesar de su", "inmensa sabiduría y de su ámbito misterioso, tenía un peso humano,", "una condición terrestre que lo mantenía enredado en los minúsculos", "problemas de la vida cotidiana. Se quejaba de dolencias de viejo, sufría", "por los más insignificantes percances económicos y había dejado de reír", "desde hacía mucho tiempo, porque el escorbuto le había arrancado los", "dientes. El sofocante mediodía en que reveló sus secretos, José Arcadio",
## "Buendía tuvo la certidumbre de que aquél era el principio de una grande", "amistad. Los niños se asombraron con sus relatos fantásticos. Aureliano,", "que no tenía entonces más de cinco años, había de recordarlo por el", "resto de su vida como lo vio aquella tarde, sentado contra la claridad", "metálica y reverberante de la ventana, alumbrando con su pro-funda", "voz de órgano los territorios más oscuros de la imaginación, mientras", "chorreaba por sus sienes la grasa derretida por el calor. José Arcadio, su",
## "hermano mayor, había de transmitir aquella imagen maravillosa, como", "un recuerdo hereditario, a toda su descendencia. Úrsula, en cambio,", "conservó un mal recuerdo de aquella visita, porque entró al cuarto en el", "momento en que Melquíades rompió por distracción un frasco de", "bicloruro de mercurio.", "-Es el olor del demonio -dijo ella.", "-En absoluto -corrigió Melquíades-. Está comprobado que el demonio", "tiene propiedades sulfúricas, y esto no es más que un poco de solimán.", "Siempre didáctico, hizo una sabia exposición sobre las virtudes ",
## "diabólicas del cinabrio, pero Úrsula no le hizo caso, sino que se llevó los", "niños a rezar. Aquel olor mordiente quedaría para siempre en su", "memoria, vinculado al recuerdo de Melquíades.", "El rudimentario laboratorio -sin contar una profusión de cazuelas,", "embudos, retortas, filtros y coladores- estaba compuesto por un atanor", "primitivo; una probeta de cristal de cuello largo y angosto, imitación del", "huevo filosófico, y un destilador construido por los propios gitanos según", "las descripciones modernas del alambique de tres brazos de María la",
## "judía. Además de estas cosas, Melquíades dejó muestras de los siete", "metales correspondientes a los siete planetas, las fórmulas de Moisés y", "Zósimo para el doblado del oro, y una serie de apuntes y dibujos sobre", "los procesos del Gran Magisterio, que permitían a quien supiera", "interpretarlos intentar la fabricación de la piedra filosofal. Seducido por", "la simplicidad de las fórmulas para doblar el oro, José Arcadio Buendía", "cortejó a Úrsula durante varias semanas, para que le permitiera",
## "desenterrar sus monedas coloniales y aumentarlas tantas veces como", "era posible subdividir el azogile. Úrsula cedió, como ocurría siempre,", "ante la inquebrantable obstinación de su marido. Entonces José Arcadio", "Buendía echó treinta doblones en una cazuela, y los fundió con", "raspadura de cobre, oropimente, azufre y plomo. Puso a hervir todo a", "fuego vivo en un caldero de aceite de ricino hasta obtener un jarabe", "espeso y pestilente más parecido al caramelo vulgar que al oro", "magnífico. En azarosos y desesperados procesos de destilación, fundida",
## "con los siete metales planetarios, trabajada con el mercurio hermético y", "el vitriolo de Chipre, y vuelta a cocer en manteca de cerdo a falta de", "aceite de rábano, la preciosa herencia de Úrsula quedó reducida a un", "chicharrón carbonizado que no pudo ser desprendido del fondo del", "caldero.", "Cuando volvieron los gitanos, Úrsula había predispuesto contra ellos a", "toda la población. Pero la curiosidad pudo más que el temor, porque", "aquella vez los gitanos recorrieron la aldea haciendo un ruido",
## "ensordecedor con toda clase de instrumentos músicos, mientras el", "pregonero anunciaba la exhibición del más fabuloso hallazgo de los", "nasciancenos. De modo que todo el mundo se fue a la carpa, y mediante", "el pago de un centavo vieron un Melquíades juvenil, repuesto,", "desarrugado, con una dentadura nueva y radiante. Quienes recordaban", "sus encías destruidas por el escorbuto, sus mejillas fláccidas y sus labios", "marchitos, se estremecieron de pavor ante aquella prueba terminante", "de los poderes sobrenaturales del gitano. El pavor se convirtió en pánico",
## "cuando Melquíades se sacó los dientes, intactos, engastados en las", "encías, y se los mostró al público por un instante un instante fugaz en", "que volvió a ser el mismo hombre decrépito de los años anteriores y se", "los puso otra vez y sonrió de nuevo con un dominio pleno de su", "juventud restaurada. Hasta el propio José Arcadio Buendía consideró ", "que los conocimientos de Melquíades habían llegado a extremos", "intolerables, pero experimentó un saludable alborozo cuando el gitano le", "explicó a solas el mecanismo de su dentadura postiza. Aquello le pareció",
## "a la vez tan sencillo y prodigioso, que de la noche a la mañana perdió", "todo interés en las investigaciones de alquimia; sufrió una nueva crisis", "de mal humor, no volvió a comer en forma regular y se pasaba el día", "dando vueltas por la casa. «En el mundo están ocurriendo cosas", "increíbles -le decía a Úrsula-. Ahí mismo, al otro lado del río, hay toda", "clase de aparatos mágicos, mientras nosotros seguimos viviendo como", "los burros.» Quienes lo conocían desde los tiempos de la fundación de",
## "Macondo, se asombraban de cuánto había cambiado bajo la influencia", "de Melquíades.", "Al principio, José Arcadio Buendía era una especie de patriarca", "juvenil, que daba instrucciones para la siembra y consejos para la", "crianza de niños y animales, y colaboraba con todos, aun en el trabajo", "físico, para la buena marcha de la comunidad. Puesto que su casa fue", "desde el primer momento la mejor de la aldea, las otras fueron", "arregladas a su imagen y semejanza. Tenía una salita amplia y bien",
## "iluminada, un comedor en forma de terraza con flores de colores", "alegres, dos dormitorios, un patio con un castaño gigantesco, un huerto", "bien plantado y un corral donde vivían en comunidad pacífica los chivos,", "los cerdos y las gallinas. Los únicos animales prohibidos no sólo en la", "casa, sino en todo el poblado, eran los gallos de pelea.", "La laboriosidad de Úrsula andaba a la par con la de su marido. Activa,", "menuda, severa, aquella mujer de nervios inquebrantables, a quien en", "ningún momento de su vida se la oyó cantar, parecía estar en todas",
## "partes desde el amanecer hasta muy entrada la noche, siempre", "perseguida por el suave susurro de sus pollerines de olán. Gracias a ella,", "los pisos de tierra golpeada, los muros de barro sin encalar, los rústicos", "muebles de madera construidos por ellos mismos estaban siempre", "limpios, y los viejos arcones donde se guardaba la ropa exhalaban un", "tibio olor de albahaca.", "José Arcadio Buendía, que era el hombre más emprendedor que se", "vería jamás en la aldea, había dispuesto de tal modo la posición de las",
## "casas, que desde todas podía llegarse al río y abastecerse de agua con", "igual esfuerzo, y trazó las calles con tan buen sentido que ninguna casa", "recibía más sol que otra a la hora del calor. En pocos años, Macondo fue", "una aldea más ordenada y laboriosa que cualquiera de las conocidas", "hasta entonces por sus 300 habitantes. Era en verdad una aldea feliz,", "donde nadie era mayor de treinta años y donde nadie había muerto.", "Desde los tiempos de la fundación, José Arcadio Buendía construyó",
## "trampas y jaulas. En poco tiempo llenó de turpiales, canarios, azulejos y", "petirrojos no sólo la propia casa, sino todas las de la aldea. El concierto", "de tantos pájaros distintos llegó a ser tan aturdidor, que Úrsula se tapó ", "los oídos con cera de abejas para no perder el sentido de la realidad. La", "primera vez que llegó la tribu de Melquíades vendiendo bolas de vidrio", "para el dolor de cabeza, todo el mundo se sorprendió de que hubieran", "podido encontrar aquella aldea perdida en el sopor de la ciénaga, y los",
## "gitanos confesaron que se habían orientado por el canto de los pájaros.", "Aquel espíritu de iniciativa social desapareció en poco tiempo,", "arrastrado por la fiebre de los imanes, los cálculos astronómicos, los", "sueños de transmutación y las ansias de conocer las maravillas del", "mundo. De emprendedor y limpio, José Arcadio Buendía se convirtió en", "un hombre de aspecto holgazán, descuidado en el vestir, con una barba", "salvaje que Úrsula lograba cuadrar a duras penas con un cuchillo de",
## "cocina. No faltó quien lo considerara víctima de algún extraño sortilegio.", "Pero hasta los más convencidos de su locura abandonaron trabajo y", "familias para seguirlo, cuando se echó al hombro sus herramientas de", "desmontar, y pidió el concurso de todos para abrir una trocha que", "pusiera a Macondo en contacto con los grandes inventos.", "José Arcadio Buendía ignoraba por completo la geografía de la región.", "Sabía que hacia el Oriente estaba la sierra impenetrable, y al otro lado", "de la sierra la antigua ciudad de Riohacha, donde en épocas pasadas -",
## "según le había contado el primer Aureliano Buendía, su abuelo- sir", "Francis Drake se daba al deporte de cazar caimanes a cañonazos, que", "luego hacía remendar y rellenar de paja para llevárselos a la reina", "Isabel. En su juventud, él y sus hombres, con mujeres y niños y", "animales y toda clase de enseres domésticos, atravesaron la sierra", "buscando una salida al mar, y al cabo de veintiséis meses desistieron de", "la empresa y fundaron a Macondo para no tener que emprender el", "camino de regreso. Era, pues, una ruta que no le interesaba, porque",
## "sólo podía conducirlo al pasado. Al sur estaban los pantanos, cubiertos", "de una eterna nata vegetal, y el vasto universo de la ciénaga grande,", "que según testimonio de los gitanos carecía de límites. La ciénaga", "grande se confundía al Occidente con una extensión acuática sin", "horizontes, donde había cetáceos de piel delicada con cabeza y torso de", "mujer, que perdían a los navegantes con el hechizo de sus tetas", "descomunales. Los gitanos navegaban seis meses por esa ruta antes de", "alcanzar el cinturón de tierra firme por donde pasaban las mulas del",
## "correo. De acuerdo con los cálculos de José Arcadio Buendía, la única", "posibilidad de contacto con la civilización era la ruta del Norte. De modo", "que dotó de herramientas de desmonte y armas de cacería a los mismos", "hombres que lo acompañaron en la fundación de Macondo; echó en una", "mochila sus instrumentos de orientación y sus mapas, y emprendió la", "temeraria aventura.", "Los primeros días no encontraron un obstáculo apreciable.", "Descendieron por la pedregosa ribera del río hasta el lugar en que años",
## "antes habían encontrado la armadura del guerrero, y allí penetraron al ", "bosque por un sendero de naranjos silvestres. Al término de la primera", "semana, mataron y asaron un venado, pero se conformaron con comer", "la mitad y salar el resto para los próximos días. Trataban de aplazar con", "esa precaución la necesidad de seguir comiendo guacamayas, cuya", "carne azul tenía un áspero sabor de almizcle. Luego, durante más de", "diez días, no volvieron a ver el sol. El suelo se volvió blando y húmedo,",
## "como ceniza volcánica, y la vegetación fue cada vez más insidiosa y se", "hicieron cada vez más lejanos los gritos de los pájaros y la bullaranga", "de los monos, y el mundo se volvió triste para siempre. Los hombres de", "la expedición se sintieron abrumados por sus recuerdos más antiguos en", "aquel paraíso de humedad y silencio, anterior al pecado original, donde", "las botas se hundían en pozos de aceites humeantes y los machetes", "destrozaban lirios sangrientos y salamandras doradas. Durante una",
## "semana, casi sin hablar, avanzaron como sonámbulos por un universo", "de pesadumbre, alumbrados apenas por una tenue reverberación de", "insectos luminosos y con los pulmones agobiados por un sofocante olor", "de sangre. No podían regresar, porque la trocha que iban abriendo a su", "paso se volvía a cerrar en poco tiempo, con una vegetación nueva que", "casi veían crecer ante sus ojos. «No importa -decía José Arcadio", "Buendía-. Lo esencial es no perder la orientación.» Siempre pendiente", "de la brújula, siguió guiando a sus hombres hacia el norte invisible,",
## "hasta que lograron salir de la región encantada. Era una noche densa,", "sin estrellas, pero la oscuridad estaba impregnada por un aire nuevo y", "limpio. Agotados por la prolongada travesía, colgaron las hamacas y", "durmieron a fondo por primera vez en dos semanas. Cuando", "despertaron, ya con el sol alto, se quedaron pasmados de fascinación.", "Frente a ellos, rodeado de helechos y palmeras, blanco y polvoriento en", "la silenciosa luz de la mañana, estaba un enorme galeón español.", "Ligeramente volteado a estribor, de su arboladura intacta colgaban las",
## "piltrafas escuálidas del velamen, entre jarcias adornadas de orquídeas.", "El casco, cubierto con una tersa coraza de rémora petrificada y musgo", "tierno, estaba firmemente enclavado en un suelo de piedras. Toda la", "estructura parecía ocupar un ámbito propio, un espacio de soledad y de", "olvido, vedado a los vicios del tiempo y a las costumbres de los pájaros.", "En el interior, que los expedicionarios exploraron con un fervor sigiloso,", "no había nada más que un apretado bosque de flores.",
## "El hallazgo del galeón, indicio de la proximidad del mar, quebrantó el", "ímpetu de José Arcadio Buendía. Consideraba como una burla de su", "travieso destino haber buscado el mar sin en-contrarlo, al precio de", "sacrificios y penalidades sin cuento, y haberlo encontrado entonces sin", "buscarlo, atravesado en su camino como un obstáculo insalvable.", "Muchos años después, el coronel Aureliano Buendía volvió a atravesar la", "región, cuando era ya una ruta regular del correo, y lo único que", "encontró de la nave fue el costillar carbonizado en medio de un campo ",
## "de amapolas. Sólo entonces convencido de que aquella historia no había", "sido un engendro de la imaginación de su padre, se preguntó cómo", "había podido el galeón adentrarse hasta ese punto en tierra firme. Pero", "José Arcadio Buendía no se planteó esa inquietud cuando encontró el", "mar, al cabo de otros cuatro días de viaje, a doce kilómetros de", "distancia del galeón. Sus sueños terminaban frente a ese mar color de", "ceniza, espumoso y sucio, que no merecía los riesgos y sacrificios de su",
## "aventura.", "-¡Carajo! -gritó-. Macondo está rodeado de agua por todas partes.", "La idea de un Macondo peninsular prevaleció durante mucho tiempo,", "inspirada en el mapa arbitrario que dibujó José Arcadio Buendía al", "regreso de su expedición. Lo trazó con rabia, exa-gerando de mala fe las", "dificultades de comunicación, como para castigarse a sí mismo por la", "absoluta falta de sentido con que eligió el lugar. «Nunca llegaremos a", "ninguna parte -se la-mentaba ante Úrsula-. Aquí nos hemos de pudrir",
## "en vida sin recibir los beneficios de la ciencia.» Esa certidumbre,", "rumiada varios meses en el cuartito del laboratorio, lo llevó a concebir el", "proyecto de trasladar a Macondo a un lugar más propicio. Pero esta vez,", "Úrsula se anticipó a sus designios febriles. En una secreta e implacable", "labor de hormiguita predispuso a las mujeres de la aldea contra la", "veleidad de sus hombres, que ya empezaban a prepararse para la", "mudanza. José Arcadio Buendía no supo en qué momento, ni en virtud",
## "de qué fuerzas adversas, sus planes se fueron enredando en una", "maraña de pretextos, contratiempos y evasivas, hasta convertirse en", "pura y simple ilusión. Úrsula lo observó con una atención inocente, y", "hasta sintió por él un poco de piedad, la mañana en que lo encontró en", "el cuartito del fondo comentando entre dientes sus sueños de mudanza,", "mientras colocaba en sus cajas originales las piezas del laboratorio. Lo", "dejó terminar. Lo dejó clavar las cajas y poner sus iniciales encima con",
## "un hisopo entintado, sin hacerle ningún reproche, pero sabiendo ya que", "él sabía (porque se lo oyó decir en sus sordos monólogos) que los", "hombres del pueblo no lo secundarían en su empresa. Sólo cuando", "empezó a desmontar la puerta del cuartito, Úrsula se atrevió a", "preguntarle por qué lo hacía, y él le contestó con una cierta amargura:", "«Puesto que nadie quiere irse, nos iremos solos.» Úrsula no se alteró.", "-No nos iremos -dijo-. Aquí nos quedamos, porque aquí hemos tenido", "un hijo.",
## "-Todavía no tenemos un muerto -dijo él-. Uno no es de ninguna parte", "mientras no tenga un muerto bajo la tierra.", "Úrsula replicó, con una suave firmeza:", "-Si es necesario que yo me muera para que se queden aquí, me", "muero.", "José Arcadio Buendía no creyó que fuera tan rígida la voluntad de su", "mujer. Trató de seducirla con el hechizo de su fantasía, con la promesa ", "de un mundo prodigioso donde bastaba con echar unos líquidos mágicos", "en la tierra para que las plantas dieran frutos a voluntad del hombre, y",
## "donde se vendían a precio de baratillo toda clase de aparatos para el", "dolor. Pero Úrsula fue insensible a su clarividencia.", "-En vez de andar pensando en tus alocadas novelerías, debes", "ocuparte de tus hijos -replicó-. Míralos cómo están, abandonados a la", "buena de Dios, igual que los burros.", "José Arcadio Buendía tomó al pie de la letra las palabras de su mujer.", "Miró a través de la ventana y vio a los dos niños descalzos en la huerta", "soleada, y tuvo la impresión de que sólo en aquel instante habían",
## "empezado a existir, concebidos por el conjuro de Úrsula. Algo ocurrió", "entonces en su interior; algo misterioso y definitivo que lo desarraigó de", "su tiempo actual y lo llevó a la deriva por una región inexplorada de los", "re cuerdos. Mientras Úrsula seguía barriendo la casa que ahora estaba", "segura de no abandonar en el resto de su vida él permaneció", "contemplando a los niños con mirada absorta hasta que los ojos se le", "humedecieron y se los secó con el dorso de la mano, y exhaló un hondo",
## "suspiro de resignación. "), meta = list(author = character(0), datetimestamp = list(sec = 35.2010378837585, min = 25, hour = 1, mday = 26, mon = 4, year = 120, wday = 2, yday = 146, isdst = 0), description = character(0), heading = character(0), id = "cien.txt", language = "lat", origin = character(0))))
## list()
## list()
With the certainty that the loaded document is inside the tool and has been loaded correctly, you can continue with the preprocessing of the data. This point allows you to eliminate numbers, capital letters, common words (articles - prepositions - etc.), punctuation and prepare your texts for analysis. This procedure can be a bit complex but the idea is guarantee high-quality analysis. The following statements were used to execute this task:
####DETAIL INFORMATION OF FILE INFORMATION
datos <- gsub("[[:punct:]]", " ", datos)
datos <- tolower(datos)
datos <- removeWords(datos,c("language","listlistcontent","character"))
datos <- removeWords(datos, c("heading", "year","yday"))
datos <- removeWords(datos, c("listauthor", "cientxt","origin"))
datos <- removeWords(datos, c("listsec", "min","hour"))
datos <- removeWords(datos, c("description", "id","mday"))
datos <- removeWords(datos, c("«", "»","mday"))
datos <- removeWords(datos, c("content", "list","txt","c"))
datos <- removeWords(datos, c("author", "sec","txt"," cien"))
In turn, tokenization, lemmatization, regular expression construction, identification of special characters, punctuation, elements of ASCII symbols, numbers, elimination of stopwords that do not have an analytical component, conversion of capital letters to lowercase, combination of words that remain together, grouping of words with the same origin and different endings, identification of languages, the installation of other relevant libraries for processing.
datos <- removeWords(datos, words = stopwords("spanish"))
datos <- removeWords(datos, words = stopwords("english"))
datos <- chartr("áéíóúñ", "aeioun", datos)
datos <- removePunctuation(datos)
datos <- removeNumbers(datos)
datos <- stripWhitespace(datos)
datos = gsub("»", "", datos)
datos = gsub("!", "", datos)
datos = gsub("¡", "", datos)
datos = gsub("¿", "", datos)
datos = gsub("?", "", datos)
datos = gsub("« ", "", datos)
datos = gsub("«", "", datos)
datos = gsub("»", "", datos)
for (j in seq(datos)) {
datos[[j]] <- gsub("/", " ", datos[[j]])
datos[[j]] <- gsub("@", " ", datos[[j]])
datos[[j]] <- gsub("\\|", " ", datos[[j]])
datos[[j]] <- gsub("\u2028", " ", datos[[j]])
}
With the result of this exercise, the clean text according to the application of the sentences in point 5. However, within the R code, you can visualize the application of the sentences in the text display.
####DETAIL INFORMATION OF FILE INFORMATION
writeLines(as.character(datos[1]))
## gabriel garcia marquez cien anos soledad jomi garcia ascot maria luisa elio cien anos soledad gabriel garcia marquez anos despues frente peloton fusilamiento coronel aureliano buendia recordar aquella tarde remota padre llevo conocer hielo macondo entonces aldea veinte casas barro canabrava construidas orilla rio aguas diafanas precipitaban lecho piedras pulidas blancas enormes huevos prehistoricos mundo tan reciente muchas cosas carecian nombre mencionarlas senalarias dedo anos mes marzo familia gitanos desarrapados plantaba carpa cerca aldea grande alboroto pitos timbales daban conocer nuevos inventos primero llevaron iman gitano corpulento barba montaraz manos gorrion presento nombre melquiades hizo truculenta demostracion publica mismo llamaba octava maravilla sabios alquimistas macedonia casa casa arrastrando dos lingotes metalicos mundo espanto ver calderos pailas tenazas anafes caian sitio maderas crujian desesperacion clavos tornillos tratando desenclavarse aun objetos perdidos hacia tiempo aparecian buscado arrastraban desbandada turbulenta detras fierros magicos melquiades cosas vida propia pregonaba gitano aspero acento cuestion despertarles anima jose arcadio buendia cuya desaforada imaginacion iba siempre lejos ingenio naturaleza aun alla milagro magia penso posible servirse aquella invencion inutil desentranar oro tierra melquiades hombre honrado previno sirve jose arcadio buendia creia aquel tiempo honradez gitanos asi cambio mulo partida chivos dos lingotes imantados ursula iguaran mujer contaba aquellos animales ensanchar desmedrado patrimonio domestico consiguio disuadirlo pronto sobrarnos oro empedrar casa replico marido varios meses empeno demostrar acierto conjeturas exploro palmo palmo region inclusive fondo rio arrastrando dos lingotes hierro recitando voz alta conjuro melquiades unico logro desenterrar armadura siglo xv todas partes soldadas cascote oxido cuyo interior resonancia hueca enorme calabazo lleno piedras jose arcadio buendia cuatro hombres expedicion lograron desarticular armadura encontraron dentro esqueleto calcificado llevaba colgado cuello relicario cobre rizo mujer marzo volvieron gitanos vez llevaban catalejo lupa tamano tambor exhibieron ultimo descubrimiento judios amsterdam sentaron gitana extremo aldea instalaron catalejo entrada carpa mediante pago cinco reales gente asomaba catalejo veia gitana alcance mano ciencia eliminado distancias pregonaba melquiades dentro hombre podra ver ocurre cualquier lugar tierra moverse casa mediodia ardiente hicieron asombrosa demostracion lupa gigantesca pusieron monton hierba seca mitad calle prendieron fuego mediante concentracion rayos solares jose arcadio buendia aun acababa consolarse fracaso imanes concibio idea utilizar aquel invento arma guerra melquiades vez trato disuadirlo termino aceptar dos lingotes imantados tres piezas dinero colonial cambio lupa ursula lloro consternacion aquel dinero formaba parte cofre monedas oro padre acumulado toda vida privaciones enterrado debajo cama espera buena ocasion invertirias jose arcadio buendia trato siquiera consolarla entregado entero experimentos tacticos abnegacion cientifico aun riesgo propia vida tratando demostrar efectos lupa tropa enemiga expuso mismo concentracion rayos solares sufrio quemaduras convirtieron ulceras tardaron tiempo sanar protestas mujer alarmada tan peligrosa inventiva punto incendiar casa pasaba largas horas cuarto haciendo calculos posibilidades estrategicas arma novedosa logro componer manual asombrosa claridad didactica poder conviccion irresistible envio autoridades acompanado numerosos testimonios experiencias varios pliegos dibujos explicativos cuidado mensajero atraveso sierra extravio pantanos desmesurados remonto rios tormentosos punto perecer bajo azote fieras desesperacion peste conseguir ruta enlace mulas correo pesar viaje capital aquel tiempo menos imposible jose arcadio buendia prometia intentarlo tan pronto ordenara gobierno fin hacer demostraciones practicas invento poderes militares adiestrarlos personalmente complicadas artes guerra solar varios anos espero respuesta ultimo cansado esperar lamento melquiades fracaso iniciativa gitano dio entonces prueba convincente honradez devolvio doblones cambio lupa dejo ademas mapas portugueses varios instrumentos navegacion puno letra escribio apretada sintesis estudios monje hermann dejo disposicion pudiera servirse astrolabio brujula sextante jose arcadio buendia paso largos meses lluvia encerrado cuartito construyo fondo casa nadie perturbara experimentos abandonado completo obligaciones domesticas permanecio noches enteras patio vigilando curso astros punto contraer insolacion tratar establecer metodo exacto encontrar mediodia hizo experto uso manejo instrumentos nocion espacio permitio navegar mares incognitos visitar territorios deshabitados trabar relacion seres esplendidos necesidad abandonar gabinete esa epoca adquirio habito hablar solas paseandose casa hacer caso nadie mientras ursula ninos partian espinazo huerta cuidando platano malanga yuca name ahuyama berenjena pronto ningun anuncio actividad febril interrumpio sustituida especie fascinacion varios dias hechizado repitiendose mismo voz baja sartal asombrosas conjeturas dar credito propio entendimiento fin martes diciembre hora almuerzo solto golpe toda carga tormento ninos recordar resto vida augusta solemnidad padre sento cabecera mesa temblando fiebre devastado prolongada vigilia encono imaginacion revelo descubrimiento tierra redonda naranja ursula perdio paciencia si volverte loco vuelvete solo grito trates inculcar ninos ideas gitano jose arcadio buendia impasible dejo amedrentar desesperacion mujer rapto colera destrozo astrolabio suelo construyo reunio cuartito hombres pueblo demostro teorias resultaban incomprensibles posibilidad regresar punto partida navegando siempre hacia oriente toda aldea convencida jose arcadio buendia perdido juicio llego melquiades poner cosas punto exalto publico inteligencia aquel hombre pura especulacion astronomica construido teoria comprobada practica aunque desconocida entonces macondo prueba admiracion hizo regalo ejercer influencia terminante futuro aldea laboratorio alquimia epoca melquiades envejecido rapidez asombrosa primeros viajes parecia tener misma edad jose arcadio buendia mientras este conservaba fuerza descomunal permitia derribar caballo agarrandolo orejas gitano parecia estragado dolencia tenaz realidad resultado multiples raras enfermedades contraidas incontables viajes alrededor mundo segun mismo conto jose arcadio buendia mientras ayudaba montar laboratorio muerte seguia todas partes husmeandole pantalones decidirse darle zarpazo final fugitivo cuantas plagas catastrofes flagelado genero humano sobrevivio pelagra persia escorbuto archipielago malasia lepra alejandria beriberi japon peste bubonica madagascar terremoto sicilia naufragio multitudinario estrecho magallanes aquel ser prodigioso decia poseer claves nostradamus hombre lugubre envuelto aura triste mirada asiatica parecia conocer lado cosas usaba sombrero grande negro alas extendidas cuervo chaleco terciopelo patinado verdin siglos pesar inmensa sabiduria ambito misterioso peso humano condicion terrestre mantenia enredado minusculos problemas vida cotidiana quejaba dolencias viejo sufria insignificantes percances economicos dejado reir hacia tiempo escorbuto arrancado dientes sofocante mediodia revelo secretos jose arcadio buendia certidumbre aquel principio grande amistad ninos asombraron relatos fantasticos aureliano entonces cinco anos recordarlo resto vida vio aquella tarde sentado claridad metalica reverberante ventana alumbrando pro funda voz organo territorios oscuros imaginacion mientras chorreaba sienes grasa derretida calor jose arcadio hermano mayor transmitir aquella imagen maravillosa recuerdo hereditario toda descendencia ursula cambio conservo mal recuerdo aquella visita entro cuarto momento melquiades rompio distraccion frasco bicloruro mercurio olor demonio dijo absoluto corrigio melquiades comprobado demonio propiedades sulfuricas soliman siempre didactico hizo sabia exposicion virtudes diabolicas cinabrio ursula hizo caso sino llevo ninos rezar aquel olor mordiente quedaria siempre memoria vinculado recuerdo melquiades rudimentario laboratorio contar profusion cazuelas embudos retortas filtros coladores compuesto atanor primitivo probeta cristal cuello largo angosto imitacion huevo filosofico destilador construido propios gitanos segun descripciones modernas alambique tres brazos maria judia ademas cosas melquiades dejo muestras siete metales correspondientes siete planetas formulas moises zosimo doblado oro serie apuntes dibujos procesos gran magisterio permitian supiera interpretarlos intentar fabricacion piedra filosofal seducido simplicidad formulas doblar oro jose arcadio buendia cortejo ursula varias semanas permitiera desenterrar monedas coloniales aumentarlas tantas veces posible subdividir azogile ursula cedio ocurria siempre inquebrantable obstinacion marido entonces jose arcadio buendia echo treinta doblones cazuela fundio raspadura cobre oropimente azufre plomo puso hervir fuego vivo caldero aceite ricino obtener jarabe espeso pestilente parecido caramelo vulgar oro magnifico azarosos desesperados procesos destilacion fundida siete metales planetarios trabajada mercurio hermetico vitriolo chipre vuelta cocer manteca cerdo falta aceite rabano preciosa herencia ursula quedo reducida chicharron carbonizado pudo ser desprendido fondo caldero volvieron gitanos ursula predispuesto toda poblacion curiosidad pudo temor aquella vez gitanos recorrieron aldea haciendo ruido ensordecedor toda clase instrumentos musicos mientras pregonero anunciaba exhibicion fabuloso hallazgo nasciancenos modo mundo carpa mediante pago centavo vieron melquiades juvenil repuesto desarrugado dentadura nueva radiante recordaban encias destruidas escorbuto mejillas flaccidas labios marchitos estremecieron pavor aquella prueba terminante poderes sobrenaturales gitano pavor convirtio panico melquiades saco dientes intactos engastados encias mostro publico instante instante fugaz volvio ser mismo hombre decrepito anos anteriores puso vez sonrio nuevo dominio pleno juventud restaurada propio jose arcadio buendia considero conocimientos melquiades llegado extremos intolerables experimento saludable alborozo gitano explico solas mecanismo dentadura postiza aquello parecio vez tan sencillo prodigioso noche manana perdio interes investigaciones alquimia sufrio nueva crisis mal humor volvio comer forma regular pasaba dia dando vueltas casa mundo ocurriendo cosas increibles decia ursula ahi mismo lado rio toda clase aparatos magicos mientras seguimos viviendo burros conocian tiempos fundacion macondo asombraban cuanto cambiado bajo influencia melquiades principio jose arcadio buendia especie patriarca juvenil daba instrucciones siembra consejos crianza ninos animales colaboraba aun trabajo fisico buena marcha comunidad puesto casa primer momento mejor aldea arregladas imagen semejanza salita amplia bien iluminada comedor forma terraza flores colores alegres dos dormitorios patio castano gigantesco huerto bien plantado corral vivian comunidad pacifica chivos cerdos gallinas unicos animales prohibidos solo casa sino poblado gallos pelea laboriosidad ursula andaba par marido activa menuda severa aquella mujer nervios inquebrantables ningun momento vida oyo cantar parecia todas partes amanecer entrada noche siempre perseguida suave susurro pollerines olan gracias pisos tierra golpeada muros barro encalar rusticos muebles madera construidos mismos siempre limpios viejos arcones guardaba ropa exhalaban tibio olor albahaca jose arcadio buendia hombre emprendedor veria jamas aldea dispuesto tal modo posicion casas todas podia llegarse rio abastecerse agua igual esfuerzo trazo calles tan buen sentido ninguna casa recibia sol hora calor pocos anos macondo aldea ordenada laboriosa cualquiera conocidas entonces habitantes verdad aldea feliz nadie mayor treinta anos nadie muerto tiempos fundacion jose arcadio buendia construyo trampas jaulas tiempo lleno turpiales canarios azulejos petirrojos solo propia casa sino todas aldea concierto tantos pajaros distintos llego ser tan aturdidor ursula tapo oidos cera abejas perder sentido realidad primera vez llego tribu melquiades vendiendo bolas vidrio dolor cabeza mundo sorprendio podido encontrar aquella aldea perdida sopor cienaga gitanos confesaron orientado canto pajaros aquel espiritu iniciativa social desaparecio tiempo arrastrado fiebre imanes calculos astronomicos suenos transmutacion ansias conocer maravillas mundo emprendedor limpio jose arcadio buendia convirtio hombre aspecto holgazan descuidado vestir barba salvaje ursula lograba cuadrar duras penas cuchillo cocina falto considerara victima algun extrano sortilegio convencidos locura abandonaron trabajo familias seguirlo echo hombro herramientas desmontar pidio concurso abrir trocha pusiera macondo contacto grandes inventos jose arcadio buendia ignoraba completo geografia region sabia hacia oriente sierra impenetrable lado sierra antigua ciudad riohacha epocas pasadas segun contado primer aureliano buendia abuelo sir francis drake daba deporte cazar caimanes canonazos luego hacia remendar rellenar paja llevarselos reina isabel juventud hombres mujeres ninos animales toda clase enseres domesticos atravesaron sierra buscando salida mar cabo veintiseis meses desistieron empresa fundaron macondo tener emprender camino regreso pues ruta interesaba solo podia conducirlo pasado sur pantanos cubiertos eterna nata vegetal vasto universo cienaga grande segun testimonio gitanos carecia limites cienaga grande confundia occidente extension acuatica horizontes cetaceos piel delicada cabeza torso mujer perdian navegantes hechizo tetas descomunales gitanos navegaban seis meses ruta alcanzar cinturon tierra firme pasaban mulas correo acuerdo calculos jose arcadio buendia unica posibilidad contacto civilizacion ruta norte modo doto herramientas desmonte armas caceria mismos hombres acompanaron fundacion macondo echo mochila instrumentos orientacion mapas emprendio temeraria aventura primeros dias encontraron obstaculo apreciable descendieron pedregosa ribera rio lugar anos encontrado armadura guerrero alli penetraron bosque sendero naranjos silvestres termino primera semana mataron asaron venado conformaron comer mitad salar resto proximos dias trataban aplazar precaucion necesidad seguir comiendo guacamayas cuya carne azul aspero sabor almizcle luego diez dias volvieron ver sol suelo volvio blando humedo ceniza volcanica vegetacion cada vez insidiosa hicieron cada vez lejanos gritos pajaros bullaranga monos mundo volvio triste siempre hombres expedicion sintieron abrumados recuerdos antiguos aquel paraiso humedad silencio anterior pecado original botas hundian pozos aceites humeantes machetes destrozaban lirios sangrientos salamandras doradas semana casi hablar avanzaron sonambulos universo pesadumbre alumbrados apenas tenue reverberacion insectos luminosos pulmones agobiados sofocante olor sangre podian regresar trocha iban abriendo paso volvia cerrar tiempo vegetacion nueva casi veian crecer ojos importa decia jose arcadio buendia esencial perder orientacion siempre pendiente brujula siguio guiando hombres hacia norte invisible lograron salir region encantada noche densa estrellas oscuridad impregnada aire nuevo limpio agotados prolongada travesia colgaron hamacas durmieron fondo primera vez dos semanas despertaron sol alto quedaron pasmados fascinacion frente rodeado helechos palmeras blanco polvoriento silenciosa luz manana enorme galeon espanol ligeramente volteado estribor arboladura intacta colgaban piltrafas escualidas velamen jarcias adornadas orquideas casco cubierto tersa coraza remora petrificada musgo tierno firmemente enclavado suelo piedras toda estructura parecia ocupar ambito propio espacio soledad olvido vedado vicios tiempo costumbres pajaros interior expedicionarios exploraron fervor sigiloso apretado bosque flores hallazgo galeon indicio proximidad mar quebranto impetu jose arcadio buendia consideraba burla travieso destino haber buscado mar contrarlo precio sacrificios penalidades cuento haberlo encontrado entonces buscarlo atravesado camino obstaculo insalvable anos despues coronel aureliano buendia volvio atravesar region ruta regular correo unico encontro nave costillar carbonizado medio campo amapolas solo entonces convencido aquella historia engendro imaginacion padre pregunto como podido galeon adentrarse punto tierra firme jose arcadio buendia planteo inquietud encontro mar cabo cuatro dias viaje doce kilometros distancia galeon suenos terminaban frente mar color ceniza espumoso sucio merecia riesgos sacrificios aventura carajo grito macondo rodeado agua todas partes idea macondo peninsular prevalecio tiempo inspirada mapa arbitrario dibujo jose arcadio buendia regreso expedicion trazo rabia exa gerando mala fe dificultades comunicacion castigarse mismo absoluta falta sentido eligio lugar nunca llegaremos ninguna parte mentaba ursula aqui pudrir vida recibir beneficios ciencia certidumbre rumiada varios meses cuartito laboratorio llevo concebir proyecto trasladar macondo lugar propicio vez ursula anticipo designios febriles secreta implacable labor hormiguita predispuso mujeres aldea veleidad hombres empezaban prepararse mudanza jose arcadio buendia supo momento virtud fuerzas adversas planes enredando marana pretextos contratiempos evasivas convertirse pura simple ilusion ursula observo atencion inocente sintio piedad manana encontro cuartito fondo comentando dientes suenos mudanza mientras colocaba cajas originales piezas laboratorio dejo terminar dejo clavar cajas poner iniciales encima hisopo entintado hacerle ningun reproche sabiendo sabia oyo decir sordos monologos hombres pueblo secundarian empresa solo empezo desmontar puerta cuartito ursula atrevio preguntarle hacia contesto cierta amargura puesto nadie quiere irse iremos solos ursula altero iremos dijo aqui quedamos aqui hijo todavia muerto dijo ninguna parte mientras muerto bajo tierra ursula replico suave firmeza si necesario muera queden aqui muero jose arcadio buendia creyo tan rigida voluntad mujer trato seducirla hechizo fantasia promesa mundo prodigioso bastaba echar liquidos magicos tierra plantas dieran frutos voluntad hombre vendian precio baratillo toda clase aparatos dolor ursula insensible clarividencia vez andar pensando alocadas novelerias debes ocuparte hijos replico miralos como abandonados buena dios igual burros jose arcadio buendia tomo pie letra palabras mujer miro traves ventana vio dos ninos descalzos huerta soleada impresion solo aquel instante empezado existir concebidos conjuro ursula ocurrio entonces interior misterioso definitivo desarraigo tiempo actual llevo deriva region inexplorada re cuerdos mientras ursula seguia barriendo casa ahora segura abandonar resto vida permanecio contemplando ninos mirada absorta ojos humedecieron seco dorso mano exhalo hondo suspiro resignacion meta datetimestamp mon wday isdst cien lat
With our document prepared, we proceed to create our Corpus or analysis variables, that is, this is our set of documents to analyze. In our particular case, the analysis variables are directed to all the paragraphs that make up the first 15 pages of the Hundred Years of Solitude document and will be assigned to a variable named nov_cien using the VectorSource and Corpus functions.
We will map our document analysis variables using the tm_mp and PlainTextDocuments functions. With our Corpus mapped in this way, we can easily create a word cloud (wordcloud from the bookstore of the same name) that shows us the most frequent terms of the work One Hundred Years of Solitude.
diez <- rep(1:ceiling(length(datos)/10), each = 10)
diez <- diez[1:length(datos)]
nov_text <- cbind(diez, datos) %>% data.frame()
nov_text <- aggregate(formula = datos ~ diez,
data = nov_text,
FUN = paste,
collapse = " ")
nov_text <- nov_text %>% select(datos) %>% as.matrix
dim(nov_text)
## [1] 1 1
nov_text <-
cbind(
rep(1:ceiling(length(datos)/10), each = 10) %>%
.[1:length(datos)],
datos
) %>%
data.frame %>%
aggregate(
datos ~ V1,
data = .,
FUN = paste,
collapse=" ") %>%
select(datos) %>%
as.matrix
dim(nov_text)
## [1] 1 1
nov_cien <- Corpus(VectorSource(nov_text))
nov_cien
## <<SimpleCorpus>>
## Metadata: corpus specific: 1, document level (indexed): 0
## Content: documents: 1
We can see that in our word cloud there are words of little interest like “river”, “carp” and other more representative ones like “ursula”, “man”, among others. Having this result, it is necessary to carry out a second cleaning. Performing a second debugging we find that the new word cloud debugs some less used ones like this:
library(tm)
nov_ptd <- tm_map(nov_cien, PlainTextDocument)
## Warning in tm_map.SimpleCorpus(nov_cien, PlainTextDocument): transformation
## drops documents
wordcloud(nov_ptd, max.words = 80, random.order = F, colors = brewer.pal(name = "Dark2", n = 8))
Obtaining variables of analysis and exploration data
nov_text <- removeWords(nov_text, words = c("olor", "padre", "cuartito", "lupa",
"ser", "entonces", "hizo", "todo", "mar","toda",
"solo"))
nov_cien <- datos %>% VectorSource() %>% Corpus()
nov_ptd <- nov_cien %>% tm_map(PlainTextDocument)
## Warning in tm_map.SimpleCorpus(., PlainTextDocument): transformation drops
## documents
nov_ptd
## <<SimpleCorpus>>
## Metadata: corpus specific: 1, document level (indexed): 0
## Content: documents: 2
By generating a new word cloud, in which it is possible to see a significant difference in its composition. Words like arcadio, buendía, pueblo, ursula and vida, it is understood that they can be the protagonists of the novel One Hundred Years of Solitude.
wordcloud(
nov_ptd, max.words = 80,
random.order = F,
colors=brewer.pal(name = "Dark2", n = 10)
)
## Warning in brewer.pal(name = "Dark2", n = 10): n too large, allowed maximum for palette Dark2 is 8
## Returning the palette you asked for with that many colors
Results corpus matrix
nov_tdm <- TermDocumentMatrix(nov_cien)
nov_tdm
## <<TermDocumentMatrix (terms: 1575, documents: 3)>>
## Non-/sparse entries: 1575/3150
## Sparsity : 67%
## Maximal term length: 16
## Weighting : term frequency (tf)
nov_mat <- as.matrix(nov_tdm)
dim(nov_mat)
## [1] 1575 3
nov_mat <- nov_mat %>% rowSums() %>% sort(decreasing = TRUE)
nov_mat <- data.frame(palabra = names(nov_mat), frec = nov_mat)
wordcloud(
words = nov_mat$palabra,
freq = nov_mat$frec,
max.words = 180,
random.order = F,
colors=brewer.pal(name = "Dark2", n = 3)
)
Although a word cloud visually shows us the frequency of words in our analysis variable, it does not return quantities. To obtain them, it is necessary to transform the variable into an array with a new number of lines equal to the number of different words in our Corpus and number of columns equal to their number of documents.
nov_tdm1<-nov_mat[1:30, ]
nov_tdm1
## palabra frec
## buendia buendia 31
## arcadio arcadio 29
## jose jose 29
## ursula ursula 23
## melquiades melquiades 18
## aldea aldea 13
## casa casa 13
## anos anos 11
## aquel aquel 11
## tiempo tiempo 11
## vez vez 11
## aquella aquella 10
## macondo macondo 10
## toda toda 10
## entonces entonces 9
## gitanos gitanos 9
## mientras mientras 9
## mundo mundo 9
## ninos ninos 9
## siempre siempre 9
## vida vida 9
## hombre hombre 8
## hombres hombres 8
## mujer mujer 8
## tierra tierra 8
## dos dos 7
## gitano gitano 7
## hacia hacia 7
## mismo mismo 7
## solo solo 7
nov_mat[1:30, ]
## palabra frec
## buendia buendia 31
## arcadio arcadio 29
## jose jose 29
## ursula ursula 23
## melquiades melquiades 18
## aldea aldea 13
## casa casa 13
## anos anos 11
## aquel aquel 11
## tiempo tiempo 11
## vez vez 11
## aquella aquella 10
## macondo macondo 10
## toda toda 10
## entonces entonces 9
## gitanos gitanos 9
## mientras mientras 9
## mundo mundo 9
## ninos ninos 9
## siempre siempre 9
## vida vida 9
## hombre hombre 8
## hombres hombres 8
## mujer mujer 8
## tierra tierra 8
## dos dos 7
## gitano gitano 7
## hacia hacia 7
## mismo mismo 7
## solo solo 7
####grafcias de frecuencia
nov_mat[1:20, ] %>%
ggplot(aes(palabra, frec)) +
geom_bar(stat = "identity", color = "black", fill = "turquoise") +
geom_text(aes(hjust = 1.3, label = frec)) +
coord_flip() +
labs(title = "Twenty most frequent words in the text of One Hundred Years of Solitude",
x = "Words", y = "Number of uses")
nov_mat %>%
mutate(perc = (frec/sum(frec))*100) %>%
.[1:10, ] %>%
ggplot(aes(palabra, perc)) +
geom_bar(stat = "identity", color = "black", fill = "green") +
geom_text(aes(hjust = 1.3, label = round(perc, 2))) +
coord_flip() +
labs(title = "Twenty most frequent words in the text of One Hundred Years of Solitude",
x = "Words", y = "usage percentage")