Análisis de documentos de texto

Introducción

Los textos largos ofrecen una gran cantidad de información para comparar y analizar. Al revisar lo que pasa en cada historia, podemos entender mejor cómo se conectan las cosas y qué ideas se repiten. También, podemos notar cómo cambian los personajes o cómo el autor cuenta la historia a lo largo del tiempo. Es como encontrar pistas sobre lo que hace única a cada historia y cómo el autor va armando todo.

En este trabajo, compararemos dos obras del escritor uruguayo Eduardo Galeano: Las venas abiertas de América Latina (1971) y Días y noches de amor y de guerra (1978). Ambas obras son importantes ejemplos de la literatura latinoamericana y ofrecen una visión crítica de la historia y la realidad del continente.

Objetivo

Realizar una comparación a nivel de contenido y análisis de sentimiento para evaluar la polaridad de las obras “Las venas abiertas de América Latina” y “Días y noches de amor y de guerra” de Eduardo Galeano.

Autor: Eduardo Galeano

Eduardo Galeano fue un escritor, periodista y pensador uruguayo. Es reconocido por su aguda mirada crítica sobre la historia y la realidad latinoamericana.

Se destacó por su estilo literario único, lleno de metáforas poderosas y una profunda sensibilidad hacia las injusticias sociales, la memoria colectiva y la identidad latinoamericana.

Libros

  1. Las venas abiertas de américa latina. (379 páginas)

    Es la narración de la historia económica de Latinoamérica y su constante relación de comercio, explotación y conspiración con Estados Unidos y Europa desde las invasiones del siglo XV hasta la época del “libre comercio” del de fines del siglo XX.

    El libro busca “ofrecer una historia del saqueo y a la vez contar cómo funcionan los mecanismos del despojo”

  2. Dias y noches de amor y de guerra. (137 páginas)

    Habla de la vida cotidiana en los tiempos de dictadura, configurando una hermosa crónica de un periodo atroz marcado por la violencia ejercida contra cualquier disidencia.

¿Por qué elegir estas obras?

Elegimos comparar estas obras porque ambas abordan temas relacionados con la historia y la sociedad latinoamericanas. Las venas abiertas de América Latina narra la historia económica de América Latina desde la conquista española hasta la época del “libre comercio” del siglo XX. Días y noches de amor y de guerra narra la vida cotidiana en los tiempos de la dictadura militar uruguaya.

Preprocesamiento

Para el caso del libro Las venas abiertas de américa latina, eliminamos manualmente páginas que no eran relevantes, por ejemplo la caratula con el título, el nombre del autor, además de el indice que no es relevante para este estudio.

Para el libro Dias y noches de amor y de guerra, elminamos de manera manual algunas páginas vacías y que no contenían texto relevante para el análisis, además de una pequeña biografía.

Posteriormente utilizando R Studio procedemos a realizar el debido tratamiento y limpieza.

Limpieza del texto

  • Realizamos el respectivo tratamiento de datos, transformaciones y limpieza de datos en los dos textos: venas_abiertas y dias_noches_amor.

Venas abiertas de américa latina:

Palabras Frecuencia
división 14
internacional 89
trabajo 119
consiste 7
países 218
especializan 1
ganar 7
perder 6
comarca 6
mundo 139

Dias y noches de amor y de guerra:

Palabras Frecuencia
viento 7
cara 38
peregrino 2
armas 13
habló 18
caracas 7
bisabuelo 2
sabía 31
historia 38
empezaba 3

Stopwords agregados:

lexiconSW <- append(lexiconSW,c("página","dos","tres", "mil","tan","veces",
                                "earl","united","arthur","cuatrocientos","ido",
                                "grant","and","si","god","cincuenta","obras","american",
                                "electric","share","parte","diez","sabe","ladodel","intér",
                                "detie","i","must","yes","cómo","hacía","gin","cada","guar",
                                "cuántas","dijo","vez","así","ciento","después","sólo", "menos",
                                "eddo","di","ma","sé","enla","mien","tras","do","na","yala","mana",
                                "ala","des","pues","dela"))

Una vez se aplica el lexico "Stopwords" para eliminar palabras como “el”, “de”, “en”, “y”, entre otras, utilizamos un diagrama para analizar las palabras más frecuentes del corpus:

  • La gráfica anterior nos da una perspectiva acerca de los temas que se abordan en los dos libros, de manera general podemos decir que se trata de una visión crítica de la historia y la política en América Latina.

Análisis Exploratorio de Datos

Comparaciones

Al analizar estas obras, se busca obtener una perspectiva más profunda de las visiones, enfoques y preocupaciones presentes en la escritura de Eduardo Galeano.

Etiquetado gramatical - udpipe

Usamos la herramienta y libreria “udpipe” para etiquetar las palabras dentro de las frases, en este caso tenemos “Sustantivos”, “Adjetivos” y “Verbos”.

Análisis por contenido

Los sustantivos son la parte de la oración que nombra a las personas, los lugares, los objetos, las ideas y las cualidades.

Analizando las palabras frecuentes de cada libro obtenemos :

Palabras mas utilizadas Venas abiertas de américa latina:

  • Unas de las palabra más utilizada en el libro es “País”, “América”, “Brasil”, “Unido”, “año” y “latina”. Estas palabras reflejan los temas principales del libro, se puede ver la influencia de norteamerica en el mercado de los países Latinoamericanos.

  • Por otro lado las palabras “tierra”, “norteamérica” y “mercado” hacen referencia a uno de los temas del libro como la explotación de latinoamerica por parte de Estados Unidos.

Palabras más utilizadas Dias y noches de amor y de guerra:

  • Las palabras más usadas en el libro son “decir”, “hacer”, “tener”, “saber”, “ver”, “dar” y “haber”. Estas palabras representan que el enfoque del autor se basa en las acciones.

  • La aparición de las palabras “casa”, “quedar”, “querer” y “estar” reflejan sentimientos de tranquilidad al estar en cierto lugar.

Corpus

Los verbos y los sustantivos son los tipos gramaticales más frecuentes en los libros de Galeano, esto sugiere que es un escritor que se preocupa por la narración de historias y la descripción del mundo.

También podemos decir del gráfico qué, las palabras más frecuentes en cada tipo gramatical proporcionan una visión más detallada de los intereses y las preocupaciones de Eduardo Galeano como escritor.

Venas Abiertas de América Latina:

En el grafico anterior se evidencia el uso en mayor medida de sustantivos, de ahí que el autor nombre personas, lugares, cosas y eventos.

De la presencia de palabras como “país”, “nuevo” y “hacer” se puede inferir que el autor se centra en la historia, el cambio y la acción.

Días y noches de amor y de guerra:

Al analizar el gráfico podemos inferir qué los sustantivos mas usados como “noche”, “año” y “dia” nos reflejan que el autor cuenta acerca de la vida cotidiana, ya que estas palabras representan el ciclo de la vida.

Además notamos que el autor se centra en las acciones de las personas, más que en sus cualidades, esto debido al mayor uso de verbos que de adjetivos.

Nubes de palabras

Por otro lado, utilizando nubes de palabras podemos analizar tener una perspectiva del contenido de cada libro.

Nube de palabras de los dos libros (corpus):

Al analizar el contenido de la nube de palabras del Corpus, podemos decir que, la historia, la economía y la política son temas relevantes en estas obras.

Además algunos tipos de cultivos presentes en países latinoamericanos, tales como “café”.

Nube de palabras, Venas abiertas de américa latina:

Además esta nube de palabras nos permite ver de manera más clara los temas del libro, por ejemplo podemos ver que los países lationamericanos con potencia en “petróleo”, “azucar”.

Las palabras “industria”, “empresas” y “mercado”, nos dejan más claro uno de los temas que es la economia. También se puede evidenciar la importancia de Brasil para el autor.

Nube de palabras, Días y noches de amor y de guerra:

La nube de palabras refleja los temas principales del libro, que son el amor, la guerra, la vida cotidiana y la historia de América Latina.

La aparición de palabras como “guerra”, “sangre”, “muertos” y “presos” nos reflejan la violencia presentada en cierto lugar.

Igualmente de la aparición de las palabras “casa” y “montevideo” (capital de Uruguay) se puede inferir de la importancia de este lugar para el autor.

Bigramas

Al generar un bigrama de nuestro corpus tenemos:

Al analizar el bigrama generado a partir del Corpus, inferimos que en los siglos del XVI al XIX en Argentina, Brasil y México se presentaba desarollo industrial bajo la influencia de empresas extrajenras y norteamericanas.

Debido a la relación de las palabras “Rio de Janeiro”, “Potosí” (Ciudad de Bolivia), “oro” y “plata”, podemos decir de la presencia de estos metales en estos lugares.

De igual manera generamos un bigrama para cada libro, (Venas Abiertas de America Latina):

  • Notamos que “cuba”, “azucar” y “esclavos” presentan relación, podemos decir que en en años pasados la industria azucareara primaba en Cuba y en su mano de obra predominaba la esclavitud.

  • Las palabras “alianza” y “progreso” nos pueden dar indicios que la alianza entre los países de la región es fundamental para lograr el progreso.

Igualmente podemos hacerlo para el libro Días y noches de amor y de guerra:

  • Hay una gran relación entre lugares como “Buenos Aires” y “Montevideo” ademas de algunos meses como “enero” y “julio” lo que puede representar un acontecimiento importante dentro del libro.

  • En este libro el autor aborda temas politico-economicos, esto debido a la relación de palabras como “ministro” y “economia”.

  • Encontramos que “reforma” y “agragria” tiene un gran relación, se puede inferir que el autor esta preocupado por la concentración de la propiedad de la tierra en pocos dueños y la baja productividad.

Análisis de Sentimientos

Al aplicar el léxico NRC, el cual nos da el nivel de “alegria”, “anticipación”, “asco”, “confianza”, “enojo”, “miedo”, negatividad”, “positivismo”, “sorpresa” y “tristeza” de cada libro, esto lo vemos reflejado en el siguiente diagrama:

Se puede evidenciar que en confianza y positivo es donde el libro “Venas Abiertas de America Latina” crece muy notablemente en comparación al otro,

Por otro lado el nivel de Sopresa es bajo para ambos libros, esto podría deberse a el estilo de escritura de Eduardo Galeano o también a que los libros no se centran en eventos inesperados sino en temas cotidianos.

Polaridad

Utilizando el Léxico Afinn a ambos libros obtenemos:

En comparación al Léxico NRC, en este caso solo analizamos la polaridad (positivo y negativo) de las palabras de cada libro.

Estas obras literarias maneja temas complejos y difíciles que pueden generar emociones negativas.

Relaciones entre los libros

  1. Se puede evidenciar que en ambos libros el autor desarolla estas obras sobre América Latina.
  2. En ambos libros predominan sentimientos negativos.
  3. En el libro Venas Abiertas de América Latina se presentan mayor cantidad de sentimientos.

Conclusiones

De acuerdo al análisis de sentimientos presentado y a la polaridad de las palabras empleadas en los texto, podemos llegar a las siguientes conclusiones:

  1. En “Venas Abiertas de América Latina” el autor se centra en hablar sobre los países de américa latina y la incidencia de empresas extranjeras en el mercado y como esto ha cambiado a través de los siglos. Por otro lado en el libro “Dias y noches de amor y de guerra” el autor cuenta sobre la vida cotidiana durante cierto tiempo através de los años.
  2. Se logró analizar los dos libros utilizando unigramas y bigramas para ver de manera más clara las relaciones y diferencias de estos.
  3. Las venas abiertas de América Latina tiene un enfoque más amplio, ya que aborda la historia económica de toda la región. Días y noches de amor y de guerra tiene un enfoque más local, ya que se centra en la vida cotidiana en lugares como Montevideo y Buenos Aires.

Referencias

  1. Galeano, E. (2009). Las venas abiertas de America Latina (26a ed.). Siglo XXI Ediciones.

    link libro: https://www.corteidh.or.cr/tablas/r31206.pdf

  2. Galeano, E. (1984). Días y noches de amor y de guerra.

    Link libro: https://resistir.info/livros/galeano_dias_y_noches.pdf

  3. Galiano, R. (2023, 2 de agosto). Análisis de sentimientos en libros de Eduardo Galeano. YouTube. https://www.youtube.com/watch?v=522cn9imFfc

  4. pdftools: Becker, H., Falk, D., & Oswald, K. (2022). pdftools: Tools for processing PDF documents. R package version 3.0.1.

  5. dplyr: Wickham, H., & Grolemund, G. (2022). dplyr: A grammar of data manipulation. R package version 1.2.0.

  6. tidytext: Silge, C., & Robinson, D. (2022). tidytext: Text mining and analysis tools for R. R package version 3.2.0.

  7. ggplot2: Wickham, H. (2022). ggplot2: Elegant graphics for data analysis. Springer-Verlag.

  8. tm: Feinerer, I., & Hornik, K. (2022). tm: Text mining package. R package version 0.9-10.

  9. stringr: Wickham, H. (2021). stringr: String manipulation tools. R package version 1.4.6.

  10. stringi: Gagolewski, M., & Stahel, P. (2022). stringi: Fast and portable string processing in R. R package version 1.7.6.

  11. scales: Wickham, H. (2016). scales: Scale functions for visualization. R package version 1.1.1.

  12. widyr: Wickham, H., & Bryan, J. (2022). widyr: Wider and longer data frames with dplyr. R package version 1.2.0.

  13. ggraph: Alberts, D. (2022). ggraph: Package for creating and manipulating graph objects. R package version 2.0.14.

  14. igraph: Csardi, G., & Nepusz, T. (2022). igraph: Network analysis library. R package version 1.3.5.

  15. tidyverse: Wickham, H., & RStudio Team. (2022). tidyverse: Easily install and load dplyr, ggplot2, tidyr, and other tidy tools. R package version 1.3.2.

  16. textdata: Grolemund, G., & Silge, C. (2022). textdata: Tools for text mining and analysis in R. R package version 1.4.1.

  17. plotly: Sievert, C., Paruolo, P., & Emery, M. (2022). plotly: Create interactive web graphics via R. R package version 4.10.0.

  18. udpipe: Foster, P., Ljubešić, N., & Deters, T. (2022). udpipe: Universal Dependency Parser. R package version 2.1.1.

  19. patchwork: Wickham, H. (2022). patchwork: The composer of ggplots. R package version 1.1.1.