TALLER II

«Introducción a la MT en grandes cantidades de datos con R »

Grupo de Estudios Marítimos y Sociales

Facultad de Humanidades - UNMdP

Dr. Agustín Nieto (INHUS-CONICET/UNMdP)

agustin.nieto77@gmail.com | @agusnieto77

26 de abril de 2025

Objetivo

Este taller se propone una introducción práctica a la minería de texto aplicada al análisis de grandes volúmenes de datos utilizando R. A través de ejercicios guiados, lxs participantes explorarán herramientas y técnicas fundamentales para la extracción, procesamiento y análisis de textos, abordando casos concretos de datos provenientes de fuentes digitales. El objetivo del taller es proporcionar una primera aproximación a métodos computacionales para el estudio de textos en humanidades y ciencias sociales, con foco en la identificación de patrones, el procesamiento de lenguaje natural y la generación de visualizaciones.

Procesamiento y análisis de textos

Una introducción a la minería de texto y el procesamiento de lenguaje natural (NLP). ¿Cómo convertir datos brutos en información estructurada? Extracción de entidades, análisis de sentimientos y detección de temas, especialmente útil para analizar diarios, cartas, periódicos y otros documentos históricos.

Aplicación de grandes modelos de lenguaje (LLMs)

Mediante el uso de modelos de lenguaje avanzados como GPT de OpenAI, se explorará cómo estas tecnologías pueden identificar y estructurar información en corpus de texto. Esto incluye la extracción automatizada de entidades (nombres, fechas, ubicaciones) y la conversión de documentos no estructurados en formatos organizados, facilitando su análisis y visualización.

Glosario inicial

Giro digital [digital turn]

Según la DFD (Sociedad Alemana de Investigación) el término “giro digital” comprende todos los cambios e impactos relevantes en términos epistémicos, éticos, legales, técnicos, de infraestructura, organizacionales, financieros y también sociales, que surgen del desarrollo y uso de las tecnologías digitales en las ciencias y las humanidades. Por otra parte, el giro digital no es un fenómeno que se restringe a la investigación científica; Las tecnologías y los procesos digitales son, por el contrario, relevantes en todos los ámbitos de la sociedad y la economía.

Macrodatos [big data]

Según la gobierno argentino el término “big data” se refiere a una gran cantidad de información que sólo se puede procesar mediante el uso de herramientas digitales y que sirve para responder preguntas a través del análisis de enormes volúmenes de datos. Se trata de un paradigma que se caracteriza por lo que se conoce como las cinco V: Volumen, Velocidad, Variedad, Veracidad, Valor.

Humanidades digitales [digital humanities]

Según Susan Greenberg HD es un término nuevo que describe lo que probablemente sea una actividad (o colección de actividades) antigua pero que nos da una imagen o metáfora fresca de ese trabajo, para que pueda ser visto con nuevos ojos. Permite que se hagan nuevas conexiones a través de lo que antes eran campos de interés muy separados, que es la esencia de la imaginación y la creación de nuevos conocimientos.

Mientras que para Jennifer Giuliano, en su forma más simple, DH es la utilización de computadoras y herramientas computacionales para la exploración, análisis y producción de conocimiento humanístico.

Para ver más de 800 definiciones de HD ir a what is digital humanities?

El giro digital

El giro digital y la lectura distante

El giro digital y su boom de datos forzó diálogos insospechados entre las ciencias comunicacionales y las ciencias sociales y humanas. Las nuevas tecnologías y la proliferación de datos masivos en formato digital trajeron más desorden a los ya desordenados escritorios de científicxs sociales y humanistas (historiadorxs, sociólogxs, politólogxs, antropólogxs, filósofxs, etc., etc., etc.), que el contexto pandémico no hizo más que amplificar con su hipertrofiada virtualidad.

¿Cómo hacer archivo de forma remota?
¿Se puede hacer etnografía en la virtualidad?
¿Las encuestas online son confiables?
¿Son viables las entrevistas por telegram o whatsapp?
¿Cómo ir a la hemeroteca sin salir de casa?
¿Cómo leer cientos de periódicos sin hojearlos?

Datos: ¿analógicos o digitales?

¿Big Data vs. Small Data?

La distinción entre datos pequeños y grandes es reciente. Antes de 2008, los datos rara vez se consideraban en términos de “pequeños” o “grandes”. Todos los datos eran, en efecto, lo que ahora a veces se denomina “Small Data”, independientemente de su volumen (Kitchin & Lauriault, 2015).

Programación y ciencias sociales y humanidades

Las relaciones entre programación y ciencias sociales no son nuevas, pero sí más visibles y necesarias que hace unos años. No parece ser conveniente encerrarse en una postura contraria. Estamos cada vez más cerca de la incorporación de técnicas y métodos computacionales en los planes de estudios de las carreras universitarias de grado. Ciencias Sociales Computacionales, Humanidades Digitales, Historia Digital, lectura distante, métodos cualitativos digitales, son nombres cada vez más escuchados en nuestros ámbitos de trabajo. Y lo serán aún más en poco tiempo.

Humanidades digitales y programación

Dentro de la diversa y compleja variedad de epistemologías, problemáticas, metodologías, técnicas y lenguajes de programación disponibles en las ciencias sociales computacionales y las humanidades digitales, optamos por un enfoque pragmático, similar al de los autodidactas que aprenden a través de tutoriales en plataformas como YouTube. A partir de un conjunto reducido de problemas específicos (como la descarga de grandes volúmenes de texto desde internet, la conversión de datos a formatos tabulares, y la limpieza, procesamiento, exploración y visualización de estos sin necesidad de una lectura profunda), nos adentraremos en lenguajes de programación como R, Python, PHP y SQL. Con estos, abordaremos ejercicios prácticos de web scraping, minería de texto y lectura distante.

CATA: Campo del Análisis de Texto Asistido por Computadora

Este campo de análisis incluye métodos y técnicas computacionales relacionados con el análisis de contenido (semi) automatizado y la minería de textos. En orden de antigüedad,las tres áreas centrales del CATA son: 1) técnicas que se basan en diccionarios y conteo simple de palabras, 2) aprendizaje automático supervisado, 3) aprendizaje automático no supervisado, y aprendizaje automático semi supervisado. CATA puede usarse para dibujar una imagen precisa de los actores, los problemas y la dinámica temporal de los procesos conflictivos (Maerz & Puschmann, 2020).

Enfoques computacionales

Estas técnicas pueden entenderse como existentes en un continuo, desde enfoques que son de naturaleza más deductiva y presuponen un conocimiento de dominio muy detallado y problemas de investigación precisos, como el análisis de diccionario; hasta métodos más inductivos como el aprendizaje no supervisado, más adecuados para la exploración.

Preprocesamiento de texto

El preprocesamiento de texto es una etapa fundamental en el análisis de datos textuales que implica la limpieza y transformación del texto crudo en un formato adecuado y estandarizado para su posterior análisis y procesamiento. Aunque los datos textuales pueden ser una fuente rica de información, su naturaleza no estructurada y variada puede presentar desafíos significativos para su análisis automatizado. El preprocesamiento de texto busca abordar estos desafíos mediante la aplicación de una serie de técnicas y procedimientos diseñados para mejorar la calidad y la utilidad de los datos textuales.

Eliminación de caracteres especiales y puntuación

El texto crudo a menudo contiene caracteres especiales, signos de puntuación y otros símbolos que no son relevantes para el análisis y pueden interferir con los algoritmos de procesamiento. Por lo tanto, una de las primeras tareas en el preprocesamiento es eliminar estos caracteres para limpiar el texto.

Conversión a minúsculas

Para garantizar la consistencia y evitar la duplicación de palabras debido a diferencias de mayúsculas y minúsculas, es común convertir todo el texto a minúsculas durante el preprocesamiento. Esto asegura que las palabras se traten de manera uniforme independientemente de cómo estén escritas en el texto original.

Eliminación de números

En muchos casos, los números no aportan información semántica relevante para el análisis de texto y pueden ser eliminados durante el preprocesamiento para simplificar el texto y reducir la complejidad.

Tokenización

La tokenización es el proceso de dividir el texto en unidades más pequeñas, llamadas tokens, que pueden ser palabras individuales, partes de palabras o incluso caracteres. Este paso es crucial para preparar el texto para análisis posteriores, ya que permite identificar las unidades básicas de significado en el texto.

Stopwords

Las palabras vacías (stopwords), como “el”, “de”, “en” y otras palabras comunes que no aportan significado semántico al texto, suelen ser eliminadas durante el preprocesamiento para reducir el ruido y mejorar la precisión del análisis.

Normalización de término

La normalización de términos implica la reducción de las palabras a su forma base, o lema, para agrupar palabras que tienen el mismo significado pero diferentes formas. Esto incluye la lematización y la derivación de palabras (stemming), que son técnicas utilizadas para simplificar el texto y mejorar la coherencia en el análisis.

Diccionarios y Bolsas de palabras

Los diccionarios y bolsas de palabras son herramientas utilizadas en la minería de texto para representar documentos como vectores de términos. Los diccionarios contienen términos únicos y sus frecuencias, mientras que las bolsas de palabras contienen información binaria sobre la presencia o ausencia de términos en un documento.

Etiquetado de Partes del Discurso (POS)

El etiquetado de partes del discurso es el proceso de asignar etiquetas gramaticales a cada palabra en un texto, como sustantivos, verbos, adjetivos, etc. Esto ayuda a comprender la estructura gramatical del texto.

Reconocimiento de Entidades Nombradas (NER)

El reconocimiento de entidades nombradas es una técnica utilizada para identificar y clasificar entidades importantes en un texto, como personas, lugares, organizaciones, fechas, etc.

Algunos recursos y experiencias

Bibliografía recomendada

Cairo, Alberto (2017) Visualización de datos: una imagen puede valer más que mil números, pero no siempre más que mil palabras. Profesional de la información 26, 6, 1025-28 (link).
Donig, S., Eckl, M., Gassner, S., & Rehbein, M. (2023). Web archive analytics: Blind spots and silences in distant readings of the archived web. Digital Scholarship in the Humanities (link).
Franzosi, Roberto (2004) From words to numbers, selección (pp.28-43, 237-274) (link).
Franzosi, Roberto (2020) What’s in a text? Bridging the gap between quality and quantity in the digital era. Quality & Quantity, 1-28 (link).
Melo, Jairo (2017) Lectura distante, fragmentada y colaborativa en el archivo infinito. Relaciones: Estudios de historia y sociedad, 38,149, 169-89 (link).
Moretti, Franco (2015) El matadero de la literatura. Lectura distante, FCE, Buenos Aires (link).
Moretti, Franco (2023) Ver y no ver. Sobre la visualización de los datos en las disciplinas humanísticas. Falso movimiento, 65-101 (link).
Mueller, Martin (2012) Scalable Reading. Scalablereading (link).
Prescott, A. (2014) I’d Rather be a Librarian. Cultural and Social History, 11(3), 335–341 (link).
Putnam, Lara (2016) The Transnational and the Text-searchable: Digitized Sources and the Shadows they Cast, American Historical Review, vol. 121, 2 (link).
Tilly, Charles (1973) Computers in Historical Analysis. Computers and the Humanities, vol. 7, no. 6, pp. 323–35 (link).
Tufte, Edward (2001) Estética y Técnica en el Diseño de Gráficos de Datos. La Representación Visual de Información Cuantitativa, 177-190 (link).

¡GRACIAS!