Introducción al uso de técnicas computacionales en CS

«Curso: Metodología cualitativa y teoría fundamentada»
Doctorado en Estudios del Desarrollo. Problemas y Perspectivas Latinoamericanas
Instituto Mora - México
Dr. Agustín Nieto (INHUS-CONICET/UNMdP)
| @agusnieto77
9 de octubre de 2025

Objetivo

Esta charla ofrece una introducción a la minería de texto aplicada al análisis de grandes volúmenes de datos utilizando R. A través de ejemplos concretos, se presentarán herramientas y técnicas fundamentales para la extracción, procesamiento y análisis de textos, abordando casos de datos provenientes de fuentes digitales. El objetivo es proporcionar una primera aproximación a métodos computacionales para el estudio de textos en humanidades y ciencias sociales, con foco en la identificación de patrones, el procesamiento de lenguaje natural y la generación de visualizaciones.

Recolección masiva de información con IA y web scraping

Las herramientas computacionales posibilitan la recolección automatizada y masiva de datos en investigaciones sociales, a través de técnicas como web scraping y APIs. Los algoritmos permiten extraer, filtrar y estructurar grandes volúmenes de información de redes sociales, prensa digital, foros y repositorios web, superando barreras lingüísticas, formatos y escalas. La IA genera nuevas oportunidades para capturar tendencias, comportamientos y discursos en tiempo real, y facilita la exploración de fenómenos sociales emergentes en internet y plataformas digitales.

Procesamiento inteligente de datos en investigación social

Una vez recolectados, los datos pueden ser procesados mediante técnicas computacionales que los limpian, normalizan y organizan. Los modelos automáticos transcriben entrevistas, traducen documentos y convierten datos no estructurados en insumos comparables. Herramientas de procesamiento de lenguaje natural (PLN) y algoritmos de clasificación ordenan la información de modo eficiente, lo que permite manejar corpus multilingües, conjuntos complejos y datos multimodales (texto, imagen, audio) para posteriores análisis cualitativos y cuantitativos.

Análisis cualitativo asistido por IA en ciencias sociales

La etapa de análisis cuantitativo y cualitativo con técnicas computacionales se potencia mediante IA generativa y modelos de lenguaje que identifican temas, patrones y tendencias en grandes volúmenes de datos. Estos sistemas sugieren códigos, agrupan fragmentos relevantes y detectan sentidos latentes, facilitando la síntesis conceptual y la construcción de explicaciones complejas. Con IA, le investigadore puede enfocar la interpretación reflexiva en los hallazgos emergentes y mantener el control sobre la validación y la integración ética de los resultados.

Procesamiento y análisis de textos

Una introducción a la minería de texto y el procesamiento de lenguaje natural (NLP). ¿Cómo transformar textos en datos analizables cuantitativa y cualitativamente? Extracción de entidades, análisis de sentimientos y detección de temas aplicados al estudio de textos en historia, ciencias políticas, sociología y antropología: documentos históricos, prensa, discursos políticos, debates legislativos, entrevistas, diarios, cartas y materiales de archivo.

Aplicación de grandes modelos de lenguaje (LLMs)

A partir de modelos de lenguaje avanzados como GPT de OpenAI, se mostrará cómo estas tecnologías pueden enriquecer el análisis textual combinando métodos cuantitativos y cualitativos. Esto incluye la extracción automatizada de entidades (nombres, fechas, ubicaciones), el análisis de contenidos temáticos y la organización de información que permita tanto el análisis a gran escala como la interpretación en profundidad.

Glosario inicial

Giro digital [digital turn]

Según la DFD (Sociedad Alemana de Investigación) el término “giro digital” comprende todos los cambios e impactos relevantes en términos epistémicos, éticos, legales, técnicos, de infraestructura, organizacionales, financieros y también sociales, que surgen del desarrollo y uso de las tecnologías digitales en las ciencias y las humanidades. Por otra parte, el giro digital no es un fenómeno que se restringe a la investigación científica; Las tecnologías y los procesos digitales son, por el contrario, relevantes en todos los ámbitos de la sociedad y la economía.

Macrodatos [big data]

Según la gobierno argentino el término “big data” se refiere a una gran cantidad de información que sólo se puede procesar mediante el uso de herramientas digitales y que sirve para responder preguntas a través del análisis de enormes volúmenes de datos. Se trata de un paradigma que se caracteriza por lo que se conoce como las cinco V: Volumen, Velocidad, Variedad, Veracidad, Valor.

Humanidades digitales [digital humanities]

Según Susan Greenberg HD es un término nuevo que describe lo que probablemente sea una actividad (o colección de actividades) antigua pero que nos da una imagen o metáfora fresca de ese trabajo, para que pueda ser visto con nuevos ojos. Permite que se hagan nuevas conexiones a través de lo que antes eran campos de interés muy separados, que es la esencia de la imaginación y la creación de nuevos conocimientos.

Mientras que para Jennifer Giuliano, en su forma más simple, DH es la utilización de computadoras y herramientas computacionales para la exploración, análisis y producción de conocimiento humanístico.

Para ver más de 800 definiciones de HD ir a what is digital humanities?

Ciencias Sociales Computacionales [Computational Social Science]

Según David Lazer y colaboradores, las ciencias sociales computacionales representan la emergencia de capacidades de recolección y análisis de datos que permiten un modelado del comportamiento individual y colectivo a escalas sin precedentes. Este campo combina la sofisticación teórica de las ciencias sociales con los métodos computacionales y el análisis de grandes volúmenes de datos. Para Matthew Salganik, las ciencias sociales computacionales integran el pensamiento de las ciencias sociales con las habilidades de la ciencia de datos y la sensibilidad ética necesaria para trabajar con datos masivos sobre comportamiento humano. En su forma más amplia, las CSS utilizan herramientas computacionales, algoritmos de machine learning y técnicas de análisis de datos para explorar preguntas fundamentales sobre la sociedad, la política, la cultura y el comportamiento humano.

El giro digital

El giro digital y la lectura distante

El giro digital y su boom de datos forzó diálogos insospechados entre las ciencias comunicacionales y las ciencias sociales y humanas. Las nuevas tecnologías y la proliferación de datos masivos en formato digital trajeron más desorden a los ya desordenados escritorios de científicxs sociales y humanistas (historiadorxs, sociólogxs, politólogxs, antropólogxs, filósofxs, etc., etc., etc.), que el contexto pandémico no hizo más que amplificar con su hipertrofiada virtualidad.

  • ¿Cómo hacer archivo de forma remota?
  • ¿Se puede hacer etnografía en la virtualidad?
  • ¿Las encuestas online son confiables?
  • ¿Son viables las entrevistas por telegram o whatsapp?
  • ¿Cómo ir a la hemeroteca sin salir de casa?
  • ¿Cómo leer cientos de periódicos sin hojearlos?

Datos: ¿analógicos o digitales?

¿Big Data vs. Small Data?

La distinción entre datos pequeños y grandes es reciente. Antes de 2008, los datos rara vez se consideraban en términos de “pequeños” o “grandes”. Todos los datos eran, en efecto, lo que ahora a veces se denomina “Small Data”, independientemente de su volumen (Kitchin & Lauriault, 2015).

Programación y ciencias sociales y humanidades

Las relaciones entre programación y ciencias sociales no son nuevas, pero sí más visibles y necesarias que hace unos años. No parece ser conveniente encerrarse en una postura contraria. Estamos cada vez más cerca de la incorporación de técnicas y métodos computacionales en los planes de estudios de las carreras universitarias de grado. Ciencias Sociales Computacionales, Humanidades Digitales, Historia Digital, lectura distante, métodos cualitativos digitales, son nombres cada vez más escuchados en nuestros ámbitos de trabajo. Y lo serán aún más en poco tiempo.

Humanidades digitales y programación

Dentro de la diversa y compleja variedad de epistemologías, problemáticas, metodologías, técnicas y lenguajes de programación disponibles en las ciencias sociales computacionales y las humanidades digitales, optamos por un enfoque pragmático, similar al de los autodidactas que aprenden a través de tutoriales en plataformas como YouTube. A partir de un conjunto reducido de problemas específicos (como la descarga de grandes volúmenes de texto desde internet, la conversión de datos a formatos tabulares, y la limpieza, procesamiento, exploración y visualización de estos sin necesidad de una lectura profunda), nos adentraremos en lenguajes de programación como R, Python, PHP y SQL. Con estos, abordaremos ejercicios prácticos de web scraping, minería de texto y lectura distante.

CATA: Campo del Análisis de Texto Asistido por Computadora

Este campo de análisis incluye métodos y técnicas computacionales relacionados con el análisis de contenido (semi) automatizado y la minería de textos. En orden de antigüedad,las tres áreas centrales del CATA son: 1) técnicas que se basan en diccionarios y conteo simple de palabras, 2) aprendizaje automático supervisado, 3) aprendizaje automático no supervisado, y aprendizaje automático semi supervisado. CATA puede usarse para dibujar una imagen precisa de los actores, los problemas y la dinámica temporal de los procesos conflictivos (Maerz & Puschmann, 2020).

Enfoques computacionales

Estas técnicas pueden entenderse como existentes en un continuo, desde enfoques que son de naturaleza más deductiva y presuponen un conocimiento de dominio muy detallado y problemas de investigación precisos, como el análisis de diccionario; hasta métodos más inductivos como el aprendizaje no supervisado, más adecuados para la exploración.

Preprocesamiento de texto

El preprocesamiento de texto es una etapa fundamental en el análisis de datos textuales que implica la limpieza y transformación del texto crudo en un formato adecuado y estandarizado para su posterior análisis y procesamiento. Aunque los datos textuales pueden ser una fuente rica de información, su naturaleza no estructurada y variada puede presentar desafíos significativos para su análisis automatizado. El preprocesamiento de texto busca abordar estos desafíos mediante la aplicación de una serie de técnicas y procedimientos diseñados para mejorar la calidad y la utilidad de los datos textuales.

Eliminación de caracteres especiales y puntuación

El texto crudo a menudo contiene caracteres especiales, signos de puntuación y otros símbolos que no son relevantes para el análisis y pueden interferir con los algoritmos de procesamiento. Por lo tanto, una de las primeras tareas en el preprocesamiento es eliminar estos caracteres para limpiar el texto.

Conversión a minúsculas

Para garantizar la consistencia y evitar la duplicación de palabras debido a diferencias de mayúsculas y minúsculas, es común convertir todo el texto a minúsculas durante el preprocesamiento. Esto asegura que las palabras se traten de manera uniforme independientemente de cómo estén escritas en el texto original.

Eliminación de números

En muchos casos, los números no aportan información semántica relevante para el análisis de texto y pueden ser eliminados durante el preprocesamiento para simplificar el texto y reducir la complejidad.

Tokenización

La tokenización es el proceso de dividir el texto en unidades más pequeñas, llamadas tokens, que pueden ser palabras individuales, partes de palabras o incluso caracteres. Este paso es crucial para preparar el texto para análisis posteriores, ya que permite identificar las unidades básicas de significado en el texto.

Stopwords

Las palabras vacías (stopwords), como “el”, “de”, “en” y otras palabras comunes que no aportan significado semántico al texto, suelen ser eliminadas durante el preprocesamiento para reducir el ruido y mejorar la precisión del análisis.

Normalización de término

La normalización de términos implica la reducción de las palabras a su forma base, o lema, para agrupar palabras que tienen el mismo significado pero diferentes formas. Esto incluye la lematización y la derivación de palabras (stemming), que son técnicas utilizadas para simplificar el texto y mejorar la coherencia en el análisis.

Diccionarios y Bolsas de palabras

Los diccionarios y bolsas de palabras son herramientas utilizadas en la minería de texto para representar documentos como vectores de términos. Los diccionarios contienen términos únicos y sus frecuencias, mientras que las bolsas de palabras contienen información binaria sobre la presencia o ausencia de términos en un documento.

Etiquetado de Partes del Discurso (POS)

El etiquetado de partes del discurso es el proceso de asignar etiquetas gramaticales a cada palabra en un texto, como sustantivos, verbos, adjetivos, etc. Esto ayuda a comprender la estructura gramatical del texto.

Reconocimiento de Entidades Nombradas (NER)

El reconocimiento de entidades nombradas es una técnica utilizada para identificar y clasificar entidades importantes en un texto, como personas, lugares, organizaciones, fechas, etc.

IA y el nuevo horizonte en análisis cualitativo

La inteligencia artificial está transformando los análisis cualitativos en ciencias sociales, permiten automatizar tareas antes manuales: transcripción de entrevistas, codificación de textos, detección de patrones y traducción de discursos multilingües. IA generativa ofrece rapidez y adaptación, lo que posibilita el estudio de grandes corpus de datos y genera insumos para síntesis y hipótesis. Sin embargo, estos avances deben acompañarse de una reflexión metodológica crítica, ya que la integración de IA modifica los procedimientos y abre tensiones éticas: sesgos algorítmicos, privacidad, interpretación contextual y transparencia. El aporte clave de la IA reside en expandir las fronteras de lo cualitativo y enriquecer la mirada del investigador, no en reemplazarla.

Riesgos del uso acrítico de IA en investigación social

El uso acrítico de inteligencia artificial en investigación social puede reproducir y amplificar sesgos presentes en los datos de entrenamiento, homogeneizar interpretaciones y perder matices contextuales cruciales. Existe el riesgo de automatizar decisiones metodológicas sin reflexión, y debilitar así el vínculo del investigador con los sujetos y fenómenos estudiados. La privacidad de los participantes y la protección de datos pueden verse comprometidas. Además, la adopción precipitada de IA sin criterios éticos o epistemológicos claros favorece la superficialidad, la pérdida de creatividad y transparencia, lo que dificulta la validación y la confianza en los resultados. Integrar IA requiere cuestionar sus límites, garantizar la reflexividad y preservar el juicio crítico en cada etapa del proceso investigativo.

La IA y el efecto ‘espejo retrovisor’

“McLuhan señaló cómo, al utilizar nuevas tecnologías, nuestra visión está restringida por nuestra experiencia previa. No captamos inmediatamente el potencial de las nuevas tecnologías, sino que las interpretamos a la luz de lo que sabemos. McLuhan llamó a este efecto ‘el espejo retrovisor’. ‘Cuando nos enfrentamos a una situación totalmente nueva (…) siempre tendemos a apegarnos a los objetos, al sabor del pasado más reciente’. (Miramos el presente a través del espejo retrovisor. Marchamos hacia atrás hacia el futuro. Además, (…) nos aferramos al espejo retrovisor porque la vista que ofrece puede ser más reconfortante que enfrentar lo que se ve a través del parabrisas. (…) ‘El instinto humano común hace que la gente retroceda ante estos nuevos entornos y confíe en el espejo retrovisor como una especie de repetición o ricorso del entorno anterior, asegurando así una desorientación total en todo momento. No es que haya nada malo en el antiguo entorno, sino que simplemente no servirá como guía de navegación hacia el nuevo’.” (Prescott, 2016).

Historia del Observatorio de Conflictividad

Lanzamos el Observatorio en 2012 como una iniciativa llamada SISMOS (Seminario de Investigación sobre el Movimiento de la Sociedad), con el objetivo de registrar la conflictividad en la ciudad de Mar del Plata.

Anotar conflictos a mano: el inicio del monitoreo

Íbamos al archivo, tomábamos fotos de las notas de prensa y codificábamos manualmente los eventos de conflictividad en una planilla de Excel.

Del Excel al formulario web: cambios en los formatos de carga

Pasamos de una planilla de Excel sin validaciones a una base en Access con consultas básicas. Luego usamos formularios de Google para facilitar la carga colaborativa, hasta llegar a un formulario propio en PHP, SQL y JS, con validaciones, múltiples usuarios y base de datos integrada.

Giro computacional en el monitoreo de la conflictividad

Comenzamos a utilizar prensa online como fuente, implementando técnicas de web scraping y minería de texto. El análisis se apoyó en un enfoque de diccionario, que permite identificar automáticamente actores, demandas y formas de acción en los textos.

El giro IA en el análisis de la conflictividad

Actualmente estamos incorporando modelos generativos de lenguaje (LLMs) para automatizar la extracción de datos estructurados a partir de notas periodísticas en texto plano. Esto nos permite no solo identificar actores, demandas y formas de acción, sino también generar resúmenes, clasificaciones y etiquetas con mayor flexibilidad y escalabilidad.

Experiencia, herramientas y prototipos

Otros recursos y otras experiencias

Bibliografía recomendada

  • Cairo, Alberto (2017) Visualización de datos: una imagen puede valer más que mil números, pero no siempre más que mil palabras. Profesional de la información 26, 6, 1025-28 (link).

  • Donig, S., Eckl, M., Gassner, S., & Rehbein, M. (2023). Web archive analytics: Blind spots and silences in distant readings of the archived web. Digital Scholarship in the Humanities (link).

  • Franzosi, Roberto (2004) From words to numbers, selección (pp.28-43, 237-274) (link).

  • Franzosi, Roberto (2020) What’s in a text? Bridging the gap between quality and quantity in the digital era. Quality & Quantity, 1-28 (link).

  • Melo, Jairo (2017) Lectura distante, fragmentada y colaborativa en el archivo infinito. Relaciones: Estudios de historia y sociedad, 38,149, 169-89 (link).

  • Moretti, Franco (2015) El matadero de la literatura. Lectura distante, FCE, Buenos Aires (link).

  • Moretti, Franco (2023) Ver y no ver. Sobre la visualización de los datos en las disciplinas humanísticas. Falso movimiento, 65-101 (link).

  • Mueller, Martin (2012) Scalable Reading. Scalablereading (link).

  • Prescott, A. (2014) I’d Rather be a Librarian. Cultural and Social History, 11(3), 335–341 (link).

  • Putnam, Lara (2016) The Transnational and the Text-searchable: Digitized Sources and the Shadows they Cast, American Historical Review, vol. 121, 2 (link).

  • Tilly, Charles (1973) Computers in Historical Analysis. Computers and the Humanities, vol. 7, no. 6, pp. 323–35 (link).

  • Tufte, Edward (2001) Estética y Técnica en el Diseño de Gráficos de Datos. La Representación Visual de Información Cuantitativa, 177-190 (link).

¡GRACIAS!

«Curso: Metodología cualitativa y teoría fundamentada»
Doctorado en Estudios del Desarrollo. Problemas y Perspectivas Latinoamericanas
Instituto Mora - México
Dr. Agustín Nieto (INHUS-CONICET/UNMdP)
| @agusnieto77
9 de octubre de 2025