SIMPOSIO IV

PANEL: Límites y desafíos en la producción de estadísticas sobre protesta social y conflicto
Desafíos metodológicos en la detección automática de eventos de protesta con IAG
Dr. Agustín Nieto (INHUS-CONICET/UNMdP)
| @agusnieto77
Facultad de Ciencia Política y Relaciones Internacionales
Universidad Nacional de Rosario

Antecedentes de análisis computacional

Características Diccionario Supervisado No supervisado
Contextos / material de investigación típicos en estudios de conflictos Análisis de sentimientos de documentos de partidos opuestos o grupos militantes, o series de tiempo de fluctuación de sentimientos Numerosos textos relativamente homogéneos. Por ejemplo, corpus de notas periodísticas; clasificación de sentimientos o humor social en oraciones o párrafos Grandes cantidades de material inexplorado. Por ejemplo, notas de investigación de campo, documentos oficiales, redes sociales.
Procedimientos estadísticos comunes Recuento de frecuencias de palabras, comparaciones de cadenas Máquinas de Vectores de Soporte, Naive Bayes, Neural Networks Modelado de Tópicos (estructurales), Asignación de Dirichlet Latente
Razonamiento Deductivo Flecha Inductivo

Fuente: Maerz S.F., Puschmann C. (2020) Text as Data for Conflict Research: A Literature Survey. In: Deutschmann E., Lorenz J., Nardin L., Natalini D., Wilhelm A. (eds) Computational Conflict Research. Computational Social Sciences. Springer, Cham. https://doi.org/10.1007/978-3-030-29333-8_3

Automatización con IA Generativa

Enfoque basado en prompts:

  • Instrucciones en lenguaje natural
  • Contexto específico para eventos de protesta
  • Ejemplos de entrenamiento (few-shot learning)

Salidas estructuradas JSON:

{
  "evento_protesta": true,
  "fecha": "2024-03-15",
  "ubicacion": "Buenos Aires",
  "actores": ["estudiantes", "docentes"],
  "demandas": ["aumento salarial"],
  "intensidad": "media"
}

Ventajas: Flexibilidad, adaptabilidad, menor necesidad de etiquetado manual

Experiencias en el marco del Observatorio de Conflictividad Social de la UNMDP

Actividades y objetivos:

  • Recolección automatizada de notas periodísticas
  • Monitoreo de la conflictividad en tiempo real
  • Base de datos de eventos (Mar del Plata, 1989–2025)

Técnicas utilizadas:

  • Web Scraping para la recolección
  • Diccionarios para la clasificación y la extracción
  • Minería de texto para el análisis y la visualización

Implementación de IAG:

  • Procesamiento de artículos periodísticos
  • Identificación automática de eventos de protesta
  • Extracción de variables relevantes

Potencialidades de automatización con IAG

Escalabilidad

  • Procesamiento masivo de fuentes nacidas digitales y fuentes digitalizadas
  • Capacidades multimodal (texto, audio, imagen y video)

Eficiencia

  • Análisis en tiempo real
  • Reducción significativa de trabajo manual
  • Liberación de recursos para análisis cualitativo

Precisión

  • Comprensión contextual avanzada
  • Identificación de matices semánticos
  • Reducción de falsos positivos y falsos negativos

Adaptabilidad

  • Ajuste a diferentes contextos geográficos
  • Incorporación de nuevo vocabulario
  • Actualización continua de patrones

Implicancias ecológicas y sociales del uso de la IAG

Impacto ambiental

  • Centros de datos: alto consumo energético y emisión de CO2
  • Residuos electrónicos y uso intensivo de agua

Condiciones laborales

  • Precarización y salarios bajos en el Sur Global
  • Exposición a contenido tóxico durante el etiquetado

Desigualdad social

  • Genera diferentes niveles de acceso y calidad en servicios
  • Profundiza la brecha en salud, educación y empleo

Consecuencias cognitivas

  • Pérdida de pensamiento crítico y autonomía intelectual
  • Riesgo de dependencia excesiva de la IA

Limitaciones y riesgos de automatización con IAG

    Sesgos algorítmicos
  • Reproducción de sesgos de datos de entrenamiento
  • Interpretaciones culturalmente sesgadas

    Errores de clasificación
  • Omisión de protestas con lenguaje no convencional
  • Dificultad con ironía y sarcasmo

    Dependencia tecnológica
  • Caja negra algorítmica
  • Vulnerabilidad a cambios en modelos propietarios

    Aspectos éticos
  • Falta de transparencia y control sobre el uso de datos sensibles

¿Qué hacer? El entrenamiento de modelos de pesos abiertos

Modelos de pesos abiertos
  • Llama (Meta): Modelo multilingüe, adaptable localmente para diversos usos
  • Qwen (Alibaba): Modelo optimizado para tareas de razonamiento complejo
  • DeepSeek (DeepSeek AI): Orientado al razonamiento lógico y análisis contextual
  • GPT-2 (OpenAI): Entrenar modelos especializados desde cero en corpus específicos de conflictividad (nanoGPT, TimeCapsule)
Ventajas de modelos abiertos
  • Control sobre datasets de protestas para fine-tuning y protección de datos
  • Adaptación específica a patrones locales de protesta
  • Independencia para análisis de conflictos sin restricciones comerciales o censura de contenido
Estrategias de implementación
  • Fine-tuning con corpus específicos de protestas y esquemas de anotación de eventos de conflictividad
  • Infraestructura computacional dedicada al procesamiento masivo de notas periodísticas
  • Entrenamiento desde cero con datos temporalmente acotados para reducir sesgos contemporáneos en análisis histórico de conflictos

Ejemplo de clasificación Humana - Automática

Humana / Automática TRUE FALSE
TRUE 74 (VP) 0 (FP)
FALSE 1 (FN) 25 (VN)

Fuente: La Nación (Argentina) | Base de datos: PEMPS 2015-2019

EL DESACUERDO:

Nota
Réplica de los jueces por las investigaciones El Colegio de Magistrados bonaerense rechazó por inaceptable que se pretenda colocar a los miembros de la Justicia provincial en una posición de resistencia a las investigaciones que involucran a funcionarios del Poder Judicial…

Justificación del FALSE
El texto se refiere a un comunicado del Colegio de Magistrados que expresa su rechazo a la situación de investigaciones sobre funcionarios judiciales, pero no menciona ninguna acción colectiva de protesta, manifestación o reclamo organizado.

Ejemplo de extracción automática de atributos

Bibliografía de referencia

Caren, N., Andrews, K. T., & Ray, R. (2023, August 8). Extracting protest events from newspaper articles with ChatGPT. https://doi.org/10.31235/osf.io/dvht7

Deutschmann E., Lorenz J., Nardin L., Natalini D., Wilhelm A. (eds) Computational Conflict Research. Computational Social Sciences. Springer, Cham. https://doi.org/10.1007/978-3-030-29333-8_3

Hanna, A. (2017, January 10). MPEDS: Automating the Generation of Protest Event Data. https://doi.org/10.31235/osf.io/xuqmv

King, B. G., & Nelson, L. K. (2023). Beyond Protests: Using Computational Text Analysis to Explore a Greater Variety of Social Movement Activities. Research in Social Movements, Conflicts and Change, 47, 13–35. https://doi.org/10.1108/S0163-786X20230000047002

Lin, H., & Zhang, Y. (2025). The Risks of Using Large Language Models for Text Annotation in Social Science Research. arXiv. https://arxiv.org/abs/2503.22040

Olsen, J., et al. (2024). Socio-political Events of Conflict and Unrest: A Survey of Available Datasets. CASE 2024. https://aclanthology.org/2024.case-1.5/

Zhang, Y. (2025). Generative AI has lowered the barriers to computational social sciences. arXiv. https://arxiv.org/abs/2311.10833

¡Gracias!

La automatización debe servir para potenciar, y no reemplazar, el momento interpretativo.
Para más información, visitar el sitio del Observatorio de Conflictividad Social - UNMDP y el repositorio del proyecto ACEP en GitHub.
Dr. Agustín Nieto (INHUS-CONICET/UNMdP)
| @agusnieto77