08 julio, 2021

Definición del problema

El análisis del discurso si bien es un problema que pareciera pertenecer al área de la lingüística, es hoy en día una práctica interdisciplinaria e interpretativa que tiene como objetivo entender el lenguaje en uso y estudiar sistemáticamente el discurso escrito, audiovisual y oral.

Actualmente hay muchas ramas que se preocupan por estudiar el discurso desde diferentes miradas. En la cuestión política, se estudia cómo el discurso influye en la producción, reproducción y transformación de las relaciones de poder.

Me centraré en hacer un análisis de sentimientos de los discursos de 10 presidentes latinoamericanos, entre ellos los presidentes Colombianos desde el año 2002.

Objetivo General

  • Realizar un análisis exploratorio de texto y de sentimientos de distintos discursos presidenciales de Latinoamérica con el propósito de entender cómo funcionan algunas tendencias políticas desde la conformación del discurso.

Objetivos Específicos

  • Realizar la búsqueda de los discursos presidenciales de interés para conformar el corpus del proyecto.
  • Realizar un análisis de métricas de legibilidad del texto.
  • Realizar el preprocesamiento de los documentos.
  • Realizar un análisis exploratorio a partir del corpus obtenido.
  • Realizar un análisis de dispersión léxica para los diferentes presidentes.
  • Realizar un análisis de similitudes y correlaciones entre discursos.
  • Realizar la extracción de sentimientos de cada discurso y clasificarlos en positivos y negativos.

Herramientas utilizadas

  • El proyecto se realizará en el software RStudio.
  • Se usarán los siguientes paquetes: quanteda para hacer todo el análisis cuantitativo de texto, readtext para realizar una correcta lectura de los documentos, ggplot2 para hacer una buena gestión gráfica y kableExtra nos permitirá realizar tablar ordenadas y presentables. Los documentos necesarios para la reproducibilidad del proyecto se alojarán en Github y se podrán ver en RPubs.

¿Qué es la Minería de Texto?

La minería de textos es una rama específica de la minería de datos que se refiere al proceso de analizar y derivar información nueva de textos. Por medio de la identificación de patrones o correlaciones entre los términos se logra encontrar información que no está explícita dentro del texto. Fuente: wikipedia.

La minería de textos analiza la información de tipo textual. Es una disciplina transversal y de creciente interés, cuyas aplicaciones son múltiples. Entre otras: indexación de documentos, traducción automática, resumen automático de textos, reconocimiento de voz o identificación de la autoría de textos.

Componentes principales del análisis

Hay tres componentes principales de un texto tal como lo entiende quanteda:

  • El corpus es un objeto dentro de R que creamos cargando nuestros datos de texto
  • La matriz de características del documento (el “dfm”) es la unidad analítica sobre la que realizaremos el análisis.
  • Tokens son típicamente cada palabra individual en un texto.

Para este análisis comparativo se descargaron desde la web los discursos presidenciales inaugurales de varios presidentes latinoamericanos.

Lectura y resumen de los documentos

Resumen del Corpus
Text Types Tokens Sentences Presidente Año
1999-Hugo_Chavez 2654 13110 336 Hugo_Chavez 1999
2002-Alvaro_Uribe 1042 2627 111 Alvaro_Uribe 2002
2006-Alvaro_Uribe 1577 4480 179 Alvaro_Uribe 2006
2006-Evo_Morales 1892 9514 334 Evo_Morales 2006
2007-Rafael_Correa 1672 5325 150 Rafael_Correa 2007
2010-Juan_Manuel_Santos 1724 5948 213 Juan_Manuel_Santos 2010
2010-Pepe_Mujica 1738 5544 239 Pepe_Mujica 2010
2014-Juan_Manuel_Santos 1195 3792 193 Juan_Manuel_Santos 2014
2018-Ivan_Duque 1618 5710 217 Ivan_Duque 2018
2018-Lopez_Obrador 2014 6852 251 Lopez_Obrador 2018
2019-Nicolas_Maduro 2112 9140 200 Nicolas_Maduro 2019
2020-Luis_Arce 1084 3440 106 Luis_Arce 2020

Métricas de legibilidad del texto

Índice de niebla de Gunning (Gunning 1952) FOG El índice de niebla de Gunning es una medida de la legibilidad de un escrito que se utiliza en lingüística. El índice se basa en dos indicadores: la longitud de las frases y de las palabras.

Prueba de nivel de grado de Flesch-Kincaid (Flesch and Kincaid 1975) En la prueba de facilidad de lectura de Flesch, las puntuaciones más altas indican material que es más fácil de leer; los números más bajos marcan los pasajes que son más difíciles de leer, la escala abarca de 0 a 100.

“ELF” Easy Listening Formula (Fang 1966) ELF = número de sílabas por encima de una por palabra en una oración. Una oración promedio debe tener una puntuación ELF por debajo de 12 para que sea fácil de escuchar.

Métricas de legibilidad del texto

Extensión del discurso

Muestra de forma comparativa la extensión del discurso a través de la sumatoria de frases encontradas en el cuerpo textual.

Frecuencia de palabras

Se realiza una nube de palabras para identificar temáticas o términos que son bastante comunes entre todos los discursos presidenciales. Esto nos permite analizar algunas tendencias en los discursos.

Comparación de palabras entre presidentes

Se realiza una breve comparación de palabras entre presidentes de diferentes tendencias como lo són Hugo Chávez y Evo Morales versus Iván Duque, Álvaro Uribe y Juan Manuel Santos.

Dispersión léxica y lenguaje controlado

Se puede observar la frecuencia de uso y el momento del discurso en el que se utilizó la palabra clave buscada, en este caso son dos palabras que están en el contexto de un discurso político: pueblo y presidente

Dispersión léxica y lenguaje controlado

Para el caso de las palabras clave: educación y democracia:

Dispersión léxica y lenguaje controlado

Para el caso de las palabras clave: economía y empleo

Dispersión léxica y lenguaje controlado

Finalmente, las palabras clave: seguridad y educación

Keywords identificadas por discurso

Comparación del discurso de Juan Manuel Santos con el de Evo Morales

Keywords identificadas por discurso

Comparación del discurso de Álvaro Uribe con el de Hugo Chávez

Análisis de similitudes y correlaciones entre los discursos

Estas funciones calculan matrices de distancias y similitudes entre documentos o características de un dfm() y devuelven una matriz de similitudes o distancias en un formato disperso.

En este caso usaremos el análisis de “coseno”, el cual es ampliamente utilizado en la representación vectorial de documentos para análisis de temáticas. Este se encarga de conocer el ángulo entre dos vectores n-dimensionales en un espacio n-dimensional.

Análisis de similitudes entre los discursos

Análisis de similitudes entre los discursos

Distancia entre discursos

Existen varias geometrías para explicar la distancia entre dos puntos, dos de las más conocidas son la euclidiana y la Manhattan. En este caso usaremos la geometría euclidiana para calcular la distancia entre los discursos de los presidentes.

Agrupamiento Jerárquico

Red de agrupamiento de palabras

Muchas veces un grupo de palabras puede proporcionarle más perspectiva que una sola palabra. Veamos la red de palabras identificadas en el discurso de Álvaro Uribe

Red de agrupamiento de palabras

Ahora veamos la red de palabras del discurso de Evo Morales

Extracción de sentimientos de los discursos

Sentimientos por tokens del discurso:

## Tokens consisting of 6 documents and 2 docvars.
## 1999-Hugo_Chavez :
##  [1] "positive" "positive" "positive" "positive" "positive" "positive"
##  [7] "negative" "positive" "positive" "positive" "positive" "positive"
## [ ... and 189 more ]
## 
## 2002-Alvaro_Uribe :
##  [1] "positive" "negative" "positive" "negative" "positive" "positive"
##  [7] "positive" "positive" "negative" "positive" "positive" "negative"
## [ ... and 63 more ]
## 
## 2006-Alvaro_Uribe :
##  [1] "positive" "negative" "positive" "negative" "negative" "positive"
##  [7] "negative" "positive" "negative" "negative" "negative" "negative"
## [ ... and 137 more ]
## 
## 2006-Evo_Morales :
##  [1] "positive" "positive" "positive" "positive" "positive" "positive"
##  [7] "positive" "positive" "negative" "positive" "negative" "negative"
## [ ... and 141 more ]
## 
## 2007-Rafael_Correa :
##  [1] "positive" "negative" "negative" "positive" "negative" "negative"
##  [7] "positive" "positive" "positive" "negative" "positive" "positive"
## [ ... and 128 more ]
## 
## 2010-Juan_Manuel_Santos :
##  [1] "positive" "positive" "positive" "positive" "positive" "positive"
##  [7] "positive" "positive" "positive" "positive" "positive" "positive"
## [ ... and 113 more ]

Tabla resumen de sumaroria de sentimientos

Resumen de Sentimientos extraidos
doc_id negative positive
1999-Hugo_Chavez 101 100
2002-Alvaro_Uribe 38 37
2006-Alvaro_Uribe 66 83
2006-Evo_Morales 59 94
2007-Rafael_Correa 71 69
2010-Juan_Manuel_Santos 55 70
2010-Pepe_Mujica 40 49
2014-Juan_Manuel_Santos 27 35
2018-Ivan_Duque 69 59
2018-Lopez_Obrador 59 69
2019-Nicolas_Maduro 50 89
2020-Luis_Arce 47 34

Conclusiones

  • Existen múltiples técnicas que permiten la visualización, interpretación y análisis de correlación y/o similitud entre los discursos; lo que permite establecer relaciones entre temáticas o tendencias políticas.
  • De los análisis de similitud se puede apreciar que el discurso de Hugo Chavez tiene bastante similitud con el discurso de Nicolas Maduro mientras se aleja de discursos como el de Álvaro Uribe, Iván Duque o Santos en el primer periodo.
  • Me pareció un ejercicio muy interesante porque a partir de estos análisis se pueden apreciar tendencias discursivas orientadas al beneficio político y que podrían relacionarse con las costumbres y culturas de un país.

Conclusiones

  • De la Red de Agrupamiento de Palabras de Alvaro Uribe se puede establecer por ejemplo que la “Seguridad Democrática” está correlacionada a palabras como libertades, democracia, libertad, autoridad, orden, paz.
  • De la tabla de resumen del análisis de sentimientos se puede inferir que hay un relativo balance entre los sentimientos positivos y negativos de la mayoría de presidentes.Esto puede significar que desde la preparación de los discursos presidenciales se utilizan técnicas orientadas a satisfacer una demanda discursiva que permita persuadir a ciertos grupos ciudadanos.

Preguntas anteriores y comentarios

  • ¿Se compararán discursos de Santos-Uribe contra otros?
  • ¿Cuántos discursos vas a tener en total de otros mandatarios?
  • No parece que haya suficientes datos para un enfoque de aprendizaje profundo.
  • ¿En qué formato están los discursos?
  • Intenta utilizar datos de todos los puntos de vista políticos.

¡MUCHAS GRACIAS!