En el presente trabajo se realiza un análisis y comparación de los discursos de posesión presidencial de los últimos 4 presidentes electos en Colombia. Se unifican los dos discursos para los dos períodos de posesión de Álvaro Uribe Vélez (2002-2010), al igual que los dos discursos de posesión de Juan Manuel Santos (2010-2018). También se consideran el discurso de Iván Duque Márquez (2018-2022), y el del actual presidente Gustavo Francisco Petro Urrego (2022-2026). Para tal fin, se quiere:
Imagen tomada de pulzo.
Los desarrollos que se presentan a continuación están basados en las herramientas y técnicas previamente expuestas en el trabajo Relaciones entre palabras donde se comparan los discursos de Petro y Duque ante la ONU.
Todo el código relacionado con este informe se encuentra disponible en este enlace.
Se realiza la importación de cada uno de los discursos
simplificándolo con la función unlist
para producir un
vector que contenga cada una de las líneas de texto.
Ahora, los textos se almacenan en un objeto tipo tibble
,
entendido como una generalización del data frame, el cual
permite manipular de forma más sencilla objetos “grandes” y no
estructurados como los textos.
Para empezar con el análisis, el primer paso es realizar la
tokenización del texto, lo cual convierte cada palabra en la unidad de
análisis de este caso de estudio, separándolas en una casilla
particular. Además las funciones en tidytext
ya realizan
una buena exportación de los datos al convertir todas las mayúsculas en
minúsculas y eliminar los signos de puntuación.
Como segundo paso para el estudio se debe realizar una normalización del texto. Esta empieza con la decisión sobre si se deben conservar los números presentes en los discursos o no. La búsqueda de caracteres numéricos para cada discurso se muestra a continuación.
Se observa que los discursos del presidente Gustavo Petro y el expresidente Iván Duque contienen muy pocos números (6 y 5 respectivamente) en comparación a los discursos unificados de los otros dos expresidentes (20 para Santos y 22 para Uribe). Aunque los números pueden representar cifras significativas en el momento histórico particular para cada uno de los periodos presidenciales, estos no serán considerados en la comparación de los discursos, así se procede a eliminar estos registros.
Ahora, se exporta una lista de stop words con 451 palabras en español que permiten eliminar todas las palabras que no aportan información relevante para este análisis, como conectores, artículos o verbos auxiliares de uso común. Una vez hecho esto, se reducen considerablemente la cantidad de registros en los archivos.
Para finalizar con la normalización, se remueven los acentos del idioma español después de eliminar las stop words, así se evita remover palabras que sin acento hubieran podido ser eliminadas en el paso anterior.
Una vez hecho el tratamiento a estas bases de datos, se realiza un conteo de las palabras y se identifican las modas o las palabras más frecuentes para cada uno de los discursos. A continuación se presentan el top 10 en cada caso.
No es sorprendente que entre los discursos se compartan varias palabras como las más frecuentes teniendo en cuenta el carácter político de los textos, sin embargo, cabe recordar que en el caso de Juan Manuel Santos y Álvaro Uribe se cuentan con dos discursos que equivalen aproximadamente al “doble” de palabras que las presentes en los discursos de Gustavo Petro e Iván Duque. Para una mejor visualización se presenta un diagrama de barras con las frecuencias de las palabras para cada discurso. En el caso de Petro y Duque se establece un filtro en la frecuencia mayor que 6 y para Santos y Uribe el filtro es de 9.
Como una alternativa para mejorar la visualización se realizan nubes de palabras, que ilustra un máximo de 25 palabras para cada discurso cuyo tamaño es proporcional a su frecuencia en los textos
Ahora, para poder realizar comparaciones más directas entre los discursos, primero se calculan las frecuencias relativas de todas las palabras que son mencionadas en ellos, por lo cual, algunas tendrán frecuencia cero si no fueron mencionadas dentro de las alocución del respectivo estadista.
En la siguiente tabla se ordenan de forma anidada, de acuerdo a los respectivos periodos presidenciales, desde el actual hasta el más antiguo, las 15 palabras más frecuentes en común entre los discursos.
## # A tibble: 15 × 5
## word petro duque santos uribe
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 colombia 0.0238 0.0190 0.0167 0.00329
## 2 paz 0.0119 0.00237 0.00866 0.00724
## 3 vida 0.0100 0.00474 0.00289 0.000658
## 4 sociedad 0.00877 0.00142 0.00231 0.00132
## 5 gobierno 0.00626 0.00569 0.00894 0.00296
## 6 mundo 0.00626 0.00142 0.00433 0.00263
## 7 pueblo 0.00501 0.00379 0.00144 0.00494
## 8 estado 0.00438 0.00711 0.00289 0.00954
## 9 economia 0.00438 0.00237 0.00144 0.00230
## 10 riqueza 0.00438 0.00190 0.000289 0.00165
## 11 colombianos 0.00376 0.00758 0.0107 0.000987
## 12 violencia 0.00376 0.00332 0.00289 0.00428
## 13 educacion 0.00376 0.00237 0.00346 0.00132
## 14 salud 0.00376 0.00237 0.00289 0.000329
## 15 corazon 0.00376 0.00237 0.00173 0.000658
Además, se encuentra que de todas las palabras en conjunto, solo el 3.33% son mencionadas en los 4 discursos.
Una vez calculadas las frecuencias, se deciden calcular los coeficientes de correlación lineal de Pearson entre cada par de alocuciones para evaluar que tan parecidos son sus contenidos.
Discurso 1 | Discurso 2 | Corr P. Total | Corr P. común | |
---|---|---|---|---|
Petro | Duque | 0.48 | 0.694 | |
Petro | Santos | 0.536 | 0.673 | |
Petro | Uribe | 0.291 | 0.356 | |
Duque | Santos | 0.595 | 0.768 | |
Duque | Uribe | 0.33 | 0.339 | |
Santos | Uribe | 0.394 | 0.394 |
Se observa que, en todos los discursos, excepto en el de Uribe, la palabra con mayor frecuencia es “Colombia”, en tanto que “paz” está en el top 10 de todos excepto en el de Duque. El discurso de Petro se distingue con palabras importantes como “vida”, “humanidad” y “economía”; el de Duque por “construir”, “legalidad” y “equidad”; los de Santos por “desarrollo”, “justicia” y “social” y los discursos de Uribe por “seguridad”, “crecimiento” y “democracia”. Es de resaltar que, mientras que en los discursos de Santos y de Duque la tercera palabra más frecuente es “colombianos”, en el de Petro se destaca la palabra “colombianas”, marcando una diferencia en lo que respecta a inclusión.
Por otro lado, en el conteo de los registros, es evidente que el número de palabras con una frecuencia mayor a 6 es menor en el discurso de Petro, el cual es el más corto y en donde parece se usó mayor variedad de palabras. La alocución de Duque es más reiterativa y las frecuencias en el caso de Santos y de Uribe son mayores puesto que se están considerando dos discursos, por este motivo, el tamaño y el número de las palabras en los gráficos de nube para estos dos archivos es mayor.
Las palabras en común a los 4 discursos, con una proporción del 3.33%, muestran la índole política del análisis, al resaltar palabras como “pueblo”, “Estado”, “riqueza”, “violencia”, “educación” y “salud”. La similaridad en los discursos, vista por medio de las correlaciones entre las frecuencias de los registros, muestran que Petro tiende a usar palabras semejantes a las mencionadas por Santos y diferentes a las del discurso de Uribe, puesto que tienen la mayor y menor correlación respectivamente. En contraste, dentro de las palabras que usan en común, Duque las emplea con frecuencias parecidas a las de Santos y diferentes a las de Uribe, evidenciando que los discursos de Uribe son los que más diferencias presentan con todos los demás.
El siguiente paso es realizar un análisis de sentimiento de las palabras en cada texto. Para esto, se utiliza un diccionario pre-existente (y editado según el interés del estudio) de palabras “positivas” y uno de palabras consideradas como “negativas”.
Con estos diccionarios es posible crear un gráfico de barras para cada personaje mostrando las palabras positivas y negativas con una frecuencia mayor que 2 en el caso de Petro y Duque, y mayor que 3 para Santos y Uribe.
De manera similar a los conteos anteriores, es posible graficar una nube de máximo 50 palabras, distinguiendo las positivas de las negativas para poder realizar una comparación más sencilla.
En general, por medio de los diagramas de barras, se observa que son más la cantidad de palabras positivas mencionadas en los discursos que las palabras negativas, además de que se mencionan con frecuencias considerablemente mayores. Sin embargo, es de resaltar que los expresidentes Iván Duque y Juan Manuel Santos tienden a repetir más las palabras negativas que el presidente Gustavo Petro y el expresidente Álvaro Uribe.
Se encontra que las palabras positivas que comparten más recurrentemente son “paz”, “reforma” y “justicia”. Adicionalmente, hay particularidades interesantes de resaltar, por ejemplo, Petro es el único que hace énfasis en temas ambientales evidenciados en las palabras “tierra”, “ganado”, “sostenible” y, por otro lado, Uribe se destaca por considerar múltiples aspectos éticos y morales como “generosidad”, “libertad”, “confianza”, “equilibrio” e incluso “fe”.
En cuanto a las palabras negativas, las más comunes están relacionadas a temas económicos como “desigualdad”, “deuda” o “pobreza”, aunque esta última no es mencionada por el presidente Petro. También comparten temas de conflicto como “crimen”, “terrorismo”, “muertos” o “delito”. A su vez, resulta interesante que los expresidentes Duque y Uribe son los únicos en incluir “droga” en sus discursos, así como Petro es el único que menciona la palabra “tributaria”, y Duque es el único que menciona “odio”.
Todo el análisis presentado hasta el momento se ha basado en procedimientos para unigramas. Ahora se presentarán resultados teniendo en cuenta los bigramas. Para esto, debemos realizar nuevamente la importación de los textos originales.
Una vez importados, la tokenización ya no será realizada por cada palabra, sino que las nuevas unidades de análisis serán todos los pares de palabras presentes en los discursos.
Nuevamente, se eliminan cualquier par de palabras que contenga una stop word, puesto que siguen sin aportar información relevante. Sin embargo, en este paso se separa cada palabra en una columna distinta, y en una tercera columna del archivo se almacena la frecuencia de esta pareja, lo cual será útil para la conformación de la red de los discursos.
A continuación se da inicio al estudio a los discursos por medio de las metodologías estadísticas para el análisis de redes sociales. Para cada texto se crea un grafo no dirigido donde cada nodo es una palabra y existe una relación entre cada vértice si se evidenció un bigrama para estas dos palabras en el discurso. Además, este grafo está ponderado por la frecuencia observada del bigrama.
En el siguiente gráfico se muestran las componentes conexas más grandes en cada red, pero las etiquetas se omiten en las figuras de las estructuras de estas componentes para las redes de Santos y de Uribe para una mejor visualización. Además, el tamaño de los nodos es proporcional a la fuerza de los mismos.
Para una mejor interpretación, se crean nuevamente dos redes para los bigramas de los discursos de Santos y Uribe pero filtrando por los que tengan una frecuencia mayor o igual que 2.
A partir de la componente gigante para cada funcionario se calculan las principales estadísticas descriptivas para cada red, las cuales nos permitirán observar de una mejor manera la cohesión en los discursos.
Petro | Duque | Santos | Uribe | |
---|---|---|---|---|
Dist. media | 4.96 | 5.16 | 12.30 | 9.89 |
Grado media | 1.93 | 1.93 | 2.08 | 2.04 |
Grado desviación | 1.75 | 1.79 | 1.87 | 1.92 |
Número clan | 2.00 | 2.00 | 3.00 | 3.00 |
Densidad | 0.07 | 0.07 | 0.01 | 0.01 |
Transitividad | 0.00 | 0.00 | 0.01 | 0.00 |
Asortatividad | -0.36 | -0.37 | -0.23 | -0.23 |
A partir de la revisión de los bigramas más frecuentes en cada discurso, es posible apreciar las diferentes temáticas abarcadas en cada uno. El discurso de Petro muestra un carácter ambiental y económico al destacar expresiones como “selva amazónica”, “cambio climático”, “soberanía alimentaria”, “caminos comunes” y “comercio internacional”, mientras que le de Duque muestra una temática administrativa, donde se mencionan “sectores productivos”, “bienes públicos” y “administración pública”. Por su parte, los discursos de Santos tratan objetivos de su gobierno, tales como “unidad nacional”, “desarrollo económico” y “prosperidad democrática”, al igual que los de Uribe muestran factores característicos de sus mandatos, como lo son “seguridad democrática”, “Estado comunitario” e “iniciativa privada”. Las expresiones “comunidad internacional” y “crecimiento económico” solo están en el top 10 de Uribe y de Santos.
Por otro lado, en las componentes conexas de las redes creadas a partir de los bigramas de cada discurso se observa que, en el caso de Petro, el nodo más importante es Colombia y a partir de él hace una descripción del país y de sus necesidades ambientales y económicas. En la de Duque se tratan diversos temas, su representación e implicaciones; temas como equidad, legalidad y emprendimiento. Las componentes conexas del grafo de Santos y de Uribe son mucho más grandes puesto que se están considerando dos discursos en cada uno. Al limitar la interpretación a los bigramas de frecuencia mayor a dos se observan temáticas como prosperidad social, fuerzas armadas y avance económico en las alocuciones de Santos y como inversión social, crecimiento económico y seguridad democrática en los de Uribe.
Por último, con respecto a las estadísticas de las componentes gigantes de cada grafo se observa que las densidades de los mismos son similares, excepto por el de Uribe que tiene una densidad mayor. Solo hay transitividad en los discursos de Santos y de Uribe. Medidas como la asortatividad y la media del grado son similares para los grafos de Petro y de Duque y para los de Santos y los de Uribe (las medidas difieren entre las parejas); lo mismo sucede con la distancia geodésica media, aunque esta es mayor para el caso de Santos. Todo esto indica que los discursos más similares entre sí, en relación con estas estadísticas, son el de Petro y el de Duque. De estos difieren los de Santos y los de Uribe, los cuales tienen parecidos entre ellos y mayores medidas, cosa que puede estar ocasionada por el hecho de tratarse de dos discursos unificados en estos dos casos y por el tiempo y el contexto en el que fueron escritos.
Otra forma de realizar el análisis de los bigramas es por medio de los skip-gramas. Método en el cual se crean parejas de palabras omitiendo una palabra de por medio.
Lo anterior almacena primero cada palabra, luego los bigramas usuales y por último el bigrama obtenido de eliminar la palabra de por medio. De este modo, se hace el conteo de palabras en cada fila, para eliminar los unigramas que ya fueron analizados anteriormente.
Una vez más, se decartan todos los registros que contengan alguna stop word, y simultáneamente se eliminan los registros que contenían algún número.
Ahora, se crean los grafos de los discursos con base en los skip-gramas. A continuación se grafica la componente conexa más grande en cada discurso.
Nuevamente, se calculan las principales estadísticas descriptivas para estas nuevas redes, con el mismo propósito interpretativo.
Petro | Duque | Santos | Uribe | |
---|---|---|---|---|
Dist. media | 8.61 | 5.16 | 7.13 | 9.89 |
Grado media | 2.31 | 2.38 | 2.72 | 2.60 |
Grado desviación | 2.25 | 2.17 | 3.13 | 2.48 |
Número clan | 3.00 | 3.00 | 4.00 | 3.00 |
Densidad | 0.00 | 0.00 | 0.00 | 0.00 |
Transitividad | 0.06 | 0.06 | 0.06 | 0.08 |
Asortatividad | -0.08 | -0.04 | -0.05 | 0.01 |
Una ventaja de realizar el análisis de redes con los bigramas y skip-gramas, es que podemos hacer una clasificación del top 10 de las palabras más importantes en cada alocución, por medio de medidas como la centralidad propia de los vértices. Cabe aclarar que este tipo de centralidad nos mostrará las palabras de mayor importancia de acuerdo a la importancia de las demás palabras con las que se relacionan.
## # A tibble: 10 × 2
## word eigen
## <chr> <dbl>
## 1 colombia 1
## 2 mujeres 0.278
## 3 empieza 0.274
## 4 rincon 0.268
## 5 soñamos 0.268
## 6 latinoamerica 0.194
## 7 seguridad 0.185
## 8 acumula 0.179
## 9 padecer 0.179
## 10 corazon 0.173
## # A tibble: 10 × 2
## word eigen
## <chr> <dbl>
## 1 colombia 1
## 2 significa 0.910
## 3 equidad 0.892
## 4 legalidad 0.617
## 5 construir 0.349
## 6 gobernar 0.348
## 7 necesita 0.314
## 8 futuro 0.243
## 9 pacto 0.212
## 10 jovenes 0.209
## # A tibble: 10 × 2
## word eigen
## <chr> <dbl>
## 1 colombia 1
## 2 paz 0.668
## 3 pais 0.298
## 4 hora 0.287
## 5 gracias 0.276
## 6 dios 0.254
## 7 equidad 0.232
## 8 necesita 0.207
## 9 siempre 0.203
## 10 vision 0.185
## # A tibble: 10 × 2
## word eigen
## <chr> <dbl>
## 1 seguridad 1
## 2 social 0.940
## 3 democratica 0.801
## 4 justicia 0.648
## 5 estado 0.484
## 6 paz 0.439
## 7 cohesion 0.284
## 8 autoridad 0.270
## 9 reclamaba 0.268
## 10 demanda 0.268
Finalmente, para concluir el análisis a los discursos se realiza un agrupamiento en cada una de las componentes gigantes de estos últimos grafos creados a partir de los skip-gramas. Los grupos resultantes son útiles para identificar los distintos tipos de temáticas dentro de los discursos. Adicionalmente, se observa el top 5 de palabras más importantes, de acuerdo a la centralidad propia, dentro del grupo con mayor cantidad de vértices en cada agrupamiento.
Petro | Duque | Santos | Uribe | |
---|---|---|---|---|
Tamaño partición | 25 | 29 | 34 | 38 |
Tamaño grupo menor | 10 | 5 | 4 | 5 |
Tamaño grupo mayor | 44 | 69 | 147 | 99 |
## # A tibble: 5 × 3
## word cluster eigen
## <chr> <dbl> <dbl>
## 1 colombia 3 1
## 2 mujeres 3 0.278
## 3 empieza 3 0.274
## 4 rincon 3 0.268
## 5 soñamos 3 0.268
## # A tibble: 5 × 3
## word cluster eigen
## <chr> <dbl> <dbl>
## 1 colombia 1 1
## 2 significa 1 0.910
## 3 equidad 1 0.892
## 4 legalidad 1 0.617
## 5 gobernar 1 0.348
## # A tibble: 5 × 3
## word cluster eigen
## <chr> <dbl> <dbl>
## 1 equidad 3 0.232
## 2 avanzando 3 0.160
## 3 esencial 3 0.0937
## 4 historica 3 0.0873
## 5 electo 3 0.0866
## # A tibble: 5 × 3
## word cluster eigen
## <chr> <dbl> <dbl>
## 1 seguridad 13 1
## 2 democratica 13 0.801
## 3 paz 13 0.439
## 4 autoridad 13 0.270
## 5 demanda 13 0.268
Al añadir a las unidades de análisis todos los skip-gramas, se incrementa claramente el tamaño de la componente conexa en cada discurso. Comparando las estadísticas descriptivas contra las obtenidas en las componentes gigantes de únicamente los bigramas, en general, aumenta el promedio y la desviación del grado, al igual que el número clan y, considerablemente, la transitividad, lo cual es acorde al aumento de las relaciones generadas por los skip-gramas. Sin embargo, la densidad disminuye y la asortatividad con respecto al grado es más cercana a cero, cosa que puede ser un indicador de que, aunque hayan frases compuestas de las mismas palabras con mucha frecuencia a lo largo del discurso, estas son utilizadas para hablar sobre distintos temas particulares, al relacionarse de igual manera con otras palabras que no son muy frecuentes, marcando un patrón de cohesión y coherencia en las alocuciones.
Por otro lado, al hacer la revisión de las palabras más importantes, se muestran diferencias más evidentes entre los discursos. Se observa un panorama más sentido en el texto de Petro al usar palabras como “soñamos”, “corazon” y “padecer”; la aparición de la palabra “mujeres” como la segunda más importante confirma la diferencia en cuanto a inclusión mencionada anteriormente. Para Duque nuevamente se evidencian actitudes emprendedoras denotadas en palabras como “construir”, “gobernar” y “futuro”; además, resalta por mencionar a los jóvenes. Para Santos no se distingue un tema especial, más allá de que se diferencia por intensificar el uso de la palabra “gracias” y “Dios”. Finalmente, Uribe muestra palabras más singulares y de carácter fuerte como “seguridad”, “Autoridad”, “democratica” y “estado”.
Por último, los resultados del agrupamiento en las componentes gigantes señalan que son muchos los temas tratados en todas las alocuciones y que, naturalmente, es mayor la cantidad de particiones para Santos y Uribe que para Petro y Duque, puesto que, en dos discursos unificados, el posible número de temas a tratar es mayor, aunque el tamaño de la mayor partición en cada texto varía considerablemente.
Además, al hacer una primera revisión a la lista de palabras más importantes dentro de la partición más grande en cada texto, se aprecia la misma tendencia de temáticas e intensión que se ha interpretado en los procedimientos anteriores.
Para finalizar y reuniendo todos lo resultados e interpretaciones obtenidas con el análisis, se hallaron varias similitudes en lo que respecta a la estructura de estos. Sin embargo, son claros los contrates en cuanto a las temáticas en las que se hace énfasis y en ciertas expresiones que marcan la intensión de cada discurso, evidenciando que las diferencias en entre las visiones y prioridades de cada mandatario, las cuales pueden dar sentido a sus acciones durante su respectivo gobierno.