Nota metodológica: Este reporte aplica técnicas de minería de texto sobre los programas de gobierno oficiales. Los análisis incluyen frecuencia de términos, TF-IDF, similitud coseno, análisis de sentimientos (léxico NRC) y modelado de temas (LDA). El código fuente está disponible en los scripts adjuntos (01 al 05).

1 Descripción del Corpus

Tamaño de cada programa de gobierno analizado
Candidato	Palabras totales	Caracteres
Abelardo de la Espriella	3,139	28,803
Iván Cepeda Castro	52,299	419,114

Vocabulario tras eliminar palabras vacías (stopwords)
Candidato	Tokens únicos	Tokens totales (sin stopwords)
Abelardo de la Espriella	1,067	1,751
Iván Cepeda Castro	4,892	27,933

2 Palabras Más Frecuentes

Las siguientes gráficas muestran las 20 palabras con mayor frecuencia absoluta en cada programa, después de eliminar artículos, preposiciones y conjunciones.

Top 20 palabras más frecuentes por candidato

3 Palabras Distintivas (TF-IDF)

El TF-IDF identifica las palabras que son muy usadas por un candidato pero poco usadas por los demás — es decir, su “sello lingüístico”.

Palabras más distintivas por candidato según TF-IDF

4 Nubes de Palabras

Nube comparativa: palabras exclusivas por candidato

Palabras en común entre todos los candidatos

5 Similitud entre Programas

5.1 Vocabulario exclusivo vs. compartido

Proporción de vocabulario exclusivo vs. compartido

5.2 Similitud coseno

La similitud coseno mide qué tan parecidos son dos textos en función de las palabras que comparten (ponderadas por TF-IDF). Un valor de 1.0 indica textos idénticos; 0.0 indica que no comparten ninguna palabra.

Matriz de similitud coseno entre programas de gobierno

Interpretación:

Abelardo de la Espriella y Iván Cepeda Castro tienen una similitud de 0.396 — programas con enfoques y vocabulario marcadamente distintos.

6 Análisis de Sentimientos

6.1 Balance positivo / negativo

Puntaje positivo vs. negativo por programa de gobierno

6.2 Perfil emocional completo (8 emociones NRC)

Distribución de las 8 emociones primarias del léxico NRC

7 Temas Latentes (LDA)

El modelo LDA (Latent Dirichlet Allocation) identifica automáticamente los grandes temas que estructuran cada programa, sin intervención manual.

Términos más representativos por tema (K = 8)

7.1 ¿Cuánto habla cada candidato de cada tema?

Prevalencia de temas por candidato

## ⚠ Corre el Script 05.

8 Conclusiones

A partir del análisis de minería de texto se destacan los siguientes hallazgos:

Vocabulario más original: Iván Cepeda Castro presenta el mayor número de términos exclusivos (4222 palabras que no aparecen en los demás programas), lo que sugiere un enfoque temático más diferenciado.
Tono más propositivo: Iván Cepeda Castro obtiene el puntaje positivo más alto en el análisis de sentimientos NRC, indicando un lenguaje con mayor orientación hacia soluciones y propuestas.
Mayor similitud: Los programas de Abelardo de la Espriella y Iván Cepeda Castro son los más cercanos en vocabulario y enfoque (similitud coseno = 0.396).
Temas estructurantes: El modelo LDA identificó 8 grandes ejes temáticos que organizan los programas. Cada candidato les da distinto peso relativo, reflejando sus prioridades de gobierno.

Reporte generado automáticamente con R Markdown · Minería de Texto aplicada a Programas de Gobierno Colombia 2026

Análisis Comparativo de Programas de Gobierno

Elecciones Presidenciales Colombia 2026:Análisis de Minería de Texto

Víctor Raúl Camargo Colmenares

19 de June de 2026