Nota metodológica: Este reporte aplica técnicas de minería de texto sobre los programas de gobierno oficiales. Los análisis incluyen frecuencia de términos, TF-IDF, similitud coseno, análisis de sentimientos (léxico NRC) y modelado de temas (LDA). El código fuente está disponible en los scripts adjuntos (
01al05).
| Candidato | Palabras totales | Caracteres |
|---|---|---|
| Abelardo de la Espriella | 3,139 | 28,803 |
| Iván Cepeda Castro | 52,299 | 419,114 |
| Candidato | Tokens únicos | Tokens totales (sin stopwords) |
|---|---|---|
| Abelardo de la Espriella | 1,067 | 1,751 |
| Iván Cepeda Castro | 4,892 | 27,933 |
Las siguientes gráficas muestran las 20 palabras con mayor frecuencia absoluta en cada programa, después de eliminar artículos, preposiciones y conjunciones.
Top 20 palabras más frecuentes por candidato
El TF-IDF identifica las palabras que son muy usadas por un candidato pero poco usadas por los demás — es decir, su “sello lingüístico”.
Palabras más distintivas por candidato según TF-IDF
Nube comparativa: palabras exclusivas por candidato
Palabras en común entre todos los candidatos
Proporción de vocabulario exclusivo vs. compartido
La similitud coseno mide qué tan parecidos son dos textos en función de las palabras que comparten (ponderadas por TF-IDF). Un valor de 1.0 indica textos idénticos; 0.0 indica que no comparten ninguna palabra.
Matriz de similitud coseno entre programas de gobierno
Interpretación:
Puntaje positivo vs. negativo por programa de gobierno
Distribución de las 8 emociones primarias del léxico NRC
El modelo LDA (Latent Dirichlet Allocation) identifica automáticamente los grandes temas que estructuran cada programa, sin intervención manual.
Términos más representativos por tema (K = 8)
Prevalencia de temas por candidato
## ⚠ Corre el Script 05.
A partir del análisis de minería de texto se destacan los siguientes hallazgos:
Vocabulario más original: Iván Cepeda Castro presenta el mayor número de términos exclusivos (4222 palabras que no aparecen en los demás programas), lo que sugiere un enfoque temático más diferenciado.
Tono más propositivo: Iván Cepeda Castro obtiene el puntaje positivo más alto en el análisis de sentimientos NRC, indicando un lenguaje con mayor orientación hacia soluciones y propuestas.
Mayor similitud: Los programas de Abelardo de la Espriella y Iván Cepeda Castro son los más cercanos en vocabulario y enfoque (similitud coseno = 0.396).
Temas estructurantes: El modelo LDA identificó 8 grandes ejes temáticos que organizan los programas. Cada candidato les da distinto peso relativo, reflejando sus prioridades de gobierno.
Reporte generado automáticamente con R Markdown · Minería de Texto aplicada a Programas de Gobierno Colombia 2026