Librerías

library(tidytext)
library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.0 ──
## ✓ ggplot2 3.3.2     ✓ purrr   0.3.4
## ✓ tibble  3.0.4     ✓ dplyr   1.0.2
## ✓ tidyr   1.1.2     ✓ stringr 1.4.0
## ✓ readr   1.4.0     ✓ forcats 0.5.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
library(tm)
## Loading required package: NLP
## 
## Attaching package: 'NLP'
## The following object is masked from 'package:ggplot2':
## 
##     annotate
library(wordcloud)
## Loading required package: RColorBrewer
library(reshape2)
## 
## Attaching package: 'reshape2'
## The following object is masked from 'package:tidyr':
## 
##     smiths
library(stringr)
library(ggrepel)
library(ggraph)
library(igraph)
## 
## Attaching package: 'igraph'
## The following objects are masked from 'package:dplyr':
## 
##     as_data_frame, groups, union
## The following objects are masked from 'package:purrr':
## 
##     compose, simplify
## The following object is masked from 'package:tidyr':
## 
##     crossing
## The following object is masked from 'package:tibble':
## 
##     as_data_frame
## The following objects are masked from 'package:stats':
## 
##     decompose, spectrum
## The following object is masked from 'package:base':
## 
##     union
library(topicmodels)
library(SnowballC)
library(drlib)
## 
## Attaching package: 'drlib'
## The following object is masked from 'package:tidyr':
## 
##     expand_grid
## The following objects are masked from 'package:tidytext':
## 
##     reorder_within, scale_x_reordered, scale_y_reordered
library(stopwords)
## 
## Attaching package: 'stopwords'
## The following object is masked from 'package:tm':
## 
##     stopwords
library(magrittr)
## 
## Attaching package: 'magrittr'
## The following object is masked from 'package:purrr':
## 
##     set_names
## The following object is masked from 'package:tidyr':
## 
##     extract
library(tidyverse)
library(tm)
library(tidytext)
library(widyr)
library(ggraph)
library(tidygraph)
## 
## Attaching package: 'tidygraph'
## The following object is masked from 'package:igraph':
## 
##     groups
## The following object is masked from 'package:stats':
## 
##     filter
library(pdftools)
## Using poppler version 0.73.0

Desarrollo de sentencias

En esta sección se muestra como se desarrollo el text

Base_BID<-read_rds('~/Desktop/Dashboard-NLP-/data/base_total.rds')
Base_BID<-Base_BID%>%
  filter(país=='México')%>%
  select(-topic)

Base_BID_sentences<-Base_BID%>%
  unnest_tokens(output = 'BID', 
                input = Texto,
                token = 'sentences')

Se genera la Heuristica de Bad_words

filtro_final<-c('económica','pvem','efectuará','fomin','piura','perú','birf','financiamiento','prestatario','adquisiciones','jurado','prim')
bad_words_def2<-c('explicación','saldo','siif','rezago','demandas','saldos','pagar','ingresos','contables','contabilidad','presupuestales','deuda','ejecutado','deudores','contaduría','citado','cobrar','retomamos','registros','depuración','constituido','debilidades','meci','recaudo','provisión','diferencia','variación','integrado','mejora','encontró','territoriales','pagos','ajuste','ajustes','cobro','partidas','pasivos','pendientes','comportamiento','cuantía','estratégico','registrados','hallazgos','entregados','pasivo','capacitación','constituidas','inventarios','avance','apropiaciones','contingentes','contratación','deficiencias','estándar','flotante','verificación','sostenible','deudoras','recibidos','calificación','provisiones','reclasificar','responsables','cálculo','negativa','catálogo','empresa','anticipos','bonos','manuales',           'encima','habilitación','solicitarle','producción', 'nómina',   'rubro','respectivo',               'reportes','rurales',   'cambios','provisionadas','falladas','auditorías','externa','activo','almacén','soportes','adicionalmente','totales','autónomo',    'cuotas',   'efectuar', 'mapa','responsabilidades',             'acreedoras',   'salvedades',   'subcuenta','pudo','envíos','indd','disminución',   'inconvenientes',           'transacciones','permite','evidencia','comercio','empresas','costos','registrado','quedando','individual','','definitivo','depósitos','autoevaluación','definitivo','postales','verde','administradora','afecta','flujo','programación',                
                  'reportadas','garantía','caribe','mercadería','suelos','days','auditado','regularizar','errores','logros','relacionado','electrificadora','facturación','parametrización','unen','estudios','explotación','saneamiento','auxiliar','calculados','productividad','finalizado','productivas','regulación','estadísticas','variaciones','efectuado','proveedores','registrar','patrimoniales','procuraduría','cargue','recaudos','exceeding','internas','normatividad','pagado','extraordinarios','reducción','correctivas','descripción','fojas','asignación','exterior','inició','institucionales','software','archivos','identificar','soporte','ambiente','prestaciones',    'terrenos','villaneda','ineficiente','ntcgp','minoritario','operacional','registran,','inferior','módulos','fiduciaria','inventario','cajanal','postal','consolidados','multas','auxiliares','acreedores','estableció','auditoria','derivados'  ,'ejecutar',    'inpec','bienestar','recíprocas','t'    ,'adelantar','contribuciones','pérdida','subestimada','trabajador','revisor','indicado','magistratura','generando'  ,'relacionados','amortizaciones','than','efectividad','registraron','actualizar','subestimación','registrada','ugpp','evidenció','incluye','recomienda','guatemala','contratistas','respectivos','sobrestimación','autorización',   'firma','preventivas','reportados','procesal','inducción','sanciona','registradas','refleja','cooperativas',    'circular','ejercicios','aplicativos','cifra','clasificación','correctamente','definición','negocio','requerimiento','conflicto','autocontrol','valoración','supresión','embargos','sobrestimada',  'demanda','depreciaciones','implementado','depreciación',   'seven','privado','herramientas',   'organizacional','requerimientos','minera','requerimientos','minera','delitos','amortización',  'misional','misionales','horizontales','productivo','razonabilidad','realizados','ventas','naturales','revisar','rubros','more','mspas','empresarial','propiedades','verificar','administraciones', 'deudas','recuperación','sanción','causación','comercial','representan','reparación','contractual','explotados','banca','chip', 'depurar','hallazgo','registraduría'    ,'traslado',    'emergencia','urbano','asciende',   'específico','quedaron')
bad_words<-stopwords('spanish')
bad_words_2<-c('año','usd','i','ii','iii','co','así','fin','mill','vez','si','l','tener','oc','iv','nuevos','problema','santa','dio','p','enero','febrero','marzo','abril','mayo','junio','julio','agosto','septiembre','octubre','noviembre','diciembre','aproximadamente','varios','ende','tipo','aún','fase','costo','existe','logró','v','acerca','b','entrada','forma','gran','igualmente','misma','orden','oficina','output','podría','presentaron','propuesta','propuestas','referencia','reporte','san','tercer','térmico','zonas','caja','alrededor','asignados','decir','después','días','dicha','diseñado','esperaba','esperado','finalizar','importancia','llevó','maestro','mejorar','necesarios','niveles','particular','planteado','presente','principios','reflejado','registra','reportado','requiere','secado','solo','supuesto','with','working','actualización','alto','asociado','considerando','correspondiente','dichos','escasa','fa','figura','genera','justificación','km','llevado','medidas','menos','modo','municipio','necesarias','necesidades','parcialmente','partir','pese','personas','pmasis','presentar','previas','previstos','real','realizando','sentido','suscrito','tema','vía','acorde','acorde','actividad','adecuada','adelantando','ándres','atención','comprometer','consultores','corresponde','crítica','cuarto','efectos','ejecutores','entonces','especial','establecidos','crítica','ejecutores','especial','establecidos','existen','incluido','lograr','logro','luego','mas','más','mayores','mecanismo','mejor','notable','nuevas','objeto','oferta','original','pari','passu','posibilidad','posterior','propósito','','realidad','realizaron','red','satisfactoria','solicitado','últimos','varias','además','afectar','aplicación','aprobados','artículo','competencia','competencias','conjunto','consecución','creó','considerable','consolidación','convocatoria','cronogramas','cuatro','darle','definidos','desarrollado','efectiva','eficiente','ejecutados','especialista','estima','extensión','gestor','igual','indica','informa','interno','internos','largo','llega','lugar','manual','mismas','mll','múltiples','obtener','permitido','plazos','porcentaje','potenciales','presentación','presentó','prevé','primeras','providencia','proyecciones','puedan','realizada','reglamento','relacionada','renovación','restricciones','semanas','siguiente','solicitar','soluciones','suscribir','suscripción','tales','todas','todo','tomo','usuarios','vías','abstuvo','acumulado','adelantaron','afectó','apenas','apoya','c','buena','centros','compromisos','conjunta','considerablemente','consorcio','contenido','continua','cronograma','deben','deberán','dialogo','disponibles','dificultad','documentos','ejercicio','elegible','ello','esfuerzos','espacios','especiales','esquemas','etapas','formalizó','financiada','fuertes','funcionamiento','generado','generados','generar','generó','gerencial','gestiones','gestores','grupos','haber','hecho','inclusión','informó','inicios','manifestado','mencionados','opinión','partes','pendiente','permitieran','podía','podrá','presentan','presentando','proyectados','punto','puesta','realización','realizará','realizará','reporta','respuesta','revisaron','sigue','sólidos','sigue','sólo','superior','sustancial','torno','tramitar','tres','utilización','ve','vi','vio','acordado','actualizado','adecuado','agencia','ahora','ajustar','ajustó','alcanzado','alcanzarán','ambos','anteriores','aplicativo','aportes','apoyar','aprobó','asimismo','atender','calculado','cercano','cinco','continuar','corresponden','cumplido','da','dará','deberá','decidió','decididas','decidió','definido','definidas','denominada','determinar','determinación','detalles','detalle','diferencias','dinámica','dinamismo','directivas','disponibilidad','distintos','eb','ejecutadas','entendimiento','establecidas','evidente','explica')
bad_words_3<-c('favor','ausente','ley','asistencia','proyecto','proyectos','diputado','ley','cause','reunión','cause','diputados','reunión','presidente','cámara','gaceta','integrante','lunes','martes','miércoles','jueves','viernes','sabado','domingo','integrante','méxico','cambio','general','nacional','parlamentaria','alta','integrantes','iniciativa','horas','programas','proyecto','programa','sector','ción','dictamen','josé','mil','pri','baja','turno','federal','in','gonzález','día','fecha','dos','manera','acciones','ciento','ciento','materia','parte','pro','secretario','re','caso','directiva','ser','actividades','cabo','discusión','maría','anterior','fracción','atentamente','decreto','juan','respecto','micro','millones','ordinaria','secretaría','unidos','coordinación','foro','grupo','periodo','ra','aprobación','ceiaa','pequeña','to','artículos','congreso','do','federación','junta','licenciado','medio','legislatura','presentes','uso','antonio','cuenta','legislativo','garcía','gobierno','legislativo','mexicanos','operación','social','acuerdo','aprobado','comisiones','dispuesto','informe','martínez','nes','numeral','diversas','mesa','siguientes','jesús','siguientes','adiciona','adolfo','luis','lxii','orive','secretaria','sión','alejandro','diversos','federalismo','ramírez','reuniones','secretarios','términos','adriana','apoyo','cumplimiento','ma','pa','sánchez','sánchez','anual','cuales','di','doctor','mario','participación','semestral','anexo','autoridades','coordinador','javier','municipales','pérez','pre','so','alfredo','fernando','hacer','mediante','nivel','objetivos','propone','proponente','quórum','temas','tra','acción','acta','cada','carlos','dad','destacó','edificio','entidades','establecer','fundamento','honorable','importante','legisladores','mo','palacio','proyectos','rangel','regional','romero','sectores','sistema','condiciones','miento','pe','tados','través','vargas','ciones','comi','dar','disposiciones','enrique','evaluación','federales','marco','mayor','parla','mayor','plazo','presentada','reglas','salón','tal','alberto','arturo','ca','contreras','gasto','lectura','procedió','padilla','situación','virtud','años','augusto','bellinger','chan','continuación','dis','elementos','fuentes','funciones','gestión','hernández','lugo','manuel','mentaria','moreno','nión','nueva','partido','político','primer','públicos','rocío','ruiz','semarnat','va','abreu','agradeció','aprobaron','asistencia','carmen','com','corrales','dependencias','dipu','establece')
bad_words_4<-c('guzmán','poder','publicación','ramón','relación','ta','último','ciudadano','comité','documento','fe','fomentos','fomento','generales','gobiernos','grandes','guadalupe','im','inicio','invitados','marcos','mente','mexicana','morales','opi','ortiz','permita','población','relativo','renovables','resultados','salvador','segovia','unanimidad','usted','blanca','bre','cantidad','capacidades','cárdenas','carmona','debe','des','dictaminado','director','final','función','hace','hoy','isidro','lázaro','llevará','medianas','méndez','mismo','previa','sos','total','valencia','vo','acceso','acuerdos','armando','artiñano','asistentes','calidad','cáma','campaña','cecilia','conforme','conforme','dustria','em','emitir','encuentra','esther','gerardo','impacto','importantes','ingeniero','interés','minuta','modificación','movimiento','na','nación','oportunidad','ordenamiento','organismos','parlamentarios','pequeñas','po','primera','puntos','socorro','socorro','téllez','tiempo','tomás','tratamiento','turnados','unidas','yesenia','analizado','anaya','ángel','angélica','ba','bajo','base','beltrones','bien','campañas','catarina','ceballos','delgado','desa','desahogar','eco','efecto','electorales','encontraron','específicos','establecido','ex','fechas','foros','g','gutiérrez','hacia','humanos','ja','llevar','manlio','márquez','mayoría','medios','metas','miguel','módulo','mundo','momento','observaciones','octavio','palabra','orihuela','payo','permanente','preguntas','puesto','res','respectiva','resultado','reyes','sam','sistemas','voto','votos','actores','alianza','alonso','alianza','américa','ayala','cación','calderón','cam','camarena','carácter','cargo','ciso','clave')
bad_words_5<-c('competitivi','comunicación','conducto','conforman','consejo','correspondientes','cumplir','dependencia','destinados','df','dichas','directamente','diseño','dora','ejecución','emitida','éstas','estatales','evaluaciones','falta','favor','federa','felipe','fernández','garza','generación','herrera','hacendaria','herrera','hugo','humano','instituto','inte','intervención','invitación','issa','legislativos','local','medina','semana','semanas','mes','meses','necesario','norma','número','organización','oviedo','países','par','pedro','plan','presencia','puso','rafael','rafael','realizar','reducir','reitero','relaciones','representación','representantes','responsabilidad','rios','rivera','rrollo','secreta','unánime','vinculación','x','zaragoza','ac','adán','alba','alex','analizar','beneficio','cabe','clausura','clausura','combustibles','compromiso','conformidad','compromiso','crear','cualquier','cuanto','daimler','david','dávila','debida','decisiones','derivado','disposi','eficiencia','ejecutivo','eliana','elaboración','eliana','equipo','ésta','francisca','francisco','gas','ge','gm','go','her','ho','inafed','informes','instalaciones','instrumentos','lado','legales','líneas','locales','marisol','mento','mexicano','misión','mismos','munici','nacionales','nández','ne','nelly','nomía','órdenes','organizaciones','pecial','peña','pido','planta','porcentajes','presu','proceso','producto','progra','propia','puede','ral','ras','realizadas','representa','representa','revisión','ricardo','robles','sa','sala','solicita','sometan','suficiente','tercera','tes','tinguida','torres','viii','abordaron','actualmente','alfa','alvarado','alimentos','árcega','auditorio','bajadores','beneficios','bis','brenda','canacero','características','castillo','cau','certificación','certificado','chávez','cional','cita','colaboración','comuníquese','concepto','concluyó','consuelo','conocimiento','contenidos','coronado','covarrubias','creciente','cruz','cuarta','décima','décima','declinó','delphi','democrática','dente','deral','dicho','dieron','discutido','dispone','duda','efectuada','elia')        
bad_words_6<-c('estratégicas','evaluar','fede','gastos','ini','inicial','instalación','integral','interior','jiménez','labastida','lardizábal','legislativa','licencia','lineamientos','magallanes','mé','mecanismos','mejores','mencionar','modificaciones','muñoz','murguía','nieto','nolasco','observar','ordinarias','panel','peaje','permitan','presenta','presentadas','pt','putados','rio','ro','rodrigo','rosa','salinas','sarrollo','segunda','serna','sexta','sino','subcomisión','talamante','tamaño','técnico','undécima','undécima','var','venido','vicepresidente','senador','senadore','ministro','ministros','vidad','volvo','xico','zamora','acordó','actas','agenda','agustín','altos','álvarez','antelación','anteriormente','apo','apro','áreas','arroyo','artí','au','autónoma','bienvenida','ble','cá','car','casi','cervantes','chapa','cio','comentó','compe','comprende','comuníquense','conferencia','confirmar','confirmar','constancia','constitucional','constitucionales','contar','corpus','culo','curi','das','declaración','destine','destino','diputadas','dispensó','emitió','enfoque','enviada','espacio','especifico','etcétera','experiencias','explicó','fijos','facultades','flor','fommur','fondos','forman','formas','fundación','fundamentales','garantizar','gordillo','grama','hombres','gudiño','hora','implementación','implementar','inci','incorporar','index','inegi','infor','irazema','karina','leticia','libre','linares','loya','mantener','marcas','matrices','mejoramiento','miranda','morelos','motivo','muni','nal','necesidad','negativo','néstor','normas','numerales','ochoa','ocotlán','olivares','omar','opiniones','organi','organizado','orozco','orozco','ossiel','otorgados','pablo','participaciones','petitividad','planteados','planteamientos','podrán','ponente','poner','potencial','prácticas','favor','ausente','dip','angel','cc','creo','cooperativa','quiero','sección','seccion','lxi','cruzada','liconsa','ustedes','vemos','dip','admite','leche','lxiii','ley','diconsa','dgpl','cooperativa','mely','aqui','aquí','coco','x','lxi','angli','vamos','lxii','morena','eukid','rubrica','parlamentaria','voy','obviamente','ahorita','grappin','proponente','notificó','asistencias')
bad_words_7<-c('iniciativa','nacional','reforma','nacional','partido','iniciativa','entidades','pública','presentada','sector','nacional','género','dictamen','diversas','señaló','muchas','muchas','sociedades','número','bis','pleno','cuidado','discusión','votación','javier','humanos','ordinaria','jesús','párrafo','integrantes','uso','f','oficio','cómo','presidenta','derecho','sociedad','juan','exhorta','congreso','fiscal','pérez','rodríguez','medio','socios','va','constitución','secretaría','hoy','asamblea','cambio','lópez','unidos','pesos','pesos','cause','población','cuidados','manuel','años','términos','hambre','díaz','urgente','federación','artículos','carlos','cabo','parte','centro','ver','millones','jorge','moreno','previsión','televisión','integrante','unión','sesión','anual','fondo','guarda','dar','usted','bien','marco','marco','voto','suscrita','consejo','gutiérrez','precios','código','parlamentarias','recepción','tercera','periodistas','ex','hace','sánchez','comité','comité','reuniones','pa','unidas','ramos','ramos','administración','ciudadana','consulta','mos','in','pueblos','mayor','legislativo','haciendo','apoyo','diversos','gómez','debe','flores','verdad','respecto','órganos','régimen','primer','podemos','refiere','quórum','zona','arturo','ra','enrique','indicó','casa','través','sur','di','único','proyectos','temas','torres','mendoza','carácter','públicas','palabra','guadalupe','nivel','gerardo','vega','penal','cruz','entidad','norte              
edificio','quinta', 'relaciones',   'fuerza',   'cierre','miguel','pena','electorales','voz','referente','aprobado','nes','ángel','ene','sureste','bernal','vida','vida','roberto','guillermo','roberto','promedio','atentamente','mo','votar','iniciativas','generales','puede',               
               'moneda','parra',    'veces','uip','personal','micro','claudia','conforme','bases','rafael', 'políticos','registro','fe','efecto','pemex','editorial','casos','persona','menor','banfotour','ejemplo','recibido','foro','recibido','primero','herrera','amistad','ciento','segundo','oportunidades','revolución','resolución','sistema','informe','inasistencia','análisis','reglamentos','sagarpa','puntos','pasajeros','disponible','autonomía','habitación','gente','celebrada','numeral','norte','edificio','fernando','plazo','cualquier','cuarta','cumplimiento','solicitó','electores','electores'        ,'trámite','valor','parlamentos','equilibrio','morales','movimiento','municipal','combate','moderna','ciones','financiero','','licenciado','periodo','título','sión','activos','presidencia','cantú','unanimidad','cuales','expide','beatriz','beatriz','total','capítulo','ma','participación','revisión','fundamento','trata','dad','pequeña','santos','nuevo','productiva','gef','región','región','pichardo','pre','oficial','abstención','pre','vázquez','dictaminar','institución','baja','na','asunto','fernández','ramírez','honorable','promovente','ruiz','hugo','secretarios','gestión','mediana','coordinación','ejecutivo','establece','proceso','dentro','objetivos','bueno','fuente','leyes','comunicaciones','humano','anexo','vigor','registró','registró','constitutivas','constitutivas','riego','cárdenas','partidos','ricardo','llegar','toda','octavio','nueva','nuevo','cantidad','potable','escuelas','seguro','positivo','íbid','doctor','reyes','lázaro','palacio','miriam','reglas','república','ciudad','elena','norma','diario','armando','nombre','º','david','héctor','dispuesto','lista','dispuesto','lista','rojas','rojas','rojas','sistemas','evaluación','cumbre','santiago','quorum','usuario','mexicano','organización','presencia','secretaria','carrillo','carrillo','sergio','ticas','relación','vencimiento','apoyos','garza','márquez','daniel','germán','precisamente','carmen','chávez','emilio','guzmán','medina','visita','prác','tiendas','minuta','ignacio','preguntó','compañeros','recibida','eduardo','sala','votos','ausentes','envió','sinopsis','presentes','resultados','mente','mucha','alianza','méndez','consideración','orantes','pueden','debido','aprobada','dijo','responsabilidad','víctor','llevará','acuerdos','barajas','momento','siempre','condiciones','señores','trabajos','obra','araceli','parece','parece','guevara','contenidas','funciones','mayoría','cadenas','contador','contador','dades','viii','objetivo','padilla','escobar','escoto','manrique','lucia','tesis','financieros','edgardo','órgano','diputada','primera','permanente','aprobación','junta','recursos','recurso','materia','cámara','trabajo','aprobación','trabajo','materia','instituto','cámara','recursos','primera','elsa','turismo','decía','martín','martha','comi','educa','trabajar','programas','anterior','operación','rico','anterior','bienes','fines','aprueba','líderes','óscar','innovación','planta','procedimientos','mismo','productores','instalaciones','comisiones','usos','pinto','delito','quedar','según','reserva','retiro','tercero','tercero','gonzalo','base','mario','suárez','velasco','ciudadanos','intervención','motivos','miento','pago','realizar','legisladores','motivos','podamos','queremos','solamente','parlamentarios','senadora','relativo','señala','reforman','semarnat   ','reservan','admiten','situación','diego','caída','villarreal','meses','edad','operaciones','humberto','programas','democrática','función','bajo','creación','curso','plenaria','remitida','seguimiento','anterior','ganaderas','damián','desechan','dicho','dictaminada','notas','jaime','oscar','atribuciones','elección','fuentes','mismo','asistentes','asistente','asiste','coronato','margarita','patrones','cooperativo')
bad_words_8<-c('radabán','turno','cefp','socio','barbosa','general','reunión','federal','urnas','credencial','locutores','turna','señor','montaño','sámano','anticorrup','melhem','manjarrez','compañero','arámbula','castañón','berjena','montano','berdeja','avilés','gaceta','montano','usabiaga','monreal','amigo','gracias','pesa','zan','cooperati','quisiera','turnó','ganoa','corrales','proyecto','turística','asuntos','montoya','gobernación','gobernacion','rúbica','bautista','setenta','civil','agradezco','buenos','septima','guerrero','rubica','rúbrica','comisión','gusto','ayudar','aguas','expediente','país')
bad_words_9<-c('país','política','pues','parlamentario','tasa','popular','metropolitano','aguilar','agregado','exteriores','edelmiro','angulo','alfonso','multa','demás','valores','campeche','permiso','aguilar','firmas','distrito','metropolitana','pues','estatus','funcionarios','media','productos','desecha','federativas','braceros','tiembre','naciones','fuerzas','solicitud','acto','alejandra','zepeda','ávila','ramo','ahlf','loretta','equivalente','otorgamiento','promover','esfuerzo','virgilio','julieta','olivia','briceño','wendy','ernesto','procesos','fermín','propuso','sometió','control','toro','hizo','acto','treinta','adición','estatus','mary','priscila','vidaña','rogelio','aportaciones','someterlo','desahogo','éste','federativas','regular','cedrssa','suprema','alguna','país','imss','proposición','desecha','bermúdez','erandi','aguilar','frida','respectivamente','permiso','pidió')
bad_words_10<-c('estratégicas','evaluar','fede','gastos','ini','inicial','instalación','integral','interior','jiménez','labastida','lardizábal','legislativa','licencia','lineamientos','magallanes','mé','mecanismos','mejores','mencionar','modificaciones','muñoz','murguía','nieto','nolasco','observar','ordinarias','panel','peaje','permitan','presenta','presentadas','pt','putados','rio','ro','rodrigo','rosa','salinas','sarrollo','segunda','serna','sexta','sino','subcomisión','talamante','tamaño','técnico','undécima','undécima','var','venido','vicepresidente','senador','senadore','ministro','ministros','vidad','volvo','xico','zamora','acordó','actas','agenda','agustín','altos','álvarez','antelación','anteriormente','apo','apro','áreas','arroyo','artí','au','autónoma','bienvenida','ble','cá','car','casi','cervantes','chapa','cio','comentó','compe','comprende','comuníquense','conferencia','confirmar','confirmar','constancia','constitucional','constitucionales','contar','corpus','culo','curi','das','declaración','destine','destino','diputadas','dispensó','emitió','enfoque','enviada','espacio','especifico','etcétera','experiencias','explicó','fijos','facultades','flor','fommur','fondos','forman','formas','fundación','fundamentales','garantizar','gordillo','grama','hombres','gudiño','hora','implementación','implementar','inci','incorporar','index','inegi','infor','irazema','karina','leticia','libre','linares','loya','mantener','marcas','matrices','mejoramiento','miranda','morelos','motivo','muni','nal','necesidad','negativo','néstor','normas','numerales','ochoa','ocotlán','olivares','omar','opiniones','organi','organizado','orozco','orozco','ossiel','otorgados','pablo','participaciones','petitividad','planteados','planteamientos','podrán','ponente','poner','potencial','prácticas','favor','ausente','dip','angel','cc','creo','cooperativa','quiero','sección','seccion','lxi','cruzada','liconsa','ustedes','vemos','dip','admite','leche','lxiii','ley','diconsa','dgpl','cooperativa','mely','aqui','aquí','coco','x','lxi','angli','vamos','lxii','morena','eukid','rubrica','parlamentaria','voy','obviamente','ahorita','grappin','proponente','notificó','asistencias')
bad_words_11<-c('radabán','turno','cefp','socio','barbosa','general','reunión','federal','urnas','credencial','locutores','turna','señor','montaño','sámano','anticorrup','melhem','manjarrez','compañero','arámbula','castañón','berjena','montano','berdeja','avilés','gaceta','montano','usabiaga','monreal','amigo','gracias','pesa','zan','cooperati','quisiera','turnó','ganoa','corrales','proyecto','estratégicas','evaluar','fede','gastos','ini','inicial','instalación','integral','interior','jiménez','labastida','lardizábal','legislativa','licencia','lineamientos','magallanes','mé','mecanismos','mejores','mencionar','modificaciones','muñoz','murguía','nieto','nolasco','observar','ordinarias','panel','peaje','permitan','presenta','presentadas','pt','putados','rio','ro','rodrigo','rosa','salinas','sarrollo','segunda','serna','sexta','sino','subcomisión','talamante','tamaño','técnico','undécima','undécima','var','venido','vicepresidente','senador','senadore','ministro','ministros','vidad','volvo','xico','zamora','acordó','actas','agenda','agustín','altos','álvarez','antelación','anteriormente','apo','apro','áreas','arroyo','artí','au','autónoma','bienvenida','ble','cá','car','casi','cervantes','chapa','cio','comentó','compe','comprende','comuníquense','conferencia','confirmar','confirmar','constancia','constitucional','constitucionales','contar','corpus','culo','curi','das','declaración','destine','destino','diputadas','dispensó','emitió','enfoque','enviada','espacio','especifico','etcétera','experiencias','explicó','fijos','facultades','flor','fommur','fondos','forman','formas','fundación','fundamentales','garantizar','gordillo','grama','hombres','gudiño','hora','implementación','implementar','inci','incorporar','index','inegi','infor','irazema','karina','leticia','libre','linares','loya','mantener','marcas','matrices','mejoramiento','miranda','morelos','motivo','muni','nal','necesidad','negativo','néstor','normas','numerales','ochoa','ocotlán','olivares','omar','opiniones','organi','organizado','orozco','orozco','ossiel','otorgados','pablo','participaciones','petitividad','planteados','planteamientos','podrán','ponente','poner','potencial','prácticas','favor','ausente','dip','angel','cc','creo','cooperativa','quiero','sección','seccion','lxi','cruzada','liconsa','ustedes','vemos','dip','admite','leche','lxiii','ley','diconsa','dgpl','cooperativa','mely','aqui','aquí','coco','x','lxi','angli','vamos','lxii','morena','eukid','rubrica','parlamentaria','voy','obviamente','ahorita','grappin','proponente','notificó','asistencias','directivo','asamblea','uruguay','inoohh','inddhh','indohh','república','sede','recibió','naciones','setiembre','parlamento','sesión','reunió','uruguayo',"inodhh",'comisión','participó','institucional','casos','comisionado','institución','º','presidenta','pueblo','junto','seguimiento','página','relacionamiento','señores','personal','información','corte','aspectos','instituciones ','dirección','uruguaya','muchas','recomendaciones','taller','unidad', 'dentro','órgano','toda','ámbito','anexos')
bad_words_12<-c('rectora','refacción','resolución','señora','suprema','tivo','udelar','visita','alguna','anong','arts','bases','buen','ceremonia','cierre','colaborar','directora','entiende','formal','funciona','inciso','institu','integrada','organismo','propio','rechos','rovira','situaciones','seguramente ','talleres','talleres','ales','bueno','consolidar','contacto','contencioso','convenios','creados','dada','desarrolló','dice','eventos','focal','expresa','extraordinarias','focal','forme','gente','grado','horario','informar','inter','intercambiar','intercambio','interna','lugares','maldonado','mantenido','maria','minutos','nota','ntes','nuevo','oohh','pafs','participado','participaron','perfodo','podemos','queremos','recibimos','recién','reclamo','rector','redbió','reglamentación','seguir','solicitó','tado','tampoco','temáticas','ténganse','titución','tras','unión','urugu','viena','vigentes','xlvii','aborda','abordar','abordó','acercamiento','ación','algún','ambas','amplio','amman','brou','breve','capitulo','causas','cias','comprendido','ctivo','danilo','decisión','defen', 'defensorías','denunciado','deredlos','dfas','diario','distintas','división','dónde','ejecutora','ente','entrados','entrevistas','estratégicos','excepciones','extraordinaria','federico','fhce','filippini','fines','form','funcion','fundamentos','futuros','gama','garantías','habitantes','hacerlo','hacerse','hito','ibió','implica','impone','incluso','inddhii','inoouh','inst','integra','jnddhh', 'jnodhh','juntas','libro','manifiesta','marcha','memoria','mensaje','montero','mtop','nacion','nombre','obligación','obre','observatorio','oficial','oficios','oirtctivo','oportunamente','orgánica','organizada','oriental','otorga','paraninfo','dificultades','jorge','según','cuentas','gustavo','seis','sociedad','cooperación','país','diferentes','º','administración','parece','seminario','peralta','frente','miembros','directorio','faroppa','posible','remite','allá','código','dado','delegación','dere','especialmente','mariana','órganos','recepción','vecino','rodríguez','relativos','funcionarios','recibir','sesiones','realizó','recibido','tribunal','hizo','principio','vinculados','administrativa','cómo','cons','copia','cuerpo','daniel','deja','habla','manos','ninguna','oerechos','raúl','uruguayos','vigente','actos','admitidas','ariela','astori','central','concurso','conse','coordinadora','debido','ejemplo ','elección','ferreira','futuras','instancia','integrar','nadonal','período','posibles','presentado','promoción','realizado','acto','centro','asociación','señalar','asuntos','convenio','asunción','independiente','vinculadas','comenzó','ejemplo','establecimiento','fundamental','legislador','ocasión','oefensoria','pasado','protocolo','pueden','recibidas','recomendación','asesora','técnicos','asse','chos','derec','destacar','disposición','llamado','oere','oficio','ombudsman','parlamentario ','participar','poderes','preliminar','primeros','pueda','montevideo','sociales','facultad','persona','cargos','defensor','denunciante','obligaciones','defensa','legal','servicios','administrativo','camino','eduardo','escrito','escuchar','guyer','inooh','insti','parlamentario','serpaj','tución','administrativos','cuestiones','dando','decía ','guianze','hechos','humedades','inau','iniciativas','involucrado','involucrados','lación','mencionado','mides','objetivo','ocupación','participa','pasos','plantearon','planteó','posición','refiere','segundo','seguramente','texto','abordados','actuación','actual','adelante')
bad_words_13<-c('colorado','decía','común','convocada','época','honor','jornada','pesar','pleno','solicitudes','antesala','aproximación','artigas','asodadón','boltzmann','buenos','básicos','carta','claramente','compartieron','completo','consecuencia','considerarse','consideró','cosas','curso','debemos','desarrolladas','desarrollar','eficaz','enorme','payssé','ponen','presupuesta','pisos','proce','ración','reali','realiza','realmente','reciente','reconocimiento','rectivo','relativa','rica','sauval','sejo','semestre','sentencia','sentimos','servido','silva','solamente','soría','stado','talle','tarea','temática','tendidos','unid','usinas','veinte','versión','vinculado','walter','abord','absolutamente','acceden','acnudh','acompañan','adón','adones','agradecer','alegría','almagro','anex','aníbal','aniversario','apartado','aplica','aquellos','asigna','asignado','asundón','aucj','básico','bloque','busca','boral','caminos','cardoso','celebrarse','ceso','ciegas','citada','creación','senadores','alcance','álvaro','amplia','aprueba','área','dictado','difusión','facultativo','instancias','andar','contó','comunicó','decano','pertinente','posteriormente','preparación','previsión','principales','propias','razones','redactor','relaciona','relacionadas','rico','abordan','acuña','administradón','administrativas','aporte','aplicable','atribuciones','capacidad','causa','centrales','cierto','ciudad','clón','comenzamos','códigos','comenzara','cometidos','comienzo','comis','compartió','compartir','conclusión','concretamente','condición','cone','consideración','consideradas','considere','consta','consulta','consultivo','contiene','contribuir','conversó','coope','coordinaciones','copias','correr','creada','creado','creadón','criterios','cuarenta','cuya','dades','deberi','dejamos','dejo','demás','denund','dert','despachos','dicte','diferente','digo','dijo','dimensiones','dire','directi','discrepamos','discrepancia','doctora','dossier','duradón','echa','ejercido','elena','encontrado','enda','enta','entendemos','entes','envió','espado','espedal','espinosa','estab','estándares','eventual','evento','existencia','expresamente','ferrelra','finalmente','física','físicas','fluida','formulación','funcionar','goce','heber','henderson','hicieron','huma','humnos','iciembre','ihoohh','incompetencia','informada','informado','informaron','inooiih','inquietudes','intermedio','interpretación','ional','jornadas','leer','legis','lidad','literal','llamar','lnstitudón','logo','ludwig','maneras','manifestó','mantenidas','mantuvo','mencionó','mirada','modificativa','momentos','nacio','nacionaj','nadie','nadón','nadones','namiento','nciones','necesaria','ningún','negras','noohh','jurídico','éxito','procedimientos','trámite','trato','actor','concreción','conmemoración','coordinar','definitiva','denun','experiencia','henderson','implican','notoria','notoriamente','nsejo','obliga','obstante','ocupada','oefensorfa','oire','onal','ones','oportuna','orador','organizó','orientación','originales','oupuy','pane','panelista','parlamen','partidp','pasquet','pauta','pedidos','plantea','plato','plena','pnud','podamos','práctica','presen','presidió','prestación','presuntas','previo','previsto','primero','proc','procedimiento','provino','proyecta','pttsonas','pues','quejas','rápido','razón','recha','recibieron','recoge','recomend','recuerdo','redacción','reencuentro','registro','relativas','relator','rendición','represen','repú','requerido','requerir','respuestas','resuelto','reunido','reunieron','rias','rinde','rorma','scheps','señalado','señaló','serie','serpa','siempre','simplemente','socia','solicitada','solicitud','sometida','sugerencias','tareas','temático','temáticos','tido','tiva','todavía','tora','totalidad','trab','traba','única','unida','unidades','universal','unklas','ursos','viene','vínculos','visto','voluntad','voluntaria','xvii','representante')
bad_words_14<-c('sdud','duwtfxor','duwtfxor','ë','dflyq','dflrqdo','colombia','pacto','dflrqdo','dflrqdo','\u0358','prestar','\u051d','frpr','uhfxuvrv','xhyr','xhyr','ï','lqlvwhulr','sdud','hqwlgdghv','hvwh','ɖăƌă','ministerio','odq','línea','directa','prestacion','uhdol','estatuto','vigésimo','fxdo','relhuqr','h','pacto','eolfr','senado','txlgdg','estrategias','rglilfd','vreuh','dflhqgd','eolfd','\u0d7d\u0d7eඅ','contrato','meta','qdflrqdo','parágrafo','qdflrqdo','qdflrqdo','è','técnica','uhdol','qdflrqdo','parágrafo','fortalecimiento','uhfxuvrv','uwtfxor','hfwrv','qxhyr','fortalecimiento','\u051d','\u0355','\u037c','hqhudo','glflrqd','vhuylflrv','vhuylflrv','dvhv','hvduuroor','departamento','servicio','ghvduuroor','psuhqglplhqwr','rqgr','hjdolgdg','r','rwurv','doxg','srguiq','olplqd','olplqd','tabla','delegada','surjudpd','sduwh','xglfldo','vhuylflr','wudqvsruwh','hqwuh','dfwr','hfwr','|','surfhvrv','lvwhpd','lqyhuvlyq','lqirupdflyq','gráfico','frqyplfr','planes','whuulwruldohv','vhfwru','udqvsruwh','dfxhugr','raizales','igac','vhfwru','udqvsruwh','srgui','u0373','wudypv','fxpsolplhqwr','dud','jhvwlyq','yljhqfld','lqdv','eolfrv','hqwlgdg','hqwlgdg','gheh','quedará','vdoxg','sdjr','rgutjxh','articulación','qyhuvlrqhv','frqglflrqhv','sdtv','mxglfldohv','acompañamiento','hvwd','dutd','duorv','qhujtd','dpd','pretelt','vigilancia','uente','xdgur','rfldo','gxfdflyq','hvwi','ghehuiq','fdvr','fxdohv','cuadro','gráfica','fxdohv','secundario','magistrado','cuadro','ru','vlvwhpd','rglittxhvh','hsduwdphqwr','surfhvr','duwtfxorv','wrwdo','oehuwr','liber','hvwlyq','hvwlyq','whed','sduijudir','dfwlylgdghv','dfwlylgdghv','oxuldqxdo','modelo','sduijudir','vwdgr','suhvwdflyq','txhgdui','vrfldo','wlhqh','eolfdv','vljxlhqwhv','chaljub','odqhdflyq','phwd','lqfox','servidores','quinto','uiilfr','datos','surgxfflyq','lqiudhvwuxfwxud','ur','wudwd','ghqwur','msps','whpd','ghehui','rqdv','xshulqwhqghqfld','balance','categoría','pp','žůžŵďŝă','plvpr','mxvwlfld','','hmhfxflyq','mads','ghvsdfkrv','shuvrqdv','estratégica','modifíquese','hfuhwr','jdudqwl','whuulwruldo','glflhpeuh','pdqhud','udedmr','debate','compra','đžŵž','wrgrv','phgldqwh','ghsduwdphqwrv','componente','remhwr','uhodflrqdgr','lfhplqlvwur','dgrv','lqlvwud','eloorqhv','plqhud','pxqlflslrv','fdolgdg','hpsuhvdv','srutxh','madres','xshulru','srotwlfd','vhuiq','pelhqwh','surgxfwruhv','carrera','vhdq','glihuhqwhv','complementarios','kdvwd','pliego','manejo','uariv','d','territorios','rama','formación','suhvhqwh','ǀ','rorpeld','\u0373','primario','prgl','modi','uhvlghqwh','colombiana','colombiano','votado','conćicto','sursxhvwd','ŵŝůůžŷğɛ','aumento','xudo','retención','ğdžɖžƌƚăđŝžŷğɛ','uribe','upjlphq','implementará','edvh','htxlgdg','pdufr','pactos','eăđŝžŷăů','rosario','guerra','aprovechamiento','sursrvlflyq','empleados','lqyhuvlrqhv','iván','ejrlb','encuentran','fortalecerá','capital','sodq','espera','ò','dupdgr','definir','dutr','ponencia','madr','identificación','hvwiq','modalidad','intermedia','luhfflyq','sulphu','índice','recuperado','luhfflyq','índice','xvwlfld','roflhqfldv','ruta','encp','venia','vial','\u0355\u0355','reoljdflrqhv','rughq','principal','espriella','abelardo','sursrvlflrqhv','lqflvr','conmutador','nominal','diferencial','aumentar','ungrd','colombianos','ğŷƚƌğ','mipres','mhcp','rrom','idplold','ixqflrqhv','duijudir','galán','restrepo','ludqgd','trámites','phur','especialidad','qxphudo','őğɛɵſŷ','construir','irupd','kulvwldq','sierju','hvwdv','adiciónese','toma','mauricio','mauricio','establecimientos','ğɛƚğ','encuentro','hihqvru','componentes','uxudo','entrega','conductas','beneficiarios','distribución','ljhqfldv','medida','dtxt')
bad_words_15<-c('lara','wudedmr','desempeño','pdet','venta','avanzar','pdet','dqiolvlv','avanzar','uwl','diagnóstico','ilustración','qfoxvlyq','menores','ʹ','pxmhuhv','tutela','remhwlyr','desarrollará','intervenciones','asesoría','surslhgdg','wudruglqduldv','etapa','duwlgr','serrano','término','narp','alcalde','dwhqflyq','shulrgr','principalmente','historia','principalmente','mesas','sodqhv','sursrqh','calle','ruhqr','ruhqr','mantilla','documental','mvct','yljlodqfld','ɖƌžěƶđƚžɛ','suhflrv','benedetti','acordada','marta','cent','andrés','ulhvjr','propiedad','vhqwlgr','lemos','escala','intereses','ilflqd','selección','lppqh','cálculos','subdirección','metodología','dejar','brindar','posada','embargo','mediano','barrera','lqwhjudo','vota','apuestas','facilitar','hvwdeohflgr','facilitar','qiruph','hvwdeohflgr','bilateral','john','lina','guía','phvhv','edmr','alexander','prioridad','andrade','cristo','hernán','existentes','tamayo','deulo','existentes','pizano','qirupd','profesionales','hogares','impedimento','cesar','gestion','salas','honorables','divulgación','encuesta','plantas','dgpm','medición','autoridad','impulsar','lara','wudedmr','serrano','ptar','tovar','giraldo','pregunta','chaves','alcaldes','caicedo','chamorro','jimmy','correa','lizcano','dictan','bonilla','recusaciones','daza','formato','arango','circunscripción','soto','eapb','formato','palabras','name','números','unas','amín','concede','cristina','merheg','samy','gaviria','barreras','paloma','escolar','aforados','pací','elizabeth','nayibe','marún','requisitos','publicado','lizarralde','macías','publicaciones','ministra','plata','hernando','familiar','ª','recobra','baena','navarro','prieto','bolsa','justa','penagos','laserna','cardozo','hoyos','realpe','román','vélez','wolff','sustitutiva','bustos','rosero','proyectar','eustacio','corzo','marín','sarmiento','somete','andrea','avirama','cuáles','holguín','mora','durán','obdulio','ospina','paola','vásquez','fórmula','caprecom','cretaría','viviane','flórez','celebración','abre','abrir','leonidas','diana','cerrar','maritza','milton','conducción','arleth','bernardo','casado','elías','elías','myriam','html','mandato','alicia','aristizábal','león','paredes','patricia','proceder','robledo','rosales','rosmery','vidal','villalba','digamos','norable','barón','darío','negado','neira','rigoberto','puerto','casamá','lidio','cepeda','orlando','riveros','turbay','adopta','ciess','lfroiv','alcocer','flyq','','elegido','édinson','mani','fldo','gota','pinilla','eugenia','triana','borrero','castañeda','roosvelt','candidato','preventivo','custodio','ramelli','proposiciones','rocha','plazas','cabrera','grajales','sierra','esquema','precio','parejas','ayapel','báez','honorio','marcela','nidia','nora','osorio','pinedo','sultado','varón','ponentes','miren','iaef','clemencia','cotrino','doris','quiroz','senén','fajardo','plfur','daño','vigencia','creativa','avendaño','yamina','teresita','transitorio','compañía','bernabé','celis','henríquez','pestana','recinto','convencionales','motoa','preferente','auto','villadiego','araújo','retorno','cabrales','autores','cortes','exclusivo','ayer','chicos','piloto','didho','eliéser','excusa','quiere','delegado','excusa','reajuste','petro','alexander','tatiana','juez','cabello','proveer','pard','yepes','bustamante','funcionario','labra','motta','extrema','prada','conexas','listas','juzgamiento','updgr','conducir','ludogr','contralores','nicolás','agentes','gggi','curules','mire','conjun','pienso','concejos','termina','ejecutoriadas','queda','césar','montealegre','anaime','gloria','doble','nohora','stella','jueces','ocupar','laureano','gobernadores','mientras','negociación','orjuela','ceta','rumié','mano','dvdgr','escrutinio','salazar','molano','polo','allí','problemas','cial','séptimas','cosa','deluque','informo','vicepresidenta','jurisdiccionales','indicación','oficiales','apoderado','hono','inmaterial','piel','justamente','acusación','masivo','retos','muchísimas','votó','anuncio','rutas')
bad_words_16<-c('hermana','gertrudis','cajas','séptima','constitu','cuánto','impedimentos','rable','hombre','sentencias','camargo','políticas','salida','horacio','alfred','procurador','herramienta','ferro','perdón','accionaria','fallo','regla','auditoría','ejercer','crec','casas','refugio','consolidado','árlex','modifica','obligatorio','saber','fuero','procede','conjuntas','pedraza','obed','gace','títulos','chacón','indicador','hicimos','encargo','restablecimiento','instructor','formalización','contable','renovable','viceministro','bancadas','eugenio','william','creg','leonardo','ipdud','barguil','pasó','perjuicio','pequeños','lucro','magna','nador','modifícase','expuesto','wilson','asistirá','candidatos','votamos','olga','saludo','simón','segundas','perdomo','granados','niñez','quién','autor','advertencia','auditor','gtdv','histórico','ministry','char','éverth','creativos','participe','salamanca','elegir','problemática','recolección','movimientos','nunca','aunque','pasa','sdodeud','fhoheudu','reglamentará','bolsas','castro','explicar','mañana','focalización','quede','sofía','mantenimiento','industrial','elaborar','fonsa','tante','automáticos','guarandá','ánimo','cuántas','concejo','industrias','bruce','resa','diciendo','entrar','pruebas','efraín','mesías','pensar','ibíd','malpelo','seguri','jurisdicción','audiencia','promotoras','zuluaga','bancada','gerléin','materiales','cuántos','sanabria','atienda','aprobar','ejecutiva','mira','nanciación','edilberto','operando','bogotanos','hablar','fortalecer','gobernador','crea','estrategia','alirio','viceministra','agatón','considera','delegados','disciplinario','heriberto','daira','galvis','judiciales','candidata','constanza','jurídica','ataques','procesado','monedero','toca','votemos','ballesteros','sarabia','corredor','pais','reino','oiss','archivo','jairo','contará','pran','conciliación','science','normal','vigencias','mónica','suspensión','thania','ascender','ejercerá','agente','conductor','comunidad','hjlyq','cumplan','hacen','cabecera','disciplinaria','dg','arlex','nacimiento','localidades','henry','buscar','gislativo','respeto','juzgar','autónomas','juzgar','quedó','sandra','unido','empezar','guridad','tratar','cartel')
bad_words_17<-c('créditos','padrón','turnadas','graves','cosas','peralta','hábiles','abasto','muchisimas','cosas','radio','adicionan','amaya','nayibe','rplvlyq','enríquez','recusación','susana','tratado','amaya','pachón','enajenación','lizcano','recusaciones','dólares','formato','flhqwt','nayibe','flhqwt','html','palabras','washington','alexánder','qrwl','ministry','rplvlyq','name','pachón','hqdgr','estatal','soto','science','uhvlghqfld','publicada','publicada','elecciones','constituyente','dft','dft','vhxru','susana','maya','buenaventura','molano','vfdo','billones','tránsito','interbolsa','tránsito','discapacidad','parques','corea','familias','dian','satena','ascenso','vivienda','derechos','referendo','contraloría','cerrada','congresista','municipios','bogotá','contralorías')
bad_words_18<-c('nayarit','oomo','´','ayuntamientos','vienda','adolescentes','privación','seaor','anos','penas','·','convención','cometido','cometido','moreira','pata','pera','tomar','designar','borsari','brenna','idea','viera','claro','dieciocho','legislación','seria','viera','penales','miembro','corno','iones','juicio','puedo','senor','cifras','creemos','lodo','solución','hablando','orrico','cion','idad','niflo','aspecto','diez','rebaja','vista','discutir','quince','afirmativa','penadés','cometen','responsable','resulta','oposición','cometidas','dlas','dlll','lodos','part','adrián','poro','juri','considerar','carpeta','ados','fuerte','grave','hacemos','máximo','nifto','pasaje','patronato','público','resto','bajar','competente','criterio','hablamos','panes','pare','publica','resolver','sabemos','impositiva','aqul','bango','comit','cuyo','ncia','ocho','paso','peto','rapiñas','aplicar','comete','conocer','debo','exposición','ingreso','iodo','lema','cioi','nillo','pasar','segura','segura','semeji','coalición','códi','cometió','edades','elemento','entiendo','fonna','fuere','moral','sabe','piñeiro','búsqueda','cero','','coii','deber','dered','dispuestos','juzgado','peno','planteo','podr','potque','todl','trate','antel','adoles','alguien','asumir','cont','deiinau','duración','discutiendo','duración','idos','imputado','infringen','limite','menot','nino','nitlo','omisiones','perspectiva','pres','salvo','supone','trabajando','comision','trabajadores','léase','adecuados','adole','aquellas','cautelar','canelones','circunstancias','clol','comisin','contrario','cree','doce','estructura','inclusive','lbertad','material','mental','rapiña','referido','trayectoria','referido','abierta','aftos','aquel','alll','berro','cincuenta','complicidad','consideramos','contención','cumple','deba','detenido','entender','evolución','exclusivamente','fracaso','fugas','imputables','internación','interrumpir','iodos','iodos','lleva','mayorla','pene','podido','próximo','','sobro','suerte','suerte','tambin','victimas','visión','vuelve','trobo','mayorías','aclarar','trobo','mayorías','cuál','aclarar','afio','alcanzada','aviso','ayuda','carcelaria','celda','conc','considerado','cumpla','consumadas','cumpla','empleo','escuchado','esencial','examen','factores','formular','grande','idas','informante','interj','medid','normativa','pedir','pelón','preocupa','referida','rompaey','sesenta','significa','temor','tendencia','terminar','tilo','trece','cambiar','carp','comunicará','concédese','designación','reso','actuales','adoptar','allos','ario','básicamente','bonomi','celebrar','coft','cometer','coml','conciencia','consumo','cono','convencidos','dictar','disponga','elos','especializado','evitar','extraviadas','gene','gravedad','hada','hará','hubiere','identidad','importa','incluyendo','instrumento','internados','lllt','llos','modificar','novoa','obras','pasta','personalidad','pide','primaria','profesional','prot','quizás','repito','ridad','salir','seno','sobte','sobfe','sucede','tome','última','unto','vaya','venimos','vienen','fortalezas','lozano','abordaje','adol','alguno','allo','amos','ando','arti','bayardi','campo','coautor','codo','codo','colegas','competentes','consecuencias','deberla','defender','deli','determinadas','determinados','dias','dolos','donaciones','drogas','ecto','efectivo','entran','entran','esla','expresar','idioma','incremento','juego','ldos','lido','lito','lldo','modio','monor','morás','muerte','nido','ninos','nores','once','origen','otta','paro','parto','pensamos','pensando','pereyra','permanencia','personales',    'pertinentes','pocas','polida', 'presentados','prob','produce', 'propios','propue','prórroga','prueba', 'quieto',   'rápidamente','realizan','referidas','requiera','responder','rtos','serta','sometidos','tabaré','tend','tenia','tenor','tocio','todu','toman')
bad_words_19<-c('trabaja','únicamente','utilizada','vacantes','volumen','económico','inconstitucional','tiempos','correos','fundar','señales','solidario','abierto','absoluto','actuar','adolescen','adoptada','alli','ampliar','anto','aobre','argumento','bicameral','campana','caram','celdas','cierta','circunstancia','ciudadanía','civiles','cofl','come','comp','complejidad','conceptos','consi','considero','corresponda','cotl','cuan','deberes','debería','decimos','dell','delto','denuncia','determinada','determinado','dinero','discernimiento','dispondrá','dones','efectivamente','énfasis','entte','equidad','equipos','estin','fueren','gravlsimas','hagan','imprescindible',    'incapacidad'   ,   'individuo' ,   'inmediato','inmuebles' ,   'ioos','ismo','justo','ldon','legisla','legislativas','limitaciones','llot','lltl','lógica','modos','mono','nado','naturalmente','ncion','necesita','noventa','numero','obli','ocupa','oigo','padre','pajs','partic','patt','peor','pere','perfil','peta','plantean','plantear','plenamente','podria','politicas','pollticas','ponemos','postura','preocupación','presi','prevenir','prevista','proponemos','proponer','proponiendo','ptra','pudiera','puertas','quedan','reciba','rodolfo','sango','scavarelli','segu','seiior','sensación','serian','simple','sometido','sujeto','suma','tipos','tlll','tllt','totalmente','trabajan','transición','traslados','tros','uridad','viviendo','puertos','legisladora','aflos','alas','amplios','avances','basta','bilidad','blica','cado','cámaras','cambia','capaz','cdigo','cene',  'centes','cido','cios','cllt','coda','comenzar','comlt','comunes','concretos','conf','const','contados','contestar','convencin','convocar','corre','correcto','corto','costa','cotno','cuándo','cuii','curativas','cursos','damos','demos','descentralizado','destinado','devenidos','dios',    'diri', 'dispuesta','doctrina','dolo','entt',   'esado','espero',   'estt','expresión','extraviada',    'fundamentalmente', 'gravísimas',   'hablado','hablan','hago','herencias'   ,'hincapié','humanidad','icas','icii','icio','imos','incidencia','inmediatamente','ione','lamentablemente','ldad','legados','letrado','levanta','liene','llene','llfl','llll','llls','lupr','madurez'   ,'malos','manejar','matar','máxima',    'michelini','mini','mitad','muebles','niao','niflos','niftez','niftos', 'nilo','nlno',  'ntos','pert','petición',   'plft', 'pocos','podré','poli', 'politica', 'pone', 'pooo','posi',  'posiciones',   'positiva','priv','privacin',   'progr','prol', 'propongo', 'quie','quiénes','quiera',  'rece', 'reco','redactado'  ,   'referidos','rnau', 'salsamendi','sedes','seflor',  'segon' ,'segun','serios','setlor', 'siete','sodal','squridad','territorio',    'ticia','tiem','tinto','tipificadas','titular','titulo','tivas','tobre','tranquilidad', 'tratando', 'ttdo','ución','unjcef',    'utilizar', 'veinticuatro', 'lador','argumentos','declarar','difícil','rótulo','mahía','dedicación','mínimo',   'articulado',   'della' ,'inconstitucionalidad',    'lavado',   'ómnibus','ventura','asti', 'montaner','sanguinetti','solicito',    'taquigráfica', 'abdala',   'aclón' ,   'actuando', 'acuetdo','adas','adolc','adolesoente'  ,'adoptado',    'afto','amente','aparecen', 'aquf', 'asignaciones','asis','asisten','atlos','atrás','berois','bién','bitn', 'bros', 'cena','cien','ciertas','ciertos','ciof','clll','clos','códig','coincido','comienza','complejo','concluir','condena','considerada','constante','contri','conveniente','corr',   'cotte','cualquiera','daro','debed' ,'debidamente','década','decirlo','decla','define','demasiado','demostrado','denuncias','dese','designadas','diariamente'   ,'done','dotar','dtll','duarte','efec','eiinau','eion','encierro',  'enes','enor','entienda','urgencia','infractores','ascenso','judicial','articulo','libertad','antecedentes','rehabilitación','adolescencia','infractores','urgencia','jóvenes','imputabilidad')
bad_words_20<-c('acerca','aconsejan','ello','luego','medios','ministerio','nelson','partir','políticas','productos','unión','aída','asimismo','cabañas','comi','corresponda','corte','cree','gallo','jano','lugo','palomo','puede','representantes','requerido','stolbizer','acompañan','costa','constitución','departamento','fiesta','foac','isabel','leyba','martí','mejor','olinda','puig','salta','sión','artículos','capital','cargo','chile','mente','meses','narducci','necesario','talleres','tener','tratos','tres','cación','castro','cecilia','comelli','cuales','disposiciones','gina','landro','puesto','representante','saraceni','tula','además','antecedente','baigorria','correspondientes','deberán','edificio','expuesto','fallecimiento','neri','provinciales','stubrin','aldo','central','consideración','hacer','historia','labor','molinari','monteagudo','paulina','storani','asociación','dellepiane','celia','damiani','despacho','edición','gerónimo','klett','mirabile','mirabile','mundo','proyec','putada','reconocimiento','siones','texto','wilder','administrativa','bonasso','conocimiento','fiol','jalil','lajonquiere','obra','organizaciones','adhesión','adriana','archivo','cial','concejo','decisión','establecer','inés','llambí','lugares','manuel','negro','pascual','plata','queda','apoyo','artola','condiciones','dicha','distintas','existe','ferrín','hernández','permanente','polino','ritondo','tratamiento','tura','vanossi','anual','baladrón','beccani','bien','bortolozzi','doga','cantidad','cristian','cristian','cuya','después','inter','legislativo','nuccio','paraguay','participación','puedan','suárez','sosa','atención','bossa','chaya','daud','fabián','mesa','nemirovsci','neuquén','osorio','párrafo','pasajeros','requisitos','tiempo','ubaldini','breard','elaborar','exposición','funcionamiento','hecho','importancia','laura','mayoría','mayoría','nuevas','origen','particulares','pesqueros','piccinini','posibilidad','solicito','alguna','anterior','bianchi','cerezo','mismas','monto','objetivo','primera','provin','realizado','requerida','vigente','deben','deliberante','diciembre','disponga','documentos','gestión','horacio','','jurisdicción','leyes','momento','muestra','municipales','proceso','momento','muestra','municipales','proceso','tema','cappelleri','cutivo','director','facultad','gerardo','generar','grupo','jornadas ','josefina','kuney','mensaje','natale','nueva','particular','posible','procedimientos','producto','tales','tareas','uruguay','vigencia','afio','aprobada','cinco','comuníquese','conforme','corriente','denominado','dirección','distintos','especial','estatuto','expresan','expresan','grande','hechos','mismos','período','propuesta','sefior','sentido','abdala','base','casanovas','centrales','correspondiente','corrientes','crea','designado','detención','encuentran','entidades','establece','eusebia','festival','figueroa','hernán','inciso','menos','mundial','necesarias','noviembre','nuevo','preferencia','titular','convención','conexas','creen','fines','local','mantenimiento')
bad_words_21<-c('medida','mencionada','mónica','procedimiento','produc','rattin','representación','requisito','saúl','afirmativo','afirmativo','carácter','ciento','conformidad','competencia','cuestión','demás','iniciativas','nombre','nota','pequeños','perié','ración','acta','antecedentes','aprobar','área','bertolyotti','camélida','chiacchio','directa','dispuesto','ejercicio','ente','gracia','intermedio','jaroslavsky','jujuy','mauricio','necesarios','nora','nuevos','oficina','operativo','principios','reclamos','rioja','rivas','solicitud','yrurtia','aplicar','aspectos','bolivia','conocer','consecuencia','dado','encarnación','existen','informar','interna','objetos','obtención','principal','realizará','rollano','ruckauf','salim','seguros','silvana','solución','usuarios','votar','adoptadas','afirmativa','argüe','controles','cumplir','destacar','determinar','efecto','elaboración','evaluación','hemández','lograr','octavio','previsión','pueden','realizadas','seguimiento','tario','varios','villaverde','zottos','algún','ambos','cias','cuyo','delma','enmienda','gabinete','judicial','mandato','manera','modo','nales','oficiales','pertinentes','salsipuedes','sectores')
bad_words_22<-c('diputados','proyecto','cámara','nacional','comisión','señor','diputado','ejecutivo','juan','nación','carlos','comisiones','provincia','agosto','página','reunión','maría','jorge','eduardo','honorable','señora','aires','buenos','josé','diputada','ción','artículo','interés','septiembre','julio','presentes','aviso','informe','nacion','camara','ausentes','guillermo','presente','gonzález','hugo','luis','declara','presidente','camaño','parte','días','general','dictamen','daniel','gustavo','sala','roberto','osear','autoridad','partes','sartori','informes','alberto','daniel','gustavo','roberto','osear','autoridad','partes','sartori','informes','alberto','aplicación','argentina','parlamentario','aprobación','martínez','legislación','mario','república','pérez','stella','romero','secretario','héctor','orden','miguel','país','señores','razones','alicia','través','resuelve','alfredo','víctor','carmen','marta','solicita','patricia','nélida','nacionales','cuatro','régimen','fundamentos','expresar','solicitar','córdoba','alejandro','cada','expresa','asuntos','dará','susana','godoy','sesiones','iniciativa','medidas','considerado','alarcón','caso','fernando','ocho','años','francisco','santa','protocolo','dada','liliana','miembro','fernández','forma','proyectos','lilia','subcomité','maria','siguiente','pedido','claudio','dipu','expuestas','fadel','acción','lozano','peso','ricardo','congreso','alchouron','baigorri','rodríguez','coto','solicitan','graciela')
bad_words_23<-c('justicia','lópez','rodolfo','silvia','daher','mirta','roggero','articulo','montoya','defensa','beneplácito','bosch','adán','antonio','misiones','norma','humanos','alvarez','informante','revisión','garcía','limia','rubini','storero','acompaña','esteban','relaciones','situación','cuenta','hace','materia','mismo','provincias','argentino','información','camélidos','irene','irma','yecto','basualdo','bejarano','cassese','diego','pilati','irene','irma','asistencia','fellner','humberto','nivel','podrá','unidas','atanasof','cional','considerar','culto','decreto','gobierno','brown','macchi','miembros','rafael','ríos','rosario','fecha','técnica','tulio','actividades','gutiérrez','jesús','lamberto','sector','senado','roque','aconseja','femández','larreguy','organismos','popular','cusinato','encuentro','jerez','cettour','ingram','raúl','respecto','santiago','tada','blanco','cantini','cnrt','actividad','giorgetti','zulema','ámbito','mongeló','margarita','sellarés','tado','argüello','expuestos','juliana','mansur','federal','sólo','ciones','consejo','correa','expediente','lugar','adrián','casos','centro','coteca','federico','frigeri','secretaría','urtubey','barbagelata','chironi','dicho','filomeno','deberá','pollina','ceceo','roddy','daza','garín','maffei','remite','según','frigeri','lovaglio','nieva','número','unidos','beatriz','lucía','mediante','localidad','pruyas','saravia','tipo','doctor','domingo','fayad','ferri','tate','toda','tucumán','calidad','debe','marco','benedetto','detalles','innecesario','morales','plazo','poggi','relación','rosana','valor','abundar','accavallo','cáceres','chaco','cigogna','ejecución','gladys','herrera','leonelli','maldonado','alonso','bertone','elizondo','falta','junio','miento','negri','cisterna','gioja','merino','misma','cinthya','cabo','gran','vincia','griselda','moreau','octubre','osuna','tomás','ferreyra','ferrigno','humada','importante','leopoldo','pesar','esaín','jurisdiccional','martini','méndez','menem','','montenegro','cittadini','dante','irrazábal','expedientes','rico','agüero','basteiro','marcela','medio','pinto','respuesta','snopek','toledo','baltuzzi','zona','planes','agrado','foresi','funciones','mediza','macaluse','marconato','monti','ruperto','sergio','administración','adolfo','aignasse','dentro','heriberto','instituciones','lucrecia','política','primer','promoción','resulta','total','vería','actual','araceli','bayonzo','bruchmann','díaz','efectos','elda','musa','objetivos','países','presidencia','richter','siguientes','vargas','basile','copia','cuestiones','martín','mayo','mayor','nacio','objeto','pinedo','vocal','victoria','Victoria','gabriela','decreto')
bad_words_24<-c('monzó','decretos','jefe','estero','realizarse','modificación','modificaciones','realizarse','lucila','sustitúyese','marcelo','soledad','buques','decretos','huss','ivana','presar','jefe','deberían','schmidt','analía','liermann','incorporación','sujetos','tablas','recalde','previsional','aplausos','domínguez','estévez','tercios','donda','saltum','olmedo','apellido','chubut','contratante','adst','bgfsvae','xsds','frana','barrios','enre','mabel','dsd','resolu','facundo','nilda','pami','incisos','lagoria','emitidos','cornelia','adicciones','soraire','britez','wechsler','catamarca','reservas','moyano','carla', 'requirente','riccardo','consumos','llanos','llanos','comprendidos','rubín','troiano','refiere','ponti',          'precursores','expre','lución','elaborados','rubén','horne','reproduce','fines','cleri',             
                'grosso','silvina','carol','paula','cívico','valle','giménez','nulidad','digesto','molina','gaillard','nazario','volnovich','pabellón','padres','basterra'  ,'boleta','riesgo','masso','raverta','galerías','eleva'             ,'ciampini','composición','gislación','matías','armadores','abstencion','asegurar','lucha','borsani','bosques','carolina','clara','solanas','tierra'    ,'problemáticos','tículo','igon','santillán','populares','cienda'               ,'mayra','dictámenes','scaglia' ,'balestrini','masín','soria','gallardo','roma','josefina'   ,'cousinet','incicco'   ,'luana','verónica','jueza','gastón','analuz','binner','américo','celeste','pedrini','duré','grana'             ,'putado','cofirmante','ailén','fuego','barletta','ezequiel','roja','inspección','seño','armador','ariel'               ,'rechazo','precedente','caselles','waldo','formosa','bull' ,'ocurrido','pampa','argentinos','cabral'               ,'provincial','viviana','bancas','excepto','gasoil','alícuota','fernanda'   ,'hers' ,'apartamiento'             ,'federativa'   ,'rossi','concordia','misionero','exploración','juramento','other')
remove_reg <- "&amp;|&lt;|&gt;"
bad_words25<-c('aprobadas','adicional','asiento','turmequé','tejo','básica','igualdad','cobertura','recreación','jaén','fomentar','indígena','válida','rige','pasajes','motiva','miles','llegaren','mérito','instrucciones','faculta','expedición','erario','cúmplase','erario','cordialmente','constituyen','congresional','autoriza','alojamiento','adaptación','subsecretaria','escenarios','congresistas','betancur','humor','coutinho','zacarías','magistral','capuchino','silvano','gamboa','sanjuana','grante','procederá','bosque','ensayos','centenario','jurado','límite','premio','c','fideicomiso','diploma','autó','berta','colonización','faltó','goñi','mujica','olivera','pronunciamiento','rales','receso','repartido','trasposiciones','alvaro','funcionan','históricamente','connor','diante','ética','garré','geijo','magistrados','moliné','vestigación','abogados','abuelas','sensibilización','procederá','asume','suplentes','pertenecen','contener','adeudados','autó','pico','puestas','titulares','particularmente','comités','plaza','interesados','fabio','futuro','franco','interamericano','resoluciones','latina','educativos','perú','ejecutor','prestatario','fomin','efectuará','surge','cláusula','aclaraciones','diplomado','parti','cortés','comu','deroga','invitaciones','latina','nueve','valles','diecisiete','ochenta','http','suficientemente','técnicas','doscientos','utilizados','efectuará','cuba','comentarios','comunica','clemente','diputa','institucio','neral','públi','parlamenta','viembre','correo','ciativa','hilda','juárez','latinoamericano','dicta','trescientos','dispensa','piso','ciación','palacios','ocampo','diplomado','cionario','cosío','gaona','mexi','resolutivo','resolutivos','revo','revolu','santana','noemí','verificativo','camacho','velázquez','comparecencia','alfaro','carranco','nahle','karla','teléfono','sidente','villanueva','elegidos','rela','rural','letra','participantes','contribuyan','tráfico','moción','presiden','administra','blea','bles','colonia','eléctricas','faltaron','inasistencias','lacalle','páginas','sebastián','sebastián','tourné','trasmisiones','varela','xavier','daniela','conoci','gabriel','jobe','olivero','taría','renova','valdez','porras','aureoles','érick','marte','moderador','seudónimo','barindelli','estampillas')
bad_words26<-c('afip','estrada','justificaciones','auditados','subejecución','subprograma','subprograma','auditores','recibo','rotatorio','cemr','irregular','riachuelo','sanz','diálogo','ideas','pala','papel','provenientes','dientes','complementaria','licitación','mantiene','montos','ofertas','cláusulas','importe','respaldo','externo','profesión','honorarios','sustentar','adecuadamente','compatibles','posteriores','sancionado','superiores','certificados','actuaciones','apertura','correspon','diente','resuelven','tendientes','aceptación','cieros','contrapartida','efectuadas','efectuados','emitidas','examinado','finan','importes','intosai','memorando','razonablemente','recomendadas','rendiciones','verificó','efectuó','estadounidenses','expone','exponen','facturas','juntamente','surgen','usuales','revisora','bancalari','bancalari','matanza','','tasas','inic','jose','maestros','generan','objeción','pase','asistencial','afiliados','estipulaciones','avenida','acordados','registran','quiñonez','proriss','dubón','segeplan','uepps','asesores','respalda','adjunta','consultor','variable','obtenido','pérdidas','folios','inde','utilizando','confiere','materno','ampliación','favorables','iguales','suscriba','indicar','razonable','negociaciones','ciclo','compensación','permitirá','entorno','finalidad','peruana','impresión','establezca','peruano','complejos','especializadas','exista','licitaciones','modificatorias','supuestos','soles','analice','envía','normativo','pliegos','rigen','requeridos','prudencia','tdirectiva','contribución','artes','sucesivo','cuota','sucesivo','firmar','haití','minustah','constitutivo','fipe','prestamista','estampilla','acuer','greso','mara','econó','permito','asistió','atenta','mentos','políti','entorno','finalidad','aplicables','entrará','establecen','sanciones','realicen','accesibilidad','éstos','incluir','ibarra','tación','corres','desarro','glamento','rrespondiente','presupues','recur','artícu','trimestre','remitido','remitió','guiente','estadounidense','grantes','subsecretario','electos','demo','distinguida','hurtado','fracciones','solís','audiencias','subsecretaría','cuenca','expresado','factura','formuladas','mixta')
bad_words27<-c('lima','integran','integran','producir','cadena','peruanos','sostenido','activa','aval','cirnma','décadas','concytec','expansión','seleccionados','esan','realice','profunda','econo','producti','ductividad','escudo','mypyme','lujo','pensado','preocupante','huila','flxgdg','alcanzar','contexto','reiterar','depende','someter','querido','competir','referirme','desafortunadamente','dudas','esperando','hacerle','permitir','quieren','repre','vive','vivir','cabeza','esperar','jaramillo','llama','muchísimo','pacheco','vocero','citante','entregó','hacía','hice','lemus','subsidio','opción','exceso','jamás','comentario','llegue','sabana','tantas','conozco','cuesta','sucediendo','sucediendo','alusión','concreta','volver','palomino','papa','distrital','llegado','absoluta','diga','eventualmente','mirar','pasando','someter','dije','lamento','llegó','viendo','agro','opciones','reconocer','reconocer','cerca','claridad','prácticamente','solucionar','concesión','llegó','dije','aparece','amigos','viven','vale','santander','sacar','quería','necesitamos','navas','mercedes','medellín','liberal','insisto','felicitar','dicen','diazgranados','decirle','nuevamente','ojalá','pasada','pronto','siglo','sola','tantos','tarde','venir','acompañar','bastante','buses','decirle','próxima','cimiento','españa','solicitamos','venezuela','acompa','nues','actualidad','constituye','abuso','amenaza','genital','integridad','maltrato','ocasiones','prohibición','ocasiones','ordenado','promulgada','saben','unico','gubernamentales','partida','millón','acompañados','espíritu','planilla','cantero','aceptado','predio','acusatorio','acompañen','argen','carrió','creído','osvaldo','argenti','argentinas','expo','siderado','canteros','toneladas','canteros','arceo','arnold','bernardi','bösch','cecco','feria','gional','plottier','subterránea','ilarregui','morini','vaca','aviones','dovena','gendarmerí','ángeles','parlatino','alcalá','grulac','ucrania','apoyando','conjuntamente','denunciar','visitas','comerciales','conducta','declaraciones','invita','podrían','demuestran','desafíos','amenazas','posibilidades','pudiendo','supremo','llevan','simposio','agregar','bruto','inglés','orga','equi','migratorios','caserio','auditiva','bariloche','caballos','azúcar','conferencias','cuentos','garrido','inta','reflexión','sordera','surubí','torneo','zimmermann','iglesias','infórmese','parlacen','debates','decirles','escenario','estilo','gustaría','haga','hagamos','nuevamente')
bad_words_def<-c(bad_words,bad_words_2,bad_words_3,bad_words_4,bad_words_5,bad_words_6,bad_words_7,bad_words_8,bad_words_9,bad_words_10,bad_words_11,bad_words_12,bad_words_13,bad_words_14,bad_words_15,bad_words_16,bad_words_17,bad_words_18,bad_words_19,bad_words_20,bad_words_21,bad_words_22,bad_words_23,bad_words_24,bad_words_def2,remove_reg,filtro_final,bad_words25,bad_words26,bad_words27)

A continuación se presenta un calibrador bayesiano del peso de las palabras.

base_bind_tf_idf<-Base_BID_sentences%>%
  unnest_tokens(word,BID)%>%
  mutate(word=removeNumbers(word))%>%
  mutate(word=removePunctuation(word))%>%
  filter(!word %in% bad_words_def)%>%
  filter(word!='')%>%
  count(Comunicado,word,sort = TRUE)%>%
  bind_tf_idf(word,Comunicado,n)

base_bind_tf_idf%>%
  head()
##   Comunicado        word   n         tf        idf       tf_idf
## 1   20030414   educación 672 0.01693719 0.04167270 0.0007058184
## 2   20161014        agua 625 0.04207621 0.22825865 0.0096042586
## 3   20041008  desarrollo 532 0.03245486 0.00000000 0.0000000000
## 4   20180803   educación 368 0.03507769 0.04167270 0.0014617817
## 5   20030826 presupuesto 348 0.06636156 0.02061929 0.0013683280
## 6   20030424  desarrollo 344 0.01089849 0.00000000 0.0000000000

Ahora se crea un clasificador por documento

Base_limpia<-Base_BID%>%
  distinct(Texto, .keep_all = TRUE)

base_tokens<-Base_limpia%>%
  unnest_tokens(token = 'sentences',output = 'sentences',input = Texto)

base_tokens$BID<-grepl('banco interamericano de desarrollo',base_tokens$sentences)
base_tokens$BID<-as.character(base_tokens$BID)

sentences_BID<-base_tokens%>%
  filter(BID=='TRUE')%>%
  distinct(sentences,.keep_all = TRUE)%>%
  mutate(sentences=str_replace_all(sentences, "[^[:alnum:]]", " "))

sentences_tokens<-sentences_BID%>%
  unnest_tokens(output = 'word',token = 'words',input = sentences)%>%
  filter(!word %in% bad_words_def)%>%
  mutate(word = removeNumbers(word))%>%
  mutate(word = removePunctuation(word))%>%
  mutate(word=gsub('\\b[[:alpha:]]{1,3}\\b','',word))%>%
  mutate(word=str_replace_all(word, "[^[:alnum:]]", " "))%>%
  filter(word!='')

sentences_tokens<-sentences_tokens%>%
  filter(!word %in% bad_words_def)%>%
  filter(!str_detect(word,'\u0d7a'))%>%
  filter(!str_detect(word,'\u05'))%>%
  filter(!str_detect(word,'\u03'))%>%
  filter(!str_detect(word,'\u0d7'))%>%
  filter(!str_detect(word,'ௗ'))%>%
  filter(!str_detect(word,'ঞ'))%>%
  filter(!str_detect(word,'ඈඇ'))%>%
  filter(!str_detect(word,'උ\u0d7eඌඈ'))%>%
  filter(!str_detect(word,'ϯϭϭϲ\u0373ϯϭϭϳ'))%>%
  filter(!str_detect(word,'ϯϭϭϳ'))%>%
  filter(!str_detect(word,'fd'))%>%
  filter(!str_detect(word,'whu'))%>%
  filter(!str_detect(word,'rqv'))%>%
  filter(!str_detect(word,'wr'))%>%
  filter(!str_detect(word,'fx'))%>%
  filter(!str_detect(word,'lps'))%>%
  filter(!str_detect(word,'lfh'))%>%
  filter(!str_detect(word,'upg'))%>%
  filter(!str_detect(word,'frq'))%>%
  filter(!str_detect(word,'pxq'))%>%
  filter(!str_detect(word,'sdu'))%>%
  filter(!str_detect(word,'vhu'))%>%
  filter(!str_detect(word,'mx'))%>%
  filter(!str_detect(word,'hs'))%>%
  filter(!str_detect(word,'dff'))%>%
  filter(!str_detect(word,'frq'))%>%
  filter(!str_detect(word,'rw'))%>%
  filter(!str_detect(word,'exv'))%>%
  filter(!str_detect(word,'kd'))%>%
  filter(!str_detect(word,'exv'))%>%
  filter(!str_detect(word,'ploo'))%>%
  filter(!str_detect(word,'suh'))%>%
  filter(!str_detect(word,'yd'))%>%
  filter(!str_detect(word,'edv'))%>%
  filter(!str_detect(word,'dp'))%>%
  filter(!str_detect(word,'gx'))%>%
  filter(!str_detect(word,'elh'))%>%
  filter(!str_detect(word,'gh'))%>%
  filter(!str_detect(word,'ixh'))%>%
  filter(!str_detect(word,'rf'))%>%
  filter(!str_detect(word,'sh'))%>%
  filter(!str_detect(word,'භ'))%>%
  filter(!str_detect(word,'hx'))%>%
  filter(!str_detect(word,'ijl'))%>%
  filter(!str_detect(word,'lh'))%>%
  filter(!str_detect(word,'hv'))%>%
  filter(!str_detect(word,'ql'))%>%
  filter(!str_detect(word,'jd'))%>%
  filter(!str_detect(word,'dx'))%>%
  filter(!str_detect(word,'sx'))%>%
  filter(!str_detect(word,'rs'))%>%
  filter(!str_detect(word,'rp'))%>%
  filter(!str_detect(word,'sr'))%>%
  filter(!str_detect(word,'huu'))%>%
  filter(!str_detect(word,'qru'))%>%
  filter(!str_detect(word,'dux'))%>%
  filter(!str_detect(word,'fw'))%>%
  filter(!str_detect(word,'uh'))%>%
  filter(!str_detect(word,'xu'))%>%
  filter(!str_detect(word,'vh'))%>%
  filter(!str_detect(word,'gh'))%>%
  filter(!str_detect(word,'hq'))%>%
  filter(!str_detect(word,'sh'))%>%
  filter(!str_detect(word,'vl'))%>%
  filter(!str_detect(word,'xv'))%>%
  filter(!str_detect(word,'rv'))%>%
  filter(!str_detect(word,'xh'))%>%
  filter(!str_detect(word,'hv'))%>%
  filter(!str_detect(word,'lq'))%>%
  filter(!str_detect(word,'gh'))%>%
  filter(!str_detect(word,'hx'))%>%
  filter(!str_detect(word,'jp'))%>%
  filter(!str_detect(word,'iu'))%>%
  filter(!str_detect(word,'rq'))%>%
  filter(!str_detect(word,'dw'))%>%
  filter(!str_detect(word,'gh'))%>%
  filter(!str_detect(word,'qg'))%>%
  filter(!str_detect(word,'yl'))%>%
  filter(!str_detect(word,'lqj'))%>%
  filter(!str_detect(word,'iq'))%>%
  filter(!str_detect(word,'rq'))%>%
  filter(!str_detect(word,'df'))%>%
  filter(!str_detect(word,'wt'))%>%
  filter(!str_detect(word,'wh'))%>%
  filter(!str_detect(word,'qq'))%>%
  filter(!str_detect(word,'hf'))%>%
  filter(!str_detect(word,'lj'))%>%
  filter(!str_detect(word,'lq'))%>%
  filter(!str_detect(word,'xh'))%>%
  filter(!str_detect(word,'qf'))%>%
  filter(!str_detect(word,'dq'))%>%
  filter(!str_detect(word,'pq'))%>%
  filter(!str_detect(word,'px'))%>%
  filter(!str_detect(word,'lyl'))%>%
  filter(!str_detect(word,'lhq'))%>%
  filter(!str_detect(word,'gh'))%>%
  filter(!str_detect(word,'dw'))%>%
  filter(!str_detect(word,'wl'))%>%
  filter(!str_detect(word,'gh'))%>%
  filter(!str_detect(word,'dq'))%>%
  filter(!str_detect(word,'lqq'))%>%
  filter(!str_detect(word,'df'))%>%
  filter(!str_detect(word,'fn'))%>%
  filter(!str_detect(word,'vh'))%>%
  filter(!str_detect(word,'ipp'))%>%
  filter(!str_detect(word,'qw'))%>%
  filter(!str_detect(word,'ipp'))%>%
  filter(!str_detect(word,'vh'))%>%
  filter(!str_detect(word,'phg'))%>%
  filter(!str_detect(word,'vr'))%>%
  filter(!str_detect(word,'yh'))%>%
  filter(!str_detect(word,'dq'))%>%
  filter(!str_detect(word,'hv'))%>%
  filter(!str_detect(word,'uh'))%>%
  filter(!str_detect(word,'hwd'))%>%
  filter(!str_detect(word,'ph'))%>%
  filter(!str_detect(word,'ph'))%>%
  filter(!str_detect(word,'ph'))%>%
  filter(word!='')
sentences_matrix<-sentences_tokens%>%
  count(Comunicado,word)%>%
  filter(!word %in% bad_words_def)%>%
  mutate(word = removeNumbers(word))%>%
  mutate(word = removePunctuation(word))%>%
  mutate(word=gsub('\\b[[:alpha:]]{1,3}\\b','',word))%>%
  mutate(word=str_replace_all(word, "[^[:alnum:]]", " "))%>%
  filter(word!='')%>%
  cast_dtm(document = Comunicado,term = word,
           value = n,weighting = tm::weightTf)

sample_size<-floor(.80*nrow(sentences_matrix))
train_id<-sample(nrow(sentences_matrix),size = sample_size)
train<-sentences_matrix[train_id,]
test<-sentences_matrix[-train_id,]

doc_farm_LDA<-LDA(train,k = 10,method = 'Gibbs',control = list(seed=111))
sentences_betas<-tidy(doc_farm_LDA,matrix='beta')%>%
  filter(!term %in% bad_words_def)

Acá se generan los topics por documentos y por temas

sentences_betas%>%
  filter(!term %in% c('aban','abra','interamericano','revolucionario','latina','internacional','aclaraciones'))%>%
  filter(!term %in% filtro_final)%>%
  group_by(topic)%>%
  top_n(10,beta)%>%
  arrange(topic,-beta)%>%
  mutate(term=reorder_within(term,beta,topic))%>%
  ggplot(aes(beta,term, fill=factor(topic)))+
  geom_col(show.legend = FALSE)+
  facet_wrap(~topic,scales = 'free_y')+
  scale_y_reordered()

library(tidytext)
library(tidylo)
topics<-sentences_betas%>%
  filter(!term %in% c('aban','abra','interamericano','revolucionario','latina','internacional','aclaraciones'))%>%
  filter(!term %in% filtro_final)%>%
  group_by(topic)%>%
  top_n(1,beta)%>%
  arrange(topic,-beta)

sentences_gamma<-tidy(doc_farm_LDA,matrix='gamma')

sentences_gamma<-sentences_gamma%>%
  mutate(topic = case_when(
    str_detect(topic,'1')~topics$term[1],
    str_detect(topic,'2')~topics$term[2],
    str_detect(topic,'3')~topics$term[3],
    str_detect(topic,'4')~topics$term[4],
    str_detect(topic,'5')~topics$term[5],
    str_detect(topic,'6')~topics$term[6],
    str_detect(topic,'7')~topics$term[7],
    str_detect(topic,'8')~topics$term[8],
    str_detect(topic,'9')~topics$term[9],
    str_detect(topic,'10')~topics$term[10],
  ))

topics_generales<-sentences_gamma%>%
  group_by(document)%>%
  mutate(topic=str_to_title(topic))%>%
  top_n(1,gamma)%>%
  select(-gamma)

topics_generales%>%
  head(10)
## # A tibble: 10 x 2
## # Groups:   document [10]
##    document topic    
##    <chr>    <chr>    
##  1 20030424 Seguridad
##  2 20030422 Seguridad
##  3 20030414 Seguridad
##  4 20131121 Finanzas 
##  5 20131122 Finanzas 
##  6 20131119 Finanzas 
##  7 20131125 Finanzas 
##  8 20131114 Finanzas 
##  9 20150306 Finanzas 
## 10 20131115 Finanzas

Con lo anterior, se generan los topics por documento.

Ahora se describen los topics por documento

topics_generales%>%
  group_by(topic)%>%
  count(sort = TRUE)%>%
  mutate(topic=fct_reorder(topic,n))%>%
  ggplot(aes(reorder(topic,n),n,fill=topic))+
  geom_col()+
  coord_flip()+
  labs(title = 'Relación de temas por Documentos en México',
       x='Topic',
       y=' ')

Ahora se genera el constructor de ideas.

sentences_group<-sentences_tokens%>%
  filter(Comunicado=='20010322')%>%
  filter(!word %in% bad_words_def)%>%
  add_count(word,name='total_words')%>%
  filter(total_words>=6)

sentences_group%>%
  head()
##   Comunicado   país  BID          word total_words
## 1   20010322 México TRUE fiscalización           6
## 2   20010322 México TRUE       síndico           7
## 3   20010322 México TRUE  ayuntamiento          14
## 4   20010322 México TRUE  ayuntamiento          14
## 5   20010322 México TRUE       síndico           7
## 6   20010322 México TRUE  ayuntamiento          14
word_count<-sentences_group%>%
  filter(Comunicado=='20010322')%>%
  count(word,sort=TRUE)
sentences_group%>%
  pairwise_cor(word,total_words,sort=TRUE, upper=TRUE)%>%
  filter(!is.infinite(correlation))%>%
  as_tbl_graph()%>%
  inner_join(word_count,by=c("name"="word"))%>%
  ggraph("fr")+
  geom_edge_link(aes(edge_alpha=correlation))+
  geom_node_point(aes(size=n))+
  geom_node_text(aes(label=name),check_overlap = TRUE,
                 vjust=1,hjust=1,size=3)
## Warning: `tbl_df()` is deprecated as of dplyr 1.0.0.
## Please use `tibble::as_tibble()` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_warnings()` to see where this warning was generated.

Con este gráfico se puede ver donde estan las ideas principales y como se construye relaciones débiles en el texto.

Ahora se trabaja con el PCA del documento

docs_svd<-sentences_tokens%>%
  #filter(Comunicado=='20010322')%>%
  filter(!word %in% bad_words_def)%>%
  filter(!str_detect(word,"[0-9]"),
                   !str_detect(word,"[^[:alnum:]]"),
                   !str_detect(word,'\\b[[:alpha:]]{1,4}\\b'))%>%
  distinct(word,Comunicado)%>%
  mutate(value = 1) %>%
  widely_svd(word, Comunicado, value)%>%
  ungroup()
docs_svd%>%
  inner_join(sentences_tokens%>%
               filter(Comunicado=='20010322'), by='word')%>%
  filter(!word %in% bad_words_def,
         !word %in% c("consti",'banco','desarrollo'))%>%
  distinct(word,.keep_all = TRUE)%>%
  mutate(dimension = paste0("PC", dimension)) %>%
  group_by(dimension) %>%
  top_n(16, abs(value)) %>%
  mutate(word = fct_reorder(word, value)) %>%
  ggplot(aes(value, word, fill = value > 0)) +
  geom_col(show.legend = FALSE) +
  scale_y_reordered() +
  facet_wrap(~ dimension, scales = "free_y")+
  labs(x='Valor del PCA',
       y='Palabra',
       title = 'Resumen del contendio del documento')

Evaluación Bayesiana del contenido del texto para diseño del resumen

word_sentences<-sentences_tokens%>%
  count(Comunicado,word)%>%
  filter(!word %in% bad_words_def)%>%
  filter(!word %in% c('banco','interamericano','desarrollo'))%>%
  mutate(word = removeNumbers(word))%>%
  mutate(word = removePunctuation(word))%>%
  mutate(word=gsub('\\b[[:alpha:]]{1,3}\\b','',word))%>%
  mutate(word=str_replace_all(word, "[^[:alnum:]]", " "))%>%
  filter(word!='')%>%
  filter(n>=2)


sentences_log_odds <- word_sentences %>%
  bind_log_odds(Comunicado, word, n) %>%
  arrange(-log_odds_weighted)%>%
  filter(!is.infinite(log_odds_weighted))

sentences_log_odds%>%
  filter(Comunicado=='20010322',
         n>=4)%>%
  ggplot(aes(n, log_odds_weighted, label = word)) +
  geom_hline(yintercept = 8, color = "gray50", lty = 2, size = 1.5) +
  geom_point(alpha = 0.8, color = "midnightblue") +
  geom_text_repel() +
  scale_x_log10()

Con esta evaluación se puede definir de manera concreta de que trata el texto

NER

Ahora se trabaja con el reconocimiento de instituciones que aparecen en el comunicado y la frecuencia

Para el NER se ejecuto una red neuronal, la cual se encuentra en code_productions, acá solo se presentará, el output

Base_limpia%>%
            filter(Comunicado=='20010322')%>%
            group_by(Comunicado)%>%
            summarize(BID=str_count(Texto,'Banco Interamericado de Desarrollo|banco interamericano de desarrollo'),
                      ONU=str_count(Texto,'Organización de Naciones Unidas|organización de naciones unidas|naciones unidas'),
                      FMI=str_count(Texto,'Fondo Monetario Internacional|fondo monetario internacional'),
                      Unicef=str_count(Texto,'Unicef|unicef'),
                      CEPAL=str_count(Texto,'Cepal|cepal'),
                      Unasur=str_count(Texto,'Unasur|unasur|Unión de Naciones Suramericanas|unión de naciones suramericanas'),
                      OISS=str_count(Texto,'Organización Iberoamericana de Seguridad Social|organización iberoamericana de seguridad social'),
                      OIM=str_count(Texto,'Organización Internacional para las Migraciones|organización internacional para las migraciones'),
                      OLADE=str_count(Texto,'Organización Latinoamericana de Energía|organización latinoamericana de energía'),
                      Parlatino=str_count(Texto,'Parlamento Latinoamericano|parlamento latinoamerinaco'),
                      ALADI=str_count(Texto,'ALADI|Aladi|Asociación Latinoamericana de Integración'),
                      CELAC=str_count(Texto,'CELAC|Celac|celac|Comunidad de Estados Latinoamericanos y el Caribe|comunidad de estados latinoamericanos y el caribe'),
                      AP=str_count(Texto,'Alianza Pacífico|alianza pacífico'),
                      SAI=str_count(Texto,'Sistema Andino de Intergración|sistema andino de integración'),
                      ALBA=str_count(Texto,'ALBA|Alba|Alianza Bolivariana para los Pueblos de Nuestra América'),
                      CDB=str_count(Texto,'CDB|Banco de Desarrollo del Caribe|banco de desarrollo del caribe'),
                      OEA=str_count(Texto,'OEA|Organización de Estados Americanos|organización de estados americanos'),
                      TIAR=str_count(Texto,'Tratado Interamericano de Desarrollo|tratado interamericano de desarrollo'),
                      GL=str_count(Texto,'Grupo de Lima|grupo de lima'),
                      CAB=str_count(Texto,'Convenio Andrés Bello|convenio andrés bello'),
                      INTERPOL=str_count(Texto,'Organización Internacional de Policía Criminal|organización internacional de policia criminal'),
                      BM=str_count(Texto,'Banco Mundial|banco mundial'),
                      ICC=str_count(Texto,'Corte Penal Internacional|corte penal internaiconal'),
                      OMA=str_count(Texto,'Organización Mundial de Aduanas|organización mundial de aduanas'),
                      APEC=str_count(Texto,'Foro de Cooperación Económico Asía-Pacífico|foro de cooperación económico asía.pacífico'))%>%
            pivot_longer(!Comunicado,names_to='Organismos',values_to='n')%>%
            filter(n>=1)%>%
            mutate(Organismos=fct_reorder(Organismos,n))%>%
            ggplot(aes(Organismos,n,color=Organismos))+
            geom_errorbar(aes(ymin=0,ymax=n),width=0,show.legend = FALSE)+
            geom_point(aes(size=n),show.legend = FALSE)+
            labs(x='Organismos',
                 y='Total de apariciones',
                 title = 'Relación del Comunicado',
                 subtitle = 'Con respecto a menciones de organismos internacionales')+
            coord_flip()
## `summarise()` ungrouping output (override with `.groups` argument)

Frases con Regex de BID y patron

Esta fase se desarrollo con NER, para reconocer patrones, y con base a ello se desarrollo la siguiente heurística

library(parallel)
library(doParallel)
## Loading required package: foreach
## 
## Attaching package: 'foreach'
## The following objects are masked from 'package:purrr':
## 
##     accumulate, when
## Loading required package: iterators
usecores <- detectCores() -1
cl <- makeCluster(usecores)
registerDoParallel(cl)
doParallel::registerDoParallel()
Base_limpia%>%
            filter(Comunicado=='20010322')%>%
  mutate(Texto=tolower(Texto))%>%
  unnest_tokens(output = 'sentences',
                              token = 'regex',
                              pattern = "\\.",
                              input = Texto,
                              format = 'text')%>%
  filter(str_detect(sentences,'banco interamericano de desarrollo'))%>%
                mutate(patron=(str_extract_all(sentences,'(?i)\\b\\w*estudio|estudios|investigación|tesis|análisis|aprendizaje|prestamo|finanzas|financiero|crédito|financiación|anticipo|deuda|refinanciación|refinanciamiento|reporte|noticia|informe|documento|informe|gestión|iniciativa|social|desarrollo económico|desembolso|desembolsos|prestamos|gasto|dispendio|coste|investigación|prestamo|financiero|financiación|crédito|comercio|salarios|deuda|endeudamiento|endeudamientos|crediticio|seguridad|transporte|salud|desarrollo|transportes|vías|cultura|deporte|hacienda|fiscalización|laborales|protección|laboral|juventud|niño|niños|niña|niñas|mujeres|mujer|pensiones|pensión|internacional|internacionales|mercado|financiera|monateria|divisas|presupuesto|global|crecimiento|egresos|ciencia|violencia|climático|educación|integración|crisis|global|pobreza|infraestructura|sustentable|salud|energía|energías|investigador|competitividad|crédito|desembolso|desemb|financiamiento|prestamos|daños|desastres|asistencia técnica|cooperación técnica|innovación|investigación|desembolsos|sufragar|invertir|respaldar|apoyar|subvencionar|pagar|pagos|pago|iniciativa|medio ambiente|ecología|sistemas|acueducto|ganado|vacas|vacuno|salmon|novillos|policía|política\\w*\\b')))%>%
                unnest(patron)%>%
  distinct(sentences,.keep_all = TRUE)%>%
  filter(str_count(sentences,paste0(patron,'|banco interamericano de desarrollo'))==2)%>%
                distinct(sentences,.keep_all = TRUE)%>%
                filter(str_detect(sentences,'banco interamericano de desarrollo'))%>%
  mutate(sentences=str_remove_all(string = sentences,pattern ='•'))%>%
  mutate(sentences = str_replace_all(sentences, "\\s?(f|ht)(tp)(s?)(://)([^\\.]*)[\\.|/](\\S*)", ""),
         sentences = str_replace_all(sentences, "\n|\r", ""),
         sentences=gsub('apf"obó','aprobó',sentences),
         sentences = str_replace_all(sentences, "\\ten", ""),
         sentences = str_replace_all(sentences, "[^[:alnum:]]", " "),
         sentences = str_replace_all(sentences,"r flr gh ihfkd vhswlhpeuh    gh       vrolflwd sru  |gh od 0hvd  luhfwlyd  vh oh frq hud frplvlyq r fldo|uwtfxor      rqihulu  rplvlyq 2 fldo do krqr  |lr gh ihfkd vhswlhpeuh    gh        xwrul dflyq gh lqdvlvwhqfld mxvwl fdgd d odv vhvlrqhv",""),
         sentences = str_replace_all(sentences," t t t|t t t t| t t   t t t t t t17 800 000 00 t t t t      t t t t t t t                      ",""))
## # A tibble: 1 x 4
##   Comunicado país   sentences                                      patron       
##   <chr>      <chr>  <chr>                                          <chr>        
## 1 20010322   México " raúl armando quintero martínez  rúbrica  pr… desarrollo e…