Métodos

Análisis descriptivo cuantitativo de texto.

Utilizo método de bolsa de palabras (Bag of Words), donde no tomo en cuenta la complejidad de las combinaciones de las palabras.

Información y preparación de la base de datos

Archivos:

Extraigo textos de ambos archivos.

Limpio texto: elimino símbolos, tildes, ñ, y transformo a minúsculas

Elimino stop words (ej: de, a, para, que, con, …. ).

Elimino palabras con menos 3 carácteres (ej. números romanos: i, ii, ix)

Utilizo palabras originales y el stemming de las palabras para que palabras similares sean unificadas: ej: ecosistemicos,ecosistemico,ecosistemicas -> ecosistemic

Análisis

Frecuencia absoluta de

Además del conteo absoulto utilizo el calculo de TF-IDF. El calculo TF-IDF (frequency–inverse document frequency, traducido como término frecuencia-frecuencia de documento inversa), es una estadística numérica que estima qué tan importante es una palabra para un documento (puntaje basado en la frecuencia de palabras que aparecen en un documento pero no en el otro).

Elimino las siguientes palabras: “parraf”, “publicad”, “reemplazad”, “anteriorment”, “incorporad”, “modificad”, “sustituid”,“ver”,“veas”, “vease”,“incis”,“inc”, “arts”,“xii”, “gonzalez”: que solo afectan al análisis TF-IDF.

Hay descripciones simples de TF-IDF y stemming en wikipedia

Resultados


Conteo de palabras


Word clouds

Frecuencia

TF-IDF