Análisis descriptivo cuantitativo de texto.
Utilizo método de bolsa de palabras (Bag of Words), donde no tomo en cuenta la complejidad de las combinaciones de las palabras.
Información y preparación de la base de datos
Archivos:
Extraigo textos de ambos archivos.
Limpio texto: elimino símbolos, tildes, ñ, y transformo a minúsculas
Elimino stop words (ej: de, a, para, que, con, …. ).
Elimino palabras con menos 3 carácteres (ej. números romanos: i, ii, ix)
Utilizo palabras originales y el stemming de las palabras para que palabras similares sean unificadas: ej: ecosistemicos,ecosistemico,ecosistemicas -> ecosistemic
Análisis
Frecuencia absoluta de
Palabras originales
Stem de palabras
Además del conteo absoulto utilizo el calculo de TF-IDF. El calculo TF-IDF (frequency–inverse document frequency, traducido como término frecuencia-frecuencia de documento inversa), es una estadística numérica que estima qué tan importante es una palabra para un documento (puntaje basado en la frecuencia de palabras que aparecen en un documento pero no en el otro).
Elimino las siguientes palabras: “parraf”, “publicad”, “reemplazad”, “anteriorment”, “incorporad”, “modificad”, “sustituid”,“ver”,“veas”, “vease”,“incis”,“inc”, “arts”,“xii”, “gonzalez”: que solo afectan al análisis TF-IDF.