Métodos

Análisis descriptivo cuantitativo de texto.

Utilizo método de bolsa de palabras (Bag of Words), donde no tomo en cuenta la complejidad de las combinaciones de las palabras.

Información y preparación de la base de datos

Archivos:

constitucion-politica-de-la-republica1980.pdf
Texto-Definitivo-CPR-2022-Tapas.pdf

Extraigo textos de ambos archivos.

Limpio texto: elimino símbolos, tildes, ñ, y transformo a minúsculas

Elimino stop words (ej: de, a, para, que, con, …. ).

Elimino palabras con menos 3 carácteres (ej. números romanos: i, ii, ix)

Utilizo palabras originales y el stemming de las palabras para que palabras similares sean unificadas: ej: ecosistemicos,ecosistemico,ecosistemicas -> ecosistemic

Análisis

Frecuencia absoluta de

Palabras originales
Stem de palabras

Además del conteo absoulto utilizo el calculo de TF-IDF. El calculo TF-IDF (frequency–inverse document frequency, traducido como término frecuencia-frecuencia de documento inversa), es una estadística numérica que estima qué tan importante es una palabra para un documento (puntaje basado en la frecuencia de palabras que aparecen en un documento pero no en el otro).

Elimino las siguientes palabras: “parraf”, “publicad”, “reemplazad”, “anteriorment”, “incorporad”, “modificad”, “sustituid”,“ver”,“veas”, “vease”,“incis”,“inc”, “arts”,“xii”, “gonzalez”: que solo afectan al análisis TF-IDF.

Constitucion de Chile 1980 vs 2022: Análisis cuantitativo de texto

Alvaro Passi-Solar

2022-09-02

Métodos

Resultados

Conteo de palabras

Word clouds

Frecuencia

TF-IDF