1 Introducción

En esta actividad se realizará un análisis de minería de texto sobre la obra “Don Quijote de la Mancha” de Miguel de Cervantes Saavedra. El propósito es examinar las relaciones entre bigramas y descubrir patrones significativos en el texto.

2 Cargue de librerias

3 Carga de datos

  • Se cargan los PDF con la funcion pdf_text del paquete pdftools y se convierte a texto plano.
  • Se unen los dos textos.
  • Se limpia el texto con las siguientes accioens:
    • Eliminar saltos de línea y retornos de carro.
    • Se borra el pie de pagina.
    • Se detectan espacios multiples y se remplaza por un espacio.
# Stopwords en español

stopwords_es <- stopwords("es")

# Tokenización

df_tokens <- df_texto %>%
unnest_tokens(word, frase) %>%
filter(!word %in% stopwords_es,
str_detect(word, "[a-záéíóúñ]"))