Text Mining
Teoría
La minería de texto es el proceso de extraer
información util, patrones o conocimientos de texto no
estructurados.
Consta de 3 etapas: 1. Obtener datos: El reconocimiento óptico de
caracteres (OCR) es una tecnología que permite convertir imágenes de
texto en texto editable. También es conocido como extracción de
texto de imágenes. 2. Explorar datos: Representación gráfica o
visual de los datos para su interpretación. Los metodos más comunes son
el Analisis de Sentimientos, la Nube de Palabras y el Topic Modeling. 3.
Análisis predictivo: Son las tecnicas y modelos estadísticos para
predecir resultados futuros. Los modelos más usados son Random Forest,
Redes Neuronales y Regressiones.
Instalar paquetes y llamar Librerías
library(tidyverse)
library(tesseract)
library(magick)
library(officer)
library(pdftools)
library(purrr)
library(tm)
library(wordcloud)
library(RColorBrewer)
library(topicmodels)
library(ggplot2)
De PDF a Texto en Word
# pdf1 <- pdf_convert("/Users/daviddrums180/Tec/pdf1.pdf", dpi = 600) %>%
# map(ocr)
Actividad 1. Novela “IT”
pdf_path <- "/Users/daviddrums180/Tec/eso3.pdf"
it <- pdf_convert(pdf_path, dpi = 600)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!
# Configuración del engine de Tesseract para OCR
engine <- tesseract("spa") # Ajusta al idioma de tu documento, "spa" para español por ejemplo
# Convertir el PDF a imágenes y aplicar OCR en cada una
pdf_path <- "/Users/daviddrums180/Tec/eso3.pdf"
imagenes <- pdf_convert(pdf_path, dpi = 600)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!
# Crear un nuevo documento de Word
doc <- read_docx()
# Aplicar OCR a cada imagen y añadir el texto al documento de Word
for(imagen_path in imagenes) {
texto <- ocr(image_read(imagen_path), engine = engine)
doc <- doc %>%
body_add_par(texto, style = "Normal") %>%
body_add_par("", style = "Normal") # Añade un párrafo en blanco para separar las páginas
}
# Guardar el documento de Word
# print(doc, target = "/Users/daviddrums180/Tec/it.docx")
Leer e inspeccionar en línea
text <- readLines("http://www.sthda.com/sthda/RDoc/example-files/martin-luther-king-i-have-a-dream-speech.txt")
corpus <- Corpus(VectorSource(text)) # Pone cada renglón en una celda de vector
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords("en"))
# inspect(corpus)
# corpus <- tm_map(corpus, removeWords, c("dream","will"))
tdm <- TermDocumentMatrix(corpus)
m <- as.matrix(tdm)
frecuencia <- sort(rowSums(m), decreasing = TRUE)
frecuencia_df <- data.frame(word=names(frecuencia), freq = frecuencia)
ggplot(head(frecuencia_df, 10), aes(x = reorder(word, -freq), y = freq, fill = freq)) +
geom_col() + # Dibuja las barras permitiendo gradiente de color
geom_text(aes(label = freq), vjust = -0.3) + # Añade números encima de las barras
scale_fill_gradient(low = "lightblue", high = "blue", limits = c(0, 20)) + # Gradiente de azul con escala de 0 a 20
labs(title = "TOP 10 Palabras Más Frecuentes",
subtitle = "Discurso Martin Luther King",
x = "Palabra",
y = "Frecuencia") +
theme_minimal()

# El procesamiento de datos antes de la nube de palabras es igual que en el analisis de frecuencias, desde importar el texto hasta la frecuencia en el df
set.seed(123)
wordcloud(words = frecuencia_df$word,
freq = frecuencia_df$freq,
min.freq = 2,
random.order = FALSE,
rot.per = 0.35, # Permite una rotación del 35% de las palabras
colors = brewer.pal(8, "Dark2"), # Usa una paleta de colores 'Dark2' con 8 colores
scale = c(4,0.5), # Ajusta el tamaño de las palabras más y menos frecuentes
max.words = 100) # Limita el número de palabras a 100

Actividad 2
# Cargar las librerías necesarias
library(tm)
library(wordcloud)
library(RColorBrewer)
library(officer)
# Leer el documento .docx
doc <- read_docx("/Users/daviddrums180/Tec/it.docx")
# Extraer el texto del documento
texto <- docx_summary(doc)
texto_completo <- paste(texto$text, collapse=" ")
# Crear un corpus del texto
corpus <- Corpus(VectorSource(texto_completo))
# Preprocesar el texto
corpus <- tm_map(corpus, content_transformer(tolower)) # Convertir a minúsculas
corpus <- tm_map(corpus, removePunctuation) # Quitar puntuación
corpus <- tm_map(corpus, removeNumbers) # Quitar números
corpus <- tm_map(corpus, removeWords, stopwords("spanish")) # Quitar stopwords en español
corpus <- tm_map(corpus, stripWhitespace) # Quitar espacios en blanco adicionales
# Crear una tabla de frecuencias de las palabras
dtm <- TermDocumentMatrix(corpus)
matriz <- as.matrix(dtm)
frecuencia <- sort(rowSums(matriz), decreasing=TRUE)
frecuencia_df <- data.frame(word = names(frecuencia), freq = frecuencia)
ggplot(head(frecuencia_df, 10), aes(x = reorder(word, -freq), y = freq, fill = freq)) +
geom_col() + # Dibuja las barras permitiendo gradiente de color
geom_text(aes(label = freq), vjust = -0.3) + # Añade números encima de las barras
scale_fill_gradient(low = "lightblue", high = "blue", limits = c(0, 30)) + # Gradiente de azul con escala de 0 a 20
labs(title = "TOP 10 Palabras Más Frecuentes",
subtitle = "IT: 3 Capítulos",
x = "Palabra",
y = "Frecuencia") +
theme_minimal()

# Generar la nube de palabras
set.seed(123)
wordcloud(words = frecuencia_df$word, freq = frecuencia_df$freq, min.freq = 2,
random.order=FALSE, rot.per=0.35, colors=brewer.pal(8, "Dark2"), scale=c(4,0.5))

