Text Mining

Teoría

La minería de texto es el proceso de extraer información util, patrones o conocimientos de texto no estructurados.

Consta de 3 etapas: 1. Obtener datos: El reconocimiento óptico de caracteres (OCR) es una tecnología que permite convertir imágenes de texto en texto editable. También es conocido como extracción de texto de imágenes. 2. Explorar datos: Representación gráfica o visual de los datos para su interpretación. Los metodos más comunes son el Analisis de Sentimientos, la Nube de Palabras y el Topic Modeling. 3. Análisis predictivo: Son las tecnicas y modelos estadísticos para predecir resultados futuros. Los modelos más usados son Random Forest, Redes Neuronales y Regressiones.

Instalar paquetes y llamar Librerías

library(tidyverse)
library(tesseract)
library(magick)
library(officer)
library(pdftools)
library(purrr)
library(tm)
library(wordcloud)
library(RColorBrewer)
library(topicmodels)
library(ggplot2)

Obtener Datos mediante OCR

imagen1 <- image_read("/Users/daviddrums180/Tec/imagen1.PNG")
texto1 <- ocr(imagen1)
texto1
## [1] "Linear regression with one variable x is also known as univariate linear regression\nor simple linear regression. Simple linear regression is used to predict a single\noutput from a single input. This is an example of supervised learning, which means\nthat the data is labeled, i.e., the output values are known in the training data. Let us\nfit a line through the data using simple linear regression as shown in Fig. 4.1.\n"
doc1 <- read_docx()
doc1 <- doc1 %>%
  body_add_par(texto1, style = "Normal")

print(doc1, target = "/Users/daviddrums180/Tec/texto1.docx")

Imagen en español PNG a texto en WORD

Consultar idiomas disponibles

imagen2 <- image_read("/Users/daviddrums180/Tec/imagen2.PNG")
tesseract_download("spa")
## [1] "/Users/daviddrums180/Library/Application Support/tesseract5/tessdata/spa.traineddata"
texto2 <- ocr(imagen2, engine = tesseract("spa"))
texto2
## [1] "Un importante, y quizá controversial, asunto político es el que se refiere al efecto del salario mínimo sobre\nlas tasas de desempleo en diversos grupos de trabajadores. Aunque este problema puede ser estudiado con\ndiversos tipos de datos (corte transversal, series de tiempo o datos de panel), suelen usarse las series de\ntiempo para observar los efectos agregados. En la tabla 1.3 se presenta un ejemplo de una base de datos\nde series de tiempo sobre tasas de desempleo y salarios mínimos.\n"
doc2 <- read_docx()
doc2 <- doc2 %>%
  body_add_par(texto2, style = "Normal")

# print(doc2, target = "/Users/daviddrums180/Tec/texto2.docx")

De PDF a Texto en Word

# pdf1 <- pdf_convert("/Users/daviddrums180/Tec/pdf1.pdf", dpi = 600) %>%
  # map(ocr)

Actividad 1. Novela “IT”

pdf_path <- "/Users/daviddrums180/Tec/eso3.pdf"
it <- pdf_convert(pdf_path, dpi = 600)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!
# Configuración del engine de Tesseract para OCR
engine <- tesseract("spa") # Ajusta al idioma de tu documento, "spa" para español por ejemplo

# Convertir el PDF a imágenes y aplicar OCR en cada una
pdf_path <- "/Users/daviddrums180/Tec/eso3.pdf"
imagenes <- pdf_convert(pdf_path, dpi = 600)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!
# Crear un nuevo documento de Word
doc <- read_docx()

# Aplicar OCR a cada imagen y añadir el texto al documento de Word
for(imagen_path in imagenes) {
  texto <- ocr(image_read(imagen_path), engine = engine)
  doc <- doc %>% 
    body_add_par(texto, style = "Normal") %>%
    body_add_par("", style = "Normal") # Añade un párrafo en blanco para separar las páginas
}

# Guardar el documento de Word
# print(doc, target = "/Users/daviddrums180/Tec/it.docx")

Leer e inspeccionar en línea

text <- readLines("http://www.sthda.com/sthda/RDoc/example-files/martin-luther-king-i-have-a-dream-speech.txt")

corpus <- Corpus(VectorSource(text)) # Pone cada renglón en una celda de vector

corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords("en"))

# inspect(corpus)

# corpus <- tm_map(corpus, removeWords, c("dream","will"))

tdm <- TermDocumentMatrix(corpus)
m <- as.matrix(tdm)

frecuencia <- sort(rowSums(m), decreasing = TRUE)
frecuencia_df <- data.frame(word=names(frecuencia), freq = frecuencia)

ggplot(head(frecuencia_df, 10), aes(x = reorder(word, -freq), y = freq, fill = freq)) + 
  geom_col() +  # Dibuja las barras permitiendo gradiente de color
  geom_text(aes(label = freq), vjust = -0.3) +  # Añade números encima de las barras
  scale_fill_gradient(low = "lightblue", high = "blue", limits = c(0, 20)) +  # Gradiente de azul con escala de 0 a 20
  labs(title = "TOP 10 Palabras Más Frecuentes", 
       subtitle = "Discurso Martin Luther King", 
       x = "Palabra", 
       y = "Frecuencia") +
  theme_minimal() 

# El procesamiento de datos antes de la nube de palabras es igual que en el analisis de frecuencias, desde importar el texto hasta la frecuencia en el df
set.seed(123)
wordcloud(words = frecuencia_df$word,
          freq = frecuencia_df$freq,
          min.freq = 2,
          random.order = FALSE,
          rot.per = 0.35, # Permite una rotación del 35% de las palabras
          colors = brewer.pal(8, "Dark2"), # Usa una paleta de colores 'Dark2' con 8 colores
          scale = c(4,0.5), # Ajusta el tamaño de las palabras más y menos frecuentes
          max.words = 100) # Limita el número de palabras a 100

Actividad 2

# Cargar las librerías necesarias
library(tm)
library(wordcloud)
library(RColorBrewer)
library(officer)

# Leer el documento .docx
doc <- read_docx("/Users/daviddrums180/Tec/it.docx")

# Extraer el texto del documento
texto <- docx_summary(doc)
texto_completo <- paste(texto$text, collapse=" ")

# Crear un corpus del texto
corpus <- Corpus(VectorSource(texto_completo))

# Preprocesar el texto
corpus <- tm_map(corpus, content_transformer(tolower)) # Convertir a minúsculas
corpus <- tm_map(corpus, removePunctuation) # Quitar puntuación
corpus <- tm_map(corpus, removeNumbers) # Quitar números
corpus <- tm_map(corpus, removeWords, stopwords("spanish")) # Quitar stopwords en español
corpus <- tm_map(corpus, stripWhitespace) # Quitar espacios en blanco adicionales

# Crear una tabla de frecuencias de las palabras
dtm <- TermDocumentMatrix(corpus)
matriz <- as.matrix(dtm)
frecuencia <- sort(rowSums(matriz), decreasing=TRUE)
frecuencia_df <- data.frame(word = names(frecuencia), freq = frecuencia)

ggplot(head(frecuencia_df, 10), aes(x = reorder(word, -freq), y = freq, fill = freq)) + 
  geom_col() +  # Dibuja las barras permitiendo gradiente de color
  geom_text(aes(label = freq), vjust = -0.3) +  # Añade números encima de las barras
  scale_fill_gradient(low = "lightblue", high = "blue", limits = c(0, 30)) +  # Gradiente de azul con escala de 0 a 20
  labs(title = "TOP 10 Palabras Más Frecuentes", 
       subtitle = "IT: 3 Capítulos", 
       x = "Palabra", 
       y = "Frecuencia") +
  theme_minimal() 

# Generar la nube de palabras
set.seed(123)
wordcloud(words = frecuencia_df$word, freq = frecuencia_df$freq, min.freq = 2,
          random.order=FALSE, rot.per=0.35, colors=brewer.pal(8, "Dark2"), scale=c(4,0.5))

