Teoría

La minería de texto (TM) es el proceso de extraer información útil, patrones o conocimiento de textos no estructurados.

Consta de 3 etapas:
1. Obtener datos: El reconocimiento óptico de caracteres (OCR) es una tecnología que permite convertir imágenes de texto en texto editable. También es conocido como extracción de texto en imágenes.
2. Explorar datos: Representación gráfica o visual de los datos para su interpretación. Los métodos más comunes son el Análisis de Sentimientos, la Nube de Palabras y el Topic Modeling.
3. Análisis predictivo: Son las técnicas y modelos estadísticos para predecir resultados futuros. Los modelos más usados son el Random Forest, redes neuronales y regresiones.

Instalar paquetes y llamar librerías

#install.packages("tidyverse") # Data wrangling
library(tidyverse)
#install.packages("tesseract") # OCR
library(tesseract)
#install.packages("magick") # PNG
library(magick)
#install.packages("officer") # Exportar a formatos Office (Especialmente Word)
library(officer)
#install.packages("pdftools") # PDF
library(pdftools)
#install.packages("purrr") # Para la función map para aplicar una función a cada elemento de un vector
library(purrr)
#install.packages("tm") # Text Mining
library(tm)
#install.packages("RColorBrewer") # Para manejar colores
library(RColorBrewer)
#install.packages("wordcloud") # Para hacer Nubes de Palabras
library(wordcloud)
#install.packages("topicmodels") # Modelos de Temas
library(topicmodels)
#install.packages("ggplot2") # Gráficas con más diseño
library(ggplot2)

1. Obtener datos mediante OCR

imagen1 <- image_read("C:\\Users\\kathi\\OneDrive\\Escritorio\\M2_IA con Impacto Empresarial\\imagen1.PNG")
texto1 <- ocr(imagen1)
texto1
## [1] "Linear regression with one variable x is also known as univariate linear regression\nor simple linear regression. Simple linear regression is used to predict a single\noutput from a single input. This is an example of supervised learning, which means\nthat the data is labeled, i.e., the output values are known in the training data. Let us\nfit a line through the data using simple linear regression as shown in Fig. 4.1.\n"
doc1 <- read_docx() # Crea un documento de word en blanco
doc1 <- doc1 %>% body_add_par(texto1, style ="Normal") # Pega el texto en el word 
# print(doc1, target = "texto1.docx") # Guarda el word en la computadora

Imagen en español PNG a texto en WORD

Consultar idiomas disponibles

imagen2 <- image_read("C:\\Users\\kathi\\OneDrive\\Escritorio\\M2_IA con Impacto Empresarial\\imagen2.PNG")
# tesseract_download("spa") # Cuando se use en español
# texto2 <- ocr(imagen2, engine = tesseract("spa"))
texto2 <- ocr(imagen2)
texto2
## [1] "Un importante, y quiza controversial, asunto politico es el que se refiere al efecto del salario minimo sobre\nlas tasas de desempleo en diversos grupos de trabajadores. Aunque este problema puede ser estudiado con\ndiversos tipos de datos (corte transversal, series de tiempo o datos de panel), suelen usarse las series de\ntiempo para observar los efectos agregados. En la tabla 1.3 se presenta un ejemplo de una base de datos\nde series de tiempo sobre tasas de desempleo y salarios minimos.\n"
doc2 <- read_docx() # Crea un documento de word en blanco
doc2 <- doc2 %>% body_add_par(texto2, style ="Normal")# Pega el texto en el word
# print(doc2, target = "texto2.docx") # Guarda el word en la computadora

De PDF a texto en WORD

pdf1 <- pdf_convert("C:\\Users\\kathi\\OneDrive\\Escritorio\\M2_IA con Impacto Empresarial\\pdf1.pdf", dpi=600) %>% map(ocr)
## Converting page 1 to pdf1_1.png... done!
## Converting page 2 to pdf1_2.png... done!
## Converting page 3 to pdf1_3.png... done!
## Converting page 4 to pdf1_4.png... done!
## Converting page 5 to pdf1_5.png... done!
## Converting page 6 to pdf1_6.png... done!
## Converting page 7 to pdf1_7.png... done!
## Converting page 8 to pdf1_8.png... done!

Actividad 1. Novela “IT”

Convertir de PDF a texto en WORD

pdf2<- pdf_convert( "C:\\Users\\kathi\\OneDrive\\Escritorio\\M2_IA con Impacto Empresarial\\eso3.pdf" , dpi=600)  %>% map(ocr)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!

Convertir imágenes en español PNG a texto en WORD

imagen3 <-image_read("eso3_1.png")
tesseract_download("spa")
## [1] "C:\\Users\\kathi\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
text3 <- ocr(imagen3, engine = tesseract("spa"))

imagen4 <-image_read("eso3_2.png")
tesseract_download("spa")
## [1] "C:\\Users\\kathi\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
text4 <- ocr(imagen4, engine = tesseract("spa"))

imagen5 <-image_read("eso3_3.png")
tesseract_download("spa")
## [1] "C:\\Users\\kathi\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
text5 <- ocr(imagen5, engine = tesseract("spa"))

doc3 <- read_docx() #Crea un documento de word en blanco


doc3 <- doc3 %>%
  body_add_par(text3, style = "Normal") %>%
  body_add_par(text4, style = "Normal") %>%
  body_add_par(text5, style = "Normal")

# Guardar el documento
# print(doc3, target = "it.docx")

2. Exploración de Datos

Análisis de Frecuencias

text <- readLines("C:\\Users\\kathi\\OneDrive\\Escritorio\\M2_IA con Impacto Empresarial\\martin-luther-king-i-have-a-dream-speech.txt")

corpus <- Corpus(VectorSource(text)) # Pone cada renglón en una celda de vector
# inspect(corpus)

corpus <- tm_map(corpus, content_transformer(tolower)) # Pone todo en minúsculas
## Warning in tm_map.SimpleCorpus(corpus, content_transformer(tolower)):
## transformation drops documents
corpus <- tm_map(corpus, removePunctuation) # Elimina puntuación
## Warning in tm_map.SimpleCorpus(corpus, removePunctuation): transformation drops
## documents
corpus <- tm_map(corpus, removeNumbers) # Elimina números
## Warning in tm_map.SimpleCorpus(corpus, removeNumbers): transformation drops
## documents
corpus <- tm_map(corpus, removeWords, stopwords("en")) # Elimina palabras que no hablen del tema
## Warning in tm_map.SimpleCorpus(corpus, removeWords, stopwords("en")):
## transformation drops documents
# corpus <- tm_map(corpus, removeWords, c("dream", "will")) #Elimina palabras puntuales

tdm <- TermDocumentMatrix(corpus)
m <- as.matrix(tdm) # Cuenta las veces que aparece cada palabra por renglón
               
frecuencia <- sort(rowSums(m), decreasing = TRUE) # Cuenta la frecuencia de cada palabra en el texto completo

frecuencia_df <- data.frame(word=names(frecuencia),freq=frecuencia) # Convierte la frecuencia a data frame

ggplot(head(frecuencia_df,10), aes(x=word, y=freq)) + 
       geom_bar(stat="identity", fill="pink") + 
       geom_text(aes(label = freq), vjust = -0.5) +
       labs(title="TOP 10 palabras más frecuentes", subtitle="Discurso 'I have a Dream' de M.L: King", x= "Palabra", y="Frecuencia") + 
       ylim(0,20)

Nube de Palabras

# El procesamiento de datos antes de la nube de palabras es igual que en el Análisis de Frecuencias, desde importar el texto hasta frecuencia_df
set.seed(123)
wordcloud(words=frecuencia_df$word,freq=frecuencia_df$freq, min.freq=1,
random.order=FALSE, colors = brewer.pal(8, "RdPu"))

Ejercicio 2. Novela IT

texto <- readLines("C:\\Users\\kathi\\OneDrive\\Escritorio\\M2_IA con Impacto Empresarial\\it.txt")

text2 <- iconv(texto, to = "UTF-8", sub = "byte") # Convertir texto codificado a caracteres legibles

corpus2 <- Corpus(VectorSource(text2)) 

corpus2 <- tm_map(corpus2, content_transformer(tolower)) # Pone todo en minúsculas
## Warning in tm_map.SimpleCorpus(corpus2, content_transformer(tolower)):
## transformation drops documents
corpus2 <- tm_map(corpus2, removePunctuation) # Elimina puntuación
## Warning in tm_map.SimpleCorpus(corpus2, removePunctuation): transformation
## drops documents
corpus2 <- tm_map(corpus2, removeNumbers) # Elimina números
## Warning in tm_map.SimpleCorpus(corpus2, removeNumbers): transformation drops
## documents
corpus2 <- tm_map(corpus2, removeWords, stopwords("spanish")) # Elimina palabras que no hablen del tema
## Warning in tm_map.SimpleCorpus(corpus2, removeWords, stopwords("spanish")):
## transformation drops documents
# corpus <- tm_map(corpus, removeWords, c("dream", "will")) #Elimina palabras puntuales

tdm2 <- TermDocumentMatrix(corpus2)
m2 <- as.matrix(tdm2) # Cuenta las veces que aparece cada palabra por renglón

frecuencia2 <- sort(rowSums(m2), decreasing = TRUE) # Cuenta la frecuencia de cada palabra en el texto completo

frecuencia_df2 <- data.frame(word = names(frecuencia2), freq = frecuencia2) # Convierte la frecuencia a data frame

ggplot(head(frecuencia_df2, 10), aes(x = reorder(word, -freq), y = freq)) +
  geom_bar(stat = "identity", fill = "red") +
  geom_text(aes(label = freq), vjust = -0.5) +
  labs(title = "TOP 10 palabras más frecuentes", 
       subtitle = "IT", 
       x = "Palabra", 
       y = "Frecuencia") +
  ylim(0, 20)
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

Nube de Palabras

# El procesamiento de datos antes de la nube de palabras es igual que en el Análisis de Frecuencias, desde importar el texto hasta frecuencia_df2
set.seed(123)
wordcloud(words=frecuencia_df2$word,freq=frecuencia_df2$freq, min.freq=1,
random.order=FALSE, colors = brewer.pal(8, "RdPu"))

