Teoría

La minería de texto (Text Mining) es el proceso de extraer información útil, patrones o conocimiento de textos no estructurados.

Consta de 3 etapas:
1. Obtener datos: El reconocimiento óptico de caracteres (OCR en ingles) es una tecnología que permite convertir imágenes de texto en texto editable. También es conocido como extracción de texto de imagenes.
2. Explorar datos: Representación gráfica o visual de los datos para su interpretación. Los métodos más comunes son el análisis de sentimientos, la nube de palabras y el topic modeling.
3. Análisis predictivo: Son las técnicas y modelos estadísticos para predecir resultados futuros. Los modelos mas usados son el Random Forest, Redes Neuronales y Regresiones.

Instalar paquetes y descargar librerías

# install.packages("tidyverse") # Data wrangling (Manipulación de datos)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.3     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.5.0     ✔ tibble    3.2.1
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
# install.packages("tesseract") # OCR (Reconocimiento optico de caracteres)
library(tesseract)
# install.packages("magick") # Trabajar con imagenes de formato PNG
library(magick)
## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11
# install.packages("officer") # Nos permite exportar en formatos de office (Word, etc)
library(officer)
# install.packages("pdftools") # Nos permite leer PDFs.
library(pdftools)
## Using poppler version 23.04.0
# install.packages("purrr") # Para la función map (Aplicar funcion a cada uno de los vectores)
library(purrr)
# install.packages("tm") # Text mining
library(tm)
## Loading required package: NLP
## 
## Attaching package: 'NLP'
## 
## The following object is masked from 'package:ggplot2':
## 
##     annotate
# install.packages("RColorBrewer") # Manejar colores
library(RColorBrewer)
# install.packages("wordcloud") # Nube de palabras (Las grandes se repiten mas y viceversa)
library(wordcloud)
# install.packages("topicmodels") # Modelos de temas (De que habla el texto)
library(topicmodels)
# install.packages("ggplot2") # Graficas con más diseño
library(ggplot2)

1. Obtener Datos mediante OCR

De imagen PNG a texto WORD

# imagen1 <- image_read("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/imagen1.PNG")
# texto1 <- ocr(imagen1)
# texto1
# doc1 <- read_docx() # Crea documento de word en blanco
# doc1 <- doc1 %>% body_add_par(texto1, style="Normal") # Pega el texto en el word
# print(doc1, target = "Texto1.docx") # Descarga el archivo en word en la computadora

Imagen PNG a Texto WORD en español

Consultar idiomas disponibles

# imagen2 <- image_read("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/imagen2.PNG")
# tesseract_download("spa")
# texto2 <- ocr(imagen2, engine = tesseract("spa"))
# texto2
# doc2 <- read_docx() # Crea documento de word en blanco
# doc2 <- doc2 %>% body_add_par(texto2, style="Normal") # Pega el texto en el word
# print(doc2, target = "Texto2.docx") # Descarga el archivo en word en la computadora

De PDF a texto en WORD

# pdf1 <- pdf_convert("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/pdf1.pdf", dpi = 600) %>% map(ocr)

Actividad 1. Novela “IT”

De PDF a imagen PNG

# pdfeso <- pdf_convert("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/eso3.pdf", dpi = 600) %>% map(ocr)

De imagen PNG a texto WORD

# imagen3 <- image_read("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/eso3_1.PNG")
# tesseract_download("spa")
# texto3 <- ocr(imagen3, engine = tesseract("spa"))

# imagen4 <- image_read("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/eso3_2.PNG")
# tesseract_download("spa")
# texto4 <- ocr(imagen4, engine = tesseract("spa"))

# imagen5 <- image_read("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/eso3_3.PNG")
# tesseract_download("spa")
# texto5 <- ocr(imagen5, engine = tesseract("spa"))

# Agregar los textos al documento de Word
# Completo <- read_docx()

# Completo <- Completo %>%
#  body_add_par(texto3, style = "Normal") %>%
#  body_add_par(texto4, style = "Normal") %>%
#  body_add_par(texto5, style = "Normal")

# print(Completo, target = "EsoCapitulo3.docx")

2. Exploración de datos

Analisis de frecuencias

text <- readLines("http://www.sthda.com/sthda/RDoc/example-files/martin-luther-king-i-have-a-dream-speech.txt")

corpus <- Corpus(VectorSource(text)) # Pone cada renglón en una celda del vector
#inspect(corpus)
corpus <- tm_map(corpus, content_transformer(tolower)) # Pone todo en minúsculas
## Warning in tm_map.SimpleCorpus(corpus, content_transformer(tolower)):
## transformation drops documents
corpus <- tm_map(corpus, removePunctuation)
## Warning in tm_map.SimpleCorpus(corpus, removePunctuation): transformation drops
## documents
corpus <- tm_map(corpus, removeNumbers)
## Warning in tm_map.SimpleCorpus(corpus, removeNumbers): transformation drops
## documents
corpus <- tm_map(corpus, removeWords, stopwords("en")) # Elimina palabras que no hablan del tema
## Warning in tm_map.SimpleCorpus(corpus, removeWords, stopwords("en")):
## transformation drops documents
# corpus <- tm_map(corpus, removeWords, c("dream", "will")) Elimina las palabras puntuales

tdm <- TermDocumentMatrix(corpus) 
m <- as.matrix(tdm) # Cuenta las veces que aparece cada palabra

frecuencia <- sort(rowSums(m), decreasing = TRUE) # Cuenta la frecuencia de cada palabra en el texto completo 

frecuencia_df <- data.frame(word=names(frecuencia), freq = frecuencia) # Convierte la frecuencia en un data frame

ggplot(head(frecuencia_df, 10), aes(x=reorder(word, -freq), y=freq)) +
            geom_bar(stat = "identity", fill = "skyblue") +
            geom_text(aes(label = freq), vjust = -0.5) +
            labs(title= "Top 10 palabras más frecuentes", x= "Palabras", subtitle= "Discurso de Martin Luther King", y= "Frecuencia") +
            ylim(0,20)

Nube de palabras

# El procesamiento de datos antes de la nue de palabras es igual que en el análisis de frecuencias, desde importar el texto hasta convertir la frecuencia en un data frame "frecuencia_df"
set.seed(123)
wordcloud(word = frecuencia_df$word, freq = frecuencia_df$freq, min.freq = 1, random.order = FALSE, colors = brewer.pal(8, "Spectral"))

Ejercicio 2. Novela IT

Analisis de frecuencias

text1 <- read_docx("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/EsoCapitulo3.docx")

texto_sin_acentos <- iconv(text1, to = "ASCII//TRANSLIT")

corpus1 <- Corpus(VectorSource(texto_sin_acentos)) # Pone cada renglón en una celda del vector
#inspect(corpus)
corpus1 <- tm_map(corpus1, content_transformer(tolower)) # Pone todo en minúsculas
## Warning in tm_map.SimpleCorpus(corpus1, content_transformer(tolower)):
## transformation drops documents
corpus1 <- tm_map(corpus1, removePunctuation)
## Warning in tm_map.SimpleCorpus(corpus1, removePunctuation): transformation
## drops documents
corpus1 <- tm_map(corpus1, removeNumbers)
## Warning in tm_map.SimpleCorpus(corpus1, removeNumbers): transformation drops
## documents
corpus1 <- tm_map(corpus1, removeWords, stopwords("spanish")) # Elimina palabras que no hablan del tema
## Warning in tm_map.SimpleCorpus(corpus1, removeWords, stopwords("spanish")):
## transformation drops documents
# corpus <- tm_map(corpus, removeWords, c("dream", "will")) Elimina las palabras puntuales

tdm1 <- TermDocumentMatrix(corpus1) 
m1 <- as.matrix(tdm1) # Cuenta las veces que aparece cada palabra

frecuencia1 <- sort(rowSums(m1), decreasing = TRUE) # Cuenta la frecuencia de cada palabra en el texto completo 

frecuencia_df1 <- data.frame(word=names(frecuencia1), freq = frecuencia1) # Convierte la frecuencia en un data frame

ggplot(head(frecuencia_df1, 10), aes(x=reorder(word, -freq), y=freq)) +
            geom_bar(stat = "identity", fill = "skyblue") +
            geom_text(aes(label = freq), vjust = -0.5) +
            labs(title= "Top 10 palabras más frecuentes", x= "Palabras", subtitle= "Capitulo 3 de IT", y= "Frecuencia") +
            ylim(0,70)

Nube de palabras

# El procesamiento de datos antes de la nue de palabras es igual que en el análisis de frecuencias, desde importar el texto hasta convertir la frecuencia en un data frame "frecuencia_df"
set.seed(123)
wordcloud(word = frecuencia_df1$word, freq = frecuencia_df1$freq, min.freq = 1, random.order = FALSE, colors = brewer.pal(8, "Spectral"))

---
title: "Text mining"
author: "Héctor Guadalupe de la Garza Treviño - A01177960"
date: "2024-02-26"
output: 
  html_document:
    toc: TRUE
    toc_float: TRUE
    code_download: TRUE
    theme: cerulean
    highlight: kate
---

![](/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/9835810_1619175146_Text Mining.jpg)

# <span style="color: blue;">Teoría</span>
La **minería de texto (Text Mining)** es el proceso de extraer información útil, patrones o conocimiento de textos no estructurados.  

**Consta de 3 etapas:**  
1. Obtener datos: El reconocimiento óptico de caracteres (OCR en ingles) es una tecnología que permite convertir imágenes de texto en texto editable. También es conocido como **extracción de texto de imagenes**.  
2. Explorar datos: Representación gráfica o visual de los datos para su interpretación. Los métodos más comunes son el análisis de sentimientos, la nube de palabras y el topic modeling.  
3. Análisis predictivo: Son las técnicas y modelos estadísticos para predecir resultados futuros. Los modelos mas usados son el Random Forest, Redes Neuronales y Regresiones.  


# <span style="color: blue;">Instalar paquetes y descargar librerías</span>
```{r}
# install.packages("tidyverse") # Data wrangling (Manipulación de datos)
library(tidyverse)
# install.packages("tesseract") # OCR (Reconocimiento optico de caracteres)
library(tesseract)
# install.packages("magick") # Trabajar con imagenes de formato PNG
library(magick)
# install.packages("officer") # Nos permite exportar en formatos de office (Word, etc)
library(officer)
# install.packages("pdftools") # Nos permite leer PDFs.
library(pdftools)
# install.packages("purrr") # Para la función map (Aplicar funcion a cada uno de los vectores)
library(purrr)
# install.packages("tm") # Text mining
library(tm)
# install.packages("RColorBrewer") # Manejar colores
library(RColorBrewer)
# install.packages("wordcloud") # Nube de palabras (Las grandes se repiten mas y viceversa)
library(wordcloud)
# install.packages("topicmodels") # Modelos de temas (De que habla el texto)
library(topicmodels)
# install.packages("ggplot2") # Graficas con más diseño
library(ggplot2)
```

# <span style="color: blue;">1. Obtener Datos mediante OCR</span>

## <span style="color: blue;">De imagen PNG a texto WORD</span>
```{r}
# imagen1 <- image_read("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/imagen1.PNG")
# texto1 <- ocr(imagen1)
# texto1
# doc1 <- read_docx() # Crea documento de word en blanco
# doc1 <- doc1 %>% body_add_par(texto1, style="Normal") # Pega el texto en el word
# print(doc1, target = "Texto1.docx") # Descarga el archivo en word en la computadora
```

## <span style="color: blue;">Imagen PNG a Texto WORD en español</span>

[Consultar idiomas disponibles](https://tesseract-ocr.github.io/tessdoc/Data-Files-in-different-versions.html)
```{r}
# imagen2 <- image_read("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/imagen2.PNG")
# tesseract_download("spa")
# texto2 <- ocr(imagen2, engine = tesseract("spa"))
# texto2
# doc2 <- read_docx() # Crea documento de word en blanco
# doc2 <- doc2 %>% body_add_par(texto2, style="Normal") # Pega el texto en el word
# print(doc2, target = "Texto2.docx") # Descarga el archivo en word en la computadora
```

## <span style="color: blue;">De PDF a texto en WORD</span>
```{r}
# pdf1 <- pdf_convert("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/pdf1.pdf", dpi = 600) %>% map(ocr)
```

## <span style="color: blue;">Actividad 1. Novela "IT"</span>

### <span style="color: blue;">De PDF a imagen PNG</span>
```{r}
# pdfeso <- pdf_convert("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/eso3.pdf", dpi = 600) %>% map(ocr)
```

### <span style="color: blue;">De imagen PNG a texto WORD</span>
```{r}
# imagen3 <- image_read("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/eso3_1.PNG")
# tesseract_download("spa")
# texto3 <- ocr(imagen3, engine = tesseract("spa"))

# imagen4 <- image_read("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/eso3_2.PNG")
# tesseract_download("spa")
# texto4 <- ocr(imagen4, engine = tesseract("spa"))

# imagen5 <- image_read("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/eso3_3.PNG")
# tesseract_download("spa")
# texto5 <- ocr(imagen5, engine = tesseract("spa"))

# Agregar los textos al documento de Word
# Completo <- read_docx()

# Completo <- Completo %>%
#  body_add_par(texto3, style = "Normal") %>%
#  body_add_par(texto4, style = "Normal") %>%
#  body_add_par(texto5, style = "Normal")

# print(Completo, target = "EsoCapitulo3.docx")
```

# <span style="color: blue;">2. Exploración de datos</span>

## <span style="color: blue;">Analisis de frecuencias</span>
```{r}
text <- readLines("http://www.sthda.com/sthda/RDoc/example-files/martin-luther-king-i-have-a-dream-speech.txt")

corpus <- Corpus(VectorSource(text)) # Pone cada renglón en una celda del vector
#inspect(corpus)
corpus <- tm_map(corpus, content_transformer(tolower)) # Pone todo en minúsculas
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords("en")) # Elimina palabras que no hablan del tema
# corpus <- tm_map(corpus, removeWords, c("dream", "will")) Elimina las palabras puntuales

tdm <- TermDocumentMatrix(corpus) 
m <- as.matrix(tdm) # Cuenta las veces que aparece cada palabra

frecuencia <- sort(rowSums(m), decreasing = TRUE) # Cuenta la frecuencia de cada palabra en el texto completo 

frecuencia_df <- data.frame(word=names(frecuencia), freq = frecuencia) # Convierte la frecuencia en un data frame

ggplot(head(frecuencia_df, 10), aes(x=reorder(word, -freq), y=freq)) +
            geom_bar(stat = "identity", fill = "skyblue") +
            geom_text(aes(label = freq), vjust = -0.5) +
            labs(title= "Top 10 palabras más frecuentes", x= "Palabras", subtitle= "Discurso de Martin Luther King", y= "Frecuencia") +
            ylim(0,20)
```

## <span style="color: blue;">Nube de palabras</span>
```{r}
# El procesamiento de datos antes de la nue de palabras es igual que en el análisis de frecuencias, desde importar el texto hasta convertir la frecuencia en un data frame "frecuencia_df"
set.seed(123)
wordcloud(word = frecuencia_df$word, freq = frecuencia_df$freq, min.freq = 1, random.order = FALSE, colors = brewer.pal(8, "Spectral"))
```

## <span style="color: blue;">Ejercicio 2. Novela IT</span>

### <span style="color: blue;">Analisis de frecuencias</span>
```{r}
text1 <- read_docx("/Users/hectordelagarzatrevino/Library/CloudStorage/GoogleDrive-a01177960@tec.mx/Mi unidad/LIT/Sexto semestre/Inteligencia Artificial con Impacto Empresarial/Modulo 2/Sesion 6/EsoCapitulo3.docx")

texto_sin_acentos <- iconv(text1, to = "ASCII//TRANSLIT")

corpus1 <- Corpus(VectorSource(texto_sin_acentos)) # Pone cada renglón en una celda del vector
#inspect(corpus)
corpus1 <- tm_map(corpus1, content_transformer(tolower)) # Pone todo en minúsculas
corpus1 <- tm_map(corpus1, removePunctuation)
corpus1 <- tm_map(corpus1, removeNumbers)
corpus1 <- tm_map(corpus1, removeWords, stopwords("spanish")) # Elimina palabras que no hablan del tema
# corpus <- tm_map(corpus, removeWords, c("dream", "will")) Elimina las palabras puntuales

tdm1 <- TermDocumentMatrix(corpus1) 
m1 <- as.matrix(tdm1) # Cuenta las veces que aparece cada palabra

frecuencia1 <- sort(rowSums(m1), decreasing = TRUE) # Cuenta la frecuencia de cada palabra en el texto completo 

frecuencia_df1 <- data.frame(word=names(frecuencia1), freq = frecuencia1) # Convierte la frecuencia en un data frame

ggplot(head(frecuencia_df1, 10), aes(x=reorder(word, -freq), y=freq)) +
            geom_bar(stat = "identity", fill = "skyblue") +
            geom_text(aes(label = freq), vjust = -0.5) +
            labs(title= "Top 10 palabras más frecuentes", x= "Palabras", subtitle= "Capitulo 3 de IT", y= "Frecuencia") +
            ylim(0,70)
```

### <span style="color: blue;">Nube de palabras</span>
```{r}
# El procesamiento de datos antes de la nue de palabras es igual que en el análisis de frecuencias, desde importar el texto hasta convertir la frecuencia en un data frame "frecuencia_df"
set.seed(123)
wordcloud(word = frecuencia_df1$word, freq = frecuencia_df1$freq, min.freq = 1, random.order = FALSE, colors = brewer.pal(8, "Spectral"))
```

