Text Mining
Teoría
La minería de texto es el proceso de extraer
información util, patrones o conocimientos de texto no
estructurados.
Consta de 3 etapas: 1. Obtener datos: El reconocimiento óptico de
caracteres (OCR) es una tecnología que permite convertir imágenes de
texto en texto editable. También es conocido como extracción de
texto de imágenes. 2. Explorar datos: Representación gráfica o
visual de los datos para su interpretación. Los metodos más comunes son
el Analisis de Sentimientos, la Nube de Palabras y el Topic Modeling. 3.
Análisis predictivo: Son las tecnicas y modelos estadísticos para
predecir resultados futuros. Los modelos más usados son Random Forest,
Redes Neuronales y Regressiones.
Instalar paquetes y llamar Librerías
library(tidyverse)
library(tesseract)
library(magick)
library(officer)
library(pdftools)
library(purrr)
library(tm)
library(wordcloud)
library(RColorBrewer)
library(topicmodels)
library(ggplot2)
De PDF a Texto en Word
# pdf1 <- pdf_convert("/Users/daviddrums180/Tec/pdf1.pdf", dpi = 600) %>%
# map(ocr)
Actividad 1. Novela “IT”
pdf_path <- "/Users/daviddrums180/Tec/eso3.pdf"
it <- pdf_convert(pdf_path, dpi = 600)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!
# Configuración del engine de Tesseract para OCR
engine <- tesseract("spa") # Ajusta al idioma de tu documento, "spa" para español por ejemplo
# Convertir el PDF a imágenes y aplicar OCR en cada una
pdf_path <- "/Users/daviddrums180/Tec/eso3.pdf"
imagenes <- pdf_convert(pdf_path, dpi = 600)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!
# Crear un nuevo documento de Word
doc <- read_docx()
# Aplicar OCR a cada imagen y añadir el texto al documento de Word
for(imagen_path in imagenes) {
texto <- ocr(image_read(imagen_path), engine = engine)
doc <- doc %>%
body_add_par(texto, style = "Normal") %>%
body_add_par("", style = "Normal") # Añade un párrafo en blanco para separar las páginas
}
# Guardar el documento de Word
# print(doc, target = "/Users/daviddrums180/Tec/it.docx")
Leer e inspeccionar en línea
text <- readLines("http://www.sthda.com/sthda/RDoc/example-files/martin-luther-king-i-have-a-dream-speech.txt")
corpus <- Corpus(VectorSource(text)) # Pone cada renglón en una celda de vector
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords("en"))
# inspect(corpus)
# corpus <- tm_map(corpus, removeWords, c("dream","will"))
tdm <- TermDocumentMatrix(corpus)
m <- as.matrix(tdm)
frecuencia <- sort(rowSums(m), decreasing = TRUE)
frecuencia_df <- data.frame(word=names(frecuencia), freq = frecuencia)
ggplot(head(frecuencia_df, 10), aes(x = reorder(word, -freq), y = freq, fill = freq)) +
geom_col() + # Dibuja las barras permitiendo gradiente de color
geom_text(aes(label = freq), vjust = -0.3) + # Añade números encima de las barras
scale_fill_gradient(low = "lightblue", high = "blue", limits = c(0, 20)) + # Gradiente de azul con escala de 0 a 20
labs(title = "TOP 10 Palabras Más Frecuentes",
subtitle = "Discurso Martin Luther King",
x = "Palabra",
y = "Frecuencia") +
theme_minimal()

# El procesamiento de datos antes de la nube de palabras es igual que en el analisis de frecuencias, desde importar el texto hasta la frecuencia en el df
set.seed(123)
wordcloud(words = frecuencia_df$word,
freq = frecuencia_df$freq,
min.freq = 2,
random.order = FALSE,
rot.per = 0.35, # Permite una rotación del 35% de las palabras
colors = brewer.pal(8, "Dark2"), # Usa una paleta de colores 'Dark2' con 8 colores
scale = c(4,0.5), # Ajusta el tamaño de las palabras más y menos frecuentes
max.words = 100) # Limita el número de palabras a 100

Actividad 2
# Cargar las librerías necesarias
library(tm)
library(wordcloud)
library(RColorBrewer)
library(officer)
# Leer el documento .docx
doc <- read_docx("/Users/daviddrums180/Tec/it.docx")
# Extraer el texto del documento
texto <- docx_summary(doc)
texto_completo <- paste(texto$text, collapse=" ")
# Crear un corpus del texto
corpus <- Corpus(VectorSource(texto_completo))
# Preprocesar el texto
corpus <- tm_map(corpus, content_transformer(tolower)) # Convertir a minúsculas
corpus <- tm_map(corpus, removePunctuation) # Quitar puntuación
corpus <- tm_map(corpus, removeNumbers) # Quitar números
corpus <- tm_map(corpus, removeWords, stopwords("spanish")) # Quitar stopwords en español
corpus <- tm_map(corpus, stripWhitespace) # Quitar espacios en blanco adicionales
# Crear una tabla de frecuencias de las palabras
dtm <- TermDocumentMatrix(corpus)
matriz <- as.matrix(dtm)
frecuencia <- sort(rowSums(matriz), decreasing=TRUE)
frecuencia_df <- data.frame(word = names(frecuencia), freq = frecuencia)
ggplot(head(frecuencia_df, 10), aes(x = reorder(word, -freq), y = freq, fill = freq)) +
geom_col() + # Dibuja las barras permitiendo gradiente de color
geom_text(aes(label = freq), vjust = -0.3) + # Añade números encima de las barras
scale_fill_gradient(low = "lightblue", high = "blue", limits = c(0, 30)) + # Gradiente de azul con escala de 0 a 20
labs(title = "TOP 10 Palabras Más Frecuentes",
subtitle = "IT: 3 Capítulos",
x = "Palabra",
y = "Frecuencia") +
theme_minimal()

# Generar la nube de palabras
set.seed(123)
wordcloud(words = frecuencia_df$word, freq = frecuencia_df$freq, min.freq = 2,
random.order=FALSE, rot.per=0.35, colors=brewer.pal(8, "Dark2"), scale=c(4,0.5))

---
title: "Text Mining"
author: "David Dominguez - A01570975"
date: "2024-02-26"
output: 
  html_document:
    toc: TRUE
    toc_float: TRUE
    code_download: TRUE
    theme: cosmo
---

# Text Mining

## Teoría
La **minería de texto** es el proceso de extraer información util, patrones o conocimientos de texto no estructurados.

Consta de 3 etapas:
1. Obtener datos: El reconocimiento óptico de caracteres (OCR) es una tecnología que permite convertir imágenes de texto en texto editable. También es conocido como **extracción de texto de imágenes**.
2. Explorar datos: Representación gráfica o visual de los datos para su interpretación. Los metodos más comunes son el Analisis de Sentimientos, la Nube de Palabras y el Topic Modeling.
3. Análisis predictivo: Son las tecnicas y modelos estadísticos para predecir resultados futuros. Los modelos más usados son Random Forest, Redes Neuronales y Regressiones. 

## Instalar paquetes y llamar Librerías
```{r message=FALSE, warning=FALSE}
library(tidyverse)
library(tesseract)
library(magick)
library(officer)
library(pdftools)
library(purrr)
library(tm)
library(wordcloud)
library(RColorBrewer)
library(topicmodels)
library(ggplot2)
```

## Obtener Datos mediante OCR

```{r}
imagen1 <- image_read("/Users/daviddrums180/Tec/imagen1.PNG")
texto1 <- ocr(imagen1)
texto1
```

```{r}
doc1 <- read_docx()
doc1 <- doc1 %>%
  body_add_par(texto1, style = "Normal")

print(doc1, target = "/Users/daviddrums180/Tec/texto1.docx")
```


### Imagen en español PNG a texto en WORD
[Consultar idiomas disponibles](https://tesseract-ocr.github.io/tessdoc/Data-Files-in-different-versions.html)
```{r}
imagen2 <- image_read("/Users/daviddrums180/Tec/imagen2.PNG")
tesseract_download("spa")
texto2 <- ocr(imagen2, engine = tesseract("spa"))
texto2
```

```{r}
doc2 <- read_docx()
doc2 <- doc2 %>%
  body_add_par(texto2, style = "Normal")

# print(doc2, target = "/Users/daviddrums180/Tec/texto2.docx")
```


## De PDF a Texto en Word
```{r}
# pdf1 <- pdf_convert("/Users/daviddrums180/Tec/pdf1.pdf", dpi = 600) %>%
  # map(ocr)
```

## Actividad 1. Novela "IT"
```{r}
pdf_path <- "/Users/daviddrums180/Tec/eso3.pdf"
it <- pdf_convert(pdf_path, dpi = 600)
```

```{r}
# Configuración del engine de Tesseract para OCR
engine <- tesseract("spa") # Ajusta al idioma de tu documento, "spa" para español por ejemplo

# Convertir el PDF a imágenes y aplicar OCR en cada una
pdf_path <- "/Users/daviddrums180/Tec/eso3.pdf"
imagenes <- pdf_convert(pdf_path, dpi = 600)

# Crear un nuevo documento de Word
doc <- read_docx()

# Aplicar OCR a cada imagen y añadir el texto al documento de Word
for(imagen_path in imagenes) {
  texto <- ocr(image_read(imagen_path), engine = engine)
  doc <- doc %>% 
    body_add_par(texto, style = "Normal") %>%
    body_add_par("", style = "Normal") # Añade un párrafo en blanco para separar las páginas
}

# Guardar el documento de Word
# print(doc, target = "/Users/daviddrums180/Tec/it.docx")
```


## Leer e inspeccionar en línea
```{r message=FALSE, warning=FALSE}
text <- readLines("http://www.sthda.com/sthda/RDoc/example-files/martin-luther-king-i-have-a-dream-speech.txt")

corpus <- Corpus(VectorSource(text)) # Pone cada renglón en una celda de vector

corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords("en"))

# inspect(corpus)

# corpus <- tm_map(corpus, removeWords, c("dream","will"))

tdm <- TermDocumentMatrix(corpus)
m <- as.matrix(tdm)

frecuencia <- sort(rowSums(m), decreasing = TRUE)
frecuencia_df <- data.frame(word=names(frecuencia), freq = frecuencia)

ggplot(head(frecuencia_df, 10), aes(x = reorder(word, -freq), y = freq, fill = freq)) + 
  geom_col() +  # Dibuja las barras permitiendo gradiente de color
  geom_text(aes(label = freq), vjust = -0.3) +  # Añade números encima de las barras
  scale_fill_gradient(low = "lightblue", high = "blue", limits = c(0, 20)) +  # Gradiente de azul con escala de 0 a 20
  labs(title = "TOP 10 Palabras Más Frecuentes", 
       subtitle = "Discurso Martin Luther King", 
       x = "Palabra", 
       y = "Frecuencia") +
  theme_minimal() 
```

```{r}
# El procesamiento de datos antes de la nube de palabras es igual que en el analisis de frecuencias, desde importar el texto hasta la frecuencia en el df
set.seed(123)
wordcloud(words = frecuencia_df$word,
          freq = frecuencia_df$freq,
          min.freq = 2,
          random.order = FALSE,
          rot.per = 0.35, # Permite una rotación del 35% de las palabras
          colors = brewer.pal(8, "Dark2"), # Usa una paleta de colores 'Dark2' con 8 colores
          scale = c(4,0.5), # Ajusta el tamaño de las palabras más y menos frecuentes
          max.words = 100) # Limita el número de palabras a 100
```

## Actividad 2
```{r message=FALSE, warning=FALSE}
# Cargar las librerías necesarias
library(tm)
library(wordcloud)
library(RColorBrewer)
library(officer)

# Leer el documento .docx
doc <- read_docx("/Users/daviddrums180/Tec/it.docx")

# Extraer el texto del documento
texto <- docx_summary(doc)
texto_completo <- paste(texto$text, collapse=" ")

# Crear un corpus del texto
corpus <- Corpus(VectorSource(texto_completo))

# Preprocesar el texto
corpus <- tm_map(corpus, content_transformer(tolower)) # Convertir a minúsculas
corpus <- tm_map(corpus, removePunctuation) # Quitar puntuación
corpus <- tm_map(corpus, removeNumbers) # Quitar números
corpus <- tm_map(corpus, removeWords, stopwords("spanish")) # Quitar stopwords en español
corpus <- tm_map(corpus, stripWhitespace) # Quitar espacios en blanco adicionales

# Crear una tabla de frecuencias de las palabras
dtm <- TermDocumentMatrix(corpus)
matriz <- as.matrix(dtm)
frecuencia <- sort(rowSums(matriz), decreasing=TRUE)
frecuencia_df <- data.frame(word = names(frecuencia), freq = frecuencia)

ggplot(head(frecuencia_df, 10), aes(x = reorder(word, -freq), y = freq, fill = freq)) + 
  geom_col() +  # Dibuja las barras permitiendo gradiente de color
  geom_text(aes(label = freq), vjust = -0.3) +  # Añade números encima de las barras
  scale_fill_gradient(low = "lightblue", high = "blue", limits = c(0, 30)) +  # Gradiente de azul con escala de 0 a 20
  labs(title = "TOP 10 Palabras Más Frecuentes", 
       subtitle = "IT: 3 Capítulos", 
       x = "Palabra", 
       y = "Frecuencia") +
  theme_minimal() 

# Generar la nube de palabras
set.seed(123)
wordcloud(words = frecuencia_df$word, freq = frecuencia_df$freq, min.freq = 2,
          random.order=FALSE, rot.per=0.35, colors=brewer.pal(8, "Dark2"), scale=c(4,0.5))
```

