La MinerÃa de Datos (TM) es el proceso de extraer información útil, patrones o conocimientos de textos no estructurados.
El Reconocimiento Óptico de Caracteres (OCR) es una
tecnologÃa que permite convertir imágenes de texto en texto
editable.
También es conocido como extracción de texto de
imágenes.
Representación gráfica o visual de los datos para su
interpretación.
Los métodos más comunes son:
Técnicas y modelos estadÃsticos para predecir resultados
futuros.
Los modelos más usados son:
library(tidyverse) # Manipulación de datos
library(tesseract) #OCR
library(magick) #PNG
library(pdftools) #Office Word
library(officer) #PDF
library(purrr)
# Definir la carpeta donde se guardará el documento
carpeta_destino <- "D:/Tec/Sexto Semestre/IA concentracion/Rstudio/"
# Leer la imagen
imagen1 <- image_read("D:/Tec/Sexto Semestre/IA concentracion/Rstudio/imagen1.PNG")
# Extraer el texto con OCR
texto1 <- ocr(imagen1)
# Crear el documento de Word en blanco
doc1 <- read_docx()
# Agregar el texto extraÃdo al documento
doc1 <- doc1 %>% body_add_par(texto1)
# Definir la ruta completa para guardar el archivo
ruta_guardado <- file.path(carpeta_destino, "texto1.docx")
print(doc1, target = ruta_guardado)
tesseract_download("spa")
## Training data already exists. Overwriting C:\Users\asarr\AppData\Local\tesseract5\tesseract5\tessdata/spa.traineddata
## [1] "C:\\Users\\asarr\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
# Leer la imagen
imagen2 <- image_read("D:/Tec/Sexto Semestre/IA concentracion/Rstudio/imagen2.PNG")
# Extraer el texto con OCR
texto2 <- ocr(imagen2, engine =tesseract("spa"))
# Crear el documento de Word en blanco
doc2 <- read_docx()
# Agregar el texto extraÃdo al documento
doc2 <- doc2 %>% body_add_par(texto2)
# Definir la ruta completa para guardar el archivo
ruta_guardado <- file.path(carpeta_destino, "texto2.docx")
print(doc2, target = ruta_guardado)
#De PDF a Texto en Word
pdf_eso <- pdf_convert("D:/Tec/Sexto Semestre/IA concentracion/Rstudio/eso.pdf", dpi=600) %>% map(ocr)
## Converting page 1 to eso_1.png... done!
## Converting page 2 to eso_2.png... done!
# Leer ambas imagenes
imagen3 <- image_read("D:/Tec/Sexto Semestre/IA concentracion/Rstudio/eso_1.png")
imagen4<- image_read("D:/Tec/Sexto Semestre/IA concentracion/Rstudio/eso_2.png")
texto3 <- ocr(imagen3)
texto4 <- ocr(imagen4)
doc3 <- read_docx()
doc3 <- doc3 %>% body_add_par(texto3) %>% body_add_par(texto4)
ruta_guardado <- file.path(carpeta_destino, "textoESO.docx")
print(doc3, target = ruta_guardado)
library(syuzhet) #Análisis de sentimientos"
library(tm) #MÃneria de Texto
## Cargando paquete requerido: NLP
##
## Adjuntando el paquete: 'NLP'
## The following object is masked from 'package:ggplot2':
##
## annotate
library(wordcloud) #Nube de palabras
## Cargando paquete requerido: RColorBrewer
library(RColorBrewer) #Colores a la nube de palabras
texto <- pdf_eso
texto_palabras <- get_tokens(texto)
emociones <- get_nrc_sentiment(texto_palabras, language = "spanish")
#Las emociones son: alegrÃa, tristeza, ira, miedo, sorpresa, asco, anticipación, confianza
barplot(colSums(prop.table(emociones[,1:8])))
sentimentos <- (emociones$negative*-1)+emociones$positive
simple_plot(sentimentos)
## Nube de Palabras
palabras <- texto_palabras
palabras <- removeWords(palabras,c(stopwords("spanish"),"hacia","habia","habian","hecho"))
wordcloud(words=palabras, min.freq= 2, rot.per= 0, random.order=FALSE)
## Warning in tm_map.SimpleCorpus(corpus, tm::removePunctuation): transformation
## drops documents
## Warning in tm_map.SimpleCorpus(corpus, function(x) tm::removeWords(x,
## tm::stopwords())): transformation drops documents