El reconocimiento óptico de caracteres (OCR) es una tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documentos impresos escaneados, fotografías de texto, archivos PDF o imágenes capturadas con una cámara en datos editables y buscables.
#install.packages("tesseract") # OCR
#install.packages("magick") # OCR
#install.packages("officer") # OCR
#install.packages("pdftools") # OCR
library(tesseract)
library(magick)
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
library(officer)
library(pdftools)
## Using poppler version 23.08.0
#Obtener texto de una imagen PNG
# file.choose()
imagen1 <- image_read("C:\\Carpeta de R\\Imgs\\Poema.png")
tesseract_download("spa")
## [1] "C:\\Users\\esteb\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "LA MARIPOSA\nNacer con la primavera, morir con las rosas,\nnadar en un cielo puro en alas del céfiro,\nacunada en el fondo de flores casi abiertas,\nembriagarse de perfumes, de luz y de azul,\nsacudirse, aún joven, el polen de sus alas,\ncomo un soplo volar a las bóvedas eternas,\néste es el mágico destino de la mariposa.\nSe parece al deseo que nunca reposa,\nacariciando todo sin satisfacerse,\npor fin gira hacia el cielo buscando el placer.\nAlphonse de Lamartine (1790-1869)\n(Antología de poesía delasletas universales\nCátedra, 2013 pág. 575)\n"
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "C:\\Carpeta de R\\imagenlenpdf.docx")
OCR es una herramienta que nos permite hacer más eficientes las operaciones de las empresas, ahorrando costos y tiempo.