El Reconocimiento óptico de Caracteres (OCR) es una tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documentos impresos escaneados, fotografías de texto, archivos PDF, o imágenes capturadas con una cámara, en datos editables y buscables.
#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #PNG
library(magick)
## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11
#install.packages("officer") #word
library(officer)
#install.packages("pdftools") #pdf
library(pdftools)
## Using poppler version 23.04.0
#file.choose()
imagen1 <- image_read("/Users/monicagonzalez/Downloads/poemas-cortos-en-espanol_4eadd2ed_230216164554_1280x930.jpg")
tesseract_download("spa")
## [1] "/Users/monicagonzalez/Library/Application Support/tesseract5/tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "En ti pensaba, en tus cabellos\nque el mundo de la sombra envidiaria,\ny puse un punto de mi vida en ellos\ny quise yo soñar que tú eras mia.\nEn ti pensaba' de José Martí (1853-1895\nCLARA\n"
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target ="image1enpdf.docx")
El OCR es una tecnología que nos permite hacer eficientes múltiples procesos de captura de información que se encuentras en distintos formatos como por ejemplo imágenes, y esto a su vez nos ayuda a disminuir errores y aumentar la productividad.