El reconocimiento óptico de caracteres (OCR) es una tecnologia utilizada para convertir diferentes tipos de documentos, como imagines, documentos impresos escaneados, fotografías de texto, archivos PDF, o imàgines capturadas con una camara en datos editables y buscables
library(tesseract)
library(magick)
## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11
library(officer)
library(pdftools)
## Using poppler version 23.04.0
# file.choose()
imagen1 <- image_read("/Users/constantinomilletxacur/Desktop/Concentracion/Modulo 2/Fotos m2/disciplina.jpeg")
tesseract_download("spa")
## [1] "/Users/constantinomilletxacur/Library/Application Support/tesseract5/tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "DISCIPLINA\n===\nORGANIZACÍON LIMPIEZA PUNTUALIDAD\n\nHacer una || tener un [| enmrecar [| EOPINaR\n\nA lucir | Eran Cero” | serca [[urmao\nPENDIENTES. [| CADACOSA. | mercagte. [| VAYASA [| TEMP. [| ATEMPO,\nLA DISCPLINA TARDE O TEMPRANO VENCERA A LA INTELIGENCIA\n"
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")
El OCR es una tecnología que nos permite hacer más eficiente las operaciones de la empresa, ahorrando costos en la captura de la información.