
Teoria
El reconocimiento óptico de caracteres (OCR) es una tecnologia
utilizada para convertir diferentes tipos de documentos, como imagines,
documentos impresos escaneados, fotografías de texto, archivos PDF, o
imàgines capturadas con una camara en datos editables y buscables
Instalar paquetes y librerias
# install.packages("tesseract") # OCR
# install.packages("magick") # PNG
# install.packages("officer") # word
# install.packages("pdftools") #pdf
library(tesseract)
library(magick)
## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11
library(officer)
library(pdftools)
## Using poppler version 23.04.0
Obtener texto de una imagen
imagen1 <- image_read("/Users/pedrovillanueva/Desktop/1.png")
tesseract_download("spa")
## [1] "/Users/pedrovillanueva/Library/Application Support/tesseract5/tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
Guardar texto en word
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style="Normal")
print(doc1 ,target = "imagen1en.docx")
Conclusioens
EL OCR es una tecnologia que nos permite hacer mas
eficiente las operaciones de la empresa, ahorrando costos en la camputra
de la información.
LS0tCnRpdGxlOiAiT0NSIgphdXRob3I6ICJQZWRybyBWaWxsYW51ZXZhIEZlcm7DoW5kZXogLSBBMDExOTc5OTMiCmRhdGU6ICIyMDI0LTA4LTE0IgpvdXRwdXQ6IAogIGh0bWxfZG9jdW1lbnQ6CiAgICB0b2M6IFRSVUUgCiAgICB0b2NfZmxvYXQ6IFRSVUUKICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUgCiAgICB0aGVtZTogZGFyawotLS0KCiFbXSgvVXNlcnMvcGVkcm92aWxsYW51ZXZhL0Rlc2t0b3AvUGVyc29uYWwvZm90b3BvcnRhZGEuanBlZykKCiMgVGVvcmlhIApFbCByZWNvbm9jaW1pZW50byDDs3B0aWNvIGRlIGNhcmFjdGVyZXMgKE9DUikgZXMgdW5hIHRlY25vbG9naWEgdXRpbGl6YWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgdGlwb3MgZGUgZG9jdW1lbnRvcywgY29tbyBpbWFnaW5lcywgZG9jdW1lbnRvcyBpbXByZXNvcyBlc2NhbmVhZG9zLCBmb3RvZ3JhZsOtYXMgZGUgdGV4dG8sIGFyY2hpdm9zIFBERiwgbyBpbcOgZ2luZXMgY2FwdHVyYWRhcyBjb24gdW5hIGNhbWFyYSBlbiBkYXRvcyBlZGl0YWJsZXMgeSBidXNjYWJsZXMKCiMgSW5zdGFsYXIgcGFxdWV0ZXMgeSBsaWJyZXJpYXMgCmBgYHtyfQojIGluc3RhbGwucGFja2FnZXMoInRlc3NlcmFjdCIpICMgT0NSIAojIGluc3RhbGwucGFja2FnZXMoIm1hZ2ljayIpICMgUE5HCiMgaW5zdGFsbC5wYWNrYWdlcygib2ZmaWNlciIpICMgd29yZAojIGluc3RhbGwucGFja2FnZXMoInBkZnRvb2xzIikgI3BkZgoKbGlicmFyeSh0ZXNzZXJhY3QpCmxpYnJhcnkobWFnaWNrKQpsaWJyYXJ5KG9mZmljZXIpCmxpYnJhcnkocGRmdG9vbHMpCmBgYAoKIyBPYnRlbmVyIHRleHRvIGRlIHVuYSBpbWFnZW4gCmBgYHtyfQppbWFnZW4xIDwtIGltYWdlX3JlYWQoIi9Vc2Vycy9wZWRyb3ZpbGxhbnVldmEvRGVza3RvcC8xLnBuZyIpCnRlc3NlcmFjdF9kb3dubG9hZCgic3BhIikKdGV4dG8xIDwtIG9jcihpbWFnZW4xLCBlbmdpbmUgPSB0ZXNzZXJhY3QoInNwYSIpKQpgYGAKIyBHdWFyZGFyIHRleHRvIGVuIHdvcmQKYGBge3J9CmRvYzEgPC0gcmVhZF9kb2N4KCkKZG9jMSA8LSBkb2MxICU+JSBib2R5X2FkZF9wYXIodGV4dG8xLCBzdHlsZT0iTm9ybWFsIikKcHJpbnQoZG9jMSAsdGFyZ2V0ID0gImltYWdlbjFlbi5kb2N4IikKYGBgCgojIENvbmNsdXNpb2VucyAKRUwgKipPQ1IqKiBlcyB1bmEgdGVjbm9sb2dpYSBxdWUgbm9zIHBlcm1pdGUgaGFjZXIgbWFzIGVmaWNpZW50ZSBsYXMgb3BlcmFjaW9uZXMgZGUgbGEgZW1wcmVzYSwgYWhvcnJhbmRvIGNvc3RvcyBlbiBsYSBjYW1wdXRyYSBkZSBsYSBpbmZvcm1hY2nDs24uIAo=