Teoria

El reconocimiento óptico de caracteres (OCR) es una tecnologia utilizada para convertir diferentes tipos de documentos, como imagines, documentos impresos escaneados, fotografías de texto, archivos PDF, o imàgines capturadas con una camara en datos editables y buscables

Instalar paquetes y librerias

#install.packages("tesseract")
library(tesseract)
#install.packages("magick")
library(magick)
## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11
#install.packages("officer")
library(officer)
#install.packages("pdftools")
library(pdftools)
## Using poppler version 23.04.0

Obtener texto de una imagen png

imagen1 <- image_read("Desktop/carta.jpg")
tesseract_download("spa")
## [1] "/Users/josereneolea/Library/Application Support/tesseract5/tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "ES le siento muy aforluntada por =\n5 liafperle conocido y porque mo =\n — sigas eligiendo cada dia. res lo ==\nO vts ceros: que e a puedo. ES\nO st Tecno Voy ricas y E\na stoNpre =\n"

Guardar texto en word

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")

Conclusiones

El OCR es una tecnología que nos permite hacer más eficiente las operaciones de la empresa, ahorrando costos en la captura de la información.

LS0tCnRpdGxlOiAiT0NSIENhcnRhIgphdXRob3I6ICJSZW5lIE9sZWEiCmRhdGU6ICIyMDI0LTA4LTI1IgpvdXRwdXQ6IAogIGh0bWxfZG9jdW1lbnQ6CiAgICB0b2M6IFRSVUUKICAgIHRvY19mbG9hdDogVFJVRQogICAgY29kZV9kb3dubG9hZDogVFJVRQogICAgdGhlbWU6IGNlcnVsZWFuCiAgICBoaWdobGlnaHQ6ICJrYXRlIgotLS0KCiMgVGVvcmlhCgpFbCByZWNvbm9jaW1pZW50byDDs3B0aWNvIGRlIGNhcmFjdGVyZXMgKE9DUikgZXMgdW5hIHRlY25vbG9naWEgdXRpbGl6YWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgdGlwb3MgZGUgZG9jdW1lbnRvcywgY29tbyBpbWFnaW5lcywgZG9jdW1lbnRvcyBpbXByZXNvcyBlc2NhbmVhZG9zLCBmb3RvZ3JhZsOtYXMgZGUgdGV4dG8sIGFyY2hpdm9zIFBERiwgbyBpbcOgZ2luZXMgY2FwdHVyYWRhcyBjb24gdW5hIGNhbWFyYSBlbiBkYXRvcyBlZGl0YWJsZXMgeSBidXNjYWJsZXMKCgojIEluc3RhbGFyIHBhcXVldGVzIHkgbGlicmVyaWFzCmBgYHtyfQojaW5zdGFsbC5wYWNrYWdlcygidGVzc2VyYWN0IikKbGlicmFyeSh0ZXNzZXJhY3QpCiNpbnN0YWxsLnBhY2thZ2VzKCJtYWdpY2siKQpsaWJyYXJ5KG1hZ2ljaykKYGBgCgpgYGB7cn0KI2luc3RhbGwucGFja2FnZXMoIm9mZmljZXIiKQpsaWJyYXJ5KG9mZmljZXIpCiNpbnN0YWxsLnBhY2thZ2VzKCJwZGZ0b29scyIpCmxpYnJhcnkocGRmdG9vbHMpCmBgYAoKIyBPYnRlbmVyIHRleHRvIGRlIHVuYSBpbWFnZW4gcG5nCgpgYGB7cn0KaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCJEZXNrdG9wL2NhcnRhLmpwZyIpCnRlc3NlcmFjdF9kb3dubG9hZCgic3BhIikKYGBgCgpgYGB7cn0KdGV4dG8xIDwtIG9jcihpbWFnZW4xLCBlbmdpbmUgPSB0ZXNzZXJhY3QoInNwYSIpKQp0ZXh0bzEKYGBgCgojIEd1YXJkYXIgdGV4dG8gZW4gd29yZApgYGB7cn0KZG9jMSA8LSByZWFkX2RvY3goKQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpCnByaW50KGRvYzEsIHRhcmdldCA9ICJpbWFnZW4xZW5wZGYuZG9jeCIpCgpgYGAKCiMgQ29uY2x1c2lvbmVzCkVsIE9DUiBlcyB1bmEgdGVjbm9sb2fDrWEgcXVlIG5vcyBwZXJtaXRlIGhhY2VyIG3DoXMgZWZpY2llbnRlIGxhcyBvcGVyYWNpb25lcyBkZSBsYSBlbXByZXNhLCBhaG9ycmFuZG8gY29zdG9zIGVuIGxhIGNhcHR1cmEgZGUgbGEgaW5mb3JtYWNpw7NuLgo=