1. Teoría

El reconocimiento óptico de caracteres (OCR), es una tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documentos impresos, escaneados, fotografías de texto, archivos PDF, o imágenes capturadas con una cámara, en datos editables y buscables.

2. Instalar paquetes y llamar librerías

#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #PNG
library(magick)
#install.packages("officer") #word
library(officer)
#install.packages("pdftools") #pdf
library(pdftools)
#install.packages("pdftools") #html
library(htmltools)

3. Obtener texto de una imagen PNG

#file.choose()
imagen1 <- image_read("C:/Users/Catalina\\OneDrive - Instituto Tecnologico y de Estudios Superiores de Monterrey/Desktop/R/CartaDeAmor.jpg")
tesseract_download("spa")
## [1] "C:\\Users\\Catalina\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "Hoy quiero confesarte que\ncada segundo que pasa te\namo mucho más y si la vida\nme diera la oportunidad de\nelegir al amor de mi vida,\nte elegiría a ti sin pensarlo\nporque eres mi verdadera\nfelicidad, mi razón de ser\ny mi fuerza para continuar.\nTe adoro mi vida.\n"

4. Guardar texto en WORD

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")

5. Conclusión

El OCR es una tecnología que nos permite hacer más eficiente las operaciones de la empresa, ahorrando costos en la captura de la información.

LS0tDQp0aXRsZTogIk9DUiAtIENhcnRhIGRlIEFtb3IiDQphdXRob3I6ICJDYXRhbGluYSBNaWphcmVzIg0KZGF0ZTogIjIwMjQtMDgtMTQiDQpvdXRwdXQ6IA0KICBodG1sX2RvY3VtZW50Og0KICAgIHRvYzogVFJVRQ0KICAgIHRvY19mbG9hdDogVFJVRQ0KICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUNCiAgICB0aGVtZTogZGFyaw0KLS0tDQoNCiFbXShDOi9Vc2Vycy9DYXRhbGluYS9PbmVEcml2ZSAtIEluc3RpdHV0byBUZWNub2xvZ2ljbyB5IGRlIEVzdHVkaW9zIFN1cGVyaW9yZXMgZGUgTW9udGVycmV5L0Rlc2t0b3AvUi9HSUZTL09DUl9naWYuZ2lmKQ0KDQojIDEuIFRlb3LDrWENCkVsIHJlY29ub2NpbWllbnRvIMOzcHRpY28gZGUgY2FyYWN0ZXJlcyAoT0NSKSwgZXMgdW5hIHRlY25vbG9nw61hIHV0aWxpemFkYSBwYXJhIGNvbnZlcnRpciBkaWZlcmVudGVzIHRpcG9zIGRlIGRvY3VtZW50b3MsIGNvbW8gaW3DoWdlbmVzLCBkb2N1bWVudG9zIGltcHJlc29zLCBlc2NhbmVhZG9zLCBmb3RvZ3JhZsOtYXMgZGUgdGV4dG8sIGFyY2hpdm9zIFBERiwgbyBpbcOhZ2VuZXMgY2FwdHVyYWRhcyBjb24gdW5hIGPDoW1hcmEsIGVuIGRhdG9zIGVkaXRhYmxlcyB5IGJ1c2NhYmxlcy4gDQoNCiMgMi4gSW5zdGFsYXIgcGFxdWV0ZXMgeSBsbGFtYXIgbGlicmVyw61hcw0KYGBge3IgbWVzc2FnZT1GQUxTRSwgd2FybmluZz1GQUxTRSwgcGFnZWQucHJpbnQ9RkFMU0V9DQojaW5zdGFsbC5wYWNrYWdlcygidGVzc2VyYWN0IikgI09DUg0KbGlicmFyeSh0ZXNzZXJhY3QpDQojaW5zdGFsbC5wYWNrYWdlcygibWFnaWNrIikgI1BORw0KbGlicmFyeShtYWdpY2spDQojaW5zdGFsbC5wYWNrYWdlcygib2ZmaWNlciIpICN3b3JkDQpsaWJyYXJ5KG9mZmljZXIpDQojaW5zdGFsbC5wYWNrYWdlcygicGRmdG9vbHMiKSAjcGRmDQpsaWJyYXJ5KHBkZnRvb2xzKQ0KI2luc3RhbGwucGFja2FnZXMoInBkZnRvb2xzIikgI2h0bWwNCmxpYnJhcnkoaHRtbHRvb2xzKQ0KYGBgDQoNCiMgMy4gT2J0ZW5lciB0ZXh0byBkZSB1bmEgaW1hZ2VuIFBORw0KYGBge3J9DQojZmlsZS5jaG9vc2UoKQ0KaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCJDOi9Vc2Vycy9DYXRhbGluYVxcT25lRHJpdmUgLSBJbnN0aXR1dG8gVGVjbm9sb2dpY28geSBkZSBFc3R1ZGlvcyBTdXBlcmlvcmVzIGRlIE1vbnRlcnJleS9EZXNrdG9wL1IvQ2FydGFEZUFtb3IuanBnIikNCnRlc3NlcmFjdF9kb3dubG9hZCgic3BhIikNCnRleHRvMSA8LSBvY3IoaW1hZ2VuMSwgZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkNCnRleHRvMQ0KYGBgDQoNCiMgNC4gR3VhcmRhciB0ZXh0byBlbiBXT1JEDQpgYGB7cn0NCmRvYzEgPC0gcmVhZF9kb2N4KCkNCmRvYzEgPC0gZG9jMSAlPiUgYm9keV9hZGRfcGFyKHRleHRvMSwgc3R5bGUgPSAiTm9ybWFsIikNCnByaW50KGRvYzEsIHRhcmdldCA9ICJpbWFnZW4xZW5wZGYuZG9jeCIpDQpgYGANCg0KIyA1LiBDb25jbHVzacOzbg0KRWwgKipPQ1IqKiBlcyB1bmEgdGVjbm9sb2fDrWEgcXVlIG5vcyBwZXJtaXRlIGhhY2VyIG3DoXMgZWZpY2llbnRlIGxhcyBvcGVyYWNpb25lcyBkZSBsYSBlbXByZXNhLCBhaG9ycmFuZG8gY29zdG9zIGVuIGxhIGNhcHR1cmEgZGUgbGEgaW5mb3JtYWNpw7NuLiANCg0KDQoNCg0KDQoNCg==