# Teoría El reconocimiento óptico de caracteres (OCR) es una tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documentos impresos escaneados, fotografías de tecto, archivos pdf, o imágenes capturadas con una cámara, en datos editables y buscables.

Instalar paquetes y llamar librerías

#install.packages("tesseract") # OCR
library(tesseract)
#install.packages("magick") # PNG
library(magick)
## Warning: package 'magick' was built under R version 4.3.3
## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11
#install.packages("officer") # Word
library(officer)
## Warning: package 'officer' was built under R version 4.3.2
#install.packages("pdftools") # pdf
library(pdftools)
## Using poppler version 23.04.0
#install.packages("purrr")
library(purrr)

Obtener texto de una imagen PNG

# file.choose()
pdf1 <- pdf_convert("/Users/yessicaacosta/Downloads/eso3.pdf", dpi=600) %>% map(ocr)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!
imagen1 <- image_read("/Users/yessicaacosta/eso3_1.png")
texto1 <- ocr(imagen1)
imagen2 <- image_read("/Users/yessicaacosta/eso3_2.png")
texto2 <- ocr(imagen2)
imagen3 <- image_read("/Users/yessicaacosta/eso3_3.png")
texto3 <- ocr(imagen3)

Guardar texto en WORD

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
doc1 <- doc1 %>% body_add_par(texto2, style = "Normal")
doc1 <- doc1 %>% body_add_par(texto3, style = "Normal")
print(doc1, target = "Esoenpdf.docx")

Conclusion

El OCR es una tecnología que nos permite hacer más eficientes las operaciones de la empresa, ahorrando costos en la captura de la información.

LS0tCnRpdGxlOiAiT0NSIEVzbyIKYXV0aG9yOiBZZXNzaWNhIEFjb3N0YQpkYXRlOiAiMjAyNC0wOC0xNCIKb3V0cHV0OiAKICBodG1sX2RvY3VtZW50OgogICAgdG9jOiBUUlVFCiAgICB0b2NfZmxvYXQ6IFRSVUUKICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUKICAgIHRoZW1lOiBkYXJrCi0tLQoKCiFbXSgvVXNlcnMveWVzc2ljYWFjb3N0YS9Eb3dubG9hZHMvbGlicm9zLmdpZikKIyAgVGVvcsOtYSAKRWwgcmVjb25vY2ltaWVudG8gw7NwdGljbyBkZSBjYXJhY3RlcmVzIChPQ1IpIGVzIHVuYSB0ZWNub2xvZ8OtYSB1dGlsaXphZGEgcGFyYSBjb252ZXJ0aXIgZGlmZXJlbnRlcyB0aXBvcyBkZSBkb2N1bWVudG9zLCBjb21vIGltw6FnZW5lcywgZG9jdW1lbnRvcyBpbXByZXNvcyBlc2NhbmVhZG9zLCBmb3RvZ3JhZsOtYXMgZGUgdGVjdG8sIGFyY2hpdm9zIHBkZiwgbyBpbcOhZ2VuZXMgY2FwdHVyYWRhcyBjb24gdW5hIGPDoW1hcmEsIGVuIGRhdG9zIGVkaXRhYmxlcyB5IGJ1c2NhYmxlcy4KCiMgIEluc3RhbGFyIHBhcXVldGVzIHkgbGxhbWFyIGxpYnJlcsOtYXMKYGBge3J9CiNpbnN0YWxsLnBhY2thZ2VzKCJ0ZXNzZXJhY3QiKSAjIE9DUgpsaWJyYXJ5KHRlc3NlcmFjdCkKI2luc3RhbGwucGFja2FnZXMoIm1hZ2ljayIpICMgUE5HCmxpYnJhcnkobWFnaWNrKQojaW5zdGFsbC5wYWNrYWdlcygib2ZmaWNlciIpICMgV29yZApsaWJyYXJ5KG9mZmljZXIpCiNpbnN0YWxsLnBhY2thZ2VzKCJwZGZ0b29scyIpICMgcGRmCmxpYnJhcnkocGRmdG9vbHMpCiNpbnN0YWxsLnBhY2thZ2VzKCJwdXJyciIpCmxpYnJhcnkocHVycnIpCmBgYAoKIyAgT2J0ZW5lciB0ZXh0byBkZSB1bmEgaW1hZ2VuIFBORwpgYGB7cn0KIyBmaWxlLmNob29zZSgpCnBkZjEgPC0gcGRmX2NvbnZlcnQoIi9Vc2Vycy95ZXNzaWNhYWNvc3RhL0Rvd25sb2Fkcy9lc28zLnBkZiIsIGRwaT02MDApICU+JSBtYXAob2NyKQoKYGBgCmBgYHtyfQppbWFnZW4xIDwtIGltYWdlX3JlYWQoIi9Vc2Vycy95ZXNzaWNhYWNvc3RhL2VzbzNfMS5wbmciKQp0ZXh0bzEgPC0gb2NyKGltYWdlbjEpCmltYWdlbjIgPC0gaW1hZ2VfcmVhZCgiL1VzZXJzL3llc3NpY2FhY29zdGEvZXNvM18yLnBuZyIpCnRleHRvMiA8LSBvY3IoaW1hZ2VuMikKaW1hZ2VuMyA8LSBpbWFnZV9yZWFkKCIvVXNlcnMveWVzc2ljYWFjb3N0YS9lc28zXzMucG5nIikKdGV4dG8zIDwtIG9jcihpbWFnZW4zKQoKYGBgCgojIEd1YXJkYXIgdGV4dG8gZW4gV09SRApgYGB7cn0KZG9jMSA8LSByZWFkX2RvY3goKQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpCmRvYzEgPC0gZG9jMSAlPiUgYm9keV9hZGRfcGFyKHRleHRvMiwgc3R5bGUgPSAiTm9ybWFsIikKZG9jMSA8LSBkb2MxICU+JSBib2R5X2FkZF9wYXIodGV4dG8zLCBzdHlsZSA9ICJOb3JtYWwiKQpwcmludChkb2MxLCB0YXJnZXQgPSAiRXNvZW5wZGYuZG9jeCIpCmBgYAoKIyBDb25jbHVzaW9uCkVsIE9DUiBlcyB1bmEgdGVjbm9sb2fDrWEgcXVlIG5vcyBwZXJtaXRlIGhhY2VyIG3DoXMgZWZpY2llbnRlcyBsYXMgb3BlcmFjaW9uZXMgZGUgbGEgZW1wcmVzYSwgYWhvcnJhbmRvIGNvc3RvcyBlbiBsYSBjYXB0dXJhIGRlIGxhIGluZm9ybWFjacOzbi4=