
Teoría
El reconocimiento óptico de caracteres (OCR) es un tecnología
utilizada para convertir diferentes tipos de documentos, como imágenes,
documentos impresos escaneados, fotografías de texto, archivos PDF, o
imágenes capturadas con una cámara, en datos editables y buscables.
Paso 1. Instalar paquetes y librerías
#install.packages ("tesseract") #OCR
library(tesseract)
#install.packages("magick") # PNG
library (magick)
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
#instal1.packages ("officer") #word
library(officer)
#insta11.packages ("pdftools") # pdf
library(pdftools)
## Using poppler version 23.08.0
#insta11.packages ("purrr") # PDF en imagen
library(purrr)
Paso 2. Obtener texto de un PDF
#file.choose()
pdf1 <- pdf_convert("C:\\Users\\valer\\OneDrive\\Escritorio\\IA con impacto empresarial\\RStudio\\Imágenes\\eso3.pdf", dpi = 600)%>% map(ocr)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!
imagen1 <- image_read("C:\\Users\\valer\\OneDrive\\Escritorio\\IA con impacto empresarial\\RStudio\\Imágenes\\eso3_1.png")
texto1 <- ocr(imagen1)
imagen2 <- image_read("C:\\Users\\valer\\OneDrive\\Escritorio\\IA con impacto empresarial\\RStudio\\Imágenes\\eso3_2.png")
texto2 <- ocr(imagen2)
imagen3 <- image_read( "C:\\Users\\valer\\OneDrive\\Escritorio\\IA con impacto empresarial\\RStudio\\Imágenes\\eso3_3.png")
texto3 <- ocr(imagen3)
Paso 3. Guardar texto en WORD
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
doc1 <- doc1 %>% body_add_par(texto2, style = "Normal")
doc1 <- doc1 %>% body_add_par(texto3, style = "Normal")
print(doc1, target = "Esoenword2.docx")
Conclusión
El OCR es una tecnología que nos permite hacer más
eficiente las operaciones de la empresa, ahorrando costos en la captura
de la información.
LS0tDQp0aXRsZTogIk9DUiBFc28iDQphdXRob3I6ICJWYWxlcmlhIE5hbmdvIC0gQTAxMTc0MTA2Ig0KZGF0ZTogIjIwMjQtMDgtMTQiDQpvdXRwdXQ6IA0KICBodG1sX2RvY3VtZW50Og0KICAgIHRvYzogdHJ1ZQ0KICAgIHRvY19mbG9hdDogdHJ1ZQ0KICAgIGNvZGVfZG93bmxvYWQ6IHRydWUgDQogICAgdGhlbWU6IGRhcmsNCi0tLQ0KIVtdKEM6XFVzZXJzXHZhbGVyXE9uZURyaXZlXEVzY3JpdG9yaW9cSUEgY29uIGltcGFjdG8gZW1wcmVzYXJpYWxcUlN0dWRpb1xJbcOhZ2VuZXNcaXQuZ2lmKQ0KDQojIFRlb3LDrWENCkVsIHJlY29ub2NpbWllbnRvIMOzcHRpY28gZGUgY2FyYWN0ZXJlcyAoT0NSKSBlcyB1biB0ZWNub2xvZ8OtYSB1dGlsaXphZGEgcGFyYSBjb252ZXJ0aXIgZGlmZXJlbnRlcyB0aXBvcyBkZSBkb2N1bWVudG9zLCBjb21vIGltw6FnZW5lcywgZG9jdW1lbnRvcyBpbXByZXNvcyBlc2NhbmVhZG9zLCBmb3RvZ3JhZsOtYXMgZGUgdGV4dG8sIGFyY2hpdm9zIFBERiwgbyBpbcOhZ2VuZXMgY2FwdHVyYWRhcyBjb24gdW5hIGPDoW1hcmEsIGVuIGRhdG9zIGVkaXRhYmxlcyB5IGJ1c2NhYmxlcy4NCg0KIyBQYXNvIDEuIEluc3RhbGFyIHBhcXVldGVzIHkgbGlicmVyw61hcw0KYGBge3J9DQojaW5zdGFsbC5wYWNrYWdlcyAoInRlc3NlcmFjdCIpICNPQ1INCmxpYnJhcnkodGVzc2VyYWN0KQ0KI2luc3RhbGwucGFja2FnZXMoIm1hZ2ljayIpICMgUE5HDQpsaWJyYXJ5IChtYWdpY2spDQojaW5zdGFsMS5wYWNrYWdlcyAoIm9mZmljZXIiKSAjd29yZA0KbGlicmFyeShvZmZpY2VyKQ0KI2luc3RhMTEucGFja2FnZXMgKCJwZGZ0b29scyIpICMgcGRmDQpsaWJyYXJ5KHBkZnRvb2xzKQ0KI2luc3RhMTEucGFja2FnZXMgKCJwdXJyciIpICMgUERGIGVuIGltYWdlbiANCmxpYnJhcnkocHVycnIpDQpgYGANCg0KDQojIFBhc28gMi4gT2J0ZW5lciB0ZXh0byBkZSB1biBQREYNCmBgYHtyfQ0KI2ZpbGUuY2hvb3NlKCkNCnBkZjEgPC0gcGRmX2NvbnZlcnQoIkM6XFxVc2Vyc1xcdmFsZXJcXE9uZURyaXZlXFxFc2NyaXRvcmlvXFxJQSBjb24gaW1wYWN0byBlbXByZXNhcmlhbFxcUlN0dWRpb1xcSW3DoWdlbmVzXFxlc28zLnBkZiIsIGRwaSA9IDYwMCklPiUgbWFwKG9jcikNCg0KaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCJDOlxcVXNlcnNcXHZhbGVyXFxPbmVEcml2ZVxcRXNjcml0b3Jpb1xcSUEgY29uIGltcGFjdG8gZW1wcmVzYXJpYWxcXFJTdHVkaW9cXEltw6FnZW5lc1xcZXNvM18xLnBuZyIpDQp0ZXh0bzEgPC0gb2NyKGltYWdlbjEpDQppbWFnZW4yIDwtIGltYWdlX3JlYWQoIkM6XFxVc2Vyc1xcdmFsZXJcXE9uZURyaXZlXFxFc2NyaXRvcmlvXFxJQSBjb24gaW1wYWN0byBlbXByZXNhcmlhbFxcUlN0dWRpb1xcSW3DoWdlbmVzXFxlc28zXzIucG5nIikNCnRleHRvMiA8LSBvY3IoaW1hZ2VuMikNCmltYWdlbjMgPC0gaW1hZ2VfcmVhZCggIkM6XFxVc2Vyc1xcdmFsZXJcXE9uZURyaXZlXFxFc2NyaXRvcmlvXFxJQSBjb24gaW1wYWN0byBlbXByZXNhcmlhbFxcUlN0dWRpb1xcSW3DoWdlbmVzXFxlc28zXzMucG5nIikNCnRleHRvMyA8LSBvY3IoaW1hZ2VuMykNCg0KYGBgDQoNCg0KIyBQYXNvIDMuIEd1YXJkYXIgdGV4dG8gZW4gV09SRA0KYGBge3J9DQpkb2MxIDwtIHJlYWRfZG9jeCgpDQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpDQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzIsIHN0eWxlID0gIk5vcm1hbCIpDQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzMsIHN0eWxlID0gIk5vcm1hbCIpDQoNCnByaW50KGRvYzEsIHRhcmdldCA9ICJFc29lbndvcmQyLmRvY3giKQ0KYGBgDQoNCg0KIyBDb25jbHVzacOzbg0KRWwgKipPQ1IqKiBlcyB1bmEgdGVjbm9sb2fDrWEgcXVlIG5vcyBwZXJtaXRlIGhhY2VyIG3DoXMgZWZpY2llbnRlIGxhcyBvcGVyYWNpb25lcyBkZSBsYSBlbXByZXNhLCBhaG9ycmFuZG8gY29zdG9zIGVuIGxhIGNhcHR1cmEgZGUgbGEgaW5mb3JtYWNpw7NuLiANCg0KDQoNCg0KDQoNCg0KDQo=