Teoría

El reconocimiento óptico de caracteres (OCR) es un tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documentos impresos escaneados, fotografías de texto, archivos PDF, o imágenes capturadas con una cámara, en datos editables y buscables.

Paso 1.Instalar paquetes y librerías

#install.packages ("tesseract") #OCR
library(tesseract)
#install.packages("magick") # PNG
library (magick)
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
#instal1.packages ("officer") #word
library(officer)
#insta11.packages ("pdftools") # pdf
library(pdftools)
## Using poppler version 23.08.0

Paso 2. Obtener texto de una imagen PNG

#file.choose()
imagen1 <- image_read("C:\\Users\\valer\\OneDrive\\Escritorio\\IA con impacto empresarial\\RStudio\\Imágenes\\cartadeamor.png")
tesseract_download("spa")
## [1] "C:\\Users\\valer\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "Mi amor se amplía.\nEs un paracaídas\nperfecto.\nALEJANDRA PIZARNIK\nur\n"

Paso 3. Guardar texto en WORD

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")

Conclusión

El OCR es una tecnología que nos permite hacer más eficiente las operaciones de la empresa, ahorrando costos en la captura de la información.

LS0tDQp0aXRsZTogJzxzcGFuIHN0eWxlPSJjb2xvcjogcmVkOyI+T0NSIC0gQ2FydGEgZGUgQW1vcjwvc3Bhbj4nDQphdXRob3I6ICJWYWxlcmlhIE5hbmdvIC0gQTAxMTc0MTA2Ig0KZGF0ZTogIjIwMjQtMDgtMTQiDQpvdXRwdXQ6IA0KICBodG1sX2RvY3VtZW50Og0KICAgIHRvYzogdHJ1ZQ0KICAgIHRvY19mbG9hdDogdHJ1ZQ0KICAgIGNvZGVfZG93bmxvYWQ6IHRydWUgDQogICAgdGhlbWU6IHNpbXBsZXgNCi0tLQ0KIVtdKEM6XFxVc2Vyc1xcdmFsZXJcXE9uZURyaXZlXFxFc2NyaXRvcmlvXFxJQSBjb24gaW1wYWN0byBlbXByZXNhcmlhbFxcUlN0dWRpb1xcSW3DoWdlbmVzXFxib29rLmdpZikNCg0KIyA8c3BhbiBzdHlsZT0iY29sb3I6IHJlZDsiPiBUZW9yw61hDQpFbCByZWNvbm9jaW1pZW50byDDs3B0aWNvIGRlIGNhcmFjdGVyZXMgKE9DUikgZXMgdW4gdGVjbm9sb2fDrWEgdXRpbGl6YWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgdGlwb3MgZGUgZG9jdW1lbnRvcywgY29tbyBpbcOhZ2VuZXMsIGRvY3VtZW50b3MgaW1wcmVzb3MgZXNjYW5lYWRvcywgZm90b2dyYWbDrWFzIGRlIHRleHRvLCBhcmNoaXZvcyBQREYsIG8gaW3DoWdlbmVzIGNhcHR1cmFkYXMgY29uIHVuYSBjw6FtYXJhLCBlbiBkYXRvcyBlZGl0YWJsZXMgeSBidXNjYWJsZXMuDQoNCiMgIDxzcGFuIHN0eWxlPSJjb2xvcjogcmVkOyI+UGFzbyAxLkluc3RhbGFyIHBhcXVldGVzIHkgbGlicmVyw61hcw0KYGBge3J9DQojaW5zdGFsbC5wYWNrYWdlcyAoInRlc3NlcmFjdCIpICNPQ1INCmxpYnJhcnkodGVzc2VyYWN0KQ0KI2luc3RhbGwucGFja2FnZXMoIm1hZ2ljayIpICMgUE5HDQpsaWJyYXJ5IChtYWdpY2spDQojaW5zdGFsMS5wYWNrYWdlcyAoIm9mZmljZXIiKSAjd29yZA0KbGlicmFyeShvZmZpY2VyKQ0KI2luc3RhMTEucGFja2FnZXMgKCJwZGZ0b29scyIpICMgcGRmDQpsaWJyYXJ5KHBkZnRvb2xzKQ0KYGBgDQoNCg0KIyA8c3BhbiBzdHlsZT0iY29sb3I6IHJlZDsiPlBhc28gMi4gT2J0ZW5lciB0ZXh0byBkZSB1bmEgaW1hZ2VuIFBORw0KYGBge3J9DQojZmlsZS5jaG9vc2UoKQ0KaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCJDOlxcVXNlcnNcXHZhbGVyXFxPbmVEcml2ZVxcRXNjcml0b3Jpb1xcSUEgY29uIGltcGFjdG8gZW1wcmVzYXJpYWxcXFJTdHVkaW9cXEltw6FnZW5lc1xcY2FydGFkZWFtb3IucG5nIikNCnRlc3NlcmFjdF9kb3dubG9hZCgic3BhIikNCnRleHRvMSA8LSBvY3IoaW1hZ2VuMSwgZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkNCnRleHRvMQ0KYGBgDQoNCg0KIyA8c3BhbiBzdHlsZT0iY29sb3I6IHJlZDsiPiBQYXNvIDMuIEd1YXJkYXIgdGV4dG8gZW4gV09SRA0KYGBge3J9DQpkb2MxIDwtIHJlYWRfZG9jeCgpDQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpDQpwcmludChkb2MxLCB0YXJnZXQgPSAiaW1hZ2VuMWVucGRmLmRvY3giKQ0KYGBgDQoNCg0KIyA8c3BhbiBzdHlsZT0iY29sb3I6IHJlZDsiPiBDb25jbHVzacOzbg0KRWwgKipPQ1IqKiBlcyB1bmEgdGVjbm9sb2fDrWEgcXVlIG5vcyBwZXJtaXRlIGhhY2VyIG3DoXMgZWZpY2llbnRlIGxhcyBvcGVyYWNpb25lcyBkZSBsYSBlbXByZXNhLCBhaG9ycmFuZG8gY29zdG9zIGVuIGxhIGNhcHR1cmEgZGUgbGEgaW5mb3JtYWNpw7NuLiANCg0KDQoNCg0KDQoNCg0KDQo=