Teoria

El reconocimiento óptico de caracteres (ocr) es una tecnologia utilizada para convertir diferentes tipos de documentos, como imagenes, documentos impresos escaneados, fotografias de texto, archivos pdf, o imagenes capturadas con una camara, en datos editables y buscables

Instalar packetes y librerias

library(tesseract)
## Warning: package 'tesseract' was built under R version 4.4.1
library(magick)
## Warning: package 'magick' was built under R version 4.4.1
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
library(officer)
## Warning: package 'officer' was built under R version 4.4.1
library(pdftools)
## Warning: package 'pdftools' was built under R version 4.4.1
## Using poppler version 23.08.0

Obtener texto de una imagen PNG

imagen1 <- image_read("C:\\Users\\eleyva1\\OneDrive - Steelcase Inc\\Documents\\LIT TEC\\carta de amor.jpg")
tesseract_download("spa")
## [1] "C:\\Users\\eleyva1\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "CARTA DE Y ;\nAMOR\na\ncasa\noi\na,\na\nls\nan\ne\nia\no\nroad\nta\ne\no\nbn\npio\ne A E)\nE\n"

Guardar texto en word

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")

Conclusiones

El OCR es una tecnología que nos permite ser mas eficiente las operaciones de las empresas, ahorrando costos en la captura de informacion

LS0tDQp0aXRsZTogIk9DUiBDYXJ0YSBkZSBhbW9yIg0KYXV0aG9yOiAiRWR1YXJkbyBMZXl2YSINCmRhdGU6ICIyMDI0LTA4LTI1Ig0Kb3V0cHV0Og0KICBodG1sX2RvY3VtZW50Og0KICAgIHRvYzogVFJVRQ0KICAgIHRvY19mbG9hdDogVFJVRQ0KICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUNCiAgICB0aGVtZTogZGFyaw0KLS0tDQojIyBUZW9yaWENCg0KRWwgcmVjb25vY2ltaWVudG8gw7NwdGljbyBkZSBjYXJhY3RlcmVzIChvY3IpIGVzIHVuYSB0ZWNub2xvZ2lhIHV0aWxpemFkYSBwYXJhIGNvbnZlcnRpciBkaWZlcmVudGVzIHRpcG9zIGRlIGRvY3VtZW50b3MsIGNvbW8gaW1hZ2VuZXMsIGRvY3VtZW50b3MgaW1wcmVzb3MgZXNjYW5lYWRvcywgZm90b2dyYWZpYXMgZGUgdGV4dG8sIGFyY2hpdm9zIHBkZiwgbyBpbWFnZW5lcyBjYXB0dXJhZGFzIGNvbiB1bmEgY2FtYXJhLCBlbiBkYXRvcyBlZGl0YWJsZXMgeSBidXNjYWJsZXMNCg0KIyMgSW5zdGFsYXIgcGFja2V0ZXMgeSBsaWJyZXJpYXMNCg0KYGBge3J9DQpsaWJyYXJ5KHRlc3NlcmFjdCkNCmxpYnJhcnkobWFnaWNrKQ0KbGlicmFyeShvZmZpY2VyKQ0KbGlicmFyeShwZGZ0b29scykNCmBgYA0KDQojIyBPYnRlbmVyIHRleHRvIGRlIHVuYSBpbWFnZW4gUE5HIA0KDQpgYGB7cn0NCmltYWdlbjEgPC0gaW1hZ2VfcmVhZCgiQzpcXFVzZXJzXFxlbGV5dmExXFxPbmVEcml2ZSAtIFN0ZWVsY2FzZSBJbmNcXERvY3VtZW50c1xcTElUIFRFQ1xcY2FydGEgZGUgYW1vci5qcGciKQ0KdGVzc2VyYWN0X2Rvd25sb2FkKCJzcGEiKQ0KdGV4dG8xIDwtIG9jcihpbWFnZW4xLCBlbmdpbmUgPSB0ZXNzZXJhY3QoInNwYSIpKQ0KdGV4dG8xDQpgYGANCg0KIyMgR3VhcmRhciB0ZXh0byBlbiB3b3JkDQoNCmBgYHtyfQ0KZG9jMSA8LSByZWFkX2RvY3goKQ0KZG9jMSA8LSBkb2MxICU+JSBib2R5X2FkZF9wYXIodGV4dG8xLCBzdHlsZSA9ICJOb3JtYWwiKQ0KYGBgDQoNCg0KYGBge3J9DQpwcmludChkb2MxLCB0YXJnZXQgPSAiaW1hZ2VuMWVucGRmLmRvY3giKQ0KYGBgDQoNCiMjIENvbmNsdXNpb25lcw0KDQpFbCAqKk9DUioqIGVzIHVuYSB0ZWNub2xvZ8OtYSBxdWUgbm9zIHBlcm1pdGUgc2VyIG1hcyBlZmljaWVudGUgbGFzIG9wZXJhY2lvbmVzIGRlIGxhcyBlbXByZXNhcywgYWhvcnJhbmRvIGNvc3RvcyBlbiBsYSBjYXB0dXJhIGRlIGluZm9ybWFjaW9uDQoNCg0K