Teoría

El Reocnocimiento óptico de Caracteres (OCR) es una tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documetnos impresos escaneados, fotografías de texto, archivos PDF, o imágenes capturadas con una cámara, en datos editables y buscables.

Instalar paquetes y llamar librerías

#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #PNG
library(magick)
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
#install.packages("officer") #word
library(officer)
#install.packages("pdftools") #pdf
library(pdftools)
## Using poppler version 23.08.0

Obtener texto de una imagen PNG

# file.choose()
imagen1 <- image_read("https://pbs.twimg.com/media/EAwRyQ5XoAEl9sg.jpg")
tesseract_download("spa")
## [1] "C:\\Users\\naila\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "[ ISC PL] NA —Yokoi Kenji\nEN orcanización\n\nHay un lugar, un tiempo y un espacio para cada cosa, relación, etc.\n\nen la medida que lo respetes estarás organizado.\nve MPIEZA\nEs importante eliminar todo aquello que solo ocupa espacio\n\ny genera una carga, relaciones, contactos, trabajos, pasatiempos, etc.\nE puntuau: DAD\n\nSi te comprometes en llegar a las 5 p.m. entonces, si llegas 5 p.m. ya vas\n\ntarde, si llegas 4:55 p.m. estas justo a la hora, si llegas 4:50 p.m. llegaste\n\npuntual.\n(mayitor01\n"

Guardar texto en WORD

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")

Conclusiones

El OCR es una tecnología que nos permite hacer más eficiente las operaciones de la empresa, ahorrando costos en la captura de información.

LS0tDQp0aXRsZTogIk9DUiINCmF1dGhvcjogIk5haWxhIFNhbGluYXMgLSBBMDA4MzI3MDIiDQpkYXRlOiAiMjAyNC0wOC0xNCINCm91dHB1dDoNCiAgaHRtbF9kb2N1bWVudDoNCiAgICB0b2M6IFRSVUUNCiAgICB0b2NfZmxvYXQ6IFRSVUUNCiAgICBjb2RlX2Rvd25sb2FkOiBUUlVFDQogICAgdGhlbWU6IGRhcmsNCi0tLQ0KDQohW10oQzpcXFVzZXJzXFxuYWlsYVxcT25lRHJpdmVcXERvY3VtZW50b3NcXDEgVEVDXFw3TU8gU0VNRVNUUkVcXE0yXFxsaWJyb3MuZ2lmKQ0KDQojIFRlb3LDrWENCkVsIFJlb2Nub2NpbWllbnRvIMOzcHRpY28gZGUgQ2FyYWN0ZXJlcyAoT0NSKSBlcyB1bmEgdGVjbm9sb2fDrWEgdXRpbGl6YWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgdGlwb3MgZGUgZG9jdW1lbnRvcywgY29tbyBpbcOhZ2VuZXMsIGRvY3VtZXRub3MgaW1wcmVzb3MgZXNjYW5lYWRvcywgZm90b2dyYWbDrWFzIGRlIHRleHRvLCBhcmNoaXZvcyBQREYsIG8gaW3DoWdlbmVzIGNhcHR1cmFkYXMgY29uIHVuYSBjw6FtYXJhLCBlbiBkYXRvcyBlZGl0YWJsZXMgeSBidXNjYWJsZXMuDQoNCiMgSW5zdGFsYXIgcGFxdWV0ZXMgeSBsbGFtYXIgbGlicmVyw61hcw0KYGBge3Igd2FybmluZz1GQUxTRX0NCiNpbnN0YWxsLnBhY2thZ2VzKCJ0ZXNzZXJhY3QiKSAjT0NSDQpsaWJyYXJ5KHRlc3NlcmFjdCkNCiNpbnN0YWxsLnBhY2thZ2VzKCJtYWdpY2siKSAjUE5HDQpsaWJyYXJ5KG1hZ2ljaykNCiNpbnN0YWxsLnBhY2thZ2VzKCJvZmZpY2VyIikgI3dvcmQNCmxpYnJhcnkob2ZmaWNlcikNCiNpbnN0YWxsLnBhY2thZ2VzKCJwZGZ0b29scyIpICNwZGYNCmxpYnJhcnkocGRmdG9vbHMpDQpgYGANCg0KIyBPYnRlbmVyIHRleHRvIGRlIHVuYSBpbWFnZW4gUE5HDQpgYGB7cn0NCiMgZmlsZS5jaG9vc2UoKQ0KaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCJodHRwczovL3Bicy50d2ltZy5jb20vbWVkaWEvRUF3UnlRNVhvQUVsOXNnLmpwZyIpDQp0ZXNzZXJhY3RfZG93bmxvYWQoInNwYSIpDQp0ZXh0bzEgPC0gb2NyKGltYWdlbjEsIGVuZ2luZSA9IHRlc3NlcmFjdCgic3BhIikpDQp0ZXh0bzENCmBgYA0KDQojIEd1YXJkYXIgdGV4dG8gZW4gV09SRA0KYGBge3J9DQpkb2MxIDwtIHJlYWRfZG9jeCgpDQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpDQpwcmludChkb2MxLCB0YXJnZXQgPSAiaW1hZ2VuMWVucGRmLmRvY3giKQ0KYGBgDQoNCiMgQ29uY2x1c2lvbmVzDQpFbCAqKk9DUioqIGVzIHVuYSB0ZWNub2xvZ8OtYSBxdWUgbm9zIHBlcm1pdGUgaGFjZXIgbcOhcyBlZmljaWVudGUgbGFzIG9wZXJhY2lvbmVzIGRlIGxhIGVtcHJlc2EsIGFob3JyYW5kbyBjb3N0b3MgZW4gbGEgY2FwdHVyYSBkZSBpbmZvcm1hY2nDs24uDQoNCg==