
Teoría
El Reocnocimiento óptico de Caracteres (OCR) es una tecnología
utilizada para convertir diferentes tipos de documentos, como imágenes,
documetnos impresos escaneados, fotografías de texto, archivos PDF, o
imágenes capturadas con una cámara, en datos editables y buscables.
Instalar paquetes y llamar librerías
#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #PNG
library(magick)
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
#install.packages("officer") #word
library(officer)
#install.packages("pdftools") #pdf
library(pdftools)
## Using poppler version 23.08.0
Obtener texto de una imagen PNG
# file.choose()
imagen1 <- image_read("https://pbs.twimg.com/media/EAwRyQ5XoAEl9sg.jpg")
tesseract_download("spa")
## [1] "C:\\Users\\naila\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "[ ISC PL] NA —Yokoi Kenji\nEN orcanización\n\nHay un lugar, un tiempo y un espacio para cada cosa, relación, etc.\n\nen la medida que lo respetes estarás organizado.\nve MPIEZA\nEs importante eliminar todo aquello que solo ocupa espacio\n\ny genera una carga, relaciones, contactos, trabajos, pasatiempos, etc.\nE puntuau: DAD\n\nSi te comprometes en llegar a las 5 p.m. entonces, si llegas 5 p.m. ya vas\n\ntarde, si llegas 4:55 p.m. estas justo a la hora, si llegas 4:50 p.m. llegaste\n\npuntual.\n(mayitor01\n"
Guardar texto en WORD
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")
Conclusiones
El OCR es una tecnología que nos permite hacer más
eficiente las operaciones de la empresa, ahorrando costos en la captura
de información.
LS0tDQp0aXRsZTogIk9DUiINCmF1dGhvcjogIk5haWxhIFNhbGluYXMgLSBBMDA4MzI3MDIiDQpkYXRlOiAiMjAyNC0wOC0xNCINCm91dHB1dDoNCiAgaHRtbF9kb2N1bWVudDoNCiAgICB0b2M6IFRSVUUNCiAgICB0b2NfZmxvYXQ6IFRSVUUNCiAgICBjb2RlX2Rvd25sb2FkOiBUUlVFDQogICAgdGhlbWU6IGRhcmsNCi0tLQ0KDQohW10oQzpcXFVzZXJzXFxuYWlsYVxcT25lRHJpdmVcXERvY3VtZW50b3NcXDEgVEVDXFw3TU8gU0VNRVNUUkVcXE0yXFxsaWJyb3MuZ2lmKQ0KDQojIFRlb3LDrWENCkVsIFJlb2Nub2NpbWllbnRvIMOzcHRpY28gZGUgQ2FyYWN0ZXJlcyAoT0NSKSBlcyB1bmEgdGVjbm9sb2fDrWEgdXRpbGl6YWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgdGlwb3MgZGUgZG9jdW1lbnRvcywgY29tbyBpbcOhZ2VuZXMsIGRvY3VtZXRub3MgaW1wcmVzb3MgZXNjYW5lYWRvcywgZm90b2dyYWbDrWFzIGRlIHRleHRvLCBhcmNoaXZvcyBQREYsIG8gaW3DoWdlbmVzIGNhcHR1cmFkYXMgY29uIHVuYSBjw6FtYXJhLCBlbiBkYXRvcyBlZGl0YWJsZXMgeSBidXNjYWJsZXMuDQoNCiMgSW5zdGFsYXIgcGFxdWV0ZXMgeSBsbGFtYXIgbGlicmVyw61hcw0KYGBge3Igd2FybmluZz1GQUxTRX0NCiNpbnN0YWxsLnBhY2thZ2VzKCJ0ZXNzZXJhY3QiKSAjT0NSDQpsaWJyYXJ5KHRlc3NlcmFjdCkNCiNpbnN0YWxsLnBhY2thZ2VzKCJtYWdpY2siKSAjUE5HDQpsaWJyYXJ5KG1hZ2ljaykNCiNpbnN0YWxsLnBhY2thZ2VzKCJvZmZpY2VyIikgI3dvcmQNCmxpYnJhcnkob2ZmaWNlcikNCiNpbnN0YWxsLnBhY2thZ2VzKCJwZGZ0b29scyIpICNwZGYNCmxpYnJhcnkocGRmdG9vbHMpDQpgYGANCg0KIyBPYnRlbmVyIHRleHRvIGRlIHVuYSBpbWFnZW4gUE5HDQpgYGB7cn0NCiMgZmlsZS5jaG9vc2UoKQ0KaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCJodHRwczovL3Bicy50d2ltZy5jb20vbWVkaWEvRUF3UnlRNVhvQUVsOXNnLmpwZyIpDQp0ZXNzZXJhY3RfZG93bmxvYWQoInNwYSIpDQp0ZXh0bzEgPC0gb2NyKGltYWdlbjEsIGVuZ2luZSA9IHRlc3NlcmFjdCgic3BhIikpDQp0ZXh0bzENCmBgYA0KDQojIEd1YXJkYXIgdGV4dG8gZW4gV09SRA0KYGBge3J9DQpkb2MxIDwtIHJlYWRfZG9jeCgpDQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpDQpwcmludChkb2MxLCB0YXJnZXQgPSAiaW1hZ2VuMWVucGRmLmRvY3giKQ0KYGBgDQoNCiMgQ29uY2x1c2lvbmVzDQpFbCAqKk9DUioqIGVzIHVuYSB0ZWNub2xvZ8OtYSBxdWUgbm9zIHBlcm1pdGUgaGFjZXIgbcOhcyBlZmljaWVudGUgbGFzIG9wZXJhY2lvbmVzIGRlIGxhIGVtcHJlc2EsIGFob3JyYW5kbyBjb3N0b3MgZW4gbGEgY2FwdHVyYSBkZSBpbmZvcm1hY2nDs24uDQoNCg==