
Teoría
El reconocimiento óptico de caracteres (OCR) es una tecnología
utilizada para convertir diferentes tipos de documentos, como imágenes,
documentos impresos escaneados, fotografías de texto, archivos PDF, o
imágenes capturadas con una cámara, en datos editables y buscables.
Instalar paquetes y llamar librerías
#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #PNG
library(magick)
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
#install.packages("officer") #Word
library(officer)
#install.packages("pdftools") #PDF
library(pdftools)
## Using poppler version 23.08.0
Obtener texto de una imagen PNG
#file.choose()
imagen1 <- image_read("C:\\Users\\mari0\\OneDrive\\Documents\\R Studio\\IA con impacto empresarial\\Modulo 2\\BD\\frase.png")
tesseract_download("spa")
## [1] "C:\\Users\\mari0\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "CUANDO TE\nPERMITES\nLO QUE\nMERECES,\nATRAES\n\nLO QUE\nNECESITAS.\n"
Guardar texto en WORD
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")
Conclusión
El OCR es una tecnología que nos permite hacer más
eficientes las operaciones de la empresa, ahorrando costos en la captura
de la información.
LS0tDQp0aXRsZTogIk9DUiINCmF1dGhvcjogIk1hcmlhbmEgUmFtw61yZXogUmFtb3MgLSBBMDExNzQxNTUiDQpkYXRlOiAiMjAyNC0wOC0xNCINCm91dHB1dDogDQogIGh0bWxfZG9jdW1lbnQ6DQogICAgdG9jOiBUUlVFDQogICAgdG9jX2Zsb2F0OiBUUlVFDQogICAgY29kZV9kb3dubG9hZDogVFJVRQ0KICAgIHRoZW1lOiBkYXJrDQotLS0NCg0KIVtdKEM6XFxVc2Vyc1xcbWFyaTBcXE9uZURyaXZlXFxEb2N1bWVudHNcXFIgU3R1ZGlvXFxJQSBjb24gaW1wYWN0byBlbXByZXNhcmlhbFxcTW9kdWxvIDJcXGdpZl9saWJyb3MuZ2lmKQ0KDQojIFRlb3LDrWENCg0KRWwgcmVjb25vY2ltaWVudG8gw7NwdGljbyBkZSBjYXJhY3RlcmVzIChPQ1IpIGVzIHVuYSB0ZWNub2xvZ8OtYSB1dGlsaXphZGEgcGFyYSBjb252ZXJ0aXIgZGlmZXJlbnRlcyB0aXBvcyBkZSBkb2N1bWVudG9zLCBjb21vIGltw6FnZW5lcywgZG9jdW1lbnRvcyBpbXByZXNvcyBlc2NhbmVhZG9zLCBmb3RvZ3JhZsOtYXMgZGUgdGV4dG8sIGFyY2hpdm9zIFBERiwgbyBpbcOhZ2VuZXMgY2FwdHVyYWRhcyBjb24gdW5hIGPDoW1hcmEsIGVuIGRhdG9zIGVkaXRhYmxlcyB5IGJ1c2NhYmxlcy4NCg0KIyBJbnN0YWxhciBwYXF1ZXRlcyB5IGxsYW1hciBsaWJyZXLDrWFzIA0KYGBge3J9DQojaW5zdGFsbC5wYWNrYWdlcygidGVzc2VyYWN0IikgI09DUg0KbGlicmFyeSh0ZXNzZXJhY3QpDQojaW5zdGFsbC5wYWNrYWdlcygibWFnaWNrIikgI1BORw0KbGlicmFyeShtYWdpY2spDQojaW5zdGFsbC5wYWNrYWdlcygib2ZmaWNlciIpICNXb3JkDQpsaWJyYXJ5KG9mZmljZXIpDQojaW5zdGFsbC5wYWNrYWdlcygicGRmdG9vbHMiKSAjUERGDQpsaWJyYXJ5KHBkZnRvb2xzKQ0KYGBgDQoNCg0KIyBPYnRlbmVyIHRleHRvIGRlIHVuYSBpbWFnZW4gUE5HDQpgYGB7cn0NCiNmaWxlLmNob29zZSgpDQoNCmltYWdlbjEgPC0gaW1hZ2VfcmVhZCgiQzpcXFVzZXJzXFxtYXJpMFxcT25lRHJpdmVcXERvY3VtZW50c1xcUiBTdHVkaW9cXElBIGNvbiBpbXBhY3RvIGVtcHJlc2FyaWFsXFxNb2R1bG8gMlxcQkRcXGZyYXNlLnBuZyIpDQp0ZXNzZXJhY3RfZG93bmxvYWQoInNwYSIpDQp0ZXh0bzEgPC0gb2NyKGltYWdlbjEsIGVuZ2luZSA9IHRlc3NlcmFjdCgic3BhIikpDQp0ZXh0bzENCmBgYA0KDQojIEd1YXJkYXIgdGV4dG8gZW4gV09SRA0KYGBge3J9DQpkb2MxIDwtIHJlYWRfZG9jeCgpDQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpDQpwcmludChkb2MxLCB0YXJnZXQgPSAiaW1hZ2VuMWVucGRmLmRvY3giKQ0KYGBgDQoNCiMgQ29uY2x1c2nDs24NCkVsICoqT0NSKiogZXMgdW5hIHRlY25vbG9nw61hIHF1ZSBub3MgcGVybWl0ZSBoYWNlciBtw6FzIGVmaWNpZW50ZXMgbGFzIG9wZXJhY2lvbmVzIGRlIGxhIGVtcHJlc2EsIGFob3JyYW5kbyBjb3N0b3MgZW4gbGEgY2FwdHVyYSBkZSBsYSBpbmZvcm1hY2nDs24uDQo=