
Teoría
El Reconocimiento Óptico de Caracteres (OCR) es una tecnología
utilizada para convertir diferentes tipos de documentos, como imágenes,
documentos impresos escaneados, fotografías de texto, archivos PDF, o
imágenes capturadas con una cámara, en datos editables y buscables.
Instalar paquetes y llamar librerías
#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #PNG
library(magick)
#install.packages("officer") #word
library(officer)
#install.packages("pdftools") #pdf
library(pdftools)
Obtener texto de una imagen PNG
imagen1 <- image_read("https://i.pinimg.com/originals/35/0c/7f/350c7fc0e2662306508600126c406422.jpg")
imagen1

#tesseract_download("spa")
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "Eres mi único amor.\nMe tienes completamente en tu poder.\nSé y siento que si en el futuro tengo que\nescribir algo bueno y noble, lo haré\nsolamente oyendo las puertas de tu corazón.\nMe gustaría que mi vida transcurriera a tu\nlado, hasta que nos convirtamos en un\nmismo ser que morirá cuando llegue\nel momento.\n\ncompartirme\n"
Guardar texto en WORD
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")
Conclusión
El OCR es una tecnología que nos permite hacer más
eficiente las operaciones de la empresa, ahorrando costos en la captura
de la información.
LS0tDQp0aXRsZTogIk9DUiAtIENhcnRhIGRlIEFtb3IiDQphdXRob3I6ICJEYW5pZWwgRmFyw61hcyAtIEEwMTIzNjMyNyINCmRhdGU6ICIyMDI0LTA4LTE0Ig0Kb3V0cHV0OiANCiAgaHRtbF9kb2N1bWVudDoNCiAgICB0b2M6IFRSVUUNCiAgICB0b2NfZmxvYXQ6IFRSVUUNCiAgICBjb2RlX2Rvd25sb2FkOiBUUlVFDQogICAgdGhlbWU6IGNvc21vDQotLS0NCg0KIVtdKGh0dHBzOi8vbWVkaWExLnRlbm9yLmNvbS9tLzBfRTMxZmNBLUU4QUFBQUMvaGVybWlvbmUtaGFycnktcG90dGVyLmdpZikNCg0KIyBUZW9yw61hDQpFbCBSZWNvbm9jaW1pZW50byDDk3B0aWNvIGRlIENhcmFjdGVyZXMgKE9DUikgZXMgdW5hIHRlY25vbG9nw61hIHV0aWxpemFkYSBwYXJhIGNvbnZlcnRpciBkaWZlcmVudGVzIHRpcG9zIGRlIGRvY3VtZW50b3MsIGNvbW8gaW3DoWdlbmVzLCBkb2N1bWVudG9zIGltcHJlc29zIGVzY2FuZWFkb3MsIGZvdG9ncmFmw61hcyBkZSB0ZXh0bywgYXJjaGl2b3MgUERGLCBvIGltw6FnZW5lcyBjYXB0dXJhZGFzIGNvbiB1bmEgY8OhbWFyYSwgZW4gZGF0b3MgZWRpdGFibGVzIHkgYnVzY2FibGVzLg0KDQojIEluc3RhbGFyIHBhcXVldGVzIHkgbGxhbWFyIGxpYnJlcsOtYXMNCg0KYGBge3IgbWVzc2FnZT1GQUxTRSwgd2FybmluZz1GQUxTRX0NCiNpbnN0YWxsLnBhY2thZ2VzKCJ0ZXNzZXJhY3QiKSAjT0NSDQpsaWJyYXJ5KHRlc3NlcmFjdCkNCiNpbnN0YWxsLnBhY2thZ2VzKCJtYWdpY2siKSAjUE5HDQpsaWJyYXJ5KG1hZ2ljaykNCiNpbnN0YWxsLnBhY2thZ2VzKCJvZmZpY2VyIikgI3dvcmQNCmxpYnJhcnkob2ZmaWNlcikNCiNpbnN0YWxsLnBhY2thZ2VzKCJwZGZ0b29scyIpICNwZGYNCmxpYnJhcnkocGRmdG9vbHMpDQpgYGANCg0KDQojIE9idGVuZXIgdGV4dG8gZGUgdW5hIGltYWdlbiBQTkcNCmBgYHtyfQ0KaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCJodHRwczovL2kucGluaW1nLmNvbS9vcmlnaW5hbHMvMzUvMGMvN2YvMzUwYzdmYzBlMjY2MjMwNjUwODYwMDEyNmM0MDY0MjIuanBnIikNCmltYWdlbjENCiN0ZXNzZXJhY3RfZG93bmxvYWQoInNwYSIpDQp0ZXh0bzEgPC0gb2NyKGltYWdlbjEsIGVuZ2luZSA9IHRlc3NlcmFjdCgic3BhIikpDQp0ZXh0bzENCmBgYA0KDQojIEd1YXJkYXIgdGV4dG8gZW4gV09SRA0KYGBge3J9DQpkb2MxIDwtIHJlYWRfZG9jeCgpDQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpDQpwcmludChkb2MxLCB0YXJnZXQgPSAiaW1hZ2VuMWVucGRmLmRvY3giKQ0KYGBgDQoNCiMgQ29uY2x1c2nDs24NCkVsICoqT0NSKiogZXMgdW5hIHRlY25vbG9nw61hIHF1ZSBub3MgcGVybWl0ZSBoYWNlciBtw6FzIGVmaWNpZW50ZSBsYXMgb3BlcmFjaW9uZXMgZGUgbGEgZW1wcmVzYSwgYWhvcnJhbmRvIGNvc3RvcyBlbiBsYSBjYXB0dXJhIGRlIGxhIGluZm9ybWFjacOzbi4=