Teoria

El reconocimiento óptico de caracteres (OCR) es una tecnología usada para convertir diferentes documentos (imagenes, documentos impresos y escaneados; fotografía de texto, PDF o imágenes de cámara) en datos editables y buscables.

Instalar paquetes y llamar librerías

#install.packages("tesseract")
#install.packages("magick")
#install.packages("officer")
#install.packages("pdftools")
library(tesseract)
library(magick)
library(officer)
library(pdftools)

Obtener texto de una imagen PNG

# file.choose()
imagen1 <- image_read("C:\\Users\\rodio\\Downloads\\disciplina.png")

# Descargar tesseract en español
tesseract_download("spa")
## [1] "C:\\Users\\rodio\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))

texto1
## [1] "La DISCIPLINAS\ny Es elfPuente [ie\nDi Y los Logros e\n$94 EN ES f ; y |\ny SE A ci + UN\nES E > L PES A\n"

Guardar texto en PDF

doc1 <- read_docx()
doc1 <- doc1 %>%
  body_add_par(texto1, style = "Normal")

print(doc1, target = "imagen1_enpdf.docx")

Conclusiones

El OCR es una tecnología que nos permite hacer más eficiente las operaciones de la empresa, ahorrando costos y recursos en la captura de la información. Aunque muchas veces no sea tan efectiva en su nivel básico.

LS0tDQp0aXRsZTogIk9DUiINCmF1dGhvcjogIlJvZHJpZ28gQXJyb3lvIC0gQTAxNzQ3MzgwIg0KZGF0ZTogIjIwMjQtMDgtMTQiDQpvdXRwdXQ6DQogIGh0bWxfZG9jdW1lbnQ6DQogICAgdG9jOiBUUlVFDQogICAgdG9jX2Zsb2F0OiBUUlVFDQogICAgY29kZV9kb3dubG9hZDogVFJVRQ0KICAgIHRoZW1lOiBkYXJrDQotLS0NCg0KIVtdKEM6XFxVc2Vyc1xccm9kaW9cXERvd25sb2Fkc1xcbGlicm8uZ2lmKQ0KDQojIDxzcGFuIHN0eWxlPSJjb2xvcjogd2hpdGU7Ij4gKipUZW9yaWEqKiA8L3NwYW4+DQpFbCByZWNvbm9jaW1pZW50byDDs3B0aWNvIGRlIGNhcmFjdGVyZXMgKE9DUikgZXMgdW5hIHRlY25vbG9nw61hIHVzYWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgZG9jdW1lbnRvcyAoaW1hZ2VuZXMsIGRvY3VtZW50b3MgaW1wcmVzb3MgeSBlc2NhbmVhZG9zOyBmb3RvZ3JhZsOtYSBkZSB0ZXh0bywgUERGIG8gaW3DoWdlbmVzIGRlIGPDoW1hcmEpIGVuIGRhdG9zIGVkaXRhYmxlcyB5IGJ1c2NhYmxlcy4NCg0KDQojIDxzcGFuIHN0eWxlPSJjb2xvcjogd2hpdGU7Ij4gKipJbnN0YWxhciBwYXF1ZXRlcyB5IGxsYW1hciBsaWJyZXLDrWFzKiogPC9zcGFuPg0KYGBge3IgbWVzc2FnZT1GQUxTRSwgd2FybmluZz1GQUxTRX0NCiNpbnN0YWxsLnBhY2thZ2VzKCJ0ZXNzZXJhY3QiKQ0KI2luc3RhbGwucGFja2FnZXMoIm1hZ2ljayIpDQojaW5zdGFsbC5wYWNrYWdlcygib2ZmaWNlciIpDQojaW5zdGFsbC5wYWNrYWdlcygicGRmdG9vbHMiKQ0KbGlicmFyeSh0ZXNzZXJhY3QpDQpsaWJyYXJ5KG1hZ2ljaykNCmxpYnJhcnkob2ZmaWNlcikNCmxpYnJhcnkocGRmdG9vbHMpDQpgYGANCg0KIyA8c3BhbiBzdHlsZT0iY29sb3I6IHdoaXRlOyI+ICoqT2J0ZW5lciB0ZXh0byBkZSB1bmEgaW1hZ2VuIFBORyoqIDwvc3Bhbj4NCmBgYHtyIG1lc3NhZ2U9RkFMU0UsIHdhcm5pbmc9RkFMU0V9DQojIGZpbGUuY2hvb3NlKCkNCmltYWdlbjEgPC0gaW1hZ2VfcmVhZCgiQzpcXFVzZXJzXFxyb2Rpb1xcRG93bmxvYWRzXFxkaXNjaXBsaW5hLnBuZyIpDQoNCiMgRGVzY2FyZ2FyIHRlc3NlcmFjdCBlbiBlc3Bhw7FvbA0KdGVzc2VyYWN0X2Rvd25sb2FkKCJzcGEiKQ0KdGV4dG8xIDwtIG9jcihpbWFnZW4xLCBlbmdpbmUgPSB0ZXNzZXJhY3QoInNwYSIpKQ0KDQp0ZXh0bzENCmBgYA0KDQojIDxzcGFuIHN0eWxlPSJjb2xvcjogd2hpdGU7Ij4gKipHdWFyZGFyIHRleHRvIGVuIFBERioqIDwvc3Bhbj4NCmBgYHtyfQ0KZG9jMSA8LSByZWFkX2RvY3goKQ0KZG9jMSA8LSBkb2MxICU+JQ0KICBib2R5X2FkZF9wYXIodGV4dG8xLCBzdHlsZSA9ICJOb3JtYWwiKQ0KDQpwcmludChkb2MxLCB0YXJnZXQgPSAiaW1hZ2VuMV9lbnBkZi5kb2N4IikNCmBgYA0KDQojIDxzcGFuIHN0eWxlPSJjb2xvcjogd2hpdGU7Ij4gKipDb25jbHVzaW9uZXMqKiA8L3NwYW4+DQpFbCAqKk9DUioqIGVzIHVuYSB0ZWNub2xvZ8OtYSBxdWUgbm9zIHBlcm1pdGUgaGFjZXIgbcOhcyBlZmljaWVudGUgbGFzIG9wZXJhY2lvbmVzIGRlIGxhIGVtcHJlc2EsIGFob3JyYW5kbyBjb3N0b3MgeSByZWN1cnNvcyBlbiBsYSBjYXB0dXJhIGRlIGxhIGluZm9ybWFjacOzbi4gQXVucXVlIG11Y2hhcyB2ZWNlcyBubyBzZWEgdGFuIGVmZWN0aXZhIGVuIHN1IG5pdmVsIGLDoXNpY28uDQo=