# Teoria
El Reconocimiento Optico de Caracteres (OCR) es una tecnologia
utilizada para convertir diferentes tipos de documentos, como imagenes,
documentos impresos escaneados, fotografias de texto, archivos PDF, o
imágenes capturadas con una cámara, en datos editables y buscables.
Instalar paquetes y llamar librerias
#install.packages("tesseract")
#install.packages("magick")
#install.packages("officer")
#install.packages("pdftools")
library(tesseract)
## Warning: package 'tesseract' was built under R version 4.4.1
library(magick)
## Warning: package 'magick' was built under R version 4.4.1
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
library(officer)
## Warning: package 'officer' was built under R version 4.4.1
library(pdftools)
## Warning: package 'pdftools' was built under R version 4.4.1
## Using poppler version 23.08.0
Obtener texto de una imagen PNG
# file.choose()
imagen1 <- image_read("C:\\Users\\Cesar\\Desktop\\Universidad\\Portafolio\\disciplina.png")
tesseract_download("spa")
## [1] "C:\\Users\\Cesar\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "DISCIPLINA\nORGANIZACION LIMPIEZA PUNTUALIDAD\nHACERUNA || TENER UN || ENTREGAR cti\nA [lucir | Eran Pro” | serca [ura\npenoientes. [| cana cosa. | weecasie. [| VAYASA (| TIEMPO. [[ ATEMPO.\nLA DISCPLINA TARDE O TEMPRANO VENCERA A LA INTELIGENCIA\n"
Guardar texto en WORD
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")
Conclusiones
El OCR es una tecnologia que nos permite hacer mas
eficientes las operaciones de la empresa, ahorrando costos en la captura
de la informacion.
LS0tDQp0aXRsZTogIk9DUiINCmF1dGhvcjogIkEwMDgzMTkzOCBDZXNhciBWZWdhIg0KZGF0ZTogIjIwMjQtMDgtMTQiDQpvdXRwdXQ6IA0KICBodG1sX2RvY3VtZW50Og0KICAgIHRvYzogVFJVRQ0KICAgIHRvY19mbG9hdDogVFJVRQ0KICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUNCiAgICB0aGVtZTogY29zbW8NCi0tLQ0KDQohW10oQzpcVXNlcnNcQ2VzYXJcRGVza3RvcFxVbml2ZXJzaWRhZFxQb3J0YWZvbGlvXGxpYnJvLmdpZikNCiMgVGVvcmlhDQoNCkVsIFJlY29ub2NpbWllbnRvIE9wdGljbyBkZSBDYXJhY3RlcmVzIChPQ1IpIGVzIHVuYSB0ZWNub2xvZ2lhIHV0aWxpemFkYSBwYXJhIGNvbnZlcnRpciBkaWZlcmVudGVzIHRpcG9zIGRlIGRvY3VtZW50b3MsIGNvbW8gaW1hZ2VuZXMsIGRvY3VtZW50b3MgaW1wcmVzb3MgZXNjYW5lYWRvcywgZm90b2dyYWZpYXMgZGUgdGV4dG8sIGFyY2hpdm9zIFBERiwgbyBpbcOhZ2VuZXMgY2FwdHVyYWRhcyBjb24gdW5hIGPDoW1hcmEsIGVuIGRhdG9zIGVkaXRhYmxlcyB5IGJ1c2NhYmxlcy4gDQoNCiMgSW5zdGFsYXIgcGFxdWV0ZXMgeSBsbGFtYXIgbGlicmVyaWFzDQpgYGB7cn0NCiNpbnN0YWxsLnBhY2thZ2VzKCJ0ZXNzZXJhY3QiKQ0KI2luc3RhbGwucGFja2FnZXMoIm1hZ2ljayIpDQojaW5zdGFsbC5wYWNrYWdlcygib2ZmaWNlciIpDQojaW5zdGFsbC5wYWNrYWdlcygicGRmdG9vbHMiKQ0KbGlicmFyeSh0ZXNzZXJhY3QpDQpsaWJyYXJ5KG1hZ2ljaykNCmxpYnJhcnkob2ZmaWNlcikNCmxpYnJhcnkocGRmdG9vbHMpDQpgYGANCg0KIyBPYnRlbmVyIHRleHRvIGRlIHVuYSBpbWFnZW4gUE5HDQpgYGB7cn0NCiMgZmlsZS5jaG9vc2UoKQ0KaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCJDOlxcVXNlcnNcXENlc2FyXFxEZXNrdG9wXFxVbml2ZXJzaWRhZFxcUG9ydGFmb2xpb1xcZGlzY2lwbGluYS5wbmciKSANCnRlc3NlcmFjdF9kb3dubG9hZCgic3BhIikNCnRleHRvMSA8LSBvY3IoaW1hZ2VuMSwgZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkNCnRleHRvMQ0KYGBgDQojIEd1YXJkYXIgdGV4dG8gZW4gV09SRA0KYGBge3J9DQpkb2MxIDwtIHJlYWRfZG9jeCgpDQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpDQpwcmludChkb2MxLCB0YXJnZXQgPSAiaW1hZ2VuMWVucGRmLmRvY3giKQ0KYGBgDQoNCiMgQ29uY2x1c2lvbmVzIA0KRWwgKipPQ1IqKiBlcyB1bmEgdGVjbm9sb2dpYSBxdWUgbm9zIHBlcm1pdGUgaGFjZXIgbWFzIGVmaWNpZW50ZXMgbGFzIG9wZXJhY2lvbmVzIGRlIGxhIGVtcHJlc2EsIGFob3JyYW5kbyBjb3N0b3MgZW4gbGEgY2FwdHVyYSBkZSBsYSBpbmZvcm1hY2lvbi4gDQo=