Teoría

El Reconocimiento óptico de Caracteres (OCR) es una tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documentos impresos escaneados fotografías de texto, archivos PDF, o imágenes capturadas con una cámara, en datos editables y buscables.

Instalar paquetes y llamar librerias

#install.packages ("tesseract") 
library(tesseract) 
#install.packages("magick") 
library(magick) 
#install.packages("officer") 
library(officer) 
#install.packages("pdftools") 
library(pdftools)

#Obtener texto de una imagen PNG

#file.choose()
imagen1 <- image_read("/Users/agustingomezperez/Desktop/Inteligencia Artificial/texto.png")
tesseract_download("spa")
## [1] "/Users/agustingomezperez/Library/Application Support/tesseract5/tessdata/spa.traineddata"
texto1 <- ocr(imagen1,engine = tesseract("spa"))
texto1
## [1] "N9 XXXVII 37\nTEXTO 1\nLIGERAMENTE. Á LA LIGERA.\nLigeramente enuncia una simple\nmodificacion del modo con que las\ncosas son ó deben ser. A la ligera\ndesigna una costumbre diferente de\nla que tienen las cosas en el esta-\ndo natural. El adverbio denota una\nparticularidad , y la frase adverbial\nuna singularidad. El primero atri-\nbuye: la ligereza; la otra un carác-\nter, un ayre, una forma de ligere-\nza notable y distintiva. Soldados ar-\nmados ligeramente tienen armas y\n\nNH vestidos que no los cargan. Solda-\ndos armados á la ligera tienen una\narmadura particular que los distin-\ngue.\n"

#Guardar texto en WORD

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")

#Conclusiones

El OCR es una tecnología que nos permite hacer más eficiente las operaciones de la empresa, ahorrando costos en la captura de la información.

LS0tCnRpdGxlOiAiSW1hZ2VuZXMgYSB0ZXh0byIKYXV0aG9yOiAiQWd1c3TDrW4gR8OzbWV6IFBlcmV6IEEwMTczMjg5NyIKZGF0ZTogIjIwMjQtMDgtMTQiCm91dHB1dDogCiAgaHRtbF9kb2N1bWVudDoKICAgIHRvYzogVFJVRQogICAgdG9jX2Zsb2F0OiBUUlVFCiAgICBjb2RlX2Rvd25sb2FkOiBUUlVFCiAgICB0aGVtZTogZGFyawotLS0KIVtdKGh0dHBzOi8vbWVkaWEudGVub3IuY29tLzhOb25wM2ZQNk9RQUFBQU0vd29yay10cmF2YWlsLmdpZikKCiMgVGVvcsOtYQoKRWwgUmVjb25vY2ltaWVudG8gw7NwdGljbyBkZSBDYXJhY3RlcmVzIChPQ1IpIGVzIHVuYSB0ZWNub2xvZ8OtYSB1dGlsaXphZGEgcGFyYSBjb252ZXJ0aXIgZGlmZXJlbnRlcyB0aXBvcyBkZSBkb2N1bWVudG9zLCBjb21vIGltw6FnZW5lcywgZG9jdW1lbnRvcyBpbXByZXNvcyBlc2NhbmVhZG9zIGZvdG9ncmFmw61hcyBkZSB0ZXh0bywgYXJjaGl2b3MgUERGLCBvIGltw6FnZW5lcyBjYXB0dXJhZGFzIGNvbiB1bmEgY8OhbWFyYSwgZW4gZGF0b3MgZWRpdGFibGVzIHkgYnVzY2FibGVzLgoKIyBJbnN0YWxhciBwYXF1ZXRlcyB5IGxsYW1hciBsaWJyZXJpYXMKYGBge3IgbWVzc2FnZT1GQUxTRSwgd2FybmluZz1GQUxTRX0KI2luc3RhbGwucGFja2FnZXMgKCJ0ZXNzZXJhY3QiKSAKbGlicmFyeSh0ZXNzZXJhY3QpIAojaW5zdGFsbC5wYWNrYWdlcygibWFnaWNrIikgCmxpYnJhcnkobWFnaWNrKSAKI2luc3RhbGwucGFja2FnZXMoIm9mZmljZXIiKSAKbGlicmFyeShvZmZpY2VyKSAKI2luc3RhbGwucGFja2FnZXMoInBkZnRvb2xzIikgCmxpYnJhcnkocGRmdG9vbHMpCmBgYAoKCiNPYnRlbmVyIHRleHRvIGRlIHVuYSBpbWFnZW4gUE5HCmBgYHtyIHdhcm5pbmc9RkFMU0V9CiNmaWxlLmNob29zZSgpCmltYWdlbjEgPC0gaW1hZ2VfcmVhZCgiL1VzZXJzL2FndXN0aW5nb21lenBlcmV6L0Rlc2t0b3AvSW50ZWxpZ2VuY2lhIEFydGlmaWNpYWwvdGV4dG8ucG5nIikKdGVzc2VyYWN0X2Rvd25sb2FkKCJzcGEiKQp0ZXh0bzEgPC0gb2NyKGltYWdlbjEsZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkKdGV4dG8xCmBgYAoKI0d1YXJkYXIgdGV4dG8gZW4gV09SRApgYGB7cn0KZG9jMSA8LSByZWFkX2RvY3goKQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpCnByaW50KGRvYzEsIHRhcmdldCA9ICJpbWFnZW4xZW5wZGYuZG9jeCIpCmBgYAoKI0NvbmNsdXNpb25lcwoKRWwgT0NSIGVzIHVuYSB0ZWNub2xvZ8OtYSBxdWUgbm9zIHBlcm1pdGUgaGFjZXIgbcOhcyBlZmljaWVudGUgbGFzIG9wZXJhY2lvbmVzIGRlIGxhIGVtcHJlc2EsIGFob3JyYW5kbyBjb3N0b3MgZW4gbGEgY2FwdHVyYSBkZSBsYSBpbmZvcm1hY2nDs24uCg==