
Teoría
El Reconocimiento óptico de Caracteres (OCR) es una tecnología
utilizada para convertir diferentes tipos de documentos, como imágenes,
documentos impresos escaneados fotografías de texto, archivos PDF, o
imágenes capturadas con una cámara, en datos editables y buscables.
Instalar paquetes y llamar librerias
#install.packages ("tesseract")
library(tesseract)
#install.packages("magick")
library(magick)
#install.packages("officer")
library(officer)
#install.packages("pdftools")
library(pdftools)
#Obtener texto de una imagen PNG
#file.choose()
imagen1 <- image_read("/Users/agustingomezperez/Desktop/Inteligencia Artificial/texto.png")
tesseract_download("spa")
## [1] "/Users/agustingomezperez/Library/Application Support/tesseract5/tessdata/spa.traineddata"
texto1 <- ocr(imagen1,engine = tesseract("spa"))
texto1
## [1] "N9 XXXVII 37\nTEXTO 1\nLIGERAMENTE. Á LA LIGERA.\nLigeramente enuncia una simple\nmodificacion del modo con que las\ncosas son ó deben ser. A la ligera\ndesigna una costumbre diferente de\nla que tienen las cosas en el esta-\ndo natural. El adverbio denota una\nparticularidad , y la frase adverbial\nuna singularidad. El primero atri-\nbuye: la ligereza; la otra un carác-\nter, un ayre, una forma de ligere-\nza notable y distintiva. Soldados ar-\nmados ligeramente tienen armas y\n\nNH vestidos que no los cargan. Solda-\ndos armados á la ligera tienen una\narmadura particular que los distin-\ngue.\n"
#Guardar texto en WORD
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")
#Conclusiones
El OCR es una tecnología que nos permite hacer más eficiente las
operaciones de la empresa, ahorrando costos en la captura de la
información.
LS0tCnRpdGxlOiAiSW1hZ2VuZXMgYSB0ZXh0byIKYXV0aG9yOiAiQWd1c3TDrW4gR8OzbWV6IFBlcmV6IEEwMTczMjg5NyIKZGF0ZTogIjIwMjQtMDgtMTQiCm91dHB1dDogCiAgaHRtbF9kb2N1bWVudDoKICAgIHRvYzogVFJVRQogICAgdG9jX2Zsb2F0OiBUUlVFCiAgICBjb2RlX2Rvd25sb2FkOiBUUlVFCiAgICB0aGVtZTogZGFyawotLS0KIVtdKGh0dHBzOi8vbWVkaWEudGVub3IuY29tLzhOb25wM2ZQNk9RQUFBQU0vd29yay10cmF2YWlsLmdpZikKCiMgVGVvcsOtYQoKRWwgUmVjb25vY2ltaWVudG8gw7NwdGljbyBkZSBDYXJhY3RlcmVzIChPQ1IpIGVzIHVuYSB0ZWNub2xvZ8OtYSB1dGlsaXphZGEgcGFyYSBjb252ZXJ0aXIgZGlmZXJlbnRlcyB0aXBvcyBkZSBkb2N1bWVudG9zLCBjb21vIGltw6FnZW5lcywgZG9jdW1lbnRvcyBpbXByZXNvcyBlc2NhbmVhZG9zIGZvdG9ncmFmw61hcyBkZSB0ZXh0bywgYXJjaGl2b3MgUERGLCBvIGltw6FnZW5lcyBjYXB0dXJhZGFzIGNvbiB1bmEgY8OhbWFyYSwgZW4gZGF0b3MgZWRpdGFibGVzIHkgYnVzY2FibGVzLgoKIyBJbnN0YWxhciBwYXF1ZXRlcyB5IGxsYW1hciBsaWJyZXJpYXMKYGBge3IgbWVzc2FnZT1GQUxTRSwgd2FybmluZz1GQUxTRX0KI2luc3RhbGwucGFja2FnZXMgKCJ0ZXNzZXJhY3QiKSAKbGlicmFyeSh0ZXNzZXJhY3QpIAojaW5zdGFsbC5wYWNrYWdlcygibWFnaWNrIikgCmxpYnJhcnkobWFnaWNrKSAKI2luc3RhbGwucGFja2FnZXMoIm9mZmljZXIiKSAKbGlicmFyeShvZmZpY2VyKSAKI2luc3RhbGwucGFja2FnZXMoInBkZnRvb2xzIikgCmxpYnJhcnkocGRmdG9vbHMpCmBgYAoKCiNPYnRlbmVyIHRleHRvIGRlIHVuYSBpbWFnZW4gUE5HCmBgYHtyIHdhcm5pbmc9RkFMU0V9CiNmaWxlLmNob29zZSgpCmltYWdlbjEgPC0gaW1hZ2VfcmVhZCgiL1VzZXJzL2FndXN0aW5nb21lenBlcmV6L0Rlc2t0b3AvSW50ZWxpZ2VuY2lhIEFydGlmaWNpYWwvdGV4dG8ucG5nIikKdGVzc2VyYWN0X2Rvd25sb2FkKCJzcGEiKQp0ZXh0bzEgPC0gb2NyKGltYWdlbjEsZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkKdGV4dG8xCmBgYAoKI0d1YXJkYXIgdGV4dG8gZW4gV09SRApgYGB7cn0KZG9jMSA8LSByZWFkX2RvY3goKQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpCnByaW50KGRvYzEsIHRhcmdldCA9ICJpbWFnZW4xZW5wZGYuZG9jeCIpCmBgYAoKI0NvbmNsdXNpb25lcwoKRWwgT0NSIGVzIHVuYSB0ZWNub2xvZ8OtYSBxdWUgbm9zIHBlcm1pdGUgaGFjZXIgbcOhcyBlZmljaWVudGUgbGFzIG9wZXJhY2lvbmVzIGRlIGxhIGVtcHJlc2EsIGFob3JyYW5kbyBjb3N0b3MgZW4gbGEgY2FwdHVyYSBkZSBsYSBpbmZvcm1hY2nDs24uCg==