#Teoría #El Reconocimiento óptico de caracteres (OCR) es una
tecnología utilizada para convertir diferentes tipos de documentos, como
imágenes, documentos impresos escaneados, fotografías de texto, archivos
PDF o imágenes capturadas de una cámara, en datos editables y
buscables.
#Instalar paquetes y llamar librerías
#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #PNG
library(magick)
#install.packages("officer") #word
library(officer)
#install.packages("pdftools") #pdf
library(pdftools)
#install.packages("purrr")
library(purrr)
#Convertir PDF en PNG
pdf1 <- pdf_convert("C:\\Users\\gamas\\Downloads\\eso3.pdf",dpi = 600) %>%
map(ocr)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!
tesseract_download("spa")
## [1] "C:\\Users\\gamas\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
page1 <- ocr("eso3_1.png", engine = tesseract("spa"))
page2 <- ocr("eso3_2.png", engine = tesseract("spa"))
page3 <- ocr("eso3_3.png", engine = tesseract("spa"))
#Convertir PNG a WORD
doc1 <- read_docx()
doc1 <- doc1 %>%
body_add_par(page1, style = "Normal") %>%
body_add_par(page2, style = "Normal") %>%
body_add_par(page3, style = "Normal") %>%
print(doc1, target = "esoenword.docx")
#Conclusión La empresa puede sacar provecho de convertir imágenes en
PDF para eliminar papeles físicos y tener mayor control de sus
documentos.
LS0tDQp0aXRsZTogIlBERiBhIFBORyINCmF1dGhvcjogIkdhbWFsaWVsIE9zdG9zIC0gQTAxMjc3MDIzIg0KZGF0ZTogIjIwMjQtMDgtMTQiDQpvdXRwdXQ6IA0KICBodG1sX2RvY3VtZW50Og0KICAgIHRvYzogVFJVRQ0KICAgIHRvY19mbG9hdDogVFJVRQ0KICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUNCiAgICB0aGVtZTogY29zbW8NCi0tLQ0KDQojVGVvcsOtYQ0KI0VsIFJlY29ub2NpbWllbnRvIMOzcHRpY28gZGUgY2FyYWN0ZXJlcyAoT0NSKSBlcyB1bmEgdGVjbm9sb2fDrWEgdXRpbGl6YWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgdGlwb3MgZGUgZG9jdW1lbnRvcywgY29tbyBpbcOhZ2VuZXMsIGRvY3VtZW50b3MgaW1wcmVzb3MgZXNjYW5lYWRvcywgZm90b2dyYWbDrWFzIGRlIHRleHRvLCBhcmNoaXZvcyBQREYgbyBpbcOhZ2VuZXMgY2FwdHVyYWRhcyBkZSB1bmEgY8OhbWFyYSwgZW4gZGF0b3MgZWRpdGFibGVzIHkgYnVzY2FibGVzLg0KDQojSW5zdGFsYXIgcGFxdWV0ZXMgeSBsbGFtYXIgbGlicmVyw61hcw0KYGBge3IgbWVzc2FnZT1GQUxTRSwgd2FybmluZz1GQUxTRX0NCiNpbnN0YWxsLnBhY2thZ2VzKCJ0ZXNzZXJhY3QiKSAjT0NSDQpsaWJyYXJ5KHRlc3NlcmFjdCkNCiNpbnN0YWxsLnBhY2thZ2VzKCJtYWdpY2siKSAjUE5HDQpsaWJyYXJ5KG1hZ2ljaykNCiNpbnN0YWxsLnBhY2thZ2VzKCJvZmZpY2VyIikgI3dvcmQNCmxpYnJhcnkob2ZmaWNlcikNCiNpbnN0YWxsLnBhY2thZ2VzKCJwZGZ0b29scyIpICNwZGYNCmxpYnJhcnkocGRmdG9vbHMpDQojaW5zdGFsbC5wYWNrYWdlcygicHVycnIiKQ0KbGlicmFyeShwdXJycikNCmBgYA0KDQojQ29udmVydGlyIFBERiBlbiBQTkcNCmBgYHtyfQ0KcGRmMSA8LSBwZGZfY29udmVydCgiQzpcXFVzZXJzXFxnYW1hc1xcRG93bmxvYWRzXFxlc28zLnBkZiIsZHBpID0gNjAwKSAlPiUgDQptYXAob2NyKQ0KDQp0ZXNzZXJhY3RfZG93bmxvYWQoInNwYSIpDQpwYWdlMSA8LSBvY3IoImVzbzNfMS5wbmciLCBlbmdpbmUgPSB0ZXNzZXJhY3QoInNwYSIpKQ0KcGFnZTIgPC0gb2NyKCJlc28zXzIucG5nIiwgZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkNCnBhZ2UzIDwtIG9jcigiZXNvM18zLnBuZyIsIGVuZ2luZSA9IHRlc3NlcmFjdCgic3BhIikpDQpgYGANCiNDb252ZXJ0aXIgUE5HIGEgV09SRA0KYGBge3J9DQpkb2MxIDwtIHJlYWRfZG9jeCgpDQpkb2MxIDwtIGRvYzEgJT4lDQogIGJvZHlfYWRkX3BhcihwYWdlMSwgc3R5bGUgPSAiTm9ybWFsIikgJT4lDQogIGJvZHlfYWRkX3BhcihwYWdlMiwgc3R5bGUgPSAiTm9ybWFsIikgJT4lDQogIGJvZHlfYWRkX3BhcihwYWdlMywgc3R5bGUgPSAiTm9ybWFsIikgJT4lDQpwcmludChkb2MxLCB0YXJnZXQgPSAiZXNvZW53b3JkLmRvY3giKQ0KYGBgDQoNCiNDb25jbHVzacOzbg0KTGEgZW1wcmVzYSBwdWVkZSBzYWNhciBwcm92ZWNobyBkZSBjb252ZXJ0aXIgaW3DoWdlbmVzIGVuIFBERiBwYXJhIGVsaW1pbmFyIHBhcGVsZXMgZsOtc2ljb3MgeSB0ZW5lciBtYXlvciBjb250cm9sIGRlIHN1cyBkb2N1bWVudG9zLg0KDQo=