#Teoría #El Reconocimiento óptico de caracteres (OCR) es una tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documentos impresos escaneados, fotografías de texto, archivos PDF o imágenes capturadas de una cámara, en datos editables y buscables.

#Instalar paquetes y llamar librerías

#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #PNG
library(magick)
#install.packages("officer") #word
library(officer)
#install.packages("pdftools") #pdf
library(pdftools)

#Obtener texto de una imagen PNG

imagen1 <- image_read("C:\\Users\\gamas\\Pictures\\imagen1.png")
tesseract_download("spa")
## [1] "C:\\Users\\gamas\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "10 características del texto\n\n1.Tiene una intención\n\n2.Sujeta una excelente presentación\n\n3.Sostiene cohesión\n\n4.Desenvuelve un tema\n\n5.Mantiene la coherencia\n\n6.Emplea un lenguaje adecuado\n\n7.Expone números apropiadamente\n\n8.Muestra una idea por párrafo ME\n9.Está corregido US)\n10.Es claro y entendible Y\n"

#Guardar texto en WORD

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")

#Conclusiones #El OCR es una tecnología que nos permite hacer más eficientes las operaciones de la empresa, ahorrando costos en la captura de la información.

LS0tDQp0aXRsZTogIk9DUiINCmF1dGhvcjogIkdhbWFsaWVsIE9zdG9zIC0gQTAxMjc3MDIzIg0KZGF0ZTogIjIwMjQtMDgtMTQiDQpvdXRwdXQ6IA0KICBodG1sX2RvY3VtZW50Og0KICAgIHRvYzogVFJVRQ0KICAgIHRvY19mbG9hdDogVFJVRQ0KICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUNCiAgICB0aGVtZTogY29zbW8NCi0tLQ0KDQohW10oQzpcXFVzZXJzXFxnYW1hc1xcUGljdHVyZXNcXGxpYnJvLmdpZikNCg0KI1Rlb3LDrWENCiNFbCBSZWNvbm9jaW1pZW50byDDs3B0aWNvIGRlIGNhcmFjdGVyZXMgKE9DUikgZXMgdW5hIHRlY25vbG9nw61hIHV0aWxpemFkYSBwYXJhIGNvbnZlcnRpciBkaWZlcmVudGVzIHRpcG9zIGRlIGRvY3VtZW50b3MsIGNvbW8gaW3DoWdlbmVzLCBkb2N1bWVudG9zIGltcHJlc29zIGVzY2FuZWFkb3MsIGZvdG9ncmFmw61hcyBkZSB0ZXh0bywgYXJjaGl2b3MgUERGIG8gaW3DoWdlbmVzIGNhcHR1cmFkYXMgZGUgdW5hIGPDoW1hcmEsIGVuIGRhdG9zIGVkaXRhYmxlcyB5IGJ1c2NhYmxlcy4NCg0KI0luc3RhbGFyIHBhcXVldGVzIHkgbGxhbWFyIGxpYnJlcsOtYXMNCmBgYHtyIG1lc3NhZ2U9RkFMU0UsIHdhcm5pbmc9RkFMU0V9DQojaW5zdGFsbC5wYWNrYWdlcygidGVzc2VyYWN0IikgI09DUg0KbGlicmFyeSh0ZXNzZXJhY3QpDQojaW5zdGFsbC5wYWNrYWdlcygibWFnaWNrIikgI1BORw0KbGlicmFyeShtYWdpY2spDQojaW5zdGFsbC5wYWNrYWdlcygib2ZmaWNlciIpICN3b3JkDQpsaWJyYXJ5KG9mZmljZXIpDQojaW5zdGFsbC5wYWNrYWdlcygicGRmdG9vbHMiKSAjcGRmDQpsaWJyYXJ5KHBkZnRvb2xzKQ0KYGBgDQoNCiNPYnRlbmVyIHRleHRvIGRlIHVuYSBpbWFnZW4gUE5HDQpgYGB7cn0NCmltYWdlbjEgPC0gaW1hZ2VfcmVhZCgiQzpcXFVzZXJzXFxnYW1hc1xcUGljdHVyZXNcXGltYWdlbjEucG5nIikNCnRlc3NlcmFjdF9kb3dubG9hZCgic3BhIikNCnRleHRvMSA8LSBvY3IoaW1hZ2VuMSwgZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkNCnRleHRvMQ0KYGBgDQoNCiNHdWFyZGFyIHRleHRvIGVuIFdPUkQNCmBgYHtyfQ0KZG9jMSA8LSByZWFkX2RvY3goKQ0KZG9jMSA8LSBkb2MxICU+JSBib2R5X2FkZF9wYXIodGV4dG8xLCBzdHlsZSA9ICJOb3JtYWwiKQ0KcHJpbnQoZG9jMSwgdGFyZ2V0ID0gImltYWdlbjFlbnBkZi5kb2N4IikNCmBgYA0KDQojQ29uY2x1c2lvbmVzDQojRWwgKipPQ1IqKiBlcyB1bmEgdGVjbm9sb2fDrWEgcXVlIG5vcyBwZXJtaXRlIGhhY2VyIG3DoXMgZWZpY2llbnRlcyBsYXMgb3BlcmFjaW9uZXMgZGUgbGEgZW1wcmVzYSwgYWhvcnJhbmRvIGNvc3RvcyBlbiBsYSBjYXB0dXJhIGRlIGxhIGluZm9ybWFjacOzbi4NCg==