Teoria

El Reconocimiento óptico de Caracteres (OCR) es una tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documentos impresos escaneados, fotografías de texto, archivos PDF, o imágenes capturadas con una cámara, en datos editables y buscables.

#Instalar paquetes y llamar librerias
#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #OCR
library(magick)
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
#install.packages("officer") #OCR
library(officer)
#install.packages("pdftools") #OCR
library(pdftools)
## Using poppler version 23.08.0
pdf1 <- pdf_convert("C:\\Users\\karee\\Downloads\\eso3.pdf",dpi=600)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!
#%>%map(ocr)

#obtener texto de una imagen PNG

#file.choose()
imagen1 <- image_read("C:\\Users\\karee\\Downloads\\quote.png")
tesseract_download("spa")
## [1] "C:\\Users\\karee\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine= tesseract("spa"))
texto1
## [1] "Disciplina no significa\ncontrol. Disciplina\nsignifica tener el\nsentido común de\nhacer exactamente lo\nque se necesita.\n\n- Sadhguru\n"

#Guardar texto en WORD

doc1 <- read_docx()
doc1 <-doc1%>% body_add_par(texto1,style ="Normal")
print(doc1,target = "image1enpdf.docx")

#Conclusiones El OCR es una tecnologia que nos permite hacer mas eficiente las operaciones de la empresa,ahorrando costos en la captura de la informacion.

LS0tDQp0aXRsZTogImVzbyBhY3QgMTAiDQphdXRob3I6ICJLQVJFTiINCmRhdGU6ICIyMDI0LTA4LTE0Ig0Kb3V0cHV0OiAgDQogIGh0bWxfZG9jdW1lbnQ6DQogICAgdG9jOiBUUlVFDQogICAgdG9jX2Zsb2F0OiBUUlVFDQogICAgY29kZV9kb3dubG9hZDogVFJVRQ0KICAgIHRoZW1lOiBkYXJrDQotLS0NCg0KYGBge3Igc2V0dXAsIGluY2x1ZGU9RkFMU0V9DQprbml0cjo6b3B0c19jaHVuayRzZXQoZWNobyA9IFRSVUUpDQpgYGANCg0KIVtdKEM6XFxVc2Vyc1xca2FyZWVcXERvd25sb2Fkc1xcZXNvZ2lmLmdpZikNCg0KIyBUZW9yaWENCkVsIFJlY29ub2NpbWllbnRvIMOzcHRpY28gZGUgQ2FyYWN0ZXJlcyAoT0NSKSBlcyB1bmEgdGVjbm9sb2fDrWEgdXRpbGl6YWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgdGlwb3MgZGUgZG9jdW1lbnRvcywgY29tbyBpbcOhZ2VuZXMsIGRvY3VtZW50b3MgaW1wcmVzb3MgZXNjYW5lYWRvcywgZm90b2dyYWbDrWFzIGRlIHRleHRvLCBhcmNoaXZvcyBQREYsIG8gaW3DoWdlbmVzIGNhcHR1cmFkYXMgY29uIHVuYSBjw6FtYXJhLCBlbiBkYXRvcyBlZGl0YWJsZXPCoHnCoGJ1c2NhYmxlcy4NCg0KYGBge3J9DQojSW5zdGFsYXIgcGFxdWV0ZXMgeSBsbGFtYXIgbGlicmVyaWFzDQojaW5zdGFsbC5wYWNrYWdlcygidGVzc2VyYWN0IikgI09DUg0KbGlicmFyeSh0ZXNzZXJhY3QpDQojaW5zdGFsbC5wYWNrYWdlcygibWFnaWNrIikgI09DUg0KbGlicmFyeShtYWdpY2spDQojaW5zdGFsbC5wYWNrYWdlcygib2ZmaWNlciIpICNPQ1INCmxpYnJhcnkob2ZmaWNlcikNCiNpbnN0YWxsLnBhY2thZ2VzKCJwZGZ0b29scyIpICNPQ1INCmxpYnJhcnkocGRmdG9vbHMpDQpgYGANCg0KYGBge3J9DQpwZGYxIDwtIHBkZl9jb252ZXJ0KCJDOlxcVXNlcnNcXGthcmVlXFxEb3dubG9hZHNcXGVzbzMucGRmIixkcGk9NjAwKQ0KIyU+JW1hcChvY3IpDQpgYGANCg0KI29idGVuZXIgdGV4dG8gZGUgdW5hIGltYWdlbiBQTkcNCmBgYHtyfQ0KI2ZpbGUuY2hvb3NlKCkNCmltYWdlbjEgPC0gaW1hZ2VfcmVhZCgiQzpcXFVzZXJzXFxrYXJlZVxcRG93bmxvYWRzXFxxdW90ZS5wbmciKQ0KdGVzc2VyYWN0X2Rvd25sb2FkKCJzcGEiKQ0KdGV4dG8xIDwtIG9jcihpbWFnZW4xLCBlbmdpbmU9IHRlc3NlcmFjdCgic3BhIikpDQp0ZXh0bzENCmBgYA0KDQojR3VhcmRhciB0ZXh0byBlbiBXT1JEDQpgYGB7cn0NCmRvYzEgPC0gcmVhZF9kb2N4KCkNCmRvYzEgPC1kb2MxJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsc3R5bGUgPSJOb3JtYWwiKQ0KcHJpbnQoZG9jMSx0YXJnZXQgPSAiaW1hZ2UxZW5wZGYuZG9jeCIpDQoNCmBgYA0KDQojQ29uY2x1c2lvbmVzIA0KRWwgKipPQ1IqKiBlcyB1bmEgdGVjbm9sb2dpYSBxdWUgbm9zIHBlcm1pdGUgaGFjZXIgbWFzIGVmaWNpZW50ZSBsYXMgb3BlcmFjaW9uZXMgZGUgbGEgZW1wcmVzYSxhaG9ycmFuZG8gY29zdG9zIGVuIGxhIGNhcHR1cmEgZGUgbGEgaW5mb3JtYWNpb24uDQo=