Teoria :

El reconocimiento óptico de caracteres (OCR) es una tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documentos impresos escaneados, fotografías de texto, archivos PDF o imágenes capturadas con una cámara en datos editables y buscables.

Instalar paquetes y llamar librerias

#install.packages("tesseract") # OCR
#install.packages("magick") # OCR
#install.packages("officer") # OCR
#install.packages("pdftools") # OCR

library(tesseract)
library(magick)
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
library(officer)
library(pdftools)
## Using poppler version 23.08.0

#Obtener texto de una imagen PNG

# file.choose()
  imagen1 <- image_read("C:\\Carpeta de R\\Imgs\\Poema.png")

  tesseract_download("spa")
## [1] "C:\\Users\\esteb\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "LA MARIPOSA\nNacer con la primavera, morir con las rosas,\nnadar en un cielo puro en alas del céfiro,\nacunada en el fondo de flores casi abiertas,\nembriagarse de perfumes, de luz y de azul,\nsacudirse, aún joven, el polen de sus alas,\ncomo un soplo volar a las bóvedas eternas,\néste es el mágico destino de la mariposa.\nSe parece al deseo que nunca reposa,\nacariciando todo sin satisfacerse,\npor fin gira hacia el cielo buscando el placer.\nAlphonse de Lamartine (1790-1869)\n(Antología de poesía delasletas universales\nCátedra, 2013 pág. 575)\n"

Guardar texto en WORD

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "C:\\Carpeta de R\\imagenlenpdf.docx")

Conclusiones

OCR es una herramienta que nos permite hacer más eficientes las operaciones de las empresas, ahorrando costos y tiempo.

LS0tDQp0aXRsZTogIk9DUiINCmF1dGhvcjogIkVzdGViYW4gTG96YW5vIE1hbGRvbmFkbyINCmRhdGU6ICIyMDI0LTA4LTE0Ig0Kb3V0cHV0OiANCiAgaHRtbF9kb2N1bWVudDoNCiAgICB0b2M6IFRSVUUNCiAgICB0b2NfZmxvYXQ6IFRSVUUNCiAgICBjb2RlX2Rvd25sb2FkOiBUUlVFDQogICAgdGhlbWU6IHNhbmRzdG9uZQ0KLS0tDQoNCiMgVGVvcmlhIDoNCkVsIHJlY29ub2NpbWllbnRvIMOzcHRpY28gZGUgY2FyYWN0ZXJlcyAoT0NSKSBlcyB1bmEgdGVjbm9sb2fDrWEgdXRpbGl6YWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgdGlwb3MgZGUgZG9jdW1lbnRvcywgY29tbyBpbcOhZ2VuZXMsIGRvY3VtZW50b3MgaW1wcmVzb3MgZXNjYW5lYWRvcywgZm90b2dyYWbDrWFzIGRlIHRleHRvLCBhcmNoaXZvcyBQREYgbyBpbcOhZ2VuZXMgY2FwdHVyYWRhcyBjb24gdW5hIGPDoW1hcmEgZW4gZGF0b3MgZWRpdGFibGVzIHkgYnVzY2FibGVzLg0KDQojIEluc3RhbGFyIHBhcXVldGVzIHkgbGxhbWFyIGxpYnJlcmlhcw0KYGBge3J9DQojaW5zdGFsbC5wYWNrYWdlcygidGVzc2VyYWN0IikgIyBPQ1INCiNpbnN0YWxsLnBhY2thZ2VzKCJtYWdpY2siKSAjIE9DUg0KI2luc3RhbGwucGFja2FnZXMoIm9mZmljZXIiKSAjIE9DUg0KI2luc3RhbGwucGFja2FnZXMoInBkZnRvb2xzIikgIyBPQ1INCg0KbGlicmFyeSh0ZXNzZXJhY3QpDQpsaWJyYXJ5KG1hZ2ljaykNCmxpYnJhcnkob2ZmaWNlcikNCmxpYnJhcnkocGRmdG9vbHMpDQpgYGANCiNPYnRlbmVyIHRleHRvIGRlIHVuYSBpbWFnZW4gUE5HDQpgYGB7cn0NCiMgZmlsZS5jaG9vc2UoKQ0KICBpbWFnZW4xIDwtIGltYWdlX3JlYWQoIkM6XFxDYXJwZXRhIGRlIFJcXEltZ3NcXFBvZW1hLnBuZyIpDQoNCiAgdGVzc2VyYWN0X2Rvd25sb2FkKCJzcGEiKQ0KdGV4dG8xIDwtIG9jcihpbWFnZW4xLCBlbmdpbmUgPSB0ZXNzZXJhY3QoInNwYSIpKQ0KdGV4dG8xDQoNCmBgYA0KDQojIEd1YXJkYXIgdGV4dG8gZW4gV09SRA0KYGBge3J9DQpkb2MxIDwtIHJlYWRfZG9jeCgpDQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpDQpwcmludChkb2MxLCB0YXJnZXQgPSAiQzpcXENhcnBldGEgZGUgUlxcaW1hZ2VubGVucGRmLmRvY3giKQ0KDQoNCmBgYA0KIyBDb25jbHVzaW9uZXMNCk9DUiBlcyB1bmEgaGVycmFtaWVudGEgcXVlIG5vcyBwZXJtaXRlIGhhY2VyIG3DoXMgZWZpY2llbnRlcyBsYXMgb3BlcmFjaW9uZXMgZGUgbGFzIGVtcHJlc2FzLCBhaG9ycmFuZG8gY29zdG9zIHkgdGllbXBvLg0K