Teoria

El reconocimiento optico de caracteres OCR es una tecnologia utilizada para convertir diferentes tipos de documentos, como imagenes, documentos impresos escaneados, fotografias de texto, archivos PDF, o imagenes capturadas con una camara, en datos editables buscables.

#Instalar paquetes y librerias 

library(tesseract)

library(magick)
## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11
library(officer)

library(pdftools)
## Using poppler version 23.04.0

#Obtener texto de una imagen

imagen1 <- image_read("/Users/josemarentes/Downloads/text-animation-ogimage-es.png")
tesseract_download("spa")
## [1] "/Users/josemarentes/Library/Application Support/tesseract5/tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "ANIMACIONES\nCON TEXTO!\n"

#Guardar texto en word

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")

#Conclusiones En esta actividad, aprendimos a extraer texto de una imagen utilizando la función ocr del paquete Tesseract en R, que nos permite convertir texto de una imagen en datos manipulables. Además, vimos cómo guardar el texto extraído en un documento de Word utilizando las funciones del paquete officer. Este proceso es útil para automatizar la digitalización y almacenamiento de información contenida en imágenes. Permite hacer mas eficiente para las empresas recopilar informacion (digitalizar).

LS0tCnRpdGxlOiAib2NyIgphdXRob3I6ICJKb3NlIEFuZ2VsIE1hcmVudGVzIgpkYXRlOiAiMjAyNC0wOC0xNCIKb3V0cHV0OiAKICBodG1sX2RvY3VtZW50OgogICAgdG9jOiBUUlVFCiAgICB0b2NfZmxvYXQ6IFRSVUUKICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUKICAgIHRoZW1lOiBkYXJrCi0tLQoKYGBge3Igc2V0dXAsIGluY2x1ZGU9RkFMU0V9CmtuaXRyOjpvcHRzX2NodW5rJHNldChlY2hvID0gVFJVRSkKYGBgCgojIFRlb3JpYSAKRWwgcmVjb25vY2ltaWVudG8gb3B0aWNvIGRlIGNhcmFjdGVyZXMgT0NSIGVzIHVuYSB0ZWNub2xvZ2lhIHV0aWxpemFkYSBwYXJhIApjb252ZXJ0aXIgZGlmZXJlbnRlcyB0aXBvcyBkZSBkb2N1bWVudG9zLCBjb21vIGltYWdlbmVzLCBkb2N1bWVudG9zIGltcHJlc29zCmVzY2FuZWFkb3MsIGZvdG9ncmFmaWFzIGRlIHRleHRvLCBhcmNoaXZvcyBQREYsIG8gaW1hZ2VuZXMgY2FwdHVyYWRhcyBjb24gdW5hIGNhbWFyYSwgCmVuIGRhdG9zIGVkaXRhYmxlcyBidXNjYWJsZXMuCgpgYGB7cn0KI0luc3RhbGFyIHBhcXVldGVzIHkgbGlicmVyaWFzIAoKbGlicmFyeSh0ZXNzZXJhY3QpCgpsaWJyYXJ5KG1hZ2ljaykKCmxpYnJhcnkob2ZmaWNlcikKCmxpYnJhcnkocGRmdG9vbHMpCmBgYAoKCgoKI09idGVuZXIgdGV4dG8gZGUgdW5hIGltYWdlbiAKYGBge3J9CmltYWdlbjEgPC0gaW1hZ2VfcmVhZCgiL1VzZXJzL2pvc2VtYXJlbnRlcy9Eb3dubG9hZHMvdGV4dC1hbmltYXRpb24tb2dpbWFnZS1lcy5wbmciKQp0ZXNzZXJhY3RfZG93bmxvYWQoInNwYSIpCnRleHRvMSA8LSBvY3IoaW1hZ2VuMSwgZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkKdGV4dG8xCmBgYAojR3VhcmRhciB0ZXh0byBlbiB3b3JkCmBgYHtyfQpkb2MxIDwtIHJlYWRfZG9jeCgpCmRvYzEgPC0gZG9jMSAlPiUgYm9keV9hZGRfcGFyKHRleHRvMSwgc3R5bGUgPSAiTm9ybWFsIikKcHJpbnQoZG9jMSwgdGFyZ2V0ID0gImltYWdlbjFlbnBkZi5kb2N4IikKYGBgCgojQ29uY2x1c2lvbmVzIApFbiBlc3RhIGFjdGl2aWRhZCwgYXByZW5kaW1vcyBhIGV4dHJhZXIgdGV4dG8gZGUgdW5hIGltYWdlbiB1dGlsaXphbmRvIGxhIGZ1bmNpw7NuIG9jciBkZWwgcGFxdWV0ZSBUZXNzZXJhY3QgZW4gUiwgcXVlIG5vcyBwZXJtaXRlIGNvbnZlcnRpciB0ZXh0byBkZSB1bmEgaW1hZ2VuIGVuIGRhdG9zIG1hbmlwdWxhYmxlcy4gQWRlbcOhcywgdmltb3MgY8OzbW8gZ3VhcmRhciBlbCB0ZXh0byBleHRyYcOtZG8gZW4gdW4gZG9jdW1lbnRvIGRlIFdvcmQgdXRpbGl6YW5kbyBsYXMgZnVuY2lvbmVzIGRlbCBwYXF1ZXRlIG9mZmljZXIuIEVzdGUgcHJvY2VzbyBlcyDDunRpbCBwYXJhIGF1dG9tYXRpemFyIGxhIGRpZ2l0YWxpemFjacOzbiB5IGFsbWFjZW5hbWllbnRvIGRlIGluZm9ybWFjacOzbiBjb250ZW5pZGEgZW4gaW3DoWdlbmVzLgpQZXJtaXRlIGhhY2VyIG1hcyBlZmljaWVudGUgcGFyYSBsYXMgZW1wcmVzYXMgcmVjb3BpbGFyIGluZm9ybWFjaW9uIChkaWdpdGFsaXphciku