
Teoría
El Reconocimiento óptico de Caracteres (OCR) es una tecnología
utilizada para convertir diferentes tipos de documentos, como imágenes,
documentos impresos escaneados, fotografías de texto, archivos PDF, o
imágenes capturadas con una cámara, en datos editables y buscables.
Instalar paquetes y llamar librerias
library(tesseract)
library(magick)
## Warning: package 'magick' was built under R version 4.3.3
## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11
library(officer)
library(pdftools)
## Using poppler version 23.04.0
Obtener texto de una imagen PNG
#file.choose()
imagen1 <- image_read("/Users/luisangel/Library/CloudStorage/OneDrive-InstitutoTecnologicoydeEstudiosSuperioresdeMonterrey/7th Season/M2/disciplina.png")
#tesseract_download("spa")
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "Disciplina no significa\ncontrol. Disciplina\nsignifica tener el\nsentido común de\nhacer exactamente lo\nque se necesita.\n\n- Sadhguru\n"
Guardar texto en WORD
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target ="image1enpdf.docx")
CONCLUSIONES
El OCR es una tecnología que nos permite hacer eficientes múltiples
procesos de captura de información que se encuentras en distintos
formatos como por ejemplo imágenes, y esto a su vez nos ayuda a
disminuir errores y aumentar la productividad.
LS0tCnRpdGxlOiAiT0NSIgphdXRob3I6ICJMdWlzIEFuZ2VsIERpYXogQTAxNjYyMDIzNCIKZGF0ZTogIjIwMjQtMDgtMTQiCm91dHB1dDoKICBodG1sX2RvY3VtZW50OgogICAgdG9jOiBUUlVFCiAgICB0b2NfZmxvYXQ6IFRSVUUKICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUKICAgIHRoZW1lOiBkYXJrCi0tLQoKYGBge3Igc2V0dXAsIGluY2x1ZGU9RkFMU0V9CmtuaXRyOjpvcHRzX2NodW5rJHNldChlY2hvID0gVFJVRSkKYGBgCgohW10oL1VzZXJzL2x1aXNhbmdlbC9MaWJyYXJ5L0Nsb3VkU3RvcmFnZS9PbmVEcml2ZS1JbnN0aXR1dG9UZWNub2xvZ2ljb3lkZUVzdHVkaW9zU3VwZXJpb3Jlc2RlTW9udGVycmV5Lzd0aCBTZWFzb24vTTIvaG9tZXJvLmdpZikKCiMgVGVvcsOtYQpFbCBSZWNvbm9jaW1pZW50byDDs3B0aWNvIGRlIENhcmFjdGVyZXMgKE9DUikgZXMgdW5hIHRlY25vbG9nw61hIHV0aWxpemFkYSBwYXJhIGNvbnZlcnRpciBkaWZlcmVudGVzIHRpcG9zIGRlIGRvY3VtZW50b3MsIGNvbW8gaW3DoWdlbmVzLCBkb2N1bWVudG9zIGltcHJlc29zIGVzY2FuZWFkb3MsIGZvdG9ncmFmw61hcyBkZSB0ZXh0bywgYXJjaGl2b3MgUERGLCBvIGltw6FnZW5lcyBjYXB0dXJhZGFzIGNvbiB1bmEgY8OhbWFyYSwgZW4gZGF0b3MgZWRpdGFibGVzIHkgYnVzY2FibGVzLgoKIyBJbnN0YWxhciBwYXF1ZXRlcyB5IGxsYW1hciBsaWJyZXJpYXMKYGBge3J9CmxpYnJhcnkodGVzc2VyYWN0KQpsaWJyYXJ5KG1hZ2ljaykKbGlicmFyeShvZmZpY2VyKQpsaWJyYXJ5KHBkZnRvb2xzKQpgYGAKCiMgT2J0ZW5lciB0ZXh0byBkZSB1bmEgaW1hZ2VuIFBORwpgYGB7cn0KI2ZpbGUuY2hvb3NlKCkKaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCIvVXNlcnMvbHVpc2FuZ2VsL0xpYnJhcnkvQ2xvdWRTdG9yYWdlL09uZURyaXZlLUluc3RpdHV0b1RlY25vbG9naWNveWRlRXN0dWRpb3NTdXBlcmlvcmVzZGVNb250ZXJyZXkvN3RoIFNlYXNvbi9NMi9kaXNjaXBsaW5hLnBuZyIpCiN0ZXNzZXJhY3RfZG93bmxvYWQoInNwYSIpCnRleHRvMSA8LSBvY3IoaW1hZ2VuMSwgZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkKdGV4dG8xCmBgYAoKIyBHdWFyZGFyIHRleHRvIGVuIFdPUkQKYGBge3J9CmRvYzEgPC0gcmVhZF9kb2N4KCkKZG9jMSA8LSBkb2MxICU+JSBib2R5X2FkZF9wYXIodGV4dG8xLCBzdHlsZSA9ICJOb3JtYWwiKQpwcmludChkb2MxLCB0YXJnZXQgPSJpbWFnZTFlbnBkZi5kb2N4IikKYGBgCgojIENPTkNMVVNJT05FUwoKRWwgT0NSIGVzIHVuYSB0ZWNub2xvZ8OtYSBxdWUgbm9zIHBlcm1pdGUgaGFjZXIgZWZpY2llbnRlcyBtw7psdGlwbGVzIHByb2Nlc29zIGRlIGNhcHR1cmEgZGUgaW5mb3JtYWNpw7NuIHF1ZSBzZSBlbmN1ZW50cmFzIGVuIGRpc3RpbnRvcyBmb3JtYXRvcyBjb21vIHBvciBlamVtcGxvIGltw6FnZW5lcywgeSBlc3RvIGEgc3UgdmV6IG5vcyBheXVkYSBhIGRpc21pbnVpciBlcnJvcmVzIHkgYXVtZW50YXIgbGEgcHJvZHVjdGl2aWRhZC4=