
OCR
Teoria
El reconocimiento óptico de caracteres (OCR) es una tecnologia
utilizada para convertir diferentes tipos de documentos, como imagines,
documentos impresos escaneados, fotografías de texto, archivos PDF, o
imàgines capturadas con una camara en datos editables y buscables
1. Cargar librerias
library(tesseract)
library(magick)
## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11
library(officer)
library(pdftools)
## Using poppler version 23.04.0
1. Cargar la imagen a leer
imagen1 <- image_read("/Users/sebastianfajardo/Downloads/disciplina.webp")
tesseract_download("spa")
## [1] "/Users/sebastianfajardo/Library/Application Support/tesseract5/tessdata/spa.traineddata"
2. Leer texto con OCR
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "DISCIPLINA\n+ Disciplina es la coordinación de actitudes, con\nlas cuales se instruye para desarrollar:\nhabilidades más rápido, o para seguir un:\ndeterminado código de conducta u orden.\nDES\n|\n"
3. Generar documento>
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")
LS0tCnRpdGxlOiAiT0NSIgphdXRob3I6ICJTZWJhc3Rpw6FuIEZhamFyZG8tIEEwMTQxMjAzNSIKZGF0ZTogIjIwMjQtMDgtMTQiCm91dHB1dDogCiAgaHRtbF9kb2N1bWVudDoKICAgIHRvYzogVFJVRQogICAgdG9jX2Zsb2F0OiBUUlVFCiAgICBjb2RlX2Rvd25sb2FkOiBUUlVFCiAgICB0aGVtZTogY29zbW8KLS0tCgohW10oL1VzZXJzL3NlYmFzdGlhbmZhamFyZG8vRG93bmxvYWRzL09DUjEuanBnKQoKIyA8c3BhbiBzdHlsZT0iY29sb3I6IGJsdWU7Ij5PQ1I8L3NwYW4+CiMgVGVvcmlhIApFbCByZWNvbm9jaW1pZW50byDDs3B0aWNvIGRlIGNhcmFjdGVyZXMgKE9DUikgZXMgdW5hIHRlY25vbG9naWEgdXRpbGl6YWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgdGlwb3MgZGUgZG9jdW1lbnRvcywgY29tbyBpbWFnaW5lcywgZG9jdW1lbnRvcyBpbXByZXNvcyBlc2NhbmVhZG9zLCBmb3RvZ3JhZsOtYXMgZGUgdGV4dG8sIGFyY2hpdm9zIFBERiwgbyBpbcOgZ2luZXMgY2FwdHVyYWRhcyBjb24gdW5hIGNhbWFyYSBlbiBkYXRvcyBlZGl0YWJsZXMgeSBidXNjYWJsZXMKCiMgPHNwYW4gc3R5bGU9ImNvbG9yOiBibHVlOyI+MS4gQ2FyZ2FyIGxpYnJlcmlhczwvc3Bhbj4KYGBge3J9CmxpYnJhcnkodGVzc2VyYWN0KQpsaWJyYXJ5KG1hZ2ljaykKbGlicmFyeShvZmZpY2VyKQpsaWJyYXJ5KHBkZnRvb2xzKQpgYGAKIyA8c3BhbiBzdHlsZT0iY29sb3I6IGJsdWU7Ij4xLiBDYXJnYXIgbGEgaW1hZ2VuIGEgbGVlcjwvc3Bhbj4KYGBge3J9CmltYWdlbjEgPC0gaW1hZ2VfcmVhZCgiL1VzZXJzL3NlYmFzdGlhbmZhamFyZG8vRG93bmxvYWRzL2Rpc2NpcGxpbmEud2VicCIpCnRlc3NlcmFjdF9kb3dubG9hZCgic3BhIikKYGBgCgojIDxzcGFuIHN0eWxlPSJjb2xvcjogYmx1ZTsiPjIuIExlZXIgdGV4dG8gY29uIE9DUjwvc3Bhbj4KYGBge3J9CnRleHRvMSA8LSBvY3IoaW1hZ2VuMSwgZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkKdGV4dG8xCgpgYGAKIyA8c3BhbiBzdHlsZT0iY29sb3I6IGJsdWU7Ij4zLiBHZW5lcmFyIGRvY3VtZW50bz4KYGBge3J9CmRvYzEgPC0gcmVhZF9kb2N4KCkKZG9jMSA8LSBkb2MxICU+JSBib2R5X2FkZF9wYXIodGV4dG8xLCBzdHlsZSA9ICJOb3JtYWwiKQpwcmludChkb2MxLCB0YXJnZXQgPSAiaW1hZ2VuMWVucGRmLmRvY3giKQpgYGAKCgoKCg==