OCR Carta de amor

#file.choose()

Teoriá

El reconocimiento óptico de caracteres (ocr) es una tecnologia utilizada para convertir diferentes tipos de documentos, como imagenes, documentos impresos escaneados, fotografias de texto, archivos pdf, o imagenes capturadas con una camara, en datos editables y buscables

Instalar packetes y librerias

# install.packages("tesseract")
library(tesseract)
# install.packages("magick")
library(magick)

## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11

# install.packages("officer")
library(officer)
# install.packages("pdftools")
library(pdftools)

## Using poppler version 23.04.0

Obtener texto de una imagen PNG

imagen1 <- image_read("/Users/sofiaberron/Desktop/Modulo2/cartaamor.jpg")
tesseract_download("spa")

## [1] "/Users/sofiaberron/Library/Application Support/tesseract5/tessdata/spa.traineddata"

texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1

## [1] "AMOR MÍO,\n¡FELIZ CUMPLEANOS!\nHoy es un día muy especial para todos los que te\nqueremos, sobre todo para mí, ya que celebramos tu\nvida. Quiero con esta carta expresarte mis\nfelicitaciones, espero que hoy sea un día maravilloso y\nlo disfrutes al máximo.\nTe mereces todo lo mejor por ser tan especial conmigo,\neres el mejor novio del mundo. Espero seguir dando lo\nmejor de mí para estar muy felices, sabes que te quiero\nmucho y deseo estar contigo el resto de mi vida.\nComo sabes, no paro de pensar en ti, y mucho más en\neste día tan especial. Quiero que seas feliz y eres mi\nprioridad. Cuando eres feliz, yo soy feliz. Una vez más,\n¡feliz cumpleaños!\nTe amo.\nLIFEDER.COM Sa\nHORA\n"

Guardar texto en word

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")

print(doc1, target = "imagen1enpdf.docx")

Conclusiones

El OCR es una tecnología que nos permite ser mas eficiente las operaciones de las empresas, ahorrando costos en la captura de informacion

LS0tCnRpdGxlOiAiT0NSIENhcnRhIGRlIGFtb3IiCmF1dGhvcjogIlNPRklBIEJFUlJPTiIKZGF0ZTogIjIwMjQtMDgtMTQiCm91dHB1dDoKICBodG1sX2RvY3VtZW50OgogICAgdG9jOiBUUlVFCiAgICB0b2NfZmxvYXQ6IFRSVUUKICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUKICAgIHRoZW1lOiBkYXJrCi0tLQoKIVtdKC9Vc2Vycy9zb2ZpYWJlcnJvbi9EZXNrdG9wL01vZHVsbzIvTE9WRS5wbmcpCgpgYGB7cn0KI2ZpbGUuY2hvb3NlKCkKYGBgCgojIyBUZW9yacOhCgpFbCByZWNvbm9jaW1pZW50byDDs3B0aWNvIGRlIGNhcmFjdGVyZXMgKG9jcikgZXMgdW5hIHRlY25vbG9naWEgdXRpbGl6YWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgdGlwb3MgZGUgZG9jdW1lbnRvcywgY29tbyBpbWFnZW5lcywgZG9jdW1lbnRvcyBpbXByZXNvcyBlc2NhbmVhZG9zLCBmb3RvZ3JhZmlhcyBkZSB0ZXh0bywgYXJjaGl2b3MgcGRmLCBvIGltYWdlbmVzIGNhcHR1cmFkYXMgY29uIHVuYSBjYW1hcmEsIGVuIGRhdG9zIGVkaXRhYmxlcyB5IGJ1c2NhYmxlcwoKIyMgSW5zdGFsYXIgcGFja2V0ZXMgeSBsaWJyZXJpYXMKCmBgYHtyfQojIGluc3RhbGwucGFja2FnZXMoInRlc3NlcmFjdCIpCmxpYnJhcnkodGVzc2VyYWN0KQojIGluc3RhbGwucGFja2FnZXMoIm1hZ2ljayIpCmxpYnJhcnkobWFnaWNrKQojIGluc3RhbGwucGFja2FnZXMoIm9mZmljZXIiKQpsaWJyYXJ5KG9mZmljZXIpCiMgaW5zdGFsbC5wYWNrYWdlcygicGRmdG9vbHMiKQpsaWJyYXJ5KHBkZnRvb2xzKQpgYGAKCiMjIE9idGVuZXIgdGV4dG8gZGUgdW5hIGltYWdlbiBQTkcgCgpgYGB7cn0KaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCIvVXNlcnMvc29maWFiZXJyb24vRGVza3RvcC9Nb2R1bG8yL2NhcnRhYW1vci5qcGciKQp0ZXNzZXJhY3RfZG93bmxvYWQoInNwYSIpCnRleHRvMSA8LSBvY3IoaW1hZ2VuMSwgZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkKdGV4dG8xCmBgYAoKIyMgR3VhcmRhciB0ZXh0byBlbiB3b3JkCgpgYGB7cn0KZG9jMSA8LSByZWFkX2RvY3goKQpkb2MxIDwtIGRvYzEgJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsIHN0eWxlID0gIk5vcm1hbCIpCmBgYAoKCmBgYHtyfQpwcmludChkb2MxLCB0YXJnZXQgPSAiaW1hZ2VuMWVucGRmLmRvY3giKQpgYGAKCiMjIENvbmNsdXNpb25lcwoKRWwgKipPQ1IqKiBlcyB1bmEgdGVjbm9sb2fDrWEgcXVlIG5vcyBwZXJtaXRlIHNlciBtYXMgZWZpY2llbnRlIGxhcyBvcGVyYWNpb25lcyBkZSBsYXMgZW1wcmVzYXMsIGFob3JyYW5kbyBjb3N0b3MgZW4gbGEgY2FwdHVyYSBkZSBpbmZvcm1hY2lvbgoKCg==