Librerias

#install.packages("tesseract")
#install.packages("magick")
#install.packages("officer")
#install.packages("pdftools")
library(tesseract)
library(magick)

## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11

library(officer)
library(pdftools)

## Using poppler version 23.08.0

Obtener texto de imagen

imagen1 <- image_read("https://imgv3.fotor.com/images/homepage-feature-card/Texto-PNG.jpg")
tesseract_download("eng")

## [1] "C:\\Users\\Derek\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/eng.traineddata"

texto1 <- ocr(imagen1, engine = tesseract("eng"))
texto1

## [1] "Reo i\neCIVEAWAY\n"

Guardar texto en word

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")

Conclusion

OCR es una tecnologia que nos permite hacer mas eficiente las operaciones en la lectura de documentos de manera digital

Ejercicio PNG texto

Derek Pacheco - A01412042

2024-08-14

Librerias

Obtener texto de imagen

Guardar texto en word

Conclusion