Teoria

El reconocimiento óptico de caracteres (OCR) es una tecnologia utilizada para convertir diferentes tipos de documentos, como imagines, documentos impresos escaneados, fotografías de texto, archivos PDF, o imàgines capturadas con una camara en datos editables y buscables

Instalar paquetes y librerias

library(tesseract)
library(magick)

## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11

library(officer)
library(pdftools)

## Using poppler version 23.04.0

Obtener texto de una imagen png

# file.choose()
imagen1 <- image_read("/Users/constantinomilletxacur/Desktop/Concentracion/Modulo 2/Fotos m2/disciplina.jpeg")
tesseract_download("spa")

## [1] "/Users/constantinomilletxacur/Library/Application Support/tesseract5/tessdata/spa.traineddata"

texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1

## [1] "DISCIPLINA\n===\nORGANIZACÍON LIMPIEZA PUNTUALIDAD\n\nHacer una || tener un [| enmrecar [| EOPINaR\n\nA lucir | Eran Cero” | serca [[urmao\nPENDIENTES. [| CADACOSA. | mercagte. [| VAYASA [| TEMP. [| ATEMPO,\nLA DISCPLINA TARDE O TEMPRANO VENCERA A LA INTELIGENCIA\n"

Guardar texto en word

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")

Conclusiones

El OCR es una tecnología que nos permite hacer más eficiente las operaciones de la empresa, ahorrando costos en la captura de la información.

OCR

Constantino Millet Xacur

2024-08-15

Teoria

Instalar paquetes y librerias

Obtener texto de una imagen png

Guardar texto en word

Conclusiones