Teoría

El Reconocimiento óptico de Caracteres (OCR) es una tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documentos impresos escaneados, fotografías de texto, archivos PDF, o imágenes capturadas con una cámara, en datos editables y buscables.

Instalar paquetes llamar librerías

#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #PNG
library(magick)

## Linking to ImageMagick 6.9.12.93
## Enabled features: cairo, fontconfig, freetype, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fftw, ghostscript, x11

#install.packages("officer") #word
library(officer)
#install.packages("pdftools") #pdf
library(pdftools)

## Using poppler version 23.04.0

Obtener texto de una imagen PNG o JPG

#file.choose()
imagen1 <- image_read("/Users/monicagonzalez/Downloads/poemas-cortos-en-espanol_4eadd2ed_230216164554_1280x930.jpg")
tesseract_download("spa")

## [1] "/Users/monicagonzalez/Library/Application Support/tesseract5/tessdata/spa.traineddata"

texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1

## [1] "En ti pensaba, en tus cabellos\nque el mundo de la sombra envidiaria,\ny puse un punto de mi vida en ellos\ny quise yo soñar que tú eras mia.\nEn ti pensaba' de José Martí (1853-1895\nCLARA\n"

Guardar el texto en WORD

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target ="image1enpdf.docx")

Conclusión

El OCR es una tecnología que nos permite hacer eficientes múltiples procesos de captura de información que se encuentras en distintos formatos como por ejemplo imágenes, y esto a su vez nos ayuda a disminuir errores y aumentar la productividad.

OCR - Carta de Amor

Monica Gonzalez A01735626

2024-08-14

Teoría

Instalar paquetes llamar librerías

Obtener texto de una imagen PNG o JPG

Guardar el texto en WORD

Conclusión