Teoría

El reconocimiento óptico de caracteres (OCR) es una tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documentos impresos escaneados, fotografías de texto, archivos PDF, o imágenes capturadas con una cámara en datos editables y buscables.

Instalar paquetes y llamar librerias

#install.packages("tesseract") #OCR
library(tesseract)
## Warning: package 'tesseract' was built under R version 4.3.3
#install.packages("magick") #PNG
library(magick)
## Warning: package 'magick' was built under R version 4.3.3
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
#install.packages("officer") #word
library(officer)
## Warning: package 'officer' was built under R version 4.3.3
#install.packages("pdftools") #PDF
library(pdftools)
## Warning: package 'pdftools' was built under R version 4.3.3
## Using poppler version 23.08.0

Obtener texto de una imagen PNG

#file.choose()
imagen1 <- image_read("C:\\Users\\HP\\OneDrive - FEMSA Comercio\\Escritorio\\Inteligencia de Negocios\\7mo Semestre\\M2\\Fotos\\ocr2foto.jpg")
tesseract_download("spa")
## [1] "C:\\Users\\HP\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "O pa\nee y»:\nWhere there is no struggle,\n\n, there is no strength.\n| €\n"

Guardar texto en WORD

doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")

Conclusioens

El OCR es una tecnología que nos permite hacer más eficiente las operaciones de la empresa, ahorrando costos en la captura de la información.

LS0tDQp0aXRsZTogIk9DUiINCmF1dGhvcjogIlhpbWVuYSBNZWzDqW5kZXogLSBBMDE3MjA1NjkiDQpkYXRlOiAiMjAyNC0wOC0xNCINCm91dHB1dDogDQogIGh0bWxfZG9jdW1lbnQ6IA0KICAgIHRvYzogdHJ1ZQ0KICAgIHRvY19mbG9hdDogdHJ1ZQ0KICAgIGNvZGVfZG93bmxvYWQ6IHRydWUNCiAgICB0aGVtZTogZGFyaw0KLS0tDQoNCiFbXShDOlxcVXNlcnNcXEhQXFxPbmVEcml2ZSAtIEZFTVNBIENvbWVyY2lvXFxFc2NyaXRvcmlvXFxJbnRlbGlnZW5jaWEgZGUgTmVnb2Npb3NcXDdtbyBTZW1lc3RyZVxcTTJcXEZvdG9zXFxmb3Rvb2NyLnBuZykNCg0KIyBUZW9yw61hDQpFbCByZWNvbm9jaW1pZW50byDDs3B0aWNvIGRlIGNhcmFjdGVyZXMgKE9DUikgZXMgdW5hIHRlY25vbG9nw61hIHV0aWxpemFkYSBwYXJhIGNvbnZlcnRpciBkaWZlcmVudGVzIHRpcG9zIGRlIGRvY3VtZW50b3MsIGNvbW8gaW3DoWdlbmVzLCBkb2N1bWVudG9zIGltcHJlc29zIGVzY2FuZWFkb3MsIGZvdG9ncmFmw61hcyBkZSB0ZXh0bywgYXJjaGl2b3MgUERGLCBvIGltw6FnZW5lcyBjYXB0dXJhZGFzIGNvbiB1bmEgY8OhbWFyYSBlbiBkYXRvcyBlZGl0YWJsZXMgeSBidXNjYWJsZXMuDQoNCiMgSW5zdGFsYXIgcGFxdWV0ZXMgeSBsbGFtYXIgbGlicmVyaWFzIA0KYGBge3J9DQojaW5zdGFsbC5wYWNrYWdlcygidGVzc2VyYWN0IikgI09DUg0KbGlicmFyeSh0ZXNzZXJhY3QpDQojaW5zdGFsbC5wYWNrYWdlcygibWFnaWNrIikgI1BORw0KbGlicmFyeShtYWdpY2spDQojaW5zdGFsbC5wYWNrYWdlcygib2ZmaWNlciIpICN3b3JkDQpsaWJyYXJ5KG9mZmljZXIpDQojaW5zdGFsbC5wYWNrYWdlcygicGRmdG9vbHMiKSAjUERGDQpsaWJyYXJ5KHBkZnRvb2xzKQ0KYGBgDQoNCiMgT2J0ZW5lciB0ZXh0byBkZSB1bmEgaW1hZ2VuIFBORw0KYGBge3J9DQojZmlsZS5jaG9vc2UoKQ0KaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCJDOlxcVXNlcnNcXEhQXFxPbmVEcml2ZSAtIEZFTVNBIENvbWVyY2lvXFxFc2NyaXRvcmlvXFxJbnRlbGlnZW5jaWEgZGUgTmVnb2Npb3NcXDdtbyBTZW1lc3RyZVxcTTJcXEZvdG9zXFxvY3IyZm90by5qcGciKQ0KdGVzc2VyYWN0X2Rvd25sb2FkKCJzcGEiKQ0KdGV4dG8xIDwtIG9jcihpbWFnZW4xLCBlbmdpbmUgPSB0ZXNzZXJhY3QoInNwYSIpKQ0KdGV4dG8xDQpgYGANCg0KIyBHdWFyZGFyIHRleHRvIGVuIFdPUkQNCmBgYHtyfQ0KZG9jMSA8LSByZWFkX2RvY3goKQ0KZG9jMSA8LSBkb2MxICU+JSBib2R5X2FkZF9wYXIodGV4dG8xLCBzdHlsZSA9ICJOb3JtYWwiKQ0KcHJpbnQoZG9jMSwgdGFyZ2V0ID0gImltYWdlbjFlbnBkZi5kb2N4IikNCmBgYA0KDQojIENvbmNsdXNpb2VucyANCkVsICpPQ1IqIGVzIHVuYSB0ZWNub2xvZ8OtYSBxdWUgbm9zIHBlcm1pdGUgaGFjZXIgbcOhcyBlZmljaWVudGUgbGFzIG9wZXJhY2lvbmVzIGRlIGxhIGVtcHJlc2EsIGFob3JyYW5kbyBjb3N0b3MgZW4gbGEgY2FwdHVyYSBkZSBsYSBpbmZvcm1hY2nDs24uIA0K