
# file.choose()
Teoriá
El reconocimiento óptico de caracteres (ocr) es una tecnologia
utilizada para convertir diferentes tipos de documentos, como imagenes,
documentos impresos escaneados, fotografias de texto, archivos pdf, o
imagenes capturadas con una camara, en datos editables y buscables
Instalar packetes y librerias
# install.packages("tesseract")
library(tesseract)
# install.packages("magick")
library(magick)
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
# install.packages("officer")
library(officer)
# install.packages("pdftools")
library(pdftools)
## Using poppler version 23.08.0
Obtener texto de una imagen PNG
imagen1 <- image_read("C:\\Users\\sebas\\OneDrive\\Escritorio\\Inteligencia de Negocios\\Modulo 2\\14 08 2024\\imagenes-de-amor-para-mi-esposa_fb8edbf2_1080x1080.jpg")
tesseract_download("spa")
## [1] "C:\\Users\\sebas\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "ly\nMi lugar favorito —\nen el mundo es\nNZ a tu lado\nSN Í\nCLARA\n"
Guardar texto en word
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
# print(doc1, target = "imagen1enpdf.docx")
Conclusiones
El OCR es una tecnologia que nos permite ser mas
eficiente las operaciones de las empresas, ahorrando costos en la
captura de informacion
LS0tDQp0aXRsZTogIk9DUiBDYXJ0YSBkZSBhbW9yIg0KYXV0aG9yOiAiUGFibG8gU2ViYXN0aWFuIg0KZGF0ZTogIjIwMjQtMDgtMTQiDQpvdXRwdXQ6DQogIGh0bWxfZG9jdW1lbnQ6DQogICAgdG9jOiBUUlVFDQogICAgdG9jX2Zsb2F0OiBUUlVFDQogICAgY29kZV9kb3dubG9hZDogVFJVRQ0KICAgIHRoZW1lOiBkYXJrDQotLS0NCg0KIVtdKEM6XFxVc2Vyc1xcc2ViYXNcXE9uZURyaXZlXFxFc2NyaXRvcmlvXFxJbnRlbGlnZW5jaWEgZGUgTmVnb2Npb3NcXE1vZHVsbyAyXFwxNCAwOCAyMDI0XFx3aGF0LXNjaG9vbC5naWYpDQoNCmBgYHtyfQ0KIyBmaWxlLmNob29zZSgpDQpgYGANCg0KIyMgVGVvcmnDoQ0KDQpFbCByZWNvbm9jaW1pZW50byDDs3B0aWNvIGRlIGNhcmFjdGVyZXMgKG9jcikgZXMgdW5hIHRlY25vbG9naWEgdXRpbGl6YWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgdGlwb3MgZGUgZG9jdW1lbnRvcywgY29tbyBpbWFnZW5lcywgZG9jdW1lbnRvcyBpbXByZXNvcyBlc2NhbmVhZG9zLCBmb3RvZ3JhZmlhcyBkZSB0ZXh0bywgYXJjaGl2b3MgcGRmLCBvIGltYWdlbmVzIGNhcHR1cmFkYXMgY29uIHVuYSBjYW1hcmEsIGVuIGRhdG9zIGVkaXRhYmxlcyB5IGJ1c2NhYmxlcw0KDQojIyBJbnN0YWxhciBwYWNrZXRlcyB5IGxpYnJlcmlhcw0KDQpgYGB7cn0NCiMgaW5zdGFsbC5wYWNrYWdlcygidGVzc2VyYWN0IikNCmxpYnJhcnkodGVzc2VyYWN0KQ0KIyBpbnN0YWxsLnBhY2thZ2VzKCJtYWdpY2siKQ0KbGlicmFyeShtYWdpY2spDQojIGluc3RhbGwucGFja2FnZXMoIm9mZmljZXIiKQ0KbGlicmFyeShvZmZpY2VyKQ0KIyBpbnN0YWxsLnBhY2thZ2VzKCJwZGZ0b29scyIpDQpsaWJyYXJ5KHBkZnRvb2xzKQ0KYGBgDQoNCiMjIE9idGVuZXIgdGV4dG8gZGUgdW5hIGltYWdlbiBQTkcgDQoNCmBgYHtyfQ0KaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCJDOlxcVXNlcnNcXHNlYmFzXFxPbmVEcml2ZVxcRXNjcml0b3Jpb1xcSW50ZWxpZ2VuY2lhIGRlIE5lZ29jaW9zXFxNb2R1bG8gMlxcMTQgMDggMjAyNFxcaW1hZ2VuZXMtZGUtYW1vci1wYXJhLW1pLWVzcG9zYV9mYjhlZGJmMl8xMDgweDEwODAuanBnIikNCnRlc3NlcmFjdF9kb3dubG9hZCgic3BhIikNCnRleHRvMSA8LSBvY3IoaW1hZ2VuMSwgZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkNCnRleHRvMQ0KYGBgDQoNCiMjIEd1YXJkYXIgdGV4dG8gZW4gd29yZA0KDQpgYGB7cn0NCmRvYzEgPC0gcmVhZF9kb2N4KCkNCmRvYzEgPC0gZG9jMSAlPiUgYm9keV9hZGRfcGFyKHRleHRvMSwgc3R5bGUgPSAiTm9ybWFsIikNCmBgYA0KDQoNCmBgYHtyfQ0KIyBwcmludChkb2MxLCB0YXJnZXQgPSAiaW1hZ2VuMWVucGRmLmRvY3giKQ0KYGBgDQoNCiMjIENvbmNsdXNpb25lcw0KDQpFbCAqKk9DUioqIGVzIHVuYSB0ZWNub2xvZ2lhIHF1ZSBub3MgcGVybWl0ZSBzZXIgbWFzIGVmaWNpZW50ZSBsYXMgb3BlcmFjaW9uZXMgZGUgbGFzIGVtcHJlc2FzLCBhaG9ycmFuZG8gY29zdG9zIGVuIGxhIGNhcHR1cmEgZGUgaW5mb3JtYWNpb24NCg0KDQo=