
Teoria
El Reconocimiento óptico de Caracteres (OCR) es una tecnología
utilizada para convertir diferentes tipos de documentos, como imágenes,
documentos impresos escaneados, fotografías de texto, archivos PDF, o
imágenes capturadas con una cámara, en datos editables y buscables.
#Instalar paquetes y llamar librerias
#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #OCR
library(magick)
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
#install.packages("officer") #OCR
library(officer)
#install.packages("pdftools") #OCR
library(pdftools)
## Using poppler version 23.08.0
#obtener texto de una imagen PNG
#file.choose()
imagen1 <- image_read("C:\\Users\\karee\\Downloads\\quote.png")
tesseract_download("spa")
## [1] "C:\\Users\\karee\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine= tesseract("spa"))
texto1
## [1] "Disciplina no significa\ncontrol. Disciplina\nsignifica tener el\nsentido común de\nhacer exactamente lo\nque se necesita.\n\n- Sadhguru\n"
#Guardar texto en WORD
doc1 <- read_docx()
doc1 <-doc1%>% body_add_par(texto1,style ="Normal")
print(doc1,target = "image1enpdf.docx")
#Conclusiones El OCR es una tecnologia que nos
permite hacer mas eficiente las operaciones de la empresa,ahorrando
costos en la captura de la informacion.
LS0tDQp0aXRsZTogImFjdGl2aWRhZCAxMCINCmF1dGhvcjogIktBUkVOIE1BTERPTkFETyBBMDEzODQ2MzUiDQpkYXRlOiAiMjAyNC0wOC0xNCINCm91dHB1dDogIA0KICBodG1sX2RvY3VtZW50Og0KICAgIHRvYzogVFJVRQ0KICAgIHRvY19mbG9hdDogVFJVRQ0KICAgIGNvZGVfZG93bmxvYWQ6IFRSVUUNCiAgICB0aGVtZTogZGFyaw0KLS0tDQoNCmBgYHtyIHNldHVwLCBpbmNsdWRlPUZBTFNFfQ0Ka25pdHI6Om9wdHNfY2h1bmskc2V0KGVjaG8gPSBUUlVFKQ0KYGBgDQoNCiFbXShDOlxcVXNlcnNcXGthcmVlXFxEb3dubG9hZHNcXGdpZnBhbmRhLmdpZikNCg0KIyBUZW9yaWENCkVsIFJlY29ub2NpbWllbnRvIMOzcHRpY28gZGUgQ2FyYWN0ZXJlcyAoT0NSKSBlcyB1bmEgdGVjbm9sb2fDrWEgdXRpbGl6YWRhIHBhcmEgY29udmVydGlyIGRpZmVyZW50ZXMgdGlwb3MgZGUgZG9jdW1lbnRvcywgY29tbyBpbcOhZ2VuZXMsIGRvY3VtZW50b3MgaW1wcmVzb3MgZXNjYW5lYWRvcywgZm90b2dyYWbDrWFzIGRlIHRleHRvLCBhcmNoaXZvcyBQREYsIG8gaW3DoWdlbmVzIGNhcHR1cmFkYXMgY29uIHVuYSBjw6FtYXJhLCBlbiBkYXRvcyBlZGl0YWJsZXPCoHnCoGJ1c2NhYmxlcy4NCg0KYGBge3J9DQojSW5zdGFsYXIgcGFxdWV0ZXMgeSBsbGFtYXIgbGlicmVyaWFzDQojaW5zdGFsbC5wYWNrYWdlcygidGVzc2VyYWN0IikgI09DUg0KbGlicmFyeSh0ZXNzZXJhY3QpDQojaW5zdGFsbC5wYWNrYWdlcygibWFnaWNrIikgI09DUg0KbGlicmFyeShtYWdpY2spDQojaW5zdGFsbC5wYWNrYWdlcygib2ZmaWNlciIpICNPQ1INCmxpYnJhcnkob2ZmaWNlcikNCiNpbnN0YWxsLnBhY2thZ2VzKCJwZGZ0b29scyIpICNPQ1INCmxpYnJhcnkocGRmdG9vbHMpDQpgYGANCg0KI29idGVuZXIgdGV4dG8gZGUgdW5hIGltYWdlbiBQTkcNCmBgYHtyfQ0KI2ZpbGUuY2hvb3NlKCkNCmltYWdlbjEgPC0gaW1hZ2VfcmVhZCgiQzpcXFVzZXJzXFxrYXJlZVxcRG93bmxvYWRzXFxxdW90ZS5wbmciKQ0KdGVzc2VyYWN0X2Rvd25sb2FkKCJzcGEiKQ0KdGV4dG8xIDwtIG9jcihpbWFnZW4xLCBlbmdpbmU9IHRlc3NlcmFjdCgic3BhIikpDQp0ZXh0bzENCmBgYA0KDQojR3VhcmRhciB0ZXh0byBlbiBXT1JEDQpgYGB7cn0NCmRvYzEgPC0gcmVhZF9kb2N4KCkNCmRvYzEgPC1kb2MxJT4lIGJvZHlfYWRkX3Bhcih0ZXh0bzEsc3R5bGUgPSJOb3JtYWwiKQ0KcHJpbnQoZG9jMSx0YXJnZXQgPSAiaW1hZ2UxZW5wZGYuZG9jeCIpDQoNCmBgYA0KDQojQ29uY2x1c2lvbmVzIA0KRWwgKipPQ1IqKiBlcyB1bmEgdGVjbm9sb2dpYSBxdWUgbm9zIHBlcm1pdGUgaGFjZXIgbWFzIGVmaWNpZW50ZSBsYXMgb3BlcmFjaW9uZXMgZGUgbGEgZW1wcmVzYSxhaG9ycmFuZG8gY29zdG9zIGVuIGxhIGNhcHR1cmEgZGUgbGEgaW5mb3JtYWNpb24uDQo=