
Teoria
El Reconocimiento optico de Caracteres (OCR) es una tecnologia
utilizada para convertir diferentes tipos de docuemtnos, como imagenes,
documentos impresos escaneados, fotografias de texto, archivos de texto,
archivos PDF, o imagenes capturadas con una camara, en datos editables y
buscables.
Instalar paquetes y llamar librerias
#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #PNG
library(magick)
#install.packages("officer") #word
library(officer)
#install.packages("pdftools") #pdf
library(pdftools)
Obtener texto de una imagen PNG
# file.choose()
imagen1 <- image_read("https://poemario.com/png/carta-amor.png")
tesseract_download("spa")
## [1] "C:\\Users\\gabri\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "+ Una Carta de Amor, Julio Cortázar - Poemario +\nTodo lo que de vos quisiera\nes tan poco en el fondo\nporque en el fondo es todo,\ncomo un perro que pasa, una colina,\nesas cosas de nada, cotidianas,\nespiga y cabellera y dos terrones,\nel olor de tu cuerpo,\nlo que decís de cualquier cosa,\nconmigo o contra mía,\ntodo eso es tan poco,\nyo lo quiero de vos porque te quiero.\nQue mires más allá de mí,\nque me ames con violenta prescindencia\ndel mañana, que el grito\nde tu entrega se estrelle\nen la cara de un jefe de oficina,\ny que el placer que juntos inventamos\nsea otro signo de la libertad\n"
Guardar texto en WORD
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1, target = "imagen1enpdf.docx")
Conclusion
Con las librerias tesseract, magick, officer y pdftools pude hacer
una imagen en texto luego extraer el texto y pegarlo a un word. Es una
tecnologia que permite hacer mas eficiente las operaciones de la
empresa, ahorra costos sen la captura de informacion
LS0tDQp0aXRsZTogIk9DUiBDYXJ0YSBkZSBBbW9yIg0KYXV0aG9yOiAiR2FicmllbCBBMDE3MjIxODciDQpkYXRlOiAiMjAyNC0wOC0xNCINCm91dHB1dDogDQogIGh0bWxfZG9jdW1lbnQ6DQogICAgdG9jOiBUUlVFDQogICAgdG9jX2Zsb2F0OiBUUlVFDQogICAgY29kZV9kb3dubG9hZDogVFJVRQ0KICAgIHRoZW1lOiBkYXJrDQotLS0NCmBgYHtyIHNldHVwLCBpbmNsdWRlPUZBTFNFfSANCmtuaXRyOjpvcHRzX2NodW5rJHNldCh3YXJuaW5nID0gRkFMU0UsIG1lc3NhZ2UgPSBGQUxTRSkgDQpgYGANCg0KDQohW10oQzovVXNlcnMvZ2FicmkvRG93bmxvYWRzL1RlYy9TZW0gNy9Nb2R1bG8gMi9ib29rLWdpZi0xMC0xLmdpZikNCg0KDQojIFRlb3JpYQ0KDQpFbCBSZWNvbm9jaW1pZW50byBvcHRpY28gZGUgQ2FyYWN0ZXJlcyAoT0NSKSBlcyB1bmEgdGVjbm9sb2dpYSB1dGlsaXphZGEgcGFyYSBjb252ZXJ0aXIgZGlmZXJlbnRlcyB0aXBvcyBkZSBkb2N1ZW10bm9zLCBjb21vIGltYWdlbmVzLCBkb2N1bWVudG9zIGltcHJlc29zIGVzY2FuZWFkb3MsIGZvdG9ncmFmaWFzIGRlIHRleHRvLCBhcmNoaXZvcyBkZSB0ZXh0bywgYXJjaGl2b3MgUERGLCBvIGltYWdlbmVzIGNhcHR1cmFkYXMgY29uIHVuYSBjYW1hcmEsIGVuIGRhdG9zIGVkaXRhYmxlcyB5IGJ1c2NhYmxlcy4NCg0KIyBJbnN0YWxhciBwYXF1ZXRlcyB5IGxsYW1hciBsaWJyZXJpYXMNCg0KYGBge3J9DQojaW5zdGFsbC5wYWNrYWdlcygidGVzc2VyYWN0IikgI09DUg0KbGlicmFyeSh0ZXNzZXJhY3QpDQojaW5zdGFsbC5wYWNrYWdlcygibWFnaWNrIikgI1BORw0KbGlicmFyeShtYWdpY2spDQojaW5zdGFsbC5wYWNrYWdlcygib2ZmaWNlciIpICN3b3JkDQpsaWJyYXJ5KG9mZmljZXIpDQojaW5zdGFsbC5wYWNrYWdlcygicGRmdG9vbHMiKSAjcGRmDQpsaWJyYXJ5KHBkZnRvb2xzKQ0KYGBgDQoNCiMgT2J0ZW5lciB0ZXh0byBkZSB1bmEgaW1hZ2VuIFBORw0KDQpgYGB7cn0NCiMgZmlsZS5jaG9vc2UoKQ0KaW1hZ2VuMSA8LSBpbWFnZV9yZWFkKCJodHRwczovL3BvZW1hcmlvLmNvbS9wbmcvY2FydGEtYW1vci5wbmciKQ0KdGVzc2VyYWN0X2Rvd25sb2FkKCJzcGEiKQ0KdGV4dG8xIDwtIG9jcihpbWFnZW4xLCBlbmdpbmUgPSB0ZXNzZXJhY3QoInNwYSIpKQ0KdGV4dG8xDQpgYGANCiMgR3VhcmRhciB0ZXh0byBlbiBXT1JEDQoNCmBgYHtyfQ0KZG9jMSA8LSByZWFkX2RvY3goKQ0KZG9jMSA8LSBkb2MxICU+JSBib2R5X2FkZF9wYXIodGV4dG8xLCBzdHlsZSA9ICJOb3JtYWwiKQ0KcHJpbnQoZG9jMSwgdGFyZ2V0ID0gImltYWdlbjFlbnBkZi5kb2N4IikNCmBgYA0KDQojIENvbmNsdXNpb24NCg0KQ29uIGxhcyBsaWJyZXJpYXMgdGVzc2VyYWN0LCBtYWdpY2ssIG9mZmljZXIgeSBwZGZ0b29scyBwdWRlIGhhY2VyIHVuYSBpbWFnZW4gZW4gdGV4dG8gbHVlZ28gZXh0cmFlciBlbCB0ZXh0byB5IHBlZ2FybG8gYSB1biB3b3JkLiBFcyB1bmEgdGVjbm9sb2dpYSBxdWUgcGVybWl0ZSBoYWNlciBtYXMgZWZpY2llbnRlIGxhcyBvcGVyYWNpb25lcyBkZSBsYSBlbXByZXNhLCBhaG9ycmEgY29zdG9zIHNlbiBsYSBjYXB0dXJhIGRlIGluZm9ybWFjaW9uDQoNCg0K