# Teoria 1
# Reconocimiento óptico de Caracteres (OCR) es una tecnologia utilizada para convertir diferentes tipos de documentos, como imagenes, documentos impresos escaneados fotografias de texto, archivos PDF, o imágenes capturadas con una cámara, en datos editables y buscables

library(tesseract)
library(magick)
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
library(officer)
library(pdftools)
## Using poppler version 23.08.0
# obtener texto de una imagen en PNG
imagen1 <- image_read("C:\\Users\\lcbor\\Documents\\images.png")
tesseract_download("spa")
## [1] "C:\\Users\\lcbor\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "AAA\nDISCIPLINA\nORGANIZACIÓN — UMPEZA PUNTUALIDAD\narena\nA\n"
# Guardar texto en word
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
print(doc1,target = "imagen1enpdf.docx")

# Conclusion
# Transformar una imagen a texto puede tener sus complicaciones, especialmente si no tiene formato de un texto convencional. Considerando que subi un diagrama el programa hizo un trabajo decente leyendo el texto
LS0tDQp0aXRsZTogIk9DUiINCmF1dGhvcjogIkx1aXMgQ2FybG9zIEJvcmJvbiBNYXJ0aW5leiINCmRhdGU6ICIyMDI0LTA4LTE0Ig0Kb3V0cHV0Og0KICBodG1sX2RvY3VtZW50Og0KICAgIHRvYzogdHJ1ZQ0KICAgIHRvY19mb2F0OiB0cnVlDQogICAgY29kZV9kb3dubG9hZDogdHJ1ZQ0KICAgIHRoZW1lOiBkYXJrDQotLS0NCg0KIVtdKEM6XFxVc2Vyc1xcbGNib3JcXERvY3VtZW50c1xcbGlicm9zLTQuanBnKQ0KDQpgYGB7cn0NCiMgVGVvcmlhIDENCiMgUmVjb25vY2ltaWVudG8gw7NwdGljbyBkZSBDYXJhY3RlcmVzIChPQ1IpIGVzIHVuYSB0ZWNub2xvZ2lhIHV0aWxpemFkYSBwYXJhIGNvbnZlcnRpciBkaWZlcmVudGVzIHRpcG9zIGRlIGRvY3VtZW50b3MsIGNvbW8gaW1hZ2VuZXMsIGRvY3VtZW50b3MgaW1wcmVzb3MgZXNjYW5lYWRvcyBmb3RvZ3JhZmlhcyBkZSB0ZXh0bywgYXJjaGl2b3MgUERGLCBvIGltw6FnZW5lcyBjYXB0dXJhZGFzIGNvbiB1bmEgY8OhbWFyYSwgZW4gZGF0b3MgZWRpdGFibGVzIHkgYnVzY2FibGVzDQoNCmxpYnJhcnkodGVzc2VyYWN0KQ0KbGlicmFyeShtYWdpY2spDQpsaWJyYXJ5KG9mZmljZXIpDQpsaWJyYXJ5KHBkZnRvb2xzKQ0KDQojIG9idGVuZXIgdGV4dG8gZGUgdW5hIGltYWdlbiBlbiBQTkcNCmltYWdlbjEgPC0gaW1hZ2VfcmVhZCgiQzpcXFVzZXJzXFxsY2JvclxcRG9jdW1lbnRzXFxpbWFnZXMucG5nIikNCnRlc3NlcmFjdF9kb3dubG9hZCgic3BhIikNCnRleHRvMSA8LSBvY3IoaW1hZ2VuMSwgZW5naW5lID0gdGVzc2VyYWN0KCJzcGEiKSkNCnRleHRvMQ0KDQojIEd1YXJkYXIgdGV4dG8gZW4gd29yZA0KZG9jMSA8LSByZWFkX2RvY3goKQ0KZG9jMSA8LSBkb2MxICU+JSBib2R5X2FkZF9wYXIodGV4dG8xLCBzdHlsZSA9ICJOb3JtYWwiKQ0KcHJpbnQoZG9jMSx0YXJnZXQgPSAiaW1hZ2VuMWVucGRmLmRvY3giKQ0KDQojIENvbmNsdXNpb24NCiMgVHJhbnNmb3JtYXIgdW5hIGltYWdlbiBhIHRleHRvIHB1ZWRlIHRlbmVyIHN1cyBjb21wbGljYWNpb25lcywgZXNwZWNpYWxtZW50ZSBzaSBubyB0aWVuZSBmb3JtYXRvIGRlIHVuIHRleHRvIGNvbnZlbmNpb25hbC4gQ29uc2lkZXJhbmRvIHF1ZSBzdWJpIHVuIGRpYWdyYW1hIGVsIHByb2dyYW1hIGhpem8gdW4gdHJhYmFqbyBkZWNlbnRlIGxleWVuZG8gZWwgdGV4dG8NCmBgYA==