El reconocimiento óptico de caracteres (OCR) es una tecnología utilizada para convertir diferentes tipos de documentos, como imágenes, documentos impresos escaneados, fotografías de texto, archivos PDF, o imágenes capturadas con una cámara, en datos editables y buscables.
#install.packages("tesseract") #OCR
library(tesseract)
#install.packages("magick") #PNG
library(magick)
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
#install.packages("officer") #Word
library(officer)
#install.packages("pdftools") #PDF
library(pdftools)
## Using poppler version 23.08.0
#install.packages("purrr") #Toma fotos del PDF
library(purrr)
#file.choose()
pdf1 <- pdf_convert("C:\\Users\\mari0\\OneDrive\\Documents\\R Studio\\IA con impacto empresarial\\Modulo 2\\BD\\eso3.pdf", dpi = 600) %>%map(ocr)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!
imagen1 <- image_read("C:\\Users\\mari0\\OneDrive\\Documents\\R Studio\\IA con impacto empresarial\\Modulo 2\\eso3_1.png")
texto1 <- ocr(imagen1, engine = tesseract("spa"))
texto1
## [1] "Y alli estaba, persiguiendo su barco de papel por el lado izquierdo de Witcham Street. Corría\ndeprisa, pero el agua le ganaba y el barquito estaba sacando ventaja. Oyó un rugido profundo y\nvio cómo cincuenta metros más adelante, colina abajo, el agua de la cuneta se precipitaba\ndentro de una boca de tormenta que aún continuaba abierta. Era un largo semicirculo oscuro\nabierto en el bordillo de la acera y mientras George miraba, una rama desgarrada, con la corteza\noscura y reluciente se hundió en aquellas fauces. Allí pendió por un momento y luego se deslizó\nhacia el interior. Hacia allí se encaminaba su bote.\n\n— ¡Mierda! —chilló horrorizado.\n\nForzó el paso y, por un momento, pareció que iba a alcanzar al barquito. Pero uno de sus ples\nresbaló y George cayo despatarrado despellejándose la rodilla con un grito de dolor. Desde su\nnueva perspectiva, a la altura del pavimento, vio que su barco giraba en redondo dos veces,\nmomentáneamente atrapado en otro remolino, antes de desaparecer.\n\n—|¡Mierda y más mierda! —volvió a chillar, estrellando el puño contra el pavimento.\n\nEso también dolió, y se echó a sollozar. ¡Qué manera tan estupida de perder el barco!\n\nSe levantó para caminar hacia la boca de tormenta y allí se dejó caer de rodillas, para mirar hacia\nel interior. El agua hacia un ruido hueco y humedo al caer en la oscuridad, Ese sonido le daba\nescalofrios. Hacía pensar en..\n\n—¡Eh!\n\nLa exclamación le fue arrancada como con un cordel. Retrocedioó.\n\nAllí adentro había unos ojos amarillos. Ese tipo de ojos que el siempre imaginaba, sin verlos\nnunca, en la oscuridad del sótano. Es un animal —penso, incoherente—,; eso es todo: un animal; a lo\nmejor un gato que quedó atrapado...\n\nDe todos modos, estaba por echar a correr; habria corrido uno o dos segundos, cuando su\ntablero mental se hubiera hecho cargo del espanto que le produjeron esos dos ojos amarillos y\nbrillantes. Sintió la áspera superficie del pavimento bajo los dedos y la fina lámina de agua fría\nque corría alrededor. Se vio a sí mismo levantándose y retrocediendo. Y fue entonces cuando\nuna voz, una voz perfectamente razonable y bastante simpática, le habló desde dentro de la\nboca de tormenta:\n\n—Hola, George —dijo.\n\nGeorge parpadeo y volvió a mirar. Apenas podía dar crédito a lo que vela; era como algo sacado\nde un cuento o de una película donde uno sabe que los animales hablan y bailan. Si hubiera\ntenido diez años más, no habria creido en lo que estaba viendo; pero no tenia dieciséis años, sino\nseis.\n\nEn la boca de tormenta habia un payaso. La luz distaba de ser buena, pero bastó para que\nGeorge Denbrough estuviese seguro de lo que veía. Era un payaso, como en el circo o en la tele.\nParecía una mezcla de Bozo y Clarabell, el que hablaba haciendo sonar su bocina en Howdy\nDoody, los sábados por la mañana. Búfalo Bob era el único que entendía a Clarabell, y eso\nsiempre hacia reir a George. La cara del payaso metido en la boca de tormenta era blanca; tenia\ncómicos mechones de pelo rojo a cada lado de la calva y una gran sonrisa de payaso pintada\n"
imagen2 <- image_read("C:\\Users\\mari0\\OneDrive\\Documents\\R Studio\\IA con impacto empresarial\\Modulo 2\\eso3_1.png")
texto2 <- ocr(imagen2, engine = tesseract("spa"))
texto2
## [1] "Y alli estaba, persiguiendo su barco de papel por el lado izquierdo de Witcham Street. Corría\ndeprisa, pero el agua le ganaba y el barquito estaba sacando ventaja. Oyó un rugido profundo y\nvio cómo cincuenta metros más adelante, colina abajo, el agua de la cuneta se precipitaba\ndentro de una boca de tormenta que aún continuaba abierta. Era un largo semicirculo oscuro\nabierto en el bordillo de la acera y mientras George miraba, una rama desgarrada, con la corteza\noscura y reluciente se hundió en aquellas fauces. Allí pendió por un momento y luego se deslizó\nhacia el interior. Hacia allí se encaminaba su bote.\n\n— ¡Mierda! —chilló horrorizado.\n\nForzó el paso y, por un momento, pareció que iba a alcanzar al barquito. Pero uno de sus ples\nresbaló y George cayo despatarrado despellejándose la rodilla con un grito de dolor. Desde su\nnueva perspectiva, a la altura del pavimento, vio que su barco giraba en redondo dos veces,\nmomentáneamente atrapado en otro remolino, antes de desaparecer.\n\n—|¡Mierda y más mierda! —volvió a chillar, estrellando el puño contra el pavimento.\n\nEso también dolió, y se echó a sollozar. ¡Qué manera tan estupida de perder el barco!\n\nSe levantó para caminar hacia la boca de tormenta y allí se dejó caer de rodillas, para mirar hacia\nel interior. El agua hacia un ruido hueco y humedo al caer en la oscuridad, Ese sonido le daba\nescalofrios. Hacía pensar en..\n\n—¡Eh!\n\nLa exclamación le fue arrancada como con un cordel. Retrocedioó.\n\nAllí adentro había unos ojos amarillos. Ese tipo de ojos que el siempre imaginaba, sin verlos\nnunca, en la oscuridad del sótano. Es un animal —penso, incoherente—,; eso es todo: un animal; a lo\nmejor un gato que quedó atrapado...\n\nDe todos modos, estaba por echar a correr; habria corrido uno o dos segundos, cuando su\ntablero mental se hubiera hecho cargo del espanto que le produjeron esos dos ojos amarillos y\nbrillantes. Sintió la áspera superficie del pavimento bajo los dedos y la fina lámina de agua fría\nque corría alrededor. Se vio a sí mismo levantándose y retrocediendo. Y fue entonces cuando\nuna voz, una voz perfectamente razonable y bastante simpática, le habló desde dentro de la\nboca de tormenta:\n\n—Hola, George —dijo.\n\nGeorge parpadeo y volvió a mirar. Apenas podía dar crédito a lo que vela; era como algo sacado\nde un cuento o de una película donde uno sabe que los animales hablan y bailan. Si hubiera\ntenido diez años más, no habria creido en lo que estaba viendo; pero no tenia dieciséis años, sino\nseis.\n\nEn la boca de tormenta habia un payaso. La luz distaba de ser buena, pero bastó para que\nGeorge Denbrough estuviese seguro de lo que veía. Era un payaso, como en el circo o en la tele.\nParecía una mezcla de Bozo y Clarabell, el que hablaba haciendo sonar su bocina en Howdy\nDoody, los sábados por la mañana. Búfalo Bob era el único que entendía a Clarabell, y eso\nsiempre hacia reir a George. La cara del payaso metido en la boca de tormenta era blanca; tenia\ncómicos mechones de pelo rojo a cada lado de la calva y una gran sonrisa de payaso pintada\n"
imagen3 <- image_read("C:\\Users\\mari0\\OneDrive\\Documents\\R Studio\\IA con impacto empresarial\\Modulo 2\\eso3_1.png")
texto3 <- ocr(imagen3, engine = tesseract("spa"))
texto3
## [1] "Y alli estaba, persiguiendo su barco de papel por el lado izquierdo de Witcham Street. Corría\ndeprisa, pero el agua le ganaba y el barquito estaba sacando ventaja. Oyó un rugido profundo y\nvio cómo cincuenta metros más adelante, colina abajo, el agua de la cuneta se precipitaba\ndentro de una boca de tormenta que aún continuaba abierta. Era un largo semicirculo oscuro\nabierto en el bordillo de la acera y mientras George miraba, una rama desgarrada, con la corteza\noscura y reluciente se hundió en aquellas fauces. Allí pendió por un momento y luego se deslizó\nhacia el interior. Hacia allí se encaminaba su bote.\n\n— ¡Mierda! —chilló horrorizado.\n\nForzó el paso y, por un momento, pareció que iba a alcanzar al barquito. Pero uno de sus ples\nresbaló y George cayo despatarrado despellejándose la rodilla con un grito de dolor. Desde su\nnueva perspectiva, a la altura del pavimento, vio que su barco giraba en redondo dos veces,\nmomentáneamente atrapado en otro remolino, antes de desaparecer.\n\n—|¡Mierda y más mierda! —volvió a chillar, estrellando el puño contra el pavimento.\n\nEso también dolió, y se echó a sollozar. ¡Qué manera tan estupida de perder el barco!\n\nSe levantó para caminar hacia la boca de tormenta y allí se dejó caer de rodillas, para mirar hacia\nel interior. El agua hacia un ruido hueco y humedo al caer en la oscuridad, Ese sonido le daba\nescalofrios. Hacía pensar en..\n\n—¡Eh!\n\nLa exclamación le fue arrancada como con un cordel. Retrocedioó.\n\nAllí adentro había unos ojos amarillos. Ese tipo de ojos que el siempre imaginaba, sin verlos\nnunca, en la oscuridad del sótano. Es un animal —penso, incoherente—,; eso es todo: un animal; a lo\nmejor un gato que quedó atrapado...\n\nDe todos modos, estaba por echar a correr; habria corrido uno o dos segundos, cuando su\ntablero mental se hubiera hecho cargo del espanto que le produjeron esos dos ojos amarillos y\nbrillantes. Sintió la áspera superficie del pavimento bajo los dedos y la fina lámina de agua fría\nque corría alrededor. Se vio a sí mismo levantándose y retrocediendo. Y fue entonces cuando\nuna voz, una voz perfectamente razonable y bastante simpática, le habló desde dentro de la\nboca de tormenta:\n\n—Hola, George —dijo.\n\nGeorge parpadeo y volvió a mirar. Apenas podía dar crédito a lo que vela; era como algo sacado\nde un cuento o de una película donde uno sabe que los animales hablan y bailan. Si hubiera\ntenido diez años más, no habria creido en lo que estaba viendo; pero no tenia dieciséis años, sino\nseis.\n\nEn la boca de tormenta habia un payaso. La luz distaba de ser buena, pero bastó para que\nGeorge Denbrough estuviese seguro de lo que veía. Era un payaso, como en el circo o en la tele.\nParecía una mezcla de Bozo y Clarabell, el que hablaba haciendo sonar su bocina en Howdy\nDoody, los sábados por la mañana. Búfalo Bob era el único que entendía a Clarabell, y eso\nsiempre hacia reir a George. La cara del payaso metido en la boca de tormenta era blanca; tenia\ncómicos mechones de pelo rojo a cada lado de la calva y una gran sonrisa de payaso pintada\n"
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(texto1, style = "Normal")
doc1 <- doc1 %>% body_add_par(texto2, style = "Normal")
doc1 <- doc1 %>% body_add_par(texto3, style = "Normal")
print(doc1, target = "esoenword.docx")
El OCR es una tecnología que nos permite hacer más eficientes las operaciones de la empresa, ahorrando costos en la captura de la información. En este caso guardamos de un PDF a un WORD 3 páginas de la novela “Eso” de Stephen King.