Teoría

La minería de texto (TM) es el proceso de extraer información útil, patrones o conocimiento de textos no estructurados.

Consta de tres etapas:

  1. Obtener datos: El Reconocimiento Óptico de Caracteres (OCR) es una tecnología que permite convertir imágenes de texto en texto editable. También es conocido como extracción de texto de imágenes.
  2. Explorar datos:Representación gráfica o visual de los datos para su interpretación. Los métodos más comunes son el Análisis de sentimientos, la Nube de palabras y el Topic Modeling.
  3. Análisis predictivo: Son las técnicas y modelos estadísticos para predecir resultados futuros. Los modelos más usados son el Random Forest, redes neuronales y regresions

Instalar paquetes y llamar librerias

library(tidyverse) # Manipulación de datos
library(tesseract) # OCR
library(magick) # PNG
library(officer) # Office (word)
library(pdftools) # PDF

Etapa 1. Obtener datos mediante OCR

De imagen PNG a texto en word

image1 <- image_read('C:\\Users\\ACER\\Downloads\\imagen1.PNG')
text1 <- ocr(image1)
doc1 <- read_docx()
doc1 <- doc1 %>% body_add_par(text1) # Pega el texto en el doc
print(doc1, target = 'text1.docx')
LS0tDQp0aXRsZTogIkRhdGEgTWluaW5nIg0KYXV0aG9yOiANCmRhdGU6ICIyMDI1LTAyLTE3Ig0Kb3V0cHV0OiANCiAgaHRtbF9kb2N1bWVudDoNCiAgICAgIHRvYzogVFJVRQ0KICAgICAgdG9jX2Zsb2F0OiBUUlVFDQogICAgICBjb2RlX2Rvd25sb2FkOiBUUlVFDQogICAgICB0aGVtZTogY29zbW8NCi0tLQ0KDQohW10oQzpcXFVzZXJzXFxBQ0VSXFxEb3dubG9hZHNcXE9JUC5qcGcpDQoNCiMgPHNwYW4gc3R5bGU9ImNvbG9yOiBibHVlOyI+VGVvcsOtYTwvc3Bhbj4NCg0KTGEgKiptaW5lcsOtYSBkZSB0ZXh0byAoVE0pKiogZXMgZWwgcHJvY2VzbyBkZSBleHRyYWVyIGluZm9ybWFjacOzbiDDunRpbCwgcGF0cm9uZXMgbyBjb25vY2ltaWVudG8gZGUgdGV4dG9zIG5vIGVzdHJ1Y3R1cmFkb3MuICANCg0KQ29uc3RhIGRlIHRyZXMgZXRhcGFzOiAgDQoNCjEuIE9idGVuZXIgZGF0b3M6IEVsICoqUmVjb25vY2ltaWVudG8gw5NwdGljbyBkZSBDYXJhY3RlcmVzIChPQ1IpKiogZXMgdW5hIHRlY25vbG9nw61hIHF1ZSBwZXJtaXRlIGNvbnZlcnRpciBpbcOhZ2VuZXMgZGUgdGV4dG8gZW4gdGV4dG8gZWRpdGFibGUuIFRhbWJpw6luIGVzIGNvbm9jaWRvIGNvbW8gKipleHRyYWNjacOzbiBkZSB0ZXh0byBkZSBpbcOhZ2VuZXMqKi4NCjIuIEV4cGxvcmFyIGRhdG9zOlJlcHJlc2VudGFjacOzbiBncsOhZmljYSBvIHZpc3VhbCBkZSBsb3MgZGF0b3MgcGFyYSBzdSBpbnRlcnByZXRhY2nDs24uIExvcyBtw6l0b2RvcyBtw6FzIGNvbXVuZXMgc29uIGVsIEFuw6FsaXNpcyBkZSBzZW50aW1pZW50b3MsIGxhIE51YmUgZGUgcGFsYWJyYXMgeSBlbCBUb3BpYyBNb2RlbGluZy4NCjMuIEFuw6FsaXNpcyBwcmVkaWN0aXZvOiBTb24gbGFzIHTDqWNuaWNhcyB5IG1vZGVsb3MgZXN0YWTDrXN0aWNvcyBwYXJhIHByZWRlY2lyIHJlc3VsdGFkb3MgZnV0dXJvcy4gTG9zIG1vZGVsb3MgbcOhcyB1c2Fkb3Mgc29uIGVsIFJhbmRvbSBGb3Jlc3QsIHJlZGVzIG5ldXJvbmFsZXMgeSByZWdyZXNpb25zDQoNCiMgPHNwYW4gc3R5bGU9ImNvbG9yOiBibHVlOyI+SW5zdGFsYXIgcGFxdWV0ZXMgeSBsbGFtYXIgbGlicmVyaWFzPC9zcGFuPg0KDQoNCmBgYHtyIG1lc3NhZ2U9RkFMU0V9DQpsaWJyYXJ5KHRpZHl2ZXJzZSkgIyBNYW5pcHVsYWNpw7NuIGRlIGRhdG9zDQpsaWJyYXJ5KHRlc3NlcmFjdCkgIyBPQ1INCmxpYnJhcnkobWFnaWNrKSAjIFBORw0KbGlicmFyeShvZmZpY2VyKSAjIE9mZmljZSAod29yZCkNCmxpYnJhcnkocGRmdG9vbHMpICMgUERGDQpgYGANCg0KIyA8c3BhbiBzdHlsZT0iY29sb3I6IGJsdWU7Ij5FdGFwYSAxLiBPYnRlbmVyIGRhdG9zIG1lZGlhbnRlIE9DUjwvc3Bhbj4NCg0KIyMgPHNwYW4gc3R5bGU9ImNvbG9yOiBibHVlOyI+RGUgaW1hZ2VuIFBORyAgYSB0ZXh0byBlbiB3b3JkPC9zcGFuPg0KDQpgYGB7cn0NCmltYWdlMSA8LSBpbWFnZV9yZWFkKCdDOlxcVXNlcnNcXEFDRVJcXERvd25sb2Fkc1xcaW1hZ2VuMS5QTkcnKQ0KdGV4dDEgPC0gb2NyKGltYWdlMSkNCmRvYzEgPC0gcmVhZF9kb2N4KCkNCmRvYzEgPC0gZG9jMSAlPiUgYm9keV9hZGRfcGFyKHRleHQxKSAjIFBlZ2EgZWwgdGV4dG8gZW4gZWwgZG9jDQpwcmludChkb2MxLCB0YXJnZXQgPSAndGV4dDEuZG9jeCcpDQpgYGANCg0KDQoNCg0KDQo=