Teoría
La minería de texto (TM) es el proceso de extraer
información útil, patrones o conocimiento de textos no
estructurados.
Consta de 3 etapas:
1. Obtener datos: El reconocimiento óptico de caracteres
(OCR) es una tecnología que permite convertir imágenes de texto
en texto editable. También es conocido como extracción de texto
en imágenes.
2. Explorar datos: Representación gráfica o visual de los datos para su
interpretación. Los métodos más comunes son el Análisis de Sentimientos,
la Nube de Palabras y el Topic Modeling.
3. Análisis predictivo: Son las técnicas y modelos estadísticos para
predecir resultados futuros. Los modelos más usados son el Random
Forest, redes neuronales y regresiones.
1. Obtener datos mediante OCR
imagen1 <- image_read("C:\\Users\\kathi\\OneDrive\\Escritorio\\M2_IA con Impacto Empresarial\\imagen1.PNG")
texto1 <- ocr(imagen1)
texto1
## [1] "Linear regression with one variable x is also known as univariate linear regression\nor simple linear regression. Simple linear regression is used to predict a single\noutput from a single input. This is an example of supervised learning, which means\nthat the data is labeled, i.e., the output values are known in the training data. Let us\nfit a line through the data using simple linear regression as shown in Fig. 4.1.\n"
doc1 <- read_docx() # Crea un documento de word en blanco
doc1 <- doc1 %>% body_add_par(texto1, style ="Normal") # Pega el texto en el word
# print(doc1, target = "texto1.docx") # Guarda el word en la computadora
Imagen en español PNG a texto en
WORD
Consultar
idiomas disponibles
imagen2 <- image_read("C:\\Users\\kathi\\OneDrive\\Escritorio\\M2_IA con Impacto Empresarial\\imagen2.PNG")
# tesseract_download("spa") # Cuando se use en español
# texto2 <- ocr(imagen2, engine = tesseract("spa"))
texto2 <- ocr(imagen2)
texto2
## [1] "Un importante, y quiza controversial, asunto politico es el que se refiere al efecto del salario minimo sobre\nlas tasas de desempleo en diversos grupos de trabajadores. Aunque este problema puede ser estudiado con\ndiversos tipos de datos (corte transversal, series de tiempo o datos de panel), suelen usarse las series de\ntiempo para observar los efectos agregados. En la tabla 1.3 se presenta un ejemplo de una base de datos\nde series de tiempo sobre tasas de desempleo y salarios minimos.\n"
doc2 <- read_docx() # Crea un documento de word en blanco
doc2 <- doc2 %>% body_add_par(texto2, style ="Normal")# Pega el texto en el word
# print(doc2, target = "texto2.docx") # Guarda el word en la computadora
De PDF a texto en WORD
pdf1 <- pdf_convert("C:\\Users\\kathi\\OneDrive\\Escritorio\\M2_IA con Impacto Empresarial\\pdf1.pdf", dpi=600) %>% map(ocr)
## Converting page 1 to pdf1_1.png... done!
## Converting page 2 to pdf1_2.png... done!
## Converting page 3 to pdf1_3.png... done!
## Converting page 4 to pdf1_4.png... done!
## Converting page 5 to pdf1_5.png... done!
## Converting page 6 to pdf1_6.png... done!
## Converting page 7 to pdf1_7.png... done!
## Converting page 8 to pdf1_8.png... done!
Actividad 1. Novela “IT”
Convertir de PDF a texto en
WORD
pdf2<- pdf_convert( "C:\\Users\\kathi\\OneDrive\\Escritorio\\M2_IA con Impacto Empresarial\\eso3.pdf" , dpi=600) %>% map(ocr)
## Converting page 1 to eso3_1.png... done!
## Converting page 2 to eso3_2.png... done!
## Converting page 3 to eso3_3.png... done!
Convertir imágenes en español PNG a texto
en WORD
imagen3 <-image_read("eso3_1.png")
tesseract_download("spa")
## [1] "C:\\Users\\kathi\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
text3 <- ocr(imagen3, engine = tesseract("spa"))
imagen4 <-image_read("eso3_2.png")
tesseract_download("spa")
## [1] "C:\\Users\\kathi\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
text4 <- ocr(imagen4, engine = tesseract("spa"))
imagen5 <-image_read("eso3_3.png")
tesseract_download("spa")
## [1] "C:\\Users\\kathi\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/spa.traineddata"
text5 <- ocr(imagen5, engine = tesseract("spa"))
doc3 <- read_docx() #Crea un documento de word en blanco
doc3 <- doc3 %>%
body_add_par(text3, style = "Normal") %>%
body_add_par(text4, style = "Normal") %>%
body_add_par(text5, style = "Normal")
# Guardar el documento
# print(doc3, target = "it.docx")
2. Exploración de Datos
Análisis de Frecuencias
text <- readLines("C:\\Users\\kathi\\OneDrive\\Escritorio\\M2_IA con Impacto Empresarial\\martin-luther-king-i-have-a-dream-speech.txt")
corpus <- Corpus(VectorSource(text)) # Pone cada renglón en una celda de vector
# inspect(corpus)
corpus <- tm_map(corpus, content_transformer(tolower)) # Pone todo en minúsculas
## Warning in tm_map.SimpleCorpus(corpus, content_transformer(tolower)):
## transformation drops documents
corpus <- tm_map(corpus, removePunctuation) # Elimina puntuación
## Warning in tm_map.SimpleCorpus(corpus, removePunctuation): transformation drops
## documents
corpus <- tm_map(corpus, removeNumbers) # Elimina números
## Warning in tm_map.SimpleCorpus(corpus, removeNumbers): transformation drops
## documents
corpus <- tm_map(corpus, removeWords, stopwords("en")) # Elimina palabras que no hablen del tema
## Warning in tm_map.SimpleCorpus(corpus, removeWords, stopwords("en")):
## transformation drops documents
# corpus <- tm_map(corpus, removeWords, c("dream", "will")) #Elimina palabras puntuales
tdm <- TermDocumentMatrix(corpus)
m <- as.matrix(tdm) # Cuenta las veces que aparece cada palabra por renglón
frecuencia <- sort(rowSums(m), decreasing = TRUE) # Cuenta la frecuencia de cada palabra en el texto completo
frecuencia_df <- data.frame(word=names(frecuencia),freq=frecuencia) # Convierte la frecuencia a data frame
ggplot(head(frecuencia_df,10), aes(x=word, y=freq)) +
geom_bar(stat="identity", fill="pink") +
geom_text(aes(label = freq), vjust = -0.5) +
labs(title="TOP 10 palabras más frecuentes", subtitle="Discurso 'I have a Dream' de M.L: King", x= "Palabra", y="Frecuencia") +
ylim(0,20)

Nube de Palabras
# El procesamiento de datos antes de la nube de palabras es igual que en el Análisis de Frecuencias, desde importar el texto hasta frecuencia_df
set.seed(123)
wordcloud(words=frecuencia_df$word,freq=frecuencia_df$freq, min.freq=1,
random.order=FALSE, colors = brewer.pal(8, "RdPu"))

Ejercicio 2. Novela IT
texto <- readLines("C:\\Users\\kathi\\OneDrive\\Escritorio\\M2_IA con Impacto Empresarial\\it.txt")
text2 <- iconv(texto, to = "UTF-8", sub = "byte") # Convertir texto codificado a caracteres legibles
corpus2 <- Corpus(VectorSource(text2))
corpus2 <- tm_map(corpus2, content_transformer(tolower)) # Pone todo en minúsculas
## Warning in tm_map.SimpleCorpus(corpus2, content_transformer(tolower)):
## transformation drops documents
corpus2 <- tm_map(corpus2, removePunctuation) # Elimina puntuación
## Warning in tm_map.SimpleCorpus(corpus2, removePunctuation): transformation
## drops documents
corpus2 <- tm_map(corpus2, removeNumbers) # Elimina números
## Warning in tm_map.SimpleCorpus(corpus2, removeNumbers): transformation drops
## documents
corpus2 <- tm_map(corpus2, removeWords, stopwords("spanish")) # Elimina palabras que no hablen del tema
## Warning in tm_map.SimpleCorpus(corpus2, removeWords, stopwords("spanish")):
## transformation drops documents
# corpus <- tm_map(corpus, removeWords, c("dream", "will")) #Elimina palabras puntuales
tdm2 <- TermDocumentMatrix(corpus2)
m2 <- as.matrix(tdm2) # Cuenta las veces que aparece cada palabra por renglón
frecuencia2 <- sort(rowSums(m2), decreasing = TRUE) # Cuenta la frecuencia de cada palabra en el texto completo
frecuencia_df2 <- data.frame(word = names(frecuencia2), freq = frecuencia2) # Convierte la frecuencia a data frame
ggplot(head(frecuencia_df2, 10), aes(x = reorder(word, -freq), y = freq)) +
geom_bar(stat = "identity", fill = "red") +
geom_text(aes(label = freq), vjust = -0.5) +
labs(title = "TOP 10 palabras más frecuentes",
subtitle = "IT",
x = "Palabra",
y = "Frecuencia") +
ylim(0, 20)
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

Nube de Palabras
# El procesamiento de datos antes de la nube de palabras es igual que en el Análisis de Frecuencias, desde importar el texto hasta frecuencia_df2
set.seed(123)
wordcloud(words=frecuencia_df2$word,freq=frecuencia_df2$freq, min.freq=1,
random.order=FALSE, colors = brewer.pal(8, "RdPu"))

