knitr::opts_chunk$set(echo = TRUE)

En resumen, include determina si el bloque de código en sí (resultados y todo) se incluirá en la salida del documento, mientras que echo determina si el código fuente de ese bloque se mostrará en la salida del documento.

aqui echo = TRUE significa que los fragmentos de código mostrarán su código fuente en el documento final. Si echo estuviera establecido en echo = FLASE, el código fuente no se mostraría en el documento final, pero aún se ejecutaríA

EJEMPLO

plot(pressure)

PARA EMPEZAR

# Para limpiar el área de gráficos
#OJO:para el toc debes tar  espaciado h y ## verticalmente 1
graphics.off()

# Cambiar el directorio de trabajo
setwd(dirname(rstudioapi::getActiveDocumentContext()$path))
getwd()

## [1] "E:/MATERIALES TED/FUENTES_FIORELLA"

# Otras opciones
cat("\014")

options(scipen=999)    # Eliminar la notación científica
options(digits = 3)

PAQUETES

library(pacman)
p_load(tidyverse, tidytext, tm, wordcloud,
       wordcloud2, pdftools, patchwork,
       widyr,dplyr,magrittr)

LECTURA PDF

library(pdftools)
libro1 <- pdf_text("La_quinta_montaña.pdf")

libro1 <- paste(libro1, collapse = " ")
  
#libro1

Limpieza

#pie de pagina
str_count(libro1, "\n[:blank:]+[:digit:]+\n")

## [1] 188

libro1 <- str_replace_all(libro1, "[:blank:]{2,}", " ")

#limpiar los nombres 
library(stringr)
str_count(libro1, "Elías")

## [1] 396

str_count(libro1, "elías")

## [1] 0

str_count(libro1, "Akbar")

## [1] 189

remover <- c("Elías","Akbar","elías")
#           
str_remove_all(libro1, remover) -> libro2
#libro2

write_lines(libro2, "libro3.txt")
libro2<- scan("libro3.txt",
                   encoding = "UTF-8", what = "char",
                   sep = "\n")

Uso del token (espacios)

Convertir en tibble

libro3 <- tibble(libro2) %>% 
    unnest_tokens(Token, libro2) %>% 
    mutate(Token = removeNumbers(Token)) 

#libro3

usando xlsx

library(readxl)
stopwords_es_1        <- read_excel("CustomStopWords.xlsx")
names(stopwords_es_1) <- c("Token","Fuente")

stopwords_es_2 <- tibble(Token= c(""),Fuente="Mis StopWords")
  
stopwords_es   <- rbind(stopwords_es_1, stopwords_es_2)
stopwords_es   <- stopwords_es[!duplicated(stopwords_es$Token),]

#reomoviedno los stopwords

libro4 <- libro3 %>% anti_join(stopwords_es)

## Joining with `by = join_by(Token)`

Grafico de palabras mas frecuentes

buscando las palabras

libro4_frecuencias <- libro4 %>%
  count(Token, sort = TRUE)
  
libro4_frecuencias

## # A tibble: 6,086 × 2
##    Token          n
##    <chr>      <int>
##  1 elías        825
##  2 señor        576
##  3 ciudad       450
##  4 gobernador   441
##  5 dios         432
##  6 mujer        396
##  7 akbar        378
##  8 dioses       333
##  9 niño         315
## 10 vida         312
## # ℹ 6,076 more rows

grafico

library(forcats)
grafico2 <- libro4_frecuencias %>% 
    top_n(10) %>% 
    ggplot() + 
    aes(x = fct_reorder(Token, n), y = n,fill=Token) + 
    geom_col() +
    labs(x = NULL, y = "Frecuencia", 
         title = "Mensaje Presidencial diciembre-2018" ) +
    theme_minimal() + 
    theme(legend.position = "none") +
    coord_flip()

## Selecting by n

grafico2

vere si se actualiza

# Nube de palabras con el paquete wordcloud2
library(wordcloud2)
  
set.seed(2021)
wordcloud2(libro4_frecuencias ,
           size = 0.7,
           shape = 'circle')

8.INTRODUCCION AL TEXT MINING

Fuentes Fiorella

2024-01-06