Paquetes
library(pacman)
p_load("dplyr", "stringr", "ggplot2", "wordcloud","rmdformats","vembedr", "xfun")
Análisis de conteo de palabras para conocer su frecuencia
- Este es un ejercicio de la materia de probabilidad y estadística de la clase de las 9:00 a.m. (LMV) del departamento de matemáticas de ITSON.
Procesamiento del lenguaje natural
## Principales ecuaciones utilizadas
Si lo que se busca es incluir ecuaciones en texto, sería así: \(E=mc^2\)
Para explicar una ecuación se incluye de la siguiente forma:
\[ (1) E=mc^2 \] En la ecuación (1) tenemos que:
- E = energia
- m = masa
- c = velocidad de la luz
Concepto de PLN
- Análisis morfológico o léxico.
- Análisis sintáctico.
- Análisis semántico.
- Análisis pragmático.
En el siguiente enlace pueden ver un articulo explicando más acerca de esto.
Funcion
FreqCategory <- function(value){
strCategory <- ifelse(value <=5, " 5",
ifelse(value <=10, " 10",
ifelse(value <=20, " 20",
ifelse(value <=50, " 50",
ifelse(value <=100, " 100",
ifelse(value <=500, " 500",
ifelse(value <=1000, " 1,000",
">1,000")))))))
strCategory
}
Datos de texto
setwd("~/ea9am")
politica <- readLines("politica.txt")
head(politica)
## [1] "también se está comenzando transmisiones"
## [2] ""
## [3] "en facebook live y todos ustedes"
## [4] ""
## [5] "bienvenidos"
## [6] ""
Conteo de lineas (renglones)
#longitud del vector
intLineCount <- length(politica)
intLineCount
## [1] 3182
Video de youtube de la charla:
embed_url("https://youtu.be/5PLw3Macsxs")