Análisis de frecuencia a través de conteo de palabras

Jose Nunez

1/20/2022

El presente documento tiene como objetivo analizar a través de un conteo de palabras y análisis de frecuencia las charlas.

Para este caso se hace el análisis de la charla “política e inteligencia artificial” impartida por Cristina Martínez y Fernando baños el 27 de octubre de 2020

Procesamiento del Lenguaje Natural

Esquema del Lenguaje Natural

Principales ecuaciones utilizadas

Si quisieramos incluir una ecuación en el texto sería de esta forma: \(E=mc^2\)

Si queremos incluir una ecuación para ilustrarla

\[ (1) E = mc^2 \] 1. Ecuación 1

Donde: E = Energía m = masa c = constante de la velocidad de la luz

Concepto de PLN

El Procesamiento del Lenguaje Natural o Natural Languaje Processing es el campo de conocimiento de la Inteligencia Artificial que se ocupa de la investigar la manera de comunicar las máquinas con las personas mediante el uso de lenguas naturales, como el español, el inglés o el chino.

Tipos de modelos

Modelos Lógicos: gramáticas
Modelos probabilísticos del lenguaje natural: basados en datos

Componentes del PLN

Análisis morfológico o léxico
Análisis sintáctico.
Análisis semántico
Análisis pragmático.

En el siguiente enlace pueden ver sus principales aplicaciones

Paquetes

library(pacman)
p_load("dplyr", "stringr", "ggplot2", "wordcloud","rmdformats","vembedr", "xfun")

Video de youtube de la charla:

embed_url("https://youtu.be/5PLw3Macsxs")

Funciones

FreqCategory <- function(value) {
    strCategory <- ifelse(value <=5,   "      5",
                ifelse(value <=10,     "     10",
                ifelse(value <=20,     "     20",
                ifelse(value <=50,     "     50",
                ifelse(value <=100,    "    100",
                ifelse(value <=500,    "    500",
                ifelse(value <=1000,   "  1,000",
                              ">1,000")))))))
                strCategory
}

Datos

politica <- readLines("politica.txt")
head(politica)

## [1] "tambiÃ©n se estÃ¡ comenzando transmisiones"
## [2] ""                                          
## [3] "en facebook live y todos ustedes"          
## [4] ""                                          
## [5] "bienvenidos"                               
## [6] ""

Conteo de lineas

# Longitud de vector 
intLineCount <- length(politica)
intLineCount

## [1] 3182

Conteo de palabras por linea

# separar
lstUNPrfLines <- str_split(politica," ")
# palabras por linea
vciUNPrfWperL <- unlist(lapply(lstUNPrfLines, length))
# imprimir media de palabras por linea 
mean(vciUNPrfWperL)

## [1] 3.495915

conteo total de palabras

# deslistar para obtener un vector de palabras
vcsUNPrfWords <- unlist(lstUNPrfLines)
# recuento total de palabras = longitud del vector
intWordCount <- length(vcsUNPrfWords)
# imprimir 
intWordCount

## [1] 11124

Mostrar palabras

head(vcsUNPrfWords,100)

##   [1] "tambiÃ©n"       "se"             "estÃ¡"          "comenzando"    
##   [5] "transmisiones"  ""               "en"             "facebook"      
##   [9] "live"           "y"              "todos"          "ustedes"       
##  [13] ""               "bienvenidos"    ""               "muy"           
##  [17] "buenas"         "tardes"         "a"              "todos"         
##  [21] "sean"           ""               "bienvenidos"    "en"            
##  [25] "dos"            "momentos"       "iniciamos"      ""              
##  [29] "pues"           "de"             "nuevo"          "buenas"        
##  [33] "tardes"         "a"              "todos"          "y"             
##  [37] ""               "todas"          "en"             "mi"            
##  [41] "nombre"         "es"             "lulÃº"          "velasco"       
##  [45] "y"              ""               "formÃ³"         "parte"         
##  [49] "del"            "equipo"         "del"            "instituto"     
##  [53] "de"             ""               "emprendimiento" "del"           
##  [57] "tec"            "de"             "monterrey"      ""              
##  [61] "regiÃ³n"        "occidente"      "muchas"         "gracias"       
##  [65] "por"            ""               "acompaÃ±arnos"  "en"            
##  [69] "esta"           "serie"          "donde"          "vamos"         
##  [73] "a"              ""               "platicar"       "sobre"         
##  [77] "inteligencia"   "artificial"     ""               "y"             
##  [81] "bueno"          "antes"          "de"             "dar"           
##  [85] "inicio"         "les"            "comparto"       ""              
##  [89] "que"            "al"             "finalizar"      "la"            
##  [93] "sesiÃ³n"        "tendremos"      ""               "algunos"       
##  [97] "minutos"        "de"             "preguntas"      "y"

limpieza de palabras

# lower case
vcsUNPrfWords <- str_to_lower(vcsUNPrfWords)
# remove numbers
vcsUNPrfWords <- str_replace_all(vcsUNPrfWords, pattern="[[:digit:]]", "")
# remove punctuation
vcsUNPrfWords <- str_replace_all(vcsUNPrfWords, pattern="[[:punct:]]", "")
# remove white spaces
vcsUNPrfWords <- str_replace_all(vcsUNPrfWords, pattern="[[:space:]]", "")
# remove special chars
vcsUNPrfWords <- str_replace_all(vcsUNPrfWords, pattern="[~@#$%&-_=<>]", "")
# remove empty vectors
vcsUNPrfWords <- vcsUNPrfWords[vcsUNPrfWords != ""]
# hack & remove $
vcsUNPrfWords <- str_replace_all(vcsUNPrfWords, pattern="$", "")
# head
head(vcsUNPrfWords,100)

##   [1] "tambiã©n"       "se"             "estã"           "comenzando"    
##   [5] "transmisiones"  "en"             "facebook"       "live"          
##   [9] "y"              "todos"          "ustedes"        "bienvenidos"   
##  [13] "muy"            "buenas"         "tardes"         "a"             
##  [17] "todos"          "sean"           "bienvenidos"    "en"            
##  [21] "dos"            "momentos"       "iniciamos"      "pues"          
##  [25] "de"             "nuevo"          "buenas"         "tardes"        
##  [29] "a"              "todos"          "y"              "todas"         
##  [33] "en"             "mi"             "nombre"         "es"            
##  [37] "lulãº"          "velasco"        "y"              "formã³"        
##  [41] "parte"          "del"            "equipo"         "del"           
##  [45] "instituto"      "de"             "emprendimiento" "del"           
##  [49] "tec"            "de"             "monterrey"      "regiã³n"       
##  [53] "occidente"      "muchas"         "gracias"        "por"           
##  [57] "acompaã±arnos"  "en"             "esta"           "serie"         
##  [61] "donde"          "vamos"          "a"              "platicar"      
##  [65] "sobre"          "inteligencia"   "artificial"     "y"             
##  [69] "bueno"          "antes"          "de"             "dar"           
##  [73] "inicio"         "les"            "comparto"       "que"           
##  [77] "al"             "finalizar"      "la"             "sesiã³n"       
##  [81] "tendremos"      "algunos"        "minutos"        "de"            
##  [85] "preguntas"      "y"              "respuestas"     "que"           
##  [89] "podrãn"         "compartir"      "con"            "nuestros"      
##  [93] "panelistas"     "y"              "posterior"      "a"             
##  [97] "ellos"          "serãn"          "dirigidos"      "a"

Data frame de palabras normales

# make data frame
dfrUNPrfWords <- data.frame(vcsUNPrfWords)
colnames(dfrUNPrfWords) <- c("Words")
dfrUNPrfWords$Words <- as.character(dfrUNPrfWords$Words)
# normal word count
head(dfrUNPrfWords,10)

##            Words
## 1       tambiã©n
## 2             se
## 3           estã
## 4     comenzando
## 5  transmisiones
## 6             en
## 7       facebook
## 8           live
## 9              y
## 10         todos

Conteo de palabras normales

# resumiendo los datos 
dfrUNPrfFreq <- dfrUNPrfWords %>% 
                group_by(Words) %>% 
                summarise(Freq=n()) %>% 
                arrange(desc(Freq))
head(dfrUNPrfFreq)

## # A tibble: 6 x 2
##   Words  Freq
##   <chr> <int>
## 1 de      554
## 2 que     545
## 3 en      289
## 4 y       261
## 5 la      227
## 6 a       179

Nube de palabras normales

# nube de palabras 
wordcloud(dfrUNPrfFreq$Words[1:100], dfrUNPrfFreq$Freq[1:100], random.order=F, max.words=100, colors=brewer.pal(8, "Dark2"))

Descargas

Código

xfun::embed_file("Conteo.Rmd")

Download Conteo.Rmd

Datos

xfun::embed_file("politica.txt")

Download politica.txt

LS0tDQp0aXRsZTogIkFuw6FsaXNpcyBkZSBmcmVjdWVuY2lhIGEgdHJhdsOpcyBkZSBjb250ZW8gZGUgcGFsYWJyYXMiDQphdXRob3I6ICJKb3NlIE51bmV6Ig0KZGF0ZTogIjEvMjAvMjAyMiINCm91dHB1dDoNCiAgcm1kZm9ybWF0czo6ZG93bmN1dGU6DQogICAgaGlnaGxpZ2h0OiB0YW5nbw0KICAgIGRlZmF1bHQ6IGRhcmsNCiAgICBsaWdodGJveDogdHJ1ZQ0KICAgIGNvZGVfZm9sZGluZzogaGlkZQ0KICAgIGdhbGxlcnk6IHRydWUNCiAgICB0aHVtYm5haWxzOiB0cnVlDQogICAgY29kZV9kb3dubG9hZDogdHJ1ZQ0KLS0tDQoNCmBgYHtyIHNldHVwLCBpbmNsdWRlPUZBTFNFfQ0Ka25pdHI6Om9wdHNfY2h1bmskc2V0KGVjaG8gPSBUUlVFKQ0KYGBgDQpFbCBwcmVzZW50ZSBkb2N1bWVudG8gdGllbmUgY29tbyBvYmpldGl2byBhbmFsaXphciBhIHRyYXbDqXMgZGUgdW4gY29udGVvIGRlIHBhbGFicmFzIHkgYW7DoWxpc2lzIGRlIGZyZWN1ZW5jaWEgbGFzIGNoYXJsYXMuDQoNClBhcmEgZXN0ZSBjYXNvIHNlIGhhY2UgZWwgYW7DoWxpc2lzIGRlIGxhIGNoYXJsYSAicG9sw610aWNhIGUgaW50ZWxpZ2VuY2lhIGFydGlmaWNpYWwiIGltcGFydGlkYSBwb3IgQ3Jpc3RpbmEgTWFydMOtbmV6IHkgRmVybmFuZG8gYmHDsW9zIGVsIDI3IGRlIG9jdHVicmUgZGUgMjAyMA0KDQoNCiMjIFByb2Nlc2FtaWVudG8gZGVsIExlbmd1YWplIE5hdHVyYWwNCg0KIVtFc3F1ZW1hIGRlbCBMZW5ndWFqZSBOYXR1cmFsXShodHRwczovL2Jsb2dzLmlhZGIub3JnL2Nvbm9jaW1pZW50by1hYmllcnRvL3dwLWNvbnRlbnQvdXBsb2Fkcy9zaXRlcy8xMC8yMDE3LzA2L05MUC1iYW5uZXIyLmpwZykNCg0KIyMgUHJpbmNpcGFsZXMgZWN1YWNpb25lcyB1dGlsaXphZGFzIA0KDQpTaSBxdWlzaWVyYW1vcyBpbmNsdWlyIHVuYSBlY3VhY2nDs24gZW4gZWwgdGV4dG8gc2Vyw61hIGRlIGVzdGEgZm9ybWE6ICRFPW1jXjIkDQoNClNpIHF1ZXJlbW9zIGluY2x1aXIgdW5hIGVjdWFjacOzbiBwYXJhIGlsdXN0cmFybGEgDQoNCiQkDQooMSkgRSA9IG1jXjINCiQkDQoxLiAqKkVjdWFjacOzbiAxKioNCg0KRG9uZGU6DQpFID0gRW5lcmfDrWEgDQptID0gbWFzYQ0KYyA9IGNvbnN0YW50ZSBkZSBsYSB2ZWxvY2lkYWQgZGUgbGEgbHV6IA0KDQoNCg0KDQoNCg0KDQoNCiMjIyBDb25jZXB0byBkZSBQTE4NCg0KRWwgUHJvY2VzYW1pZW50byBkZWwgTGVuZ3VhamUgTmF0dXJhbCBvICpOYXR1cmFsIExhbmd1YWplIFByb2Nlc3NpbmcqIGVzIGVsIGNhbXBvIGRlIGNvbm9jaW1pZW50byBkZSBsYSAgKipJbnRlbGlnZW5jaWEgQXJ0aWZpY2lhbCoqIHF1ZSBzZSBvY3VwYSBkZSBsYSBpbnZlc3RpZ2FyIGxhIG1hbmVyYSBkZSBjb211bmljYXIgbGFzIG3DoXF1aW5hcyBjb24gbGFzIHBlcnNvbmFzIG1lZGlhbnRlIGVsIHVzbyBkZSBsZW5ndWFzIG5hdHVyYWxlcywgY29tbyBlbCBlc3Bhw7FvbCwgZWwgaW5nbMOpcyBvIGVsIGNoaW5vLg0KDQojIyMgVGlwb3MgZGUgbW9kZWxvcyANCg0KKiBNb2RlbG9zIEzDs2dpY29zOiBncmFtw6F0aWNhcw0KKiBNb2RlbG9zIHByb2JhYmlsw61zdGljb3MgZGVsIGxlbmd1YWplIG5hdHVyYWw6IGJhc2Fkb3MgZW4gZGF0b3MNCg0KIyMjIENvbXBvbmVudGVzIGRlbCBQTE4NCg0KMS4gQW7DoWxpc2lzIG1vcmZvbMOzZ2ljbyBvIGzDqXhpY28NCjIuIEFuw6FsaXNpcyBzaW50w6FjdGljby4NCjMuIEFuw6FsaXNpcyBzZW3DoW50aWNvDQo0LiBBbsOhbGlzaXMgcHJhZ23DoXRpY28uDQoNCkVuIGVsIHNpZ3VpZW50ZSBbZW5sYWNlXShodHRwczovL3d3dy5paWMudWFtLmVzL3Byb2Nlc2FtaWVudG8tZGVsLWxlbmd1YWplLW5hdHVyYWwvYXBsaWNhY2lvbmVzLXByb2Nlc2FtaWVudG8tbGVuZ3VhamUtbmF0dXJhbC8pIHB1ZWRlbiB2ZXIgc3VzIHByaW5jaXBhbGVzIGFwbGljYWNpb25lcyANCg0KDQojIyBQYXF1ZXRlcyANCg0KYGBge3J9DQpsaWJyYXJ5KHBhY21hbikNCnBfbG9hZCgiZHBseXIiLCAic3RyaW5nciIsICJnZ3Bsb3QyIiwgIndvcmRjbG91ZCIsInJtZGZvcm1hdHMiLCJ2ZW1iZWRyIiwgInhmdW4iKQ0KYGBgDQoNClZpZGVvIGRlIHlvdXR1YmUgZGUgbGEgY2hhcmxhOg0KDQpgYGB7cn0NCmVtYmVkX3VybCgiaHR0cHM6Ly95b3V0dS5iZS81UEx3M01hY3N4cyIpDQpgYGANCg0KIyMgRnVuY2lvbmVzIA0KDQpgYGB7cn0NCkZyZXFDYXRlZ29yeSA8LSBmdW5jdGlvbih2YWx1ZSkgew0KICAgIHN0ckNhdGVnb3J5IDwtIGlmZWxzZSh2YWx1ZSA8PTUsICAgIiAgICAgIDUiLA0KICAgICAgICAgICAgICAgIGlmZWxzZSh2YWx1ZSA8PTEwLCAgICAgIiAgICAgMTAiLA0KICAgICAgICAgICAgICAgIGlmZWxzZSh2YWx1ZSA8PTIwLCAgICAgIiAgICAgMjAiLA0KICAgICAgICAgICAgICAgIGlmZWxzZSh2YWx1ZSA8PTUwLCAgICAgIiAgICAgNTAiLA0KICAgICAgICAgICAgICAgIGlmZWxzZSh2YWx1ZSA8PTEwMCwgICAgIiAgICAxMDAiLA0KICAgICAgICAgICAgICAgIGlmZWxzZSh2YWx1ZSA8PTUwMCwgICAgIiAgICA1MDAiLA0KICAgICAgICAgICAgICAgIGlmZWxzZSh2YWx1ZSA8PTEwMDAsICAgIiAgMSwwMDAiLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIj4xLDAwMCIpKSkpKSkpDQogICAgICAgICAgICAgICAgc3RyQ2F0ZWdvcnkNCn0NCmBgYA0KDQojIyBEYXRvcyANCg0KYGBge3J9DQoNCnBvbGl0aWNhIDwtIHJlYWRMaW5lcygicG9saXRpY2EudHh0IikNCmhlYWQocG9saXRpY2EpDQpgYGANCiMjIENvbnRlbyBkZSBsaW5lYXMNCg0KYGBge3J9DQojIExvbmdpdHVkIGRlIHZlY3RvciANCmludExpbmVDb3VudCA8LSBsZW5ndGgocG9saXRpY2EpDQppbnRMaW5lQ291bnQNCmBgYA0KIyMgQ29udGVvIGRlIHBhbGFicmFzIHBvciBsaW5lYSANCg0KYGBge3J9DQojIHNlcGFyYXINCmxzdFVOUHJmTGluZXMgPC0gc3RyX3NwbGl0KHBvbGl0aWNhLCIgIikNCiMgcGFsYWJyYXMgcG9yIGxpbmVhDQp2Y2lVTlByZldwZXJMIDwtIHVubGlzdChsYXBwbHkobHN0VU5QcmZMaW5lcywgbGVuZ3RoKSkNCiMgaW1wcmltaXIgbWVkaWEgZGUgcGFsYWJyYXMgcG9yIGxpbmVhIA0KbWVhbih2Y2lVTlByZldwZXJMKQ0KYGBgDQoNCiMjIGNvbnRlbyB0b3RhbCBkZSBwYWxhYnJhcw0KDQpgYGB7cn0NCiMgZGVzbGlzdGFyIHBhcmEgb2J0ZW5lciB1biB2ZWN0b3IgZGUgcGFsYWJyYXMNCnZjc1VOUHJmV29yZHMgPC0gdW5saXN0KGxzdFVOUHJmTGluZXMpDQojIHJlY3VlbnRvIHRvdGFsIGRlIHBhbGFicmFzID0gbG9uZ2l0dWQgZGVsIHZlY3Rvcg0KaW50V29yZENvdW50IDwtIGxlbmd0aCh2Y3NVTlByZldvcmRzKQ0KIyBpbXByaW1pciANCmludFdvcmRDb3VudA0KYGBgDQojIyBNb3N0cmFyIHBhbGFicmFzDQoNCmBgYHtyfQ0KaGVhZCh2Y3NVTlByZldvcmRzLDEwMCkNCmBgYA0KIyMgbGltcGllemEgZGUgcGFsYWJyYXMNCg0KYGBge3J9DQojIGxvd2VyIGNhc2UNCnZjc1VOUHJmV29yZHMgPC0gc3RyX3RvX2xvd2VyKHZjc1VOUHJmV29yZHMpDQojIHJlbW92ZSBudW1iZXJzDQp2Y3NVTlByZldvcmRzIDwtIHN0cl9yZXBsYWNlX2FsbCh2Y3NVTlByZldvcmRzLCBwYXR0ZXJuPSJbWzpkaWdpdDpdXSIsICIiKQ0KIyByZW1vdmUgcHVuY3R1YXRpb24NCnZjc1VOUHJmV29yZHMgPC0gc3RyX3JlcGxhY2VfYWxsKHZjc1VOUHJmV29yZHMsIHBhdHRlcm49IltbOnB1bmN0Ol1dIiwgIiIpDQojIHJlbW92ZSB3aGl0ZSBzcGFjZXMNCnZjc1VOUHJmV29yZHMgPC0gc3RyX3JlcGxhY2VfYWxsKHZjc1VOUHJmV29yZHMsIHBhdHRlcm49IltbOnNwYWNlOl1dIiwgIiIpDQojIHJlbW92ZSBzcGVjaWFsIGNoYXJzDQp2Y3NVTlByZldvcmRzIDwtIHN0cl9yZXBsYWNlX2FsbCh2Y3NVTlByZldvcmRzLCBwYXR0ZXJuPSJbfkAjJCUmLV89PD5dIiwgIiIpDQojIHJlbW92ZSBlbXB0eSB2ZWN0b3JzDQp2Y3NVTlByZldvcmRzIDwtIHZjc1VOUHJmV29yZHNbdmNzVU5QcmZXb3JkcyAhPSAiIl0NCiMgaGFjayAmIHJlbW92ZSAkDQp2Y3NVTlByZldvcmRzIDwtIHN0cl9yZXBsYWNlX2FsbCh2Y3NVTlByZldvcmRzLCBwYXR0ZXJuPSIkIiwgIiIpDQojIGhlYWQNCmhlYWQodmNzVU5QcmZXb3JkcywxMDApDQpgYGANCg0KIyMgRGF0YSBmcmFtZSBkZSBwYWxhYnJhcyBub3JtYWxlcw0KDQpgYGB7cn0NCiMgbWFrZSBkYXRhIGZyYW1lDQpkZnJVTlByZldvcmRzIDwtIGRhdGEuZnJhbWUodmNzVU5QcmZXb3JkcykNCmNvbG5hbWVzKGRmclVOUHJmV29yZHMpIDwtIGMoIldvcmRzIikNCmRmclVOUHJmV29yZHMkV29yZHMgPC0gYXMuY2hhcmFjdGVyKGRmclVOUHJmV29yZHMkV29yZHMpDQojIG5vcm1hbCB3b3JkIGNvdW50DQpoZWFkKGRmclVOUHJmV29yZHMsMTApDQoNCmBgYA0KDQojIyBDb250ZW8gZGUgcGFsYWJyYXMgbm9ybWFsZXMNCg0KYGBge3J9DQojIHJlc3VtaWVuZG8gbG9zIGRhdG9zIA0KZGZyVU5QcmZGcmVxIDwtIGRmclVOUHJmV29yZHMgJT4lIA0KICAgICAgICAgICAgICAgIGdyb3VwX2J5KFdvcmRzKSAlPiUgDQogICAgICAgICAgICAgICAgc3VtbWFyaXNlKEZyZXE9bigpKSAlPiUgDQogICAgICAgICAgICAgICAgYXJyYW5nZShkZXNjKEZyZXEpKQ0KaGVhZChkZnJVTlByZkZyZXEpDQpgYGANCg0KIyMgTnViZSBkZSBwYWxhYnJhcyBub3JtYWxlcw0KDQpgYGB7cn0NCiMgbnViZSBkZSBwYWxhYnJhcyANCndvcmRjbG91ZChkZnJVTlByZkZyZXEkV29yZHNbMToxMDBdLCBkZnJVTlByZkZyZXEkRnJlcVsxOjEwMF0sIHJhbmRvbS5vcmRlcj1GLCBtYXgud29yZHM9MTAwLCBjb2xvcnM9YnJld2VyLnBhbCg4LCAiRGFyazIiKSkNCmBgYA0KDQojIyBEZXNjYXJnYXMgDQoNCiMjIyBDw7NkaWdvDQoNCmBgYHtyfQ0KeGZ1bjo6ZW1iZWRfZmlsZSgiQ29udGVvLlJtZCIpDQpgYGANCg0KIyMjIERhdG9zDQoNCmBgYHtyfQ0KeGZ1bjo6ZW1iZWRfZmlsZSgicG9saXRpY2EudHh0IikNCmBgYA0KDQoNCg==