Analisis de Text Mining

img

Esta semana en #Datosdemiercoles proponen analizar los subtítulos de la serie La casa de papel.

Primeros pasos

En una primera instancia se proporciona un breve resumen descriptivo sobre:

  • cantidad de subtítulos utilizados por temporadas
  • cantidad de subtítulos utilizados por episodios
Temporada 1 Temporada 2 Temporada 3 Total
1 1762 2358 1370 5490.000
2 1828 1890 1483 5201.000
3 2110 1375 1789 5274.000
4 2316 2010 1964 6290.000
5 1700 1924 2074 5698.000
6 1821 2183 1833 5837.000
7 1594 0 1624 3218.000
8 1774 0 2116 3890.000
9 1534 0 0 1534.000
Total 16439.000 11740.000 14253.000 42432.000
Promedio 1826.556 1956.667 1781.625 1854.949

En promedio se utilizan 1863 subtítulos por temporada.

Mención de personajes

Se ordenan los personajes de acuerdo a la cantidad de subtítulos en los que aparecen mencionados

personajes numeros
8 raquel 191
1 profesor 175
10 denver 141
6 berlin 140
3 rio 126
5 nairobi 104
2 tokio 99
4 helsinki 95
9 monica 58
11 palermo 34
7 oslo 21

Palabras más frecuentes

Inicialmente se eliminan las palabras que pertenecen al conjunto de Stop Words. Dicho conjunto contiene las palabras que no son relevantes para el análisis como preposiciones, artículos, letras sueltas, etc.

Luego se realiza el recuento de palabras más frecuentes por episodio en cada temporada.

Word Clouds

Para cada temporada se presenta la nube de palabras más frecuentes.

## [1] Temporada 1
## Levels: Temporada 1 Temporada 2 Temporada 3

## [1] Temporada 2
## Levels: Temporada 1 Temporada 2 Temporada 3

## [1] Temporada 3
## Levels: Temporada 1 Temporada 2 Temporada 3

Comparación en el uso de palabras

A continuación, se estudia que palabras se utilizan de forma más diferenciada por temporada, es decir, palabras que se utilizan mucho en una temporada y que no se utilizan en otra.

Una forma de hacer este análisis es mediante el log of odds ratio de las frecuencias. Esta comparación se hace por pares.

  • Temporada 1 vs Temporada 2

  • Temporada 2 vs Temporada 3

Se observa que “gobernador” y “palermo”, entre otras, son palabras que se usan en la temporada 3 y no se utilizan en la temporada 2. Lo cual tiene sentido ya que son nuevos personajes de la serie que se incorporaron en dicha temporada.

Análogamente, “Alison” es una de las palabras que se utiliza mucho en la temporada 2 y no se utiliza en la temporada 3. Lo cual tiene sentido ya que es el nombre de un personaje que desaparece de la serie.

  • Temporada 1 vs Temporada 3

Bigramas más frecuentes

Un bigrama representa un conjunto de dos palabras. A continuación se procede a analizar los “bigramas” más frecuentes por temporada, sin tener en cuenta los episodios en los cuales se mencionan los mismos.

  • Por temporadas

Comparación de bigramas

  • Temporada 1 vs Temporada 2

  • Temporada 2 vs Temporada 3

  • Temporada 1 vs Temporada 3

Correlación entre temporadas

Se analiza la correlación entre temporadas por palabras más frecuentes.

Una forma de cuantificar la similitud entre los subtítulos dos temporadas es calculando la correlación en el uso de palabras.

  • Temporada 1 vs Temporada 2
## 
##  Pearson's product-moment correlation
## 
## data:  Temporada 1 and Temporada 2
## t = 68.205, df = 2031, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8206097 0.8470688
## sample estimates:
##       cor 
## 0.8343191

## [1] "El número de palabras comunes entre ambas temporadas es 2033  palabras, de un total de  7096  palabras."
  • Temporada 2 vs Temporada 3
## 
##  Pearson's product-moment correlation
## 
## data:  Temporada 2 and Temporada 3
## t = 44.879, df = 1812, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7029925 0.7466338
## sample estimates:
##       cor 
## 0.7255418

## [1] "El número de palabras comunes entre ambas temporadas es 1814  palabras, de un total de  7200  palabras."
  • Temporada 1 vs Temporada 3
## 
##  Pearson's product-moment correlation
## 
## data:  Temporada 1 and Temporada 3
## t = 54.199, df = 2099, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7452823 0.7809646
## sample estimates:
##       cor 
## 0.7637061

## [1] "El número de palabras comunes entre ambas temporadas es 2101  palabras, de un total de  8034  palabras."

NETWORKS

Una forma más visual e informativa de analizar las relaciones entre palabras es mediante el uso de networks.