Esta semana en #Datosdemiercoles proponen analizar los subtítulos de la serie La casa de papel.
En una primera instancia se proporciona un breve resumen descriptivo sobre:
| Temporada 1 | Temporada 2 | Temporada 3 | Total | |
|---|---|---|---|---|
| 1 | 1762 | 2358 | 1370 | 5490.000 |
| 2 | 1828 | 1890 | 1483 | 5201.000 |
| 3 | 2110 | 1375 | 1789 | 5274.000 |
| 4 | 2316 | 2010 | 1964 | 6290.000 |
| 5 | 1700 | 1924 | 2074 | 5698.000 |
| 6 | 1821 | 2183 | 1833 | 5837.000 |
| 7 | 1594 | 0 | 1624 | 3218.000 |
| 8 | 1774 | 0 | 2116 | 3890.000 |
| 9 | 1534 | 0 | 0 | 1534.000 |
| Total | 16439.000 | 11740.000 | 14253.000 | 42432.000 |
| Promedio | 1826.556 | 1956.667 | 1781.625 | 1854.949 |
En promedio se utilizan 1863 subtítulos por temporada.
Se ordenan los personajes de acuerdo a la cantidad de subtítulos en los que aparecen mencionados
| personajes | numeros | |
|---|---|---|
| 8 | raquel | 191 |
| 1 | profesor | 175 |
| 10 | denver | 141 |
| 6 | berlin | 140 |
| 3 | rio | 126 |
| 5 | nairobi | 104 |
| 2 | tokio | 99 |
| 4 | helsinki | 95 |
| 9 | monica | 58 |
| 11 | palermo | 34 |
| 7 | oslo | 21 |
Inicialmente se eliminan las palabras que pertenecen al conjunto de Stop Words. Dicho conjunto contiene las palabras que no son relevantes para el análisis como preposiciones, artículos, letras sueltas, etc.
Luego se realiza el recuento de palabras más frecuentes por episodio en cada temporada.
Para cada temporada se presenta la nube de palabras más frecuentes.
## [1] Temporada 1
## Levels: Temporada 1 Temporada 2 Temporada 3
## [1] Temporada 2
## Levels: Temporada 1 Temporada 2 Temporada 3
## [1] Temporada 3
## Levels: Temporada 1 Temporada 2 Temporada 3
A continuación, se estudia que palabras se utilizan de forma más diferenciada por temporada, es decir, palabras que se utilizan mucho en una temporada y que no se utilizan en otra.
Una forma de hacer este análisis es mediante el log of odds ratio de las frecuencias. Esta comparación se hace por pares.
Se observa que “gobernador” y “palermo”, entre otras, son palabras que se usan en la temporada 3 y no se utilizan en la temporada 2. Lo cual tiene sentido ya que son nuevos personajes de la serie que se incorporaron en dicha temporada.
Análogamente, “Alison” es una de las palabras que se utiliza mucho en la temporada 2 y no se utiliza en la temporada 3. Lo cual tiene sentido ya que es el nombre de un personaje que desaparece de la serie.
Un bigrama representa un conjunto de dos palabras. A continuación se procede a analizar los “bigramas” más frecuentes por temporada, sin tener en cuenta los episodios en los cuales se mencionan los mismos.
Se analiza la correlación entre temporadas por palabras más frecuentes.
Una forma de cuantificar la similitud entre los subtítulos dos temporadas es calculando la correlación en el uso de palabras.
##
## Pearson's product-moment correlation
##
## data: Temporada 1 and Temporada 2
## t = 68.205, df = 2031, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8206097 0.8470688
## sample estimates:
## cor
## 0.8343191
## [1] "El número de palabras comunes entre ambas temporadas es 2033 palabras, de un total de 7096 palabras."
##
## Pearson's product-moment correlation
##
## data: Temporada 2 and Temporada 3
## t = 44.879, df = 1812, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.7029925 0.7466338
## sample estimates:
## cor
## 0.7255418
## [1] "El número de palabras comunes entre ambas temporadas es 1814 palabras, de un total de 7200 palabras."
##
## Pearson's product-moment correlation
##
## data: Temporada 1 and Temporada 3
## t = 54.199, df = 2099, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.7452823 0.7809646
## sample estimates:
## cor
## 0.7637061
## [1] "El número de palabras comunes entre ambas temporadas es 2101 palabras, de un total de 8034 palabras."
Una forma más visual e informativa de analizar las relaciones entre palabras es mediante el uso de networks.