Explorando Netflix

A continuación veremos algunas técnicas de análisis exploratorio utilizando un dataset muy intersante que contiene productos de Netflix con sus respectivas variables. El dataset puede encontrarse en el sitio de kaggle

La Base contiene 7787 productos de Netflix emitidos desde 2008-01-01 hasta 2021-01-16. Veamos como es la distribución por el tipo de show.

Series vs Películas

Puede verse que la proporción mayoritaria está compuesta por películas. Veamos como fue la evolución de esta segmentación.

Puede apreciarse un significativo crecimiento de la proporción de la oferta dedicada a las series.Veamos como se resuelve esta dicotomía al enfrentar las proporciones con la variable pais de origen. Dado que la variable “country” puede contener varios paises debido a coproducciones, puede resultar util generar un nuevo dataframe con todos los paises por separado. Luego, elaboraremos una nueva tabla que contenga las cifras de cada tipo de producción junto con el porcentaje que representa al interior de cada país. Estos son los 10 paises que encabezan el ranking

Tipo de Productos
Paises Películas TV Show Total
United States 2431 ( % 73.73) 866 ( % 26.27) 3297
India 915 ( % 92.42) 75 ( % 7.58) 990
United Kingdom 467 ( % 64.59) 256 ( % 35.41) 723
Canada 286 ( % 69.42) 126 ( % 30.58) 412
France 265 ( % 75.93) 84 ( % 24.07) 349
Japan 103 ( % 35.89) 184 ( % 64.11) 287
Spain 158 ( % 73.49) 57 ( % 26.51) 215
South Korea 55 ( % 25.94) 157 ( % 74.06) 212
Germany 157 ( % 78.89) 42 ( % 21.11) 199
Mexico 101 ( % 65.58) 53 ( % 34.42) 154

Veamos la misma información en formato gráfico:

La gráfica evidencia que Estados Unidos es el principal proovedor de contenido de la plataforma con una distancia de mayor amplitud en el caso de las peliculas, donde India supera a Gran Bretaña en el segundo lugar.

Duración

Veamos ahora la exploración de los contenidos según la duración.

Tambien podemos mostrar la misma información a partir de un gráfico de puntos:

Para finalizar, puede resultar de gran interés analizar la cantidad de temporadas de las series y su evolución con el correr de los años, tomando en consideración su año de lanzamiento.


  1. Soy sociólogo (FSOC-UBA). Me dedico al analisis de datos en temas como el estudio de la opinión pública, comportamiento electoral, analisis de texto, redes sociales y consumos culturales, todo mediante R y Phyton. Dirijo el Observatorio de Opinión Publica en ACDES y escribo en mi blog de temas de R y en mi blog de temas de generales. Contacto: ↩︎

