Marvin López, 23 Junio de 2020

library(dplyr)
library(ggplot2)
library(kableExtra)

Programas de TV y películas que figuran en Netflix

Este conjunto de datos consta de programas de televisión y películas disponibles en Netflix del año 2015 a Enero 2020.
Realizar una exploración de los datos para poder determinar en que se enfoca más la plataforma y cuales son aquellos casos en donde se es diferente.

Dataset

14 variables y 6224 observaciones

dataset<-read.csv("netflix_titles.csv")
dataset

I. Análisis Descriptivo

Muestra la cantidad de películas y la cantidad de programas de televisión en los 5 años.

summary(dataset$type)
  Movie TV Show 
   4257    1967 

Muestra los años con información que contiene el dataset.

summary(dataset$year_added)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2015    2017    2018    2018    2019    2020 

Muestra de clasificación de los títulos.

summary(dataset$rating)
       G    NC-17       NR       PG    PG-13        R    TV-14     TV-G    TV-MA    TV-PG     TV-Y    TV-Y7 
      37        2      218      184      286      508     1698      149     2027      701      143      169 
TV-Y7-FV       UR 
      95        7 

Medidas de tendencia central

En esta sección se realizan dos arreglos a la columna de duración, el cual contiene información del número de temporadas y el tiempo en minutos para el caso de las películas.

Por lo que el arreglo tvShows, se retiró el dato de “Season” y “Seasons”, en cuanto al de movies el de “min”.

tvShows<-dataset %>%
  filter(type== "TV Show")

tvShows$duration<-as.character(tvShows$duration)
temp<-unlist(strsplit(tvShows$duration, " "))
temp<-temp[temp != "Season"]
temp<-temp[temp != "Seasons"]
tvShows$durationNum<-as.numeric(temp)
movies<-dataset %>%
  filter(type== "Movie") 

movies$duration<-as.character(movies$duration)
temp<-unlist(strsplit(movies$duration, " "))
temp<-temp[temp != "min"]
movies$durationNum<-as.numeric(temp)

En base a los arreglos obtener la información siguiete:

¿Cuál es la media de la duración para ambos typos?

Media

TVShows
mean(tvShows$durationNum)
[1] 1.780376
Movies
mean(movies$durationNum)
[1] 99.15645

¿Cuál es la mediana de la duración para ambos typos?

Mediana

TVShows
median(tvShows$durationNum)
[1] 1
Movies
median(movies$durationNum)
[1] 98

¿Cuál es la moda de la duración para ambos typos?

Moda

TVShows
tabla<-table(tvShows$durationNum)
sort(tabla, decreasing = T)

   1    2    3    4    5    6    7    8    9   10   11   12   13   15   14 
1319  304  158   61   46   22   21   16    7    3    3    2    2    2    1 
Movies
tabla2<-table(movies$durationNum)
sort(tabla2, decreasing = T)

 90  91  92  94  95  93  97  99  88  96  98 100  89  86 103 102 101  87 105 106 110 104 107 108  85 109  84 
111 104 101  94  94  90  88  88  86  85  83  80  78  77  75  74  71  70  70  70  69  62  60  56  50  50  49 
116  83 119  81 118 111 112 113 117  78  82 121 124 127 126 114 122 128 137  79  80 120 123 115 125 130  75 
 49  48  47  46  45  43  41  40  40  39  38  37  36  36  35  33  33  33  33  32  32  32  32  30  30  30  28 
133 135  74 132  63  66  53  77  69  73 129 131  61  65  72  54  59  60  62  71  58  24  70 134  52  76 140 
 28  28  27  27  26  25  24  24  23  23  23  23  22  21  21  20  20  20  20  20  19  18  18  18  17  17  17 
 46  67  68 141  44 136 143  64 150  22  40  55 139 148 151  57 138 146 163  56 153 154 162  29  45 142 145 
 16  16  16  16  15  15  15  14  14  13  13  13  13  13  13  12  12  12  12  11  11  11  11   9   9   9   9 
158  47  49  51 147 149  25 155 161 168  23  50 144 156 159 166  26  28  30  42  48 160 165  32  38 152 157 
  9   8   8   8   8   8   7   7   7   7   6   6   6   6   6   6   5   5   5   5   5   5   5   4   4   4   4 
170 171 185 164 172 173 176 177  12  14  19  27  31  35  41 169 179   3  10  11  15  18  20  33  34  36  43 
  4   4   4   3   3   3   3   3   2   2   2   2   2   2   2   2   2   1   1   1   1   1   1   1   1   1   1 
167 174 178 180 181 182 187 189 190 191 192 193 195 196 200 201 203 205 209 214 224 228 312 
  1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 

Gráfica Temporadas

tvShows %>%
  ggplot(aes(x=durationNum, y=..density.. ))+
    geom_density()

Gráfica Movies

movies %>%
  ggplot(aes(x=durationNum, y=..density..))+
  geom_density()

Medidas de dispersión

Dispersión

¿Cuál es la dispersión entre la duración para ambos typos?

TVShows
DispersionTV<-tvShows$durationNum
mean(DispersionTV)
[1] 1.780376
range(DispersionTV)
[1]  1 15
hist(DispersionTV, col = "magenta")

Movies
DispersionMovies<-movies$durationNum
mean(DispersionMovies)
[1] 99.15645
range(DispersionMovies)
[1]   3 312
hist(DispersionMovies, col = "blue")

Varianza

¿Encontrar la varianza para ambos typos?

TVShows
VarianzaTV<-tvShows$durationNum
var(VarianzaTV)
[1] 2.642483
Movies
VarianzaM<-movies$durationNum
var(VarianzaM)
[1] 787.1738

Medidas de posición

Cuantiles

¿Encontrar la posición de la mediana en base a los cuantiles, tomando en cuenta que la mediana en TVShow es 1 y para Movies es 98?

TVShows
quantile(tvShows$durationNum)
  0%  25%  50%  75% 100% 
   1    1    1    2   15 
Movies
quantile(movies$durationNum)
  0%  25%  50%  75% 100% 
   3   86   98  115  312 

Análisis de los datos descriptivos

Para el caso de los títulos que corresponden a Programas televisivos podemos notar que el mayor contenido se encuentra entre 1 y 2 temporadas por lo que la curva empieza a notarse a partir de la tercera y a aplanarse más, luego de la 8va temporada. En este punto ya son muy pocas los programas que contiene más de este número.

En cuento a las películas en su mayoría tienen un tiempo de duración de 1 hora y 40 minutos por lo que la curva se comienza a elevar a partir de 45 minutos, observando que llegando a las dos y 3 horas ya son muy pocas las películas en este rango y se ve el descenso hasta notar la línea más plana.

I. Estudio comportamiento probabilístico.

Si todo el contenido de los 5 años estuviera cargado a la plataforma de Netflix con los 6,224 títulos. ¿Cúal es la probabilidad de que 20 amigos eligiendo aleatoriamente un título este sea de clasificación TV14. Se pretende encontrar la función de densidad de probabilidad.

a. Determine PDF.

b. Determine CDF

c. Anánilisis probabilistico de este evento

Distribucíon binomial

PDF

n<-20
p<-0.27
x<-0:20


PDF<-dbinom(x, n, p)
PDF
 [1] 1.846959e-03 1.366243e-02 4.800568e-02 1.065331e-01 1.674614e-01 1.982008e-01 1.832679e-01 1.355680e-01
 [9] 8.148010e-02 4.018197e-02 1.634801e-02 5.496839e-03 1.524808e-03 3.470585e-04 6.418206e-05 9.495428e-06
[17] 1.097502e-06 9.551189e-08 5.887719e-09 2.292263e-10 4.239116e-12
barplot(PDF_2,
        main="PMF Distribucion Binomial",
        xlab="Valores de x",
        ylab="Densidad de Probabildiad",
        col=rainbow(21),
        space=rep(0, 21),
        names.arg = x)
lines(x=x+0.5, y=PDF_2, col="blue", lwd=2)

DatosBinomiales<-data.frame(x=x, y=PDF)
DatosBinomiales
Valor_Esperado(DatosBinomiales)
[1] 63.64332

CDF

CDF_1<-pbinom(x, n, p)
CDF_1
 [1] 0.001846959 0.015509394 0.063515072 0.170048221 0.337509576 0.535710412 0.718978309 0.854546342
 [9] 0.936026444 0.976208412 0.992556418 0.998053257 0.999578065 0.999925123 0.999989305 0.999998801
[17] 0.999999898 0.999999994 1.000000000 1.000000000 1.000000000
plot(x, CDF_1,
     main="PMF Distribucion Binomial",
     xlab="Valores de x", ylab="Densidad de Probabilidad",
     col="magenta",
     type="b",
     lwd=2,
     pch=16)

Análisis Probabilístico

Llegando al análisis podemos ver que de los 20 amigos 5 de ellos es probable que eligan aleatoriamente un título de clasificación T14.

