Marvin López, 23 Junio de 2020
library(dplyr)
library(ggplot2)
library(kableExtra)
Programas de TV y películas que figuran en Netflix
Este conjunto de datos consta de programas de televisión y películas disponibles en Netflix del año 2015 a Enero 2020.
Realizar una exploración de los datos para poder determinar en que se enfoca más la plataforma y cuales son aquellos casos en donde se es diferente.
Dataset
14 variables y 6224 observaciones
dataset<-read.csv("netflix_titles.csv")
dataset
I. Análisis Descriptivo
Muestra la cantidad de películas y la cantidad de programas de televisión en los 5 años.
summary(dataset$type)
Movie TV Show
4257 1967
Muestra de clasificación de los títulos.
summary(dataset$rating)
G NC-17 NR PG PG-13 R TV-14 TV-G TV-MA TV-PG TV-Y TV-Y7
37 2 218 184 286 508 1698 149 2027 701 143 169
TV-Y7-FV UR
95 7
Medidas de tendencia central
En esta sección se realizan dos arreglos a la columna de duración, el cual contiene información del número de temporadas y el tiempo en minutos para el caso de las películas.
Por lo que el arreglo tvShows, se retiró el dato de “Season” y “Seasons”, en cuanto al de movies el de “min”.
tvShows<-dataset %>%
filter(type== "TV Show")
tvShows$duration<-as.character(tvShows$duration)
temp<-unlist(strsplit(tvShows$duration, " "))
temp<-temp[temp != "Season"]
temp<-temp[temp != "Seasons"]
tvShows$durationNum<-as.numeric(temp)
movies<-dataset %>%
filter(type== "Movie")
movies$duration<-as.character(movies$duration)
temp<-unlist(strsplit(movies$duration, " "))
temp<-temp[temp != "min"]
movies$durationNum<-as.numeric(temp)
En base a los arreglos obtener la información siguiete:
Moda
TVShows
tabla<-table(tvShows$durationNum)
sort(tabla, decreasing = T)
1 2 3 4 5 6 7 8 9 10 11 12 13 15 14
1319 304 158 61 46 22 21 16 7 3 3 2 2 2 1
Movies
tabla2<-table(movies$durationNum)
sort(tabla2, decreasing = T)
90 91 92 94 95 93 97 99 88 96 98 100 89 86 103 102 101 87 105 106 110 104 107 108 85 109 84
111 104 101 94 94 90 88 88 86 85 83 80 78 77 75 74 71 70 70 70 69 62 60 56 50 50 49
116 83 119 81 118 111 112 113 117 78 82 121 124 127 126 114 122 128 137 79 80 120 123 115 125 130 75
49 48 47 46 45 43 41 40 40 39 38 37 36 36 35 33 33 33 33 32 32 32 32 30 30 30 28
133 135 74 132 63 66 53 77 69 73 129 131 61 65 72 54 59 60 62 71 58 24 70 134 52 76 140
28 28 27 27 26 25 24 24 23 23 23 23 22 21 21 20 20 20 20 20 19 18 18 18 17 17 17
46 67 68 141 44 136 143 64 150 22 40 55 139 148 151 57 138 146 163 56 153 154 162 29 45 142 145
16 16 16 16 15 15 15 14 14 13 13 13 13 13 13 12 12 12 12 11 11 11 11 9 9 9 9
158 47 49 51 147 149 25 155 161 168 23 50 144 156 159 166 26 28 30 42 48 160 165 32 38 152 157
9 8 8 8 8 8 7 7 7 7 6 6 6 6 6 6 5 5 5 5 5 5 5 4 4 4 4
170 171 185 164 172 173 176 177 12 14 19 27 31 35 41 169 179 3 10 11 15 18 20 33 34 36 43
4 4 4 3 3 3 3 3 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1
167 174 178 180 181 182 187 189 190 191 192 193 195 196 200 201 203 205 209 214 224 228 312
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Gráfica Temporadas
tvShows %>%
ggplot(aes(x=durationNum, y=..density.. ))+
geom_density()

Gráfica Movies
movies %>%
ggplot(aes(x=durationNum, y=..density..))+
geom_density()

Medidas de dispersión
Dispersión
¿Cuál es la dispersión entre la duración para ambos typos?
TVShows
DispersionTV<-tvShows$durationNum
mean(DispersionTV)
[1] 1.780376
range(DispersionTV)
[1] 1 15
hist(DispersionTV, col = "magenta")

Movies
DispersionMovies<-movies$durationNum
mean(DispersionMovies)
[1] 99.15645
range(DispersionMovies)
[1] 3 312
hist(DispersionMovies, col = "blue")

Varianza
¿Encontrar la varianza para ambos typos?
TVShows
VarianzaTV<-tvShows$durationNum
var(VarianzaTV)
[1] 2.642483
Movies
VarianzaM<-movies$durationNum
var(VarianzaM)
[1] 787.1738
Medidas de posición
Cuantiles
TVShows
quantile(tvShows$durationNum)
0% 25% 50% 75% 100%
1 1 1 2 15
Movies
quantile(movies$durationNum)
0% 25% 50% 75% 100%
3 86 98 115 312
Análisis de los datos descriptivos
Para el caso de los títulos que corresponden a Programas televisivos podemos notar que el mayor contenido se encuentra entre 1 y 2 temporadas por lo que la curva empieza a notarse a partir de la tercera y a aplanarse más, luego de la 8va temporada. En este punto ya son muy pocas los programas que contiene más de este número.
En cuento a las películas en su mayoría tienen un tiempo de duración de 1 hora y 40 minutos por lo que la curva se comienza a elevar a partir de 45 minutos, observando que llegando a las dos y 3 horas ya son muy pocas las películas en este rango y se ve el descenso hasta notar la línea más plana.
I. Estudio comportamiento probabilístico.
Si todo el contenido de los 5 años estuviera cargado a la plataforma de Netflix con los 6,224 títulos. ¿Cúal es la probabilidad de que 20 amigos eligiendo aleatoriamente un título este sea de clasificación TV14. Se pretende encontrar la función de densidad de probabilidad.
a. Determine PDF.
b. Determine CDF
c. Anánilisis probabilistico de este evento
Distribucíon binomial
PDF
n<-20
p<-0.27
x<-0:20
PDF<-dbinom(x, n, p)
PDF
[1] 1.846959e-03 1.366243e-02 4.800568e-02 1.065331e-01 1.674614e-01 1.982008e-01 1.832679e-01 1.355680e-01
[9] 8.148010e-02 4.018197e-02 1.634801e-02 5.496839e-03 1.524808e-03 3.470585e-04 6.418206e-05 9.495428e-06
[17] 1.097502e-06 9.551189e-08 5.887719e-09 2.292263e-10 4.239116e-12
barplot(PDF_2,
main="PMF Distribucion Binomial",
xlab="Valores de x",
ylab="Densidad de Probabildiad",
col=rainbow(21),
space=rep(0, 21),
names.arg = x)
lines(x=x+0.5, y=PDF_2, col="blue", lwd=2)

DatosBinomiales<-data.frame(x=x, y=PDF)
DatosBinomiales
Valor_Esperado(DatosBinomiales)
[1] 63.64332
CDF
CDF_1<-pbinom(x, n, p)
CDF_1
[1] 0.001846959 0.015509394 0.063515072 0.170048221 0.337509576 0.535710412 0.718978309 0.854546342
[9] 0.936026444 0.976208412 0.992556418 0.998053257 0.999578065 0.999925123 0.999989305 0.999998801
[17] 0.999999898 0.999999994 1.000000000 1.000000000 1.000000000
plot(x, CDF_1,
main="PMF Distribucion Binomial",
xlab="Valores de x", ylab="Densidad de Probabilidad",
col="magenta",
type="b",
lwd=2,
pch=16)

Análisis Probabilístico
Llegando al análisis podemos ver que de los 20 amigos 5 de ellos es probable que eligan aleatoriamente un título de clasificación T14.
