str(IMDB[c("Released_Year", "Runtime", "IMDB_Rating", "No_of_Votes", "Gross")])
## 'data.frame': 1000 obs. of 5 variables:
## $ Released_Year: chr "1994" "1972" "2008" "1974" ...
## $ Runtime : chr "142 min" "175 min" "152 min" "202 min" ...
## $ IMDB_Rating : num 9.3 9.2 9 9 9 8.9 8.9 8.9 8.8 8.8 ...
## $ No_of_Votes : int 2343110 1620367 2303232 1129952 689845 1642758 1826188 1213505 2067042 1854740 ...
## $ Gross : chr "28,341,469" "134,966,411" "534,858,444" "57,300,000" ...
IMDB$Released_Year[967] <- 1993
IMDB$Released_Year <- as.numeric(IMDB$Released_Year)
IMDB$Runtime <- as.numeric(gsub(" min", "", IMDB$Runtime))
IMDB$IMDB_Rating <- as.numeric(IMDB$IMDB_Rating)
IMDB$No_of_Votes <- as.numeric(IMDB$No_of_Votes)
IMDB$Gross <- as.numeric(gsub(",", "", IMDB$Gross))
IMDB <- separate(IMDB, Genre, into = c("genre_1", "genre_2", "genre_3"), sep = ", ", fill = "right")
str(IMDB[c("Released_Year", "Runtime", "IMDB_Rating", "No_of_Votes", "Gross")])
## 'data.frame': 1000 obs. of 5 variables:
## $ Released_Year: num 1994 1972 2008 1974 1957 ...
## $ Runtime : num 142 175 152 202 96 201 154 195 148 139 ...
## $ IMDB_Rating : num 9.3 9.2 9 9 9 8.9 8.9 8.9 8.8 8.8 ...
## $ No_of_Votes : num 2343110 1620367 2303232 1129952 689845 ...
## $ Gross : num 2.83e+07 1.35e+08 5.35e+08 5.73e+07 4.36e+06 ...
Durante el proceso de limpieza de datos:
1.- Se incluyó el dato faltante “1993” correspondiente al año de lanzamiento de la película Apollo 13.
2.- Se transformó todas las variables que incluyeran números a “numeric”.
3.- Se convirtieron los 3 posibles géneros de una película a 3 variables distintas para facilitar su uso como categorías.
El resto de la información no requiere ser transformada. Por lo que trabajaremos con las variables cuantitativas mencionadas. Cabe destacar que Gross (ingresos) no cuenta con todos los valores para todas las observaciones.
Podemos ver qué tan relacionadas están las variables numéricas.
cor(IMDB[c("Released_Year", "Runtime", "IMDB_Rating", "No_of_Votes", "Gross")], use = "pairwise.complete.obs")
## Released_Year Runtime IMDB_Rating No_of_Votes Gross
## Released_Year 1.0000000 0.1658221 -0.13104386 0.2417830 0.23306828
## Runtime 0.1658221 1.0000000 0.24309590 0.1732638 0.13967069
## IMDB_Rating -0.1310439 0.2430959 1.00000000 0.4949788 0.09592277
## No_of_Votes 0.2417830 0.1732638 0.49497884 1.0000000 0.57439304
## Gross 0.2330683 0.1396707 0.09592277 0.5743930 1.00000000
El ingreso (gross) está bastante relacionado con el número de votos; y levemente con el año de lanzamiento. Así también el puntaje se correlaciona con el numero de votos; como con la duración de la película.
Podemos explorar en qué año fueron lanzadas las peliculas del top 1000.
Este histograma nos muetra que la mayoría de las películas del top 1000 fueron estrenadas en los últimos años. Lo que explica la correlación existente entre año de estreno y la puntuación.
Podemos, también, evaluar cuántas películas hay por puntuación.
Podemos interpretar la porción del gráfico como la parte superior de la distribución normal, infiriendo que las calificaciones entre 1 y 7 continuen en esa tendencia.
El siguiente gráfico es solo para ejemplificar cómo se ve la distribución normal y visualizar a qué porción de esta corresponde la muestra de las 1000 mejores; es decir la porción superior de la distribución de calificaciones
datos <- rnorm(10000)
hist(datos,
col = "skyblue",
main = "Ejemplo de distribución normal")
rm(datos)
Nuestra muestra correspondería al tramo entre 1.5 y 3 de la distribución normal (imagen solo de referencia).
El comportamiento de la distribución de nuestra muestra (top 1000) parece indicar que la población completa de la base de datos de IMDB se comporta con distribución normal.
También podemos evaluar la distribución de las películas por ingresos.
Concluimos que son pocas las películas de mayor recaudación. La cantidad de películas que superan el umbral de los 200 millones (2e+08).
Evaluaremos las variables categóricas Género y Director(a) para identificar cuánto influyen estas en la Puntuación y la Recaudación de las películas.
Considérese número de votos como un indicador indirecto de la popularidad del film, o la cantidad de persona que vio la película.
A continuación se grafica la recaudación (y), respecto al número de votos (x). También se categoriza el color para identificar el género de la película.
## Warning: Removed 169 rows containing missing values (`geom_point()`).
El gráfico anterior indica una correlación significativa entre la popularidad de la película y los ingresos que genera. También se puede decir que las películas del género “Acción” tienden a tener mejores ingresos en general.
A continuación evaluamos el promedio de los ingresos en recaudación de cada género mencionado anteriormente.
De esta manera confirmamos la hipótesis de que el género acción tiende a tener mejor recaudación que los demás.
Además, podemos graficar el total de la recaudación de los distintos géneros.
Se despeja toda duda de que la Recaudación de las películas de acción es bastamente superior a la de otros géneros listados.
A continuación evaluamos la calificación promedio de las películas en los géneros más populares.
La variación en calificación de los distintos géneros no parece ser muy significativa. Una leve predilección por el género crimen.
Buscamos los directores y directoras con más apariciones en el top 1000.
##
## Alfred Hitchcock Steven Spielberg Hayao Miyazaki Akira Kurosawa
## 14 13 11 10
## Martin Scorsese Billy Wilder Stanley Kubrick Woody Allen
## 10 9 9 9
## Christopher Nolan Clint Eastwood
## 8 8
Estos son los directores con más apariciones en el top 1000, lo que podría ser interpretado como los directores mejor apreciados por los votantes de IMDB.
Existe la lista completa de los directores y directoras en el Top 1000, al ser una lista de más de 500 observaciones, no es conveniente expresarla, pero está disponible.
directores_unicos <- names(directores_conteo)
# print(directores_unicos)
rm(directores_conteo, directores_unicos, df_directores, top_10_directores)
A continuación evaluamos a los directores por el total de ingresos percibidos por las películas en muestra.
Por una significativa diferencia, Steven Spielberg es el director más lucrativo según las entradas de la lista (top 1000). Sin embargo, dada la naturaleza de los datos; no es correcto asumir que es el más lucrativo de todos los tiempos.
En esta sección analizaremos la evolución de los parámetros Puntaje y Recaudación. De esta forma, analizaremos los años con mejor desempeño y, en general, los mejores años para el cine.
## Año Promedio N_obs
## 2 1921 8.300000 1
## 36 1957 8.277778 9
## 73 1994 8.238462 13
## 21 1942 8.233333 3
## 4 1924 8.200000 1
## 7 1927 8.200000 2
Según la tabla anterior, el año con mejor calificación promedio es 1921. Sin embargo, al solo contener una observación, la estadística puede no ser significativa. A continuación se encuentra el año 1957, en donde la puntuación promedio alcanza los 8.27 puntos, con 9 observaciones.
Otra forma de análisis sería revisar el número de observaciones de cada año y listar los años con más película en el top 1000.
## Año Promedio N_obs
## 93 2014 7.918750 32
## 83 2004 7.874194 31
## 88 2009 7.865517 29
## 95 2016 7.935714 28
## 92 2013 7.921429 28
## 80 2001 7.900000 27
El 2014 es el año con más películas en el top 1000, con 32 observaciones, sim embargo tiene una puntuación promedio de 7.9.
En el gráfico podemos apreciar una tendencia levemente decadente, por lo que se puede concluir que la gente valora mejor las películas antiguas.
¿Cuáles son los años con el puntaje promedio más alto?
## Año Promedio N_obs
## 60 1981 97849613 4
## 69 1990 94786082 8
## 62 1983 81725643 5
## 78 1999 74865443 17
## 70 1991 64991846 12
## 90 2011 60685897 18
Destacan los años 1981 y 1990 con un ingreso considerablemente más alto a los demás años; pese a un menos numero de observaciones.
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
El gráfico presenta una tendencia alcista que se ha
visto refrenada en la última década. Sin embargo,
la falta de información hace menos confiable el análisis
## Año Recaudacion N_obs
## 78 1999 1272712523 17
## 90 2011 1092346139 18
## 70 1991 779902155 12
## 69 1990 758288655 8
## 77 1998 591451003 17
## 56 1977 494028775 3
Los años 1999 y 2011 superan el umbral de los mil millones de dólares. Una diferencia considerable con el resto de la lista. También ambas tienen una cantidad considerable de observaciones.
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
Este gráfico representa una clara tendencia alcista, casi exponencial. Esto puede interpretarse tanto un aumento en el público del cine, como un crecimiento en toda la industria.