Limpieza de datos

str(IMDB[c("Released_Year", "Runtime", "IMDB_Rating", "No_of_Votes", "Gross")])

## 'data.frame':    1000 obs. of  5 variables:
##  $ Released_Year: chr  "1994" "1972" "2008" "1974" ...
##  $ Runtime      : chr  "142 min" "175 min" "152 min" "202 min" ...
##  $ IMDB_Rating  : num  9.3 9.2 9 9 9 8.9 8.9 8.9 8.8 8.8 ...
##  $ No_of_Votes  : int  2343110 1620367 2303232 1129952 689845 1642758 1826188 1213505 2067042 1854740 ...
##  $ Gross        : chr  "28,341,469" "134,966,411" "534,858,444" "57,300,000" ...

IMDB$Released_Year[967] <- 1993
IMDB$Released_Year <- as.numeric(IMDB$Released_Year)
IMDB$Runtime <- as.numeric(gsub(" min", "", IMDB$Runtime))
IMDB$IMDB_Rating <- as.numeric(IMDB$IMDB_Rating)
IMDB$No_of_Votes <- as.numeric(IMDB$No_of_Votes)
IMDB$Gross <- as.numeric(gsub(",", "", IMDB$Gross)) 
IMDB <- separate(IMDB, Genre, into = c("genre_1", "genre_2", "genre_3"), sep = ", ", fill = "right")

str(IMDB[c("Released_Year", "Runtime", "IMDB_Rating", "No_of_Votes", "Gross")])

## 'data.frame':    1000 obs. of  5 variables:
##  $ Released_Year: num  1994 1972 2008 1974 1957 ...
##  $ Runtime      : num  142 175 152 202 96 201 154 195 148 139 ...
##  $ IMDB_Rating  : num  9.3 9.2 9 9 9 8.9 8.9 8.9 8.8 8.8 ...
##  $ No_of_Votes  : num  2343110 1620367 2303232 1129952 689845 ...
##  $ Gross        : num  2.83e+07 1.35e+08 5.35e+08 5.73e+07 4.36e+06 ...

Durante el proceso de limpieza de datos:

1.- Se incluyó el dato faltante “1993” correspondiente al año de lanzamiento de la película Apollo 13.

2.- Se transformó todas las variables que incluyeran números a “numeric”.

3.- Se convirtieron los 3 posibles géneros de una película a 3 variables distintas para facilitar su uso como categorías.

El resto de la información no requiere ser transformada. Por lo que trabajaremos con las variables cuantitativas mencionadas. Cabe destacar que Gross (ingresos) no cuenta con todos los valores para todas las observaciones.

Exploración de los datos

Podemos ver qué tan relacionadas están las variables numéricas.

cor(IMDB[c("Released_Year", "Runtime", "IMDB_Rating", "No_of_Votes", "Gross")], use = "pairwise.complete.obs")

##               Released_Year   Runtime IMDB_Rating No_of_Votes      Gross
## Released_Year     1.0000000 0.1658221 -0.13104386   0.2417830 0.23306828
## Runtime           0.1658221 1.0000000  0.24309590   0.1732638 0.13967069
## IMDB_Rating      -0.1310439 0.2430959  1.00000000   0.4949788 0.09592277
## No_of_Votes       0.2417830 0.1732638  0.49497884   1.0000000 0.57439304
## Gross             0.2330683 0.1396707  0.09592277   0.5743930 1.00000000

El ingreso (gross) está bastante relacionado con el número de votos; y levemente con el año de lanzamiento. Así también el puntaje se correlaciona con el numero de votos; como con la duración de la película.

Podemos explorar en qué año fueron lanzadas las peliculas del top 1000.

Este histograma nos muetra que la mayoría de las películas del top 1000 fueron estrenadas en los últimos años. Lo que explica la correlación existente entre año de estreno y la puntuación.

Podemos, también, evaluar cuántas películas hay por puntuación.

Podemos interpretar la porción del gráfico como la parte superior de la distribución normal, infiriendo que las calificaciones entre 1 y 7 continuen en esa tendencia.

El siguiente gráfico es solo para ejemplificar cómo se ve la distribución normal y visualizar a qué porción de esta corresponde la muestra de las 1000 mejores; es decir la porción superior de la distribución de calificaciones

datos <- rnorm(10000)
hist(datos,
     col = "skyblue",
     main = "Ejemplo de distribución normal")

rm(datos)

Nuestra muestra correspondería al tramo entre 1.5 y 3 de la distribución normal (imagen solo de referencia).

El comportamiento de la distribución de nuestra muestra (top 1000) parece indicar que la población completa de la base de datos de IMDB se comporta con distribución normal.

También podemos evaluar la distribución de las películas por ingresos.

Concluimos que son pocas las películas de mayor recaudación. La cantidad de películas que superan el umbral de los 200 millones (2e+08).

Análisis

Evaluaremos las variables categóricas Género y Director(a) para identificar cuánto influyen estas en la Puntuación y la Recaudación de las películas.

Considérese número de votos como un indicador indirecto de la popularidad del film, o la cantidad de persona que vio la película.

Análisis por géneros

A continuación se grafica la recaudación (y), respecto al número de votos (x). También se categoriza el color para identificar el género de la película.

## Warning: Removed 169 rows containing missing values (`geom_point()`).

El gráfico anterior indica una correlación significativa entre la popularidad de la película y los ingresos que genera. También se puede decir que las películas del género “Acción” tienden a tener mejores ingresos en general.

A continuación evaluamos el promedio de los ingresos en recaudación de cada género mencionado anteriormente.

De esta manera confirmamos la hipótesis de que el género acción tiende a tener mejor recaudación que los demás.

Además, podemos graficar el total de la recaudación de los distintos géneros.

Se despeja toda duda de que la Recaudación de las películas de acción es bastamente superior a la de otros géneros listados.

A continuación evaluamos la calificación promedio de las películas en los géneros más populares.

La variación en calificación de los distintos géneros no parece ser muy significativa. Una leve predilección por el género crimen.

Análisis de directores

Directores por calificación

Buscamos los directores y directoras con más apariciones en el top 1000.

## 
##  Alfred Hitchcock  Steven Spielberg    Hayao Miyazaki    Akira Kurosawa 
##                14                13                11                10 
##   Martin Scorsese      Billy Wilder   Stanley Kubrick       Woody Allen 
##                10                 9                 9                 9 
## Christopher Nolan    Clint Eastwood 
##                 8                 8

Estos son los directores con más apariciones en el top 1000, lo que podría ser interpretado como los directores mejor apreciados por los votantes de IMDB.

Existe la lista completa de los directores y directoras en el Top 1000, al ser una lista de más de 500 observaciones, no es conveniente expresarla, pero está disponible.

directores_unicos <- names(directores_conteo)

# print(directores_unicos)

rm(directores_conteo, directores_unicos, df_directores, top_10_directores)

A continuación evaluamos a los directores por el total de ingresos percibidos por las películas en muestra.

Por una significativa diferencia, Steven Spielberg es el director más lucrativo según las entradas de la lista (top 1000). Sin embargo, dada la naturaleza de los datos; no es correcto asumir que es el más lucrativo de todos los tiempos.

Análisis por años

En esta sección analizaremos la evolución de los parámetros Puntaje y Recaudación. De esta forma, analizaremos los años con mejor desempeño y, en general, los mejores años para el cine.

Años con mejor puntaje.

##     Año Promedio N_obs
## 2  1921 8.300000     1
## 36 1957 8.277778     9
## 73 1994 8.238462    13
## 21 1942 8.233333     3
## 4  1924 8.200000     1
## 7  1927 8.200000     2

Según la tabla anterior, el año con mejor calificación promedio es 1921. Sin embargo, al solo contener una observación, la estadística puede no ser significativa. A continuación se encuentra el año 1957, en donde la puntuación promedio alcanza los 8.27 puntos, con 9 observaciones.

Años con más películas en el top 1000.

Otra forma de análisis sería revisar el número de observaciones de cada año y listar los años con más película en el top 1000.

##     Año Promedio N_obs
## 93 2014 7.918750    32
## 83 2004 7.874194    31
## 88 2009 7.865517    29
## 95 2016 7.935714    28
## 92 2013 7.921429    28
## 80 2001 7.900000    27

El 2014 es el año con más películas en el top 1000, con 32 observaciones, sim embargo tiene una puntuación promedio de 7.9.

En el gráfico podemos apreciar una tendencia levemente decadente, por lo que se puede concluir que la gente valora mejor las películas antiguas.

Años con mejor recaudación promedio.

¿Cuáles son los años con el puntaje promedio más alto?

##     Año Promedio N_obs
## 60 1981 97849613     4
## 69 1990 94786082     8
## 62 1983 81725643     5
## 78 1999 74865443    17
## 70 1991 64991846    12
## 90 2011 60685897    18

Destacan los años 1981 y 1990 con un ingreso considerablemente más alto a los demás años; pese a un menos numero de observaciones.

## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

El gráfico presenta una tendencia alcista que se ha visto refrenada en la última década. Sin embargo, la falta de información hace menos confiable el análisis

Años con mejor recaudación total

##     Año Recaudacion N_obs
## 78 1999  1272712523    17
## 90 2011  1092346139    18
## 70 1991   779902155    12
## 69 1990   758288655     8
## 77 1998   591451003    17
## 56 1977   494028775     3

Los años 1999 y 2011 superan el umbral de los mil millones de dólares. Una diferencia considerable con el resto de la lista. También ambas tienen una cantidad considerable de observaciones.

## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

Este gráfico representa una clara tendencia alcista, casi exponencial. Esto puede interpretarse tanto un aumento en el público del cine, como un crecimiento en toda la industria.

Las mejores 1000 películas según IMDB.

Cristóbal Paz Rojas

2024-02-17