Punto 5

¿Existen diferencias estadísticamente significativas entre los valores medios de las ganancias internacionales de las películas según su género?

En este punto, evaluaremos si el género de una película influye directamente en las ganancias internacionales obtenidas. Para ello, nos centraremos en tres géneros específicos y analizaremos si las medias de sus ganancias internacionales presentan diferencias significativas.

Usaremos como grupo de interés la variable “Género” y “Foreign” para determinar las ganancias internacionales de cada película.

Antes de aplicar las pruebas estadísticas, evaluaremos la distribución de los datos para determinar si se ajustan a una distribución normal. Esto es crucial porque la normalidad de los datos guiará la elección de la prueba estadística adecuada (paramétrica o no paramétrica).

Empezaremos analizando por el método gráfico:

El histograma muestra una distribución altamente asimétrica y no normal, con un sesgo hacia la derecha, es decir, presentan un sesgo positivo.

El gráfico tiene una curvatura hacia arriba lo que nos indica que existe un sesgo hacia la derecha.

Basado en los gráficos anteriores, podemos observar a simple vista que los datos no siguen una distribución normal, ya que presentan una asimetría clara. Sin embargo, para confirmar esta observación, realizaremos una prueba formal de normalidad.

## 
##  Anderson-Darling normality test
## 
## data:  Data$`$Foreign`
## A = 743.17, p-value < 2.2e-16

El valor p es menor que 0.05 por lo que se rechaza la hipotesis nula.}

Como el valor p obtenido es menor que 0.05, podemos rechazar la hipótesis nula y afirmar que hay evidencia suficiente para concluir que los datos no provienen de una distribución normal. Debido a que no se cumple el supuesto de normalidad, utilizaremos la prueba de Kruskal-Wallis en lugar de la prueba de ANOVA, ya que la primera es una alternativa no paramétrica que no requiere que los datos sigan una distribución normal.

Primero realizaré una filtración de los géneros de las películas, puesto que se encuentran juntas entre comas.

Genero Frecuencia Absoluta Frecuencia Relativa
Action 1384 10.74
Adventure 1063 8.25
Animation 498 3.87
Comedy 1907 14.80
Crime 699 5.43
Documentary 79 0.61
Drama 2009 15.60
Family 694 5.39
Fantasy 634 4.92
History 293 2.27
Horror 436 3.38
Music 152 1.18
Mystery 431 3.35
Romance 844 6.55
Science Fiction 514 3.99
Thriller 1060 8.23
TV Movie 7 0.05
War 144 1.12
Western 34 0.26

Como podemos ver, ya hemos separado los géneros de las películas, lo que nos permitirá contar cuántas películas corresponden a cada género. A continuación, nos enfocaremos en el otro grupo de interés, que son las ganancias internacionales de las películas. Para ello, procederemos a filtrar las películas según su género y analizaremos las ganancias correspondientes a cada grupo.

Tabla: Ganancias Totales por Genero
Genero Ganancia
Action 165,951,686,864
Adventure 168,387,139,689
Animation 61,501,072,956
Comedy 120,154,492,707
Crime 40,170,061,703
Documentary 1,827,471,543
Drama 102,252,519,801
Family 75,375,365,889
Fantasy 81,244,594,839
History 16,554,412,413
Horror 20,272,217,062
Music 8,148,949,877
Mystery 23,721,062,500
Romance 42,095,656,530
Science Fiction 82,247,553,450
Thriller 72,920,927,337
TV Movie 129,380,542
War 12,760,889,331
Western 1,913,719,532

De acuerdo con la tabla, podemos observar que los géneros comedia, acción y aventura son los que generaron mayores ganancias. Por lo tanto, nos centraremos en estos tres géneros. A simple vista, podríamos suponer que el género que más generó será el que tenga la mediana más alta. Vamos a comprobar esta hipótesis calculando la media y la mediana de las ganancias para cada género:

Tabla: Mediana de Ganancias (Action, Adventure, Comedy)
Genero Mediana
Action 48,478,541
Adventure 61,153,455
Comedy 27,302,268

Como podemos observar, la mediana se sigue acomodando a los indicios que obtuvimos antes. Sin embargo, veamos si esta diferencia en las distribuciones (o en las medianas) es en realidad significativa con la prueba de Kruskal.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Ganancias by Genero
## Kruskal-Wallis chi-squared = 310.49, df = 2, p-value < 2.2e-16

El valor p obtenido es menor que 0.05, lo que nos lleva a rechazar la hipótesis nula. Esto indica que existen diferencias significativas entre las medianas de los géneros de películas (acción, comedia y aventura) en cuanto a sus ganancias internacionales. En consecuencia, podemos concluir que las ganancias internacionales varían de manera significativa según el género de la película.

##   Kruskal-Wallis rank sum test
## 
## data: x and group
## Kruskal-Wallis chi-squared = 310.4948, df = 2, p-value = 0
## 
## 
##                            Comparison of x by group                            
##                                 (No adjustment)                                
## Col Mean-|
## Row Mean |     Action   Adventur
## ---------+----------------------
## Adventur |  -3.592213
##          |    0.0002*
##          |
##   Comedy |   13.12019   15.93132
##          |    0.0000*    0.0000*
## 
## 
## List of pairwise comparisons: Z statistic (p-value)
## ----------------------------------------
## Action - Adventure : -3.592213 (0.0002)*
## Action - Comedy    :  13.12019 (0.0000)*
## Adventure - Comedy :  15.93132 (0.0000)*
## 
## alpha = 0.05
## Reject Ho if p <= alpha/2
## $chi2
## [1] 310.4948
## 
## $Z
## [1] -3.592214 13.120198 15.931321
## 
## $P
## [1] 1.639405e-04 1.261376e-39 1.920784e-57
## 
## $P.adjusted
## [1] 1.639405e-04 1.261376e-39 1.920784e-57
## 
## $comparisons
## [1] "Action - Adventure" "Action - Comedy"    "Adventure - Comedy"

Como vemos, la p adquiere un valor menor a 0.05 para todos los géneros. Lo que nos lleva a la conclusión de que todos son diferentes entre sí.

Conclusión

De acuerdo a todo lo anterior, podemos destacar las siguientes conclusiones:

  • Media y Mediana:
    Aunque en algunos casos calcular solo la media y la mediana no es suficiente para determinar si existe una diferencia significativa entre los grupos, en este análisis vimos que ambos indicadores nos señalaron la presencia de diferencias significativas entre los tres géneros de películas seleccionados.

  • Prueba de Kruskal:
    La prueba de Kruskal nos permitió verificar que la distribución es diferente en todos los géneros comparados, indicando que existe una diferencia significativa en las ganancias internacionales entre los géneros de películas de acción, comedia y aventura.

  • Rendimiento de los Géneros:
    Es interesante observar que, aunque el género de comedia tuvo más películas que el género de acción, la prueba de Kruskal mostró que existía una diferencia significativa entre ambos. Esto nos lleva a inferir que, a pesar de que las películas de acción eran menos en número, su rendimiento fue superior, lo que sugiere que estaban mejor valoradas (Rating) y, por lo tanto, generaban más dinero. Además, se podría decir que la diferencia no fue producto del azar, lo que nos permite concluir que el género puede llegar a tener un impacto en las ganancias internacionales de las películas.