¿Existen diferencias estadísticamente significativas entre los valores medios de las ganancias internacionales de las películas según su género?
En este punto, evaluaremos si el género de una película influye directamente en las ganancias internacionales obtenidas. Para ello, nos centraremos en tres géneros específicos y analizaremos si las medias de sus ganancias internacionales presentan diferencias significativas.
Usaremos como grupo de interés la variable “Género” y “Foreign” para determinar las ganancias internacionales de cada película.
Antes de aplicar las pruebas estadísticas, evaluaremos la distribución de los datos para determinar si se ajustan a una distribución normal. Esto es crucial porque la normalidad de los datos guiará la elección de la prueba estadística adecuada (paramétrica o no paramétrica).
Empezaremos analizando por el método gráfico:
El histograma muestra una distribución altamente asimétrica y no normal, con un sesgo hacia la derecha, es decir, presentan un sesgo positivo.
El gráfico tiene una curvatura hacia arriba lo que nos indica que existe un sesgo hacia la derecha.
Basado en los gráficos anteriores, podemos observar a simple vista que los datos no siguen una distribución normal, ya que presentan una asimetría clara. Sin embargo, para confirmar esta observación, realizaremos una prueba formal de normalidad.
##
## Anderson-Darling normality test
##
## data: Data$`$Foreign`
## A = 743.17, p-value < 2.2e-16
El valor p es menor que 0.05 por lo que se rechaza la hipotesis nula.}
Como el valor p obtenido es menor que 0.05, podemos rechazar la hipótesis nula y afirmar que hay evidencia suficiente para concluir que los datos no provienen de una distribución normal. Debido a que no se cumple el supuesto de normalidad, utilizaremos la prueba de Kruskal-Wallis en lugar de la prueba de ANOVA, ya que la primera es una alternativa no paramétrica que no requiere que los datos sigan una distribución normal.
Primero realizaré una filtración de los géneros de las películas, puesto que se encuentran juntas entre comas.
Genero | Frecuencia Absoluta | Frecuencia Relativa |
---|---|---|
Action | 1384 | 10.74 |
Adventure | 1063 | 8.25 |
Animation | 498 | 3.87 |
Comedy | 1907 | 14.80 |
Crime | 699 | 5.43 |
Documentary | 79 | 0.61 |
Drama | 2009 | 15.60 |
Family | 694 | 5.39 |
Fantasy | 634 | 4.92 |
History | 293 | 2.27 |
Horror | 436 | 3.38 |
Music | 152 | 1.18 |
Mystery | 431 | 3.35 |
Romance | 844 | 6.55 |
Science Fiction | 514 | 3.99 |
Thriller | 1060 | 8.23 |
TV Movie | 7 | 0.05 |
War | 144 | 1.12 |
Western | 34 | 0.26 |
Como podemos ver, ya hemos separado los géneros de las películas, lo que nos permitirá contar cuántas películas corresponden a cada género. A continuación, nos enfocaremos en el otro grupo de interés, que son las ganancias internacionales de las películas. Para ello, procederemos a filtrar las películas según su género y analizaremos las ganancias correspondientes a cada grupo.
Genero | Ganancia |
---|---|
Action | 165,951,686,864 |
Adventure | 168,387,139,689 |
Animation | 61,501,072,956 |
Comedy | 120,154,492,707 |
Crime | 40,170,061,703 |
Documentary | 1,827,471,543 |
Drama | 102,252,519,801 |
Family | 75,375,365,889 |
Fantasy | 81,244,594,839 |
History | 16,554,412,413 |
Horror | 20,272,217,062 |
Music | 8,148,949,877 |
Mystery | 23,721,062,500 |
Romance | 42,095,656,530 |
Science Fiction | 82,247,553,450 |
Thriller | 72,920,927,337 |
TV Movie | 129,380,542 |
War | 12,760,889,331 |
Western | 1,913,719,532 |
De acuerdo con la tabla, podemos observar que los géneros comedia, acción y aventura son los que generaron mayores ganancias. Por lo tanto, nos centraremos en estos tres géneros. A simple vista, podríamos suponer que el género que más generó será el que tenga la mediana más alta. Vamos a comprobar esta hipótesis calculando la media y la mediana de las ganancias para cada género:
Genero | Mediana |
---|---|
Action | 48,478,541 |
Adventure | 61,153,455 |
Comedy | 27,302,268 |
Como podemos observar, la mediana se sigue acomodando a los indicios que obtuvimos antes. Sin embargo, veamos si esta diferencia en las distribuciones (o en las medianas) es en realidad significativa con la prueba de Kruskal.
##
## Kruskal-Wallis rank sum test
##
## data: Ganancias by Genero
## Kruskal-Wallis chi-squared = 310.49, df = 2, p-value < 2.2e-16
El valor p obtenido es menor que 0.05, lo que nos lleva a rechazar la hipótesis nula. Esto indica que existen diferencias significativas entre las medianas de los géneros de películas (acción, comedia y aventura) en cuanto a sus ganancias internacionales. En consecuencia, podemos concluir que las ganancias internacionales varían de manera significativa según el género de la película.
## Kruskal-Wallis rank sum test
##
## data: x and group
## Kruskal-Wallis chi-squared = 310.4948, df = 2, p-value = 0
##
##
## Comparison of x by group
## (No adjustment)
## Col Mean-|
## Row Mean | Action Adventur
## ---------+----------------------
## Adventur | -3.592213
## | 0.0002*
## |
## Comedy | 13.12019 15.93132
## | 0.0000* 0.0000*
##
##
## List of pairwise comparisons: Z statistic (p-value)
## ----------------------------------------
## Action - Adventure : -3.592213 (0.0002)*
## Action - Comedy : 13.12019 (0.0000)*
## Adventure - Comedy : 15.93132 (0.0000)*
##
## alpha = 0.05
## Reject Ho if p <= alpha/2
## $chi2
## [1] 310.4948
##
## $Z
## [1] -3.592214 13.120198 15.931321
##
## $P
## [1] 1.639405e-04 1.261376e-39 1.920784e-57
##
## $P.adjusted
## [1] 1.639405e-04 1.261376e-39 1.920784e-57
##
## $comparisons
## [1] "Action - Adventure" "Action - Comedy" "Adventure - Comedy"
Como vemos, la p adquiere un valor menor a 0.05 para todos los géneros. Lo que nos lleva a la conclusión de que todos son diferentes entre sí.
De acuerdo a todo lo anterior, podemos destacar las siguientes conclusiones:
Media y Mediana:
Aunque en algunos casos calcular solo la media y la mediana no es
suficiente para determinar si existe una diferencia significativa entre
los grupos, en este análisis vimos que ambos indicadores nos señalaron
la presencia de diferencias significativas entre los tres géneros de
películas seleccionados.
Prueba de Kruskal:
La prueba de Kruskal nos permitió verificar que la distribución es
diferente en todos los géneros comparados, indicando que existe una
diferencia significativa en las ganancias internacionales entre los
géneros de películas de acción, comedia y aventura.
Rendimiento de los Géneros:
Es interesante observar que, aunque el género de comedia tuvo más
películas que el género de acción, la prueba de Kruskal mostró que
existía una diferencia significativa entre ambos. Esto nos lleva a
inferir que, a pesar de que las películas de acción eran menos en
número, su rendimiento fue superior, lo que sugiere que estaban mejor
valoradas (Rating) y, por lo tanto, generaban más dinero. Además, se
podría decir que la diferencia no fue producto del azar, lo que nos
permite concluir que el género puede llegar a tener un impacto en las
ganancias internacionales de las películas.