En esta sección se presenta el Resumen Estadístico del dataset. El análisis de las variables cualitativas se realiza mediante tablas de frecuencia y diagramas de barras, que muestran la distribución de las categorías en cada una. Esto es esencial para identificar cómo se distribuyen las observaciones entre las distintas categorías.
Por otro lado, el análisis de las variables cuantitativas incluye un resumen estadístico que muestra medidas como la media, mediana, mínimo, máximo y los cuartiles. Estas medidas son clave para comprender la dispersión y tendencia central de los datos numéricos.
## Rank X.Worldwide X.Domestic Domestic..
## Min. : 1.00 Min. :1.666e+06 Min. : 0 Min. : 0.00
## 1st Qu.: 50.75 1st Qu.:2.466e+07 1st Qu.: 92752 1st Qu.: 0.20
## Median :100.50 Median :4.845e+07 Median : 17984212 Median : 37.05
## Mean :100.50 Mean :1.192e+08 Mean : 44725233 Mean : 35.74
## 3rd Qu.:150.25 3rd Qu.:1.198e+08 3rd Qu.: 53868472 3rd Qu.: 57.80
## Max. :200.00 Max. :2.799e+09 Max. :936662225 Max. :100.00
##
## X.Foreign Foreign.. Year Vote_Count
## Min. :0.000e+00 Min. : 0.00 Min. :2000 Min. : 0.0
## 1st Qu.:1.371e+07 1st Qu.: 42.20 1st Qu.:2006 1st Qu.: 205.2
## Median :3.019e+07 Median : 62.95 Median :2012 Median : 1035.5
## Mean :7.449e+07 Mean : 64.26 Mean :2012 Mean : 2531.6
## 3rd Qu.:7.212e+07 3rd Qu.: 99.80 3rd Qu.:2018 3rd Qu.: 3065.0
## Max. :1.994e+09 Max. :100.00 Max. :2024 Max. :36753.0
## NA's :170
## Warning: Removed 170 rows containing non-finite outside the scale range
## (`stat_bin()`).
Anotaciones:
Los histogramas de las variables Worldwide, Domestic y Foreign, revelan una distribución marcadamente asimétrica y alejada de la normalidad, caracterizada por un sesgo positivo. Esto significa que la mayoría de los datos se concentran en los valores más bajos, mientras que la cola de la distribución se extiende hacia la derecha, indicando la presencia de valores atípicamente altos.
El histograma de la variable Rating, muestra una ligera asimetría negativa o sesgo a la izquierda. La mayor concentración de datos está entre 6 y 8, con la moda cercana a 7. Sin embargo, la cola de la distribución se extiende hacia valores más bajos, acercándose a 0, lo que indica la presencia de algunas calificaciones mucho menores pero con poca frecuencia. Este tipo de distribución sugiere que la mayoría de las calificaciones son relativamente altas y que hay pocos valores extremadamente bajos.
## Warning: package 'reshape2' was built under R version 4.4.2
Intervalo | Frecuencia_Absoluta | Frecuencia_Acumulada | Frecuencia_Relativa |
---|---|---|---|
[1.67e+06,3.13e+08] | 4542 | 4542 | 90.84 |
(3.13e+08,6.23e+08] | 287 | 4829 | 5.74 |
(6.23e+08,9.34e+08] | 107 | 4936 | 2.14 |
(9.34e+08,1.25e+09] | 41 | 4977 | 0.82 |
(1.25e+09,1.56e+09] | 14 | 4991 | 0.28 |
(1.56e+09,1.87e+09] | 3 | 4994 | 0.06 |
(1.87e+09,2.18e+09] | 3 | 4997 | 0.06 |
(2.18e+09,2.49e+09] | 1 | 4998 | 0.02 |
(2.49e+09,2.8e+09] | 2 | 5000 | 0.04 |
Total | 5000 | NA | 100.00 |
La distribución de las recaudaciones globales de las películas muestra una alta concentración en valores bajos, con la mayoría de las películas generando ingresos moderados, mientras que un pequeño porcentaje alcanza cifras significativamente más altas. Esto refleja una distribución desigual en la industria, donde unas pocas películas muy exitosas dominan el mercado, mientras que la mayoría se quedan con ingresos más modestos. La mayor parte del total de recaudaciones está agrupada en un pequeño número de películas de gran éxito, mientras que el resto tiene un rendimiento más equilibrado o bajo.
Intervalo | Frecuencia_Absoluta | Frecuencia_Acumulada | Frecuencia_Relativa |
---|---|---|---|
[0,11.1] | 1689 | 1689 | 33.78 |
(11.1,22.2] | 208 | 1897 | 4.16 |
(22.2,33.3] | 415 | 2312 | 8.30 |
(33.3,44.4] | 610 | 2922 | 12.20 |
(44.4,55.6] | 711 | 3633 | 14.22 |
(55.6,66.7] | 494 | 4127 | 9.88 |
(66.7,77.8] | 348 | 4475 | 6.96 |
(77.8,88.9] | 231 | 4706 | 4.62 |
(88.9,100] | 294 | 5000 | 5.88 |
Total | 5000 | NA | 100.00 |
La distribución de las recaudaciones domésticas de las películas está concentrada en valores bajos, con un 33.78% de las películas obteniendo ingresos dentro del primer intervalo (0 a 11.1). Aunque hay una distribución más variada, la mayoría de las películas tienen ingresos relativamente bajos, con una disminución gradual en la frecuencia a medida que aumentan las recaudaciones.
Intervalo | Frecuencia_Absoluta | Frecuencia_Acumulada | Frecuencia_Relativa |
---|---|---|---|
[0,11.1] | 294 | 294 | 5.88 |
(11.1,22.2] | 231 | 525 | 4.62 |
(22.2,33.3] | 348 | 873 | 6.96 |
(33.3,44.4] | 494 | 1367 | 9.88 |
(44.4,55.6] | 711 | 2078 | 14.22 |
(55.6,66.7] | 610 | 2688 | 12.20 |
(66.7,77.8] | 415 | 3103 | 8.30 |
(77.8,88.9] | 208 | 3311 | 4.16 |
(88.9,100] | 1689 | 5000 | 33.78 |
Total | 5000 | NA | 100.00 |
La distribución de las recaudaciones internacionales de las películas está más equilibrada en comparación con el mercado doméstico. Si bien la mayor parte de las películas aún se concentran en intervalos de recaudación más bajos, existe una mayor proporción de películas con altos ingresos en el mercado internacional.
Intervalo | Frecuencia_Absoluta | Frecuencia_Acumulada | Frecuencia_Relativa |
---|---|---|---|
[0,4.08e+03] | 3929 | 3929 | 81.35 |
(4.08e+03,8.17e+03] | 534 | 4463 | 11.06 |
(8.17e+03,1.23e+04] | 190 | 4653 | 3.93 |
(1.23e+04,1.63e+04] | 87 | 4740 | 1.80 |
(1.63e+04,2.04e+04] | 47 | 4787 | 0.97 |
(2.04e+04,2.45e+04] | 29 | 4816 | 0.60 |
(2.45e+04,2.86e+04] | 7 | 4823 | 0.14 |
(2.86e+04,3.27e+04] | 4 | 4827 | 0.08 |
(3.27e+04,3.68e+04] | 3 | 4830 | 0.06 |
Total | 4830 | NA | 99.99 |
La distribución del número de votos muestra que una gran parte de las películas recibe pocos votos, con más del 80% de las películas concentradas en los primeros intervalos, lo que sugiere que la mayoría de las películas no alcanzan un nivel alto de popularidad en términos de votos.
Variable | Media | Mediana | Moda |
---|---|---|---|
X.Worldwide | 119213693 | 48446575 | 32800000 |
Domestic | 36 | 37 | 0 |
Year | 2012 | 2012 | 2000 |
Foreign | 64 | 63 | 100 |
Vote Count | 2532 | 1036 | 0 |
Asimetría en la variable Worldwide
La variable Year muestra una distribución sin sesgo
Vote Count tiene una distribución altamente sesgada
Variable | Rango | Varianza | Desviación.Estándar | Coeficiente.de.Variación |
---|---|---|---|---|
X.Worldwide | 1666028 - 2799439100 | 40210012222775640 | 200524343 | 1.682 |
Domestic | 0 - 100 | 939.9 | 30.66 | 0.8578 |
Foreign | 0 - 100 | 939.7 | 30.65 | 0.4771 |
Vote Count | 0 - 36753 | 15573069 | 3946 | 1.559 |
Worldwide tiene el mayor rango, lo que indica una enorme variabilidad en la recaudación de las películas. Su varianza es extremadamente alta, lo que significa que los valores están muy dispersos con respecto a la media. La desviación estándar también es grande, reafirmando la alta variabilidad en los ingresos de las películas. Y el Coeficiente de variación indica que, en proporción a la media, hay una gran dispersión.
En Domestic el rango es más limitado, ya que probablemente esté en una escala porcentual. La varianza y desviación estándar son moderadas en comparación con la recaudación mundial. Por ultimo, el Coeficiente de variación sugiere que la dispersión en relación con la media es moderada.
Foreign parece ser una variable más estable en comparación con Domestic y X.Worldwide. Aunque la variabilidad absoluta es similar a Domestic, en términos relativos los ingresos internacionales muestran una menor dispersión, lo que sugiere una mayor consistencia en el rendimiento de las películas en mercados extranjeros.
Vote Count es una variable con altísima dispersión, lo que indica que la cantidad de votos está muy desbalanceada entre películas. Algunas reciben miles de valoraciones, mientras que otras casi ninguna. Esto sugiere una distribución desigual de la atención del público, lo cual es común en la industria del cine, donde ciertos títulos dominan el interés general.
Variable | Q1_25 | Q2_50 | Q3_75 |
---|---|---|---|
X.Worldwide | 24662197.25 | 48446575.00 | 119758766.5 |
Domestic | 0.20 | 37.05 | 57.8 |
Foreign | 42.20 | 62.95 | 99.8 |
Vote_Count | 205.25 | 1035.50 | 3065.0 |
Year | 2006.00 | 2012.00 | 2018.0 |
Antes de proceder con el análisis exploratorio, se llevó a cabo una limpieza de datos para garantizar la calidad y confiabilidad de los resultados. Este proceso incluyó la identificación y tratamiento de valores faltantes, asegurando así un conjunto de datos adecuado para el análisis.
Nota: Si bien los outliers suelen tratarse o eliminarse en algunos análisis, en este caso es importante considerar su relevancia.
Se evaluó la presencia de valores faltantes en cada una de las variables:
colSums(is.na(datos))
## Rank Release.Group X.Worldwide
## 0 0 0
## X.Domestic Domestic.. X.Foreign
## 0 0 0
## Foreign.. Year Genres
## 0 0 0
## Rating Vote_Count Original_Language
## 0 170 0
## Production_Countries
## 0
Hemos identificado que los valores nulos en nuestro dataset están presentes únicamente en la variable Vote_Count Dado que los datos faltantes pueden afectar el análisis y la interpretación de los resultados, es importante determinar la mejor estrategia para su tratamiento.
Para ello, analizaremos la distribución de los valores en esta columna y compararemos la media y la mediana. Si la distribución es simétrica y no presenta valores extremos, utilizaremos la media para imputar los valores faltantes. Sin embargo, si la variable muestra sesgo o contiene outliers significativos, la mediana será una mejor opción.
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.0 205.2 1035.5 2531.6 3065.0 36753.0 170
El análisis de esta variable muestra que su distribución está altamente sesgada a la derecha, con valores extremos que indican la presencia de valores atípicos.
Dado que la media es sensible a los valores atípicos, utilizarla para imputar los valores faltantes podría distorsionar los datos. En cambio, la mediana es una mejor opción, ya que es menos afectada por los valores atípicos y representa con mayor precisión la tendencia central de la variable.
Con esta imputación, aseguramos que los datos faltantes sean tratados de manera robusta, evitando que los valores extremos introduzcan sesgos en los análisis posteriores.
A continuación, procederemos a verificar la correcta imputación de los valores nulos.
## [1] 0