Resumen estadístico

En esta sección se presenta el Resumen Estadístico del dataset. El análisis de las variables cualitativas se realiza mediante tablas de frecuencia y diagramas de barras, que muestran la distribución de las categorías en cada una. Esto es esencial para identificar cómo se distribuyen las observaciones entre las distintas categorías.

Por otro lado, el análisis de las variables cuantitativas incluye un resumen estadístico que muestra medidas como la media, mediana, mínimo, máximo y los cuartiles. Estas medidas son clave para comprender la dispersión y tendencia central de los datos numéricos.

Variables Cuantitativas/Númericas

##       Rank         X.Worldwide          X.Domestic          Domestic..    
##  Min.   :  1.00   Min.   :1.666e+06   Min.   :        0   Min.   :  0.00  
##  1st Qu.: 50.75   1st Qu.:2.466e+07   1st Qu.:    92752   1st Qu.:  0.20  
##  Median :100.50   Median :4.845e+07   Median : 17984212   Median : 37.05  
##  Mean   :100.50   Mean   :1.192e+08   Mean   : 44725233   Mean   : 35.74  
##  3rd Qu.:150.25   3rd Qu.:1.198e+08   3rd Qu.: 53868472   3rd Qu.: 57.80  
##  Max.   :200.00   Max.   :2.799e+09   Max.   :936662225   Max.   :100.00  
##                                                                           
##    X.Foreign           Foreign..           Year        Vote_Count     
##  Min.   :0.000e+00   Min.   :  0.00   Min.   :2000   Min.   :    0.0  
##  1st Qu.:1.371e+07   1st Qu.: 42.20   1st Qu.:2006   1st Qu.:  205.2  
##  Median :3.019e+07   Median : 62.95   Median :2012   Median : 1035.5  
##  Mean   :7.449e+07   Mean   : 64.26   Mean   :2012   Mean   : 2531.6  
##  3rd Qu.:7.212e+07   3rd Qu.: 99.80   3rd Qu.:2018   3rd Qu.: 3065.0  
##  Max.   :1.994e+09   Max.   :100.00   Max.   :2024   Max.   :36753.0  
##                                                      NA's   :170

Distribución de las Variables

## Warning: Removed 170 rows containing non-finite outside the scale range
## (`stat_bin()`).

Anotaciones:

  • Los histogramas de las variables Worldwide, Domestic y Foreign, revelan una distribución marcadamente asimétrica y alejada de la normalidad, caracterizada por un sesgo positivo. Esto significa que la mayoría de los datos se concentran en los valores más bajos, mientras que la cola de la distribución se extiende hacia la derecha, indicando la presencia de valores atípicamente altos.

  • El histograma de la variable Rating, muestra una ligera asimetría negativa o sesgo a la izquierda. La mayor concentración de datos está entre 6 y 8, con la moda cercana a 7. Sin embargo, la cola de la distribución se extiende hacia valores más bajos, acercándose a 0, lo que indica la presencia de algunas calificaciones mucho menores pero con poca frecuencia. Este tipo de distribución sugiere que la mayoría de las calificaciones son relativamente altas y que hay pocos valores extremadamente bajos.


Análisis de Correlación

## Warning: package 'reshape2' was built under R version 4.4.2

Tablas de frecuencias agrupadas

Tabla de Frecuencias Agrupadas para la variable X.Worldwide
Intervalo Frecuencia_Absoluta Frecuencia_Acumulada Frecuencia_Relativa
[1.67e+06,3.13e+08] 4542 4542 90.84
(3.13e+08,6.23e+08] 287 4829 5.74
(6.23e+08,9.34e+08] 107 4936 2.14
(9.34e+08,1.25e+09] 41 4977 0.82
(1.25e+09,1.56e+09] 14 4991 0.28
(1.56e+09,1.87e+09] 3 4994 0.06
(1.87e+09,2.18e+09] 3 4997 0.06
(2.18e+09,2.49e+09] 1 4998 0.02
(2.49e+09,2.8e+09] 2 5000 0.04
Total 5000 NA 100.00

La distribución de las recaudaciones globales de las películas muestra una alta concentración en valores bajos, con la mayoría de las películas generando ingresos moderados, mientras que un pequeño porcentaje alcanza cifras significativamente más altas. Esto refleja una distribución desigual en la industria, donde unas pocas películas muy exitosas dominan el mercado, mientras que la mayoría se quedan con ingresos más modestos. La mayor parte del total de recaudaciones está agrupada en un pequeño número de películas de gran éxito, mientras que el resto tiene un rendimiento más equilibrado o bajo.

Tabla de Frecuencias Agrupadas para la variable Domestic
Intervalo Frecuencia_Absoluta Frecuencia_Acumulada Frecuencia_Relativa
[0,11.1] 1689 1689 33.78
(11.1,22.2] 208 1897 4.16
(22.2,33.3] 415 2312 8.30
(33.3,44.4] 610 2922 12.20
(44.4,55.6] 711 3633 14.22
(55.6,66.7] 494 4127 9.88
(66.7,77.8] 348 4475 6.96
(77.8,88.9] 231 4706 4.62
(88.9,100] 294 5000 5.88
Total 5000 NA 100.00

La distribución de las recaudaciones domésticas de las películas está concentrada en valores bajos, con un 33.78% de las películas obteniendo ingresos dentro del primer intervalo (0 a 11.1). Aunque hay una distribución más variada, la mayoría de las películas tienen ingresos relativamente bajos, con una disminución gradual en la frecuencia a medida que aumentan las recaudaciones.

Tabla de Frecuencias Agrupadas para la variable Foreign
Intervalo Frecuencia_Absoluta Frecuencia_Acumulada Frecuencia_Relativa
[0,11.1] 294 294 5.88
(11.1,22.2] 231 525 4.62
(22.2,33.3] 348 873 6.96
(33.3,44.4] 494 1367 9.88
(44.4,55.6] 711 2078 14.22
(55.6,66.7] 610 2688 12.20
(66.7,77.8] 415 3103 8.30
(77.8,88.9] 208 3311 4.16
(88.9,100] 1689 5000 33.78
Total 5000 NA 100.00

La distribución de las recaudaciones internacionales de las películas está más equilibrada en comparación con el mercado doméstico. Si bien la mayor parte de las películas aún se concentran en intervalos de recaudación más bajos, existe una mayor proporción de películas con altos ingresos en el mercado internacional.

Tabla de Frecuencias Agrupadas para la variable Vote_Count
Intervalo Frecuencia_Absoluta Frecuencia_Acumulada Frecuencia_Relativa
[0,4.08e+03] 3929 3929 81.35
(4.08e+03,8.17e+03] 534 4463 11.06
(8.17e+03,1.23e+04] 190 4653 3.93
(1.23e+04,1.63e+04] 87 4740 1.80
(1.63e+04,2.04e+04] 47 4787 0.97
(2.04e+04,2.45e+04] 29 4816 0.60
(2.45e+04,2.86e+04] 7 4823 0.14
(2.86e+04,3.27e+04] 4 4827 0.08
(3.27e+04,3.68e+04] 3 4830 0.06
Total 4830 NA 99.99

La distribución del número de votos muestra que una gran parte de las películas recibe pocos votos, con más del 80% de las películas concentradas en los primeros intervalos, lo que sugiere que la mayoría de las películas no alcanzan un nivel alto de popularidad en términos de votos.

Medidas de Tendencia Central

Variable Media Mediana Moda
X.Worldwide 119213693 48446575 32800000
Domestic 36 37 0
Year 2012 2012 2000
Foreign 64 63 100
Vote Count 2532 1036 0
  • Asimetría en la variable Worldwide

    • La media (11,921,3693) es significativamente mayor que la mediana (48,446,575) y la moda (32,800,000). Esto sugiere una distribución sesgada a la derecha (asimetría positiva), donde unos pocos valores muy altos están elevando la media.
  • La variable Year muestra una distribución sin sesgo

    • La media, mediana son iguales (2012, 2012), lo que indica que los valores están uniformemente distribuidos en torno a la media y que el año en que se grabaron más peliculas fue en el año 2000.
  • Vote Count tiene una distribución altamente sesgada

    • La media (2532) es mucho mayor que la mediana (1036), lo que sugiere un sesgo positivo. La moda es 0, lo que indica que el valor más común en los datos es 0, posiblemente porque muchas películas recibieron pocos votos o no fueron calificadas.

Medidas de Dispersión

Medidas de Dispersión para Variables Cuantitativas
Variable Rango Varianza Desviación.Estándar Coeficiente.de.Variación
X.Worldwide 1666028 - 2799439100 40210012222775640 200524343 1.682
Domestic 0 - 100 939.9 30.66 0.8578
Foreign 0 - 100 939.7 30.65 0.4771
Vote Count 0 - 36753 15573069 3946 1.559
  • Worldwide tiene el mayor rango, lo que indica una enorme variabilidad en la recaudación de las películas. Su varianza es extremadamente alta, lo que significa que los valores están muy dispersos con respecto a la media. La desviación estándar también es grande, reafirmando la alta variabilidad en los ingresos de las películas. Y el Coeficiente de variación indica que, en proporción a la media, hay una gran dispersión.

  • En Domestic el rango es más limitado, ya que probablemente esté en una escala porcentual. La varianza y desviación estándar son moderadas en comparación con la recaudación mundial. Por ultimo, el Coeficiente de variación sugiere que la dispersión en relación con la media es moderada.

  • Foreign parece ser una variable más estable en comparación con Domestic y X.Worldwide. Aunque la variabilidad absoluta es similar a Domestic, en términos relativos los ingresos internacionales muestran una menor dispersión, lo que sugiere una mayor consistencia en el rendimiento de las películas en mercados extranjeros.

  • Vote Count es una variable con altísima dispersión, lo que indica que la cantidad de votos está muy desbalanceada entre películas. Algunas reciben miles de valoraciones, mientras que otras casi ninguna. Esto sugiere una distribución desigual de la atención del público, lo cual es común en la industria del cine, donde ciertos títulos dominan el interés general.

Medidas de Posición

Medidas de Posición: Percentiles y Cuartiles
Variable Q1_25 Q2_50 Q3_75
X.Worldwide 24662197.25 48446575.00 119758766.5
Domestic 0.20 37.05 57.8
Foreign 42.20 62.95 99.8
Vote_Count 205.25 1035.50 3065.0
Year 2006.00 2012.00 2018.0

Análisis de Valores Atípicos

Limpieza del Dataset

Antes de proceder con el análisis exploratorio, se llevó a cabo una limpieza de datos para garantizar la calidad y confiabilidad de los resultados. Este proceso incluyó la identificación y tratamiento de valores faltantes, asegurando así un conjunto de datos adecuado para el análisis.

Nota: Si bien los outliers suelen tratarse o eliminarse en algunos análisis, en este caso es importante considerar su relevancia.

Identificación y Tratamiento de Valores Faltantes

Se evaluó la presencia de valores faltantes en cada una de las variables:

colSums(is.na(datos))
##                 Rank        Release.Group          X.Worldwide 
##                    0                    0                    0 
##           X.Domestic           Domestic..            X.Foreign 
##                    0                    0                    0 
##            Foreign..                 Year               Genres 
##                    0                    0                    0 
##               Rating           Vote_Count    Original_Language 
##                    0                  170                    0 
## Production_Countries 
##                    0

Hemos identificado que los valores nulos en nuestro dataset están presentes únicamente en la variable Vote_Count Dado que los datos faltantes pueden afectar el análisis y la interpretación de los resultados, es importante determinar la mejor estrategia para su tratamiento.

Para ello, analizaremos la distribución de los valores en esta columna y compararemos la media y la mediana. Si la distribución es simétrica y no presenta valores extremos, utilizaremos la media para imputar los valores faltantes. Sin embargo, si la variable muestra sesgo o contiene outliers significativos, la mediana será una mejor opción.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##     0.0   205.2  1035.5  2531.6  3065.0 36753.0     170

El análisis de esta variable muestra que su distribución está altamente sesgada a la derecha, con valores extremos que indican la presencia de valores atípicos.

Estrategia para el tratamiento

Dado que la media es sensible a los valores atípicos, utilizarla para imputar los valores faltantes podría distorsionar los datos. En cambio, la mediana es una mejor opción, ya que es menos afectada por los valores atípicos y representa con mayor precisión la tendencia central de la variable.

Con esta imputación, aseguramos que los datos faltantes sean tratados de manera robusta, evitando que los valores extremos introduzcan sesgos en los análisis posteriores.

A continuación, procederemos a verificar la correcta imputación de los valores nulos.

## [1] 0