Estadísticas de Género de Cine

Instituto: Zegel

Profesor: Guevara Ponce Victor Manuel

Ciclo Académico: 4

Alumno: Farias Castillo Gibbsson Jahncloy Augusto

Curso: Estadística Aplicada a la Computación

Índice

I. Aspectos generales

1.2 Misión

1.3 visión

1.4 Descripción del servicio/productos que se va a analizar)

1.5 Problemática de estudio

II. Fundamentos básicos de la Estadística

2.1 Objetivo de estudio

2.2 Población de estudio

2.3 Muestra

2.4 Unidad de análisis

2.5 Tipo de muestreo a utilizar

III. Variables y tipo de variables

3.1 Importación al entorno de trabajo

3.2 Variables y descripción de cada variable

IV. Tablas estadísticas y gráficos adecuados (Considerar todos los estudiados)

4.1 Tabla de frecuencias de géneros

4.2 Gráfico de barras de géneros

V. Medidas estadísticas (Considerar todas las medidas estudiadas)

5.1 Resumen estadístico de ingresos brutos

5.2 Cuartiles de ingresos brutos

5.3 Deciles de ingresos brutos

5.4 Percentiles de ingresos brutos

5.5 Asimetría de ingresos brutos

5.6 Curtosis de ingresos brutos

I. Aspectos generales

1.1 Nombre de la organización y/o empresa (real o propuesta)

La organización analizada en este informe es “Throwback Data Thursday”.

1.2 Misión

La misión de “Throwback Data Thursday” es proporcionar conjuntos de datos históricos interesantes y educativos para la comunidad de análisis de datos. Buscamos fomentar el análisis y la exploración de datos a lo largo del tiempo, permitiendo a los usuarios descubrir tendencias y patrones únicos.

1.3 Visión

La visión de “Throwback Data Thursday” es ser una fuente líder de conjuntos de datos históricos que inspiran la investigación, el aprendizaje y la toma de decisiones informadas. Nos esforzamos por ofrecer datos de calidad que impulsen el análisis y la comprensión de tendencias a lo largo de las décadas.

1.4 Descripción del servicio/productos que se va a analizar

Este conjunto de datos analiza estadísticas de género para películas lanzadas entre 1995 y 2018, proporcionando información sobre ingresos brutos, boletos vendidos y cifras ajustadas a la inflación. Archivo obtenido de https://www.kaggle.com/datasets/thedevastator/film-genre-statistics/

1.5 Problemática de estudio

La problemática de estudio puede centrarse en comprender las tendencias de la industria cinematográfica, identificar géneros más exitosos o analizar la relación entre ingresos y preferencias de género.

II. Fundamentos básicos de la Estadística

2.1 Objetivo de estudio

El objetivo es analizar y comprender las tendencias y patrones en la industria cinematográfica, centrándose en variables específicas.

2.2 Población de estudio

La población de estudio incluye todas las películas lanzadas entre 1995 y 2018.

2.3 Muestra

La muestra es el conjunto de datos específico que estamos utilizando para nuestro análisis.

2.4 Unidad de análisis

La unidad de análisis es cada película individual en el conjunto de datos.

2.5 Tipo de muestreo a utilizar

En este caso, estamos utilizando un muestreo de tipo censal al considerar todas las películas lanzadas durante el periodo especificado.

III. Variables y tipo de variables

3.1 Importación al entorno de trabajo

# Cargar el conjunto de datos
peliculas <- read.csv("Film Genre Stats.csv", sep=",")
head(peliculas)
##   index     Genre Year Movies.Released      Gross Tickets.Sold
## 1     0 Adventure 1995              29  771507571    177358047
## 2     1 Adventure 1996              34 1290490033    291966054
## 3     2 Adventure 1997              23  881902843    192135684
## 4     3 Adventure 1998              29 1614467732    344236174
## 5     4 Adventure 1999              27 1612432107    317407880
## 6     5 Adventure 2000              30 1327311892    246254507
##   Inflation.Adjusted.Gross                           Top.Movie
## 1               1590901682                           Toy Story
## 2               2618935504                    Independence Day
## 3               1723457085                        Men in Black
## 4               3087798481                          Armageddon
## 5               2847148684 Star Wars Ep. I: The Phantom Menace
## 6               2208902928      How the Grinch Stole Christmas
##   Top.Movie.Gross..That.Year. Top.Movie.Inflation.Adjusted.Gross..That.Year.
## 1                   150148222                                      309615962
## 2                   306169255                                      621343452
## 3                   250650052                                      489832425
## 4                   201578182                                      385534373
## 5                   430443350                                      760054462
## 6                   253367455                                      421652301

3.2 Variables y descripción de cada variable

  • Género : La categoría o tipo de película. (Categórica)
  • Año : El año en que se estrenaron las películas. (Numérica)
  • Películas Lanzadas : El número de películas lanzadas en ese género y año en particular. (Numérica)
  • Bruto : Los ingresos brutos totales generados por las películas en ese género y año. (Numérica)
  • Entradas Vendidas : El número total de entradas vendidas para películas de ese género y año. (Numérica)
  • Inflación Ajustada Bruta : Los ingresos brutos ajustados por inflación, considerando cambios en el valor del dinero a lo largo del tiempo. (Numérica)
  • Top Película : El título de la película más taquillera de ese género y año. (Texto)
  • Mejor Película Bruta (Ese Año) : Los ingresos brutos generados por la película más taquillera de ese género y año. (Numérica)
  • Película principal bruta ajustada a la inflación : Los ingresos brutos de la película más taquillera se ajustaron a la inflación en ese género y año. (Numérica)

VI Tablas estadísticas y gráficos adecuados

4.1 Tabla de frecuencias de géneros

tabla_frecuencias_generos <- table(peliculas$Genre)
tabla_frecuencias_generos
## 
##                 Action              Adventure                 Comedy 
##                     24                     24                     24 
## Concert or Performance            Dark Comedy            Documentary 
##                     19                     24                     24 
##                  Drama                 Horror        Multiple Genres 
##                     24                     24                     18 
##                Musical                Reality        Romantic Comedy 
##                     23                      3                     24 
##   Thriller or Suspense                Western 
##                     24                     21

4.2 Gráfico de barras de géneros

library(ggplot2)

# Crear un gráfico de barras
ggplot(peliculas, aes(x = Genre, fill = Genre)) +
  geom_bar() +
  labs(title = "Frecuencia de películas por género",
       x = "Género",
       y = "Número de películas") +
  theme_minimal()

4.3 Gráfico de dispersión de ingresos brutos vs. año

# Crear un gráfico de dispersión
ggplot(peliculas, aes(x = Year, y = Gross, color = Genre)) +
  geom_point() +
  labs(title = "Ingresos brutos de películas a lo largo de los años",
       x = "Año",
       y = "Ingresos brutos",
       color = "Género") +
  theme_minimal()

4.4 Gráfico de caja y bigotes de ingresos brutos por género

# Crear un gráfico de caja y bigotes
ggplot(peliculas, aes(x = Genre, y = Gross, fill = Genre)) +
  geom_boxplot() +
  labs(title = "Distribución de ingresos brutos por género",
       x = "Género",
       y = "Ingresos brutos",
       fill = "Género") +
  theme_minimal()

## V. Medidas estadísticas

5.1 Resumen estadístico de ingresos brutos

summary(peliculas$Gross)
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## 2.010e+03 5.787e+07 3.694e+08 7.382e+08 1.295e+09 4.159e+09

5.2 Cuartiles de ingresos brutos

cuartiles_ingresos <- quantile(peliculas$Gross)
cuartiles_ingresos
##         0%        25%        50%        75%       100% 
##       2010   57865912  369411822 1294523505 4159137913

Resultado /## 0% 25% 50% 75% 100% /## 2010 57865912 369411822 1294523505 4159137913

Según los resultados:

El valor mínimo de ingresos brutos es 2010.

Cuartil 1 \((Q_1)\)

interpretación: es 57865912; El 25% de las películas en este género y año tienen ingresos brutos menores o iguales a 57865912.

Cuartil 2 \((Q_2)\)

interpretación: es 369411822; El 50% de las películas en este género y año tienen ingresos brutos menores o iguales a 369411822.

Cuartil 3 \((Q_3)\)

interpretación: es 1294523505; El 75% de las películas en este género y año tienen ingresos brutos menores o iguales a 1294523505.

5.3 Deciles de ingresos brutos

deciles_ingresos <- quantile(peliculas$Gross, probs = seq(0, 1, 0.1))
deciles_ingresos
##         0%        10%        20%        30%        40%        50%        60% 
##       2010    2481757   37169691   75374214  146646249  369411822  643837108 
##        70%        80%        90%       100% 
## 1049090289 1412093544 1963548808 4159137913

5.4 Percentiles de ingresos brutos

percentiles_ingresos <- quantile(peliculas$Gross, probs = seq(0, 1, 0.01))
percentiles_ingresos
##           0%           1%           2%           3%           4%           5% 
## 2.010000e+03 1.680647e+04 1.468741e+05 3.280300e+05 4.870996e+05 5.810185e+05 
##           6%           7%           8%           9%          10%          11% 
## 7.419250e+05 1.153829e+06 1.483883e+06 2.306790e+06 2.481757e+06 2.829786e+06 
##          12%          13%          14%          15%          16%          17% 
## 3.145732e+06 4.764919e+06 6.579632e+06 1.851647e+07 2.157203e+07 2.337520e+07 
##          18%          19%          20%          21%          22%          23% 
## 2.814261e+07 3.319641e+07 3.716969e+07 4.371234e+07 4.887136e+07 5.111156e+07 
##          24%          25%          26%          27%          28%          29% 
## 5.640121e+07 5.786591e+07 6.161219e+07 6.502926e+07 6.873493e+07 7.139575e+07 
##          30%          31%          32%          33%          34%          35% 
## 7.537421e+07 8.228500e+07 8.468266e+07 8.695836e+07 8.967641e+07 9.263630e+07 
##          36%          37%          38%          39%          40%          41% 
## 9.487373e+07 1.048389e+08 1.138514e+08 1.353057e+08 1.466462e+08 1.678232e+08 
##          42%          43%          44%          45%          46%          47% 
## 1.849547e+08 2.190407e+08 2.507358e+08 2.582689e+08 2.955299e+08 3.019864e+08 
##          48%          49%          50%          51%          52%          53% 
## 3.244812e+08 3.415202e+08 3.694118e+08 3.784781e+08 3.978654e+08 4.221729e+08 
##          54%          55%          56%          57%          58%          59% 
## 4.492173e+08 4.784367e+08 5.080973e+08 5.407025e+08 5.748795e+08 5.860038e+08 
##          60%          61%          62%          63%          64%          65% 
## 6.438371e+08 6.609816e+08 7.070753e+08 7.513992e+08 7.850167e+08 8.103515e+08 
##          66%          67%          68%          69%          70%          71% 
## 8.847111e+08 9.131727e+08 9.550398e+08 9.937035e+08 1.049090e+09 1.055936e+09 
##          72%          73%          74%          75%          76%          77% 
## 1.095023e+09 1.204839e+09 1.275512e+09 1.294524e+09 1.326754e+09 1.353547e+09 
##          78%          79%          80%          81%          82%          83% 
## 1.373733e+09 1.382295e+09 1.412094e+09 1.439334e+09 1.478572e+09 1.490410e+09 
##          84%          85%          86%          87%          88%          89% 
## 1.539442e+09 1.603472e+09 1.621386e+09 1.651412e+09 1.695546e+09 1.806586e+09 
##          90%          91%          92%          93%          94%          95% 
## 1.963549e+09 2.100347e+09 2.223761e+09 2.431770e+09 2.609014e+09 2.745305e+09 
##          96%          97%          98%          99%         100% 
## 2.821676e+09 2.915766e+09 3.008789e+09 3.284506e+09 4.159138e+09

5.5 Asimetría de ingresos brutos

library(fBasics)
asimetria_ingresos <- skewness(peliculas$Gross)
asimetria_ingresos
## [1] 1.391082
## attr(,"method")
## [1] "moment"

Resultado: [1] 1.391082, como el valor es positivo, entonces la distribución de los datos es asimétrica positiva, lo que indica que hay películas con ingresos brutos concentrados en los puntos más bajos.

5.6 Curtosis de ingresos brutos

curtosis_ingresos <- kurtosis(peliculas$Gross)
curtosis_ingresos
## [1] 1.450085
## attr(,"method")
## [1] "excess"

Resultado: [1] 1.450085, es menor que 3. Por lo tanto, la distribución de los ingresos brutos no es leptocúrtica. En cambio, sería platicúrtica, lo que indica que tiene colas más ligeras y es menos puntiaguda en comparación con una distribución normal.

# Visualización de la distribución de ingresos brutos
hist(peliculas$Gross, col = "skyblue", main = "Distribución de Ingresos Brutos", xlab = "Ingresos Brutos")