Instituto: Zegel
Profesor: Guevara Ponce Victor Manuel
Ciclo Académico: 4
Alumno: Farias Castillo Gibbsson Jahncloy Augusto
Curso: Estadística Aplicada a la Computación
I. Aspectos generales
1.2 Misión
1.3 visión
1.4 Descripción del servicio/productos que se va a analizar)
1.5 Problemática de estudio
II. Fundamentos básicos de la Estadística
2.1 Objetivo de estudio
2.2 Población de estudio
2.3 Muestra
2.4 Unidad de análisis
2.5 Tipo de muestreo a utilizar
III. Variables y tipo de variables
3.1 Importación al entorno de trabajo
3.2 Variables y descripción de cada variable
IV. Tablas estadísticas y gráficos adecuados (Considerar todos los estudiados)
4.1 Tabla de frecuencias de géneros
4.2 Gráfico de barras de géneros
V. Medidas estadísticas (Considerar todas las medidas estudiadas)
5.1 Resumen estadístico de ingresos brutos
5.2 Cuartiles de ingresos brutos
5.3 Deciles de ingresos brutos
5.4 Percentiles de ingresos brutos
5.5 Asimetría de ingresos brutos
5.6 Curtosis de ingresos brutos
La organización analizada en este informe es “Throwback Data Thursday”.
La misión de “Throwback Data Thursday” es proporcionar conjuntos de datos históricos interesantes y educativos para la comunidad de análisis de datos. Buscamos fomentar el análisis y la exploración de datos a lo largo del tiempo, permitiendo a los usuarios descubrir tendencias y patrones únicos.
La visión de “Throwback Data Thursday” es ser una fuente líder de conjuntos de datos históricos que inspiran la investigación, el aprendizaje y la toma de decisiones informadas. Nos esforzamos por ofrecer datos de calidad que impulsen el análisis y la comprensión de tendencias a lo largo de las décadas.
Este conjunto de datos analiza estadísticas de género para películas lanzadas entre 1995 y 2018, proporcionando información sobre ingresos brutos, boletos vendidos y cifras ajustadas a la inflación. Archivo obtenido de https://www.kaggle.com/datasets/thedevastator/film-genre-statistics/
La problemática de estudio puede centrarse en comprender las tendencias de la industria cinematográfica, identificar géneros más exitosos o analizar la relación entre ingresos y preferencias de género.
El objetivo es analizar y comprender las tendencias y patrones en la industria cinematográfica, centrándose en variables específicas.
La población de estudio incluye todas las películas lanzadas entre 1995 y 2018.
La muestra es el conjunto de datos específico que estamos utilizando para nuestro análisis.
La unidad de análisis es cada película individual en el conjunto de datos.
En este caso, estamos utilizando un muestreo de tipo censal al considerar todas las películas lanzadas durante el periodo especificado.
# Cargar el conjunto de datos
peliculas <- read.csv("Film Genre Stats.csv", sep=",")
head(peliculas)
## index Genre Year Movies.Released Gross Tickets.Sold
## 1 0 Adventure 1995 29 771507571 177358047
## 2 1 Adventure 1996 34 1290490033 291966054
## 3 2 Adventure 1997 23 881902843 192135684
## 4 3 Adventure 1998 29 1614467732 344236174
## 5 4 Adventure 1999 27 1612432107 317407880
## 6 5 Adventure 2000 30 1327311892 246254507
## Inflation.Adjusted.Gross Top.Movie
## 1 1590901682 Toy Story
## 2 2618935504 Independence Day
## 3 1723457085 Men in Black
## 4 3087798481 Armageddon
## 5 2847148684 Star Wars Ep. I: The Phantom Menace
## 6 2208902928 How the Grinch Stole Christmas
## Top.Movie.Gross..That.Year. Top.Movie.Inflation.Adjusted.Gross..That.Year.
## 1 150148222 309615962
## 2 306169255 621343452
## 3 250650052 489832425
## 4 201578182 385534373
## 5 430443350 760054462
## 6 253367455 421652301
tabla_frecuencias_generos <- table(peliculas$Genre)
tabla_frecuencias_generos
##
## Action Adventure Comedy
## 24 24 24
## Concert or Performance Dark Comedy Documentary
## 19 24 24
## Drama Horror Multiple Genres
## 24 24 18
## Musical Reality Romantic Comedy
## 23 3 24
## Thriller or Suspense Western
## 24 21
library(ggplot2)
# Crear un gráfico de barras
ggplot(peliculas, aes(x = Genre, fill = Genre)) +
geom_bar() +
labs(title = "Frecuencia de películas por género",
x = "Género",
y = "Número de películas") +
theme_minimal()
# Crear un gráfico de dispersión
ggplot(peliculas, aes(x = Year, y = Gross, color = Genre)) +
geom_point() +
labs(title = "Ingresos brutos de películas a lo largo de los años",
x = "Año",
y = "Ingresos brutos",
color = "Género") +
theme_minimal()
# Crear un gráfico de caja y bigotes
ggplot(peliculas, aes(x = Genre, y = Gross, fill = Genre)) +
geom_boxplot() +
labs(title = "Distribución de ingresos brutos por género",
x = "Género",
y = "Ingresos brutos",
fill = "Género") +
theme_minimal()
## V. Medidas estadísticas
summary(peliculas$Gross)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.010e+03 5.787e+07 3.694e+08 7.382e+08 1.295e+09 4.159e+09
cuartiles_ingresos <- quantile(peliculas$Gross)
cuartiles_ingresos
## 0% 25% 50% 75% 100%
## 2010 57865912 369411822 1294523505 4159137913
Resultado /## 0% 25% 50% 75% 100% /## 2010 57865912 369411822 1294523505 4159137913
Según los resultados:
El valor mínimo de ingresos brutos es 2010.
interpretación: es 57865912; El 25% de las películas en este género y año tienen ingresos brutos menores o iguales a 57865912.
interpretación: es 369411822; El 50% de las películas en este género y año tienen ingresos brutos menores o iguales a 369411822.
interpretación: es 1294523505; El 75% de las películas en este género y año tienen ingresos brutos menores o iguales a 1294523505.
deciles_ingresos <- quantile(peliculas$Gross, probs = seq(0, 1, 0.1))
deciles_ingresos
## 0% 10% 20% 30% 40% 50% 60%
## 2010 2481757 37169691 75374214 146646249 369411822 643837108
## 70% 80% 90% 100%
## 1049090289 1412093544 1963548808 4159137913
percentiles_ingresos <- quantile(peliculas$Gross, probs = seq(0, 1, 0.01))
percentiles_ingresos
## 0% 1% 2% 3% 4% 5%
## 2.010000e+03 1.680647e+04 1.468741e+05 3.280300e+05 4.870996e+05 5.810185e+05
## 6% 7% 8% 9% 10% 11%
## 7.419250e+05 1.153829e+06 1.483883e+06 2.306790e+06 2.481757e+06 2.829786e+06
## 12% 13% 14% 15% 16% 17%
## 3.145732e+06 4.764919e+06 6.579632e+06 1.851647e+07 2.157203e+07 2.337520e+07
## 18% 19% 20% 21% 22% 23%
## 2.814261e+07 3.319641e+07 3.716969e+07 4.371234e+07 4.887136e+07 5.111156e+07
## 24% 25% 26% 27% 28% 29%
## 5.640121e+07 5.786591e+07 6.161219e+07 6.502926e+07 6.873493e+07 7.139575e+07
## 30% 31% 32% 33% 34% 35%
## 7.537421e+07 8.228500e+07 8.468266e+07 8.695836e+07 8.967641e+07 9.263630e+07
## 36% 37% 38% 39% 40% 41%
## 9.487373e+07 1.048389e+08 1.138514e+08 1.353057e+08 1.466462e+08 1.678232e+08
## 42% 43% 44% 45% 46% 47%
## 1.849547e+08 2.190407e+08 2.507358e+08 2.582689e+08 2.955299e+08 3.019864e+08
## 48% 49% 50% 51% 52% 53%
## 3.244812e+08 3.415202e+08 3.694118e+08 3.784781e+08 3.978654e+08 4.221729e+08
## 54% 55% 56% 57% 58% 59%
## 4.492173e+08 4.784367e+08 5.080973e+08 5.407025e+08 5.748795e+08 5.860038e+08
## 60% 61% 62% 63% 64% 65%
## 6.438371e+08 6.609816e+08 7.070753e+08 7.513992e+08 7.850167e+08 8.103515e+08
## 66% 67% 68% 69% 70% 71%
## 8.847111e+08 9.131727e+08 9.550398e+08 9.937035e+08 1.049090e+09 1.055936e+09
## 72% 73% 74% 75% 76% 77%
## 1.095023e+09 1.204839e+09 1.275512e+09 1.294524e+09 1.326754e+09 1.353547e+09
## 78% 79% 80% 81% 82% 83%
## 1.373733e+09 1.382295e+09 1.412094e+09 1.439334e+09 1.478572e+09 1.490410e+09
## 84% 85% 86% 87% 88% 89%
## 1.539442e+09 1.603472e+09 1.621386e+09 1.651412e+09 1.695546e+09 1.806586e+09
## 90% 91% 92% 93% 94% 95%
## 1.963549e+09 2.100347e+09 2.223761e+09 2.431770e+09 2.609014e+09 2.745305e+09
## 96% 97% 98% 99% 100%
## 2.821676e+09 2.915766e+09 3.008789e+09 3.284506e+09 4.159138e+09
library(fBasics)
asimetria_ingresos <- skewness(peliculas$Gross)
asimetria_ingresos
## [1] 1.391082
## attr(,"method")
## [1] "moment"
Resultado: [1] 1.391082, como el valor es positivo, entonces la distribución de los datos es asimétrica positiva, lo que indica que hay películas con ingresos brutos concentrados en los puntos más bajos.
curtosis_ingresos <- kurtosis(peliculas$Gross)
curtosis_ingresos
## [1] 1.450085
## attr(,"method")
## [1] "excess"
Resultado: [1] 1.450085, es menor que 3. Por lo tanto, la distribución de los ingresos brutos no es leptocúrtica. En cambio, sería platicúrtica, lo que indica que tiene colas más ligeras y es menos puntiaguda en comparación con una distribución normal.
# Visualización de la distribución de ingresos brutos
hist(peliculas$Gross, col = "skyblue", main = "Distribución de Ingresos Brutos", xlab = "Ingresos Brutos")