movies<-read.csv("/Users/karlalopez/Bd_Limpia_sin0.csv")
library(ggplot2)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(moments)
## Warning: package 'moments' was built under R version 4.3.3
library(plotly)
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.3.3
## corrplot 0.95 loaded
library(countrycode)
## Warning: package 'countrycode' was built under R version 4.3.3
Se eligió la base de datos movies, compuesta por más de 4,000 registros de películas, con el objetivo de responder a la pregunta: ¿qué factores influyen en que una película sea exitosa?
Previo al análisis, se realizó un proceso de limpieza de datos, eliminando valores faltantes, duplicados y columnas irrelevantes para nuestro estudio, Además, se aplicó un filtro para incluir únicamente películas cuya lengua principal fuera español, inglés o francés, con el fin de acotar el análisis a producciones con suficiente representatividad y facilitar la comparación entre idiomas.
Este código se diseñó con el propósito de analizar y comparar estadísticamente las características de las películas según su idioma principal ,a partir de variables relevantes como el promedio de votaciones, la popularidad y el número de votos (vote_count). Específicamente, lo que se busca es entender cómo se distribuyen estas variables dentro de cada grupo de idioma para identificar posibles diferencias o patrones.
analizar_variable_idioma <- function(df, variable, idiomas = c("en", "es", "fr")) {
for (idioma in idiomas) {
datos <- df %>% filter(original_language == idioma) %>% pull(!!sym(variable)) %>% na.omit()
media <- mean(datos)
sd_ <- sd(datos)
mediana <- median(datos)
moda <- as.numeric(names(sort(table(round(datos, 1)), decreasing = TRUE)[1]))
asimetria <- skewness(datos)
curtosis <- kurtosis(datos)
Q1<- quantile(datos,c(0.25), type = 6); Q1
Q2 <- quantile(datos, c(0.50), type = 6); Q2
Q3 <- quantile(datos, c(0.75), type = 6); Q3
cat(paste0("\n===== Idioma: ", idioma, " =====\n"))
cat(paste("Media:", round(media, 2), "\n"))
cat(paste("Mediana:", round(mediana, 2), "\n"))
cat(paste("Moda:", moda, "\n"))
cat(paste("Desv. Estándar:", round(sd_, 2), "\n"))
cat(paste("Asimetría:", round(asimetria, 2), "\n"))
cat(paste("Curtosis:", round(curtosis, 2), "\n"))
cat(paste("Q1:", round(Q1, 2), "\n"))
cat(paste("Q2:", round(Q2, 2), "\n"))
cat(paste("Q3:", round(Q3, 2), "\n"))}}
analizar_variable_idioma(movies, "vote_average")
##
## ===== Idioma: en =====
## Media: 6.24
## Mediana: 6.3
## Moda: 6.5
## Desv. Estándar: 0.91
## Asimetría: -0.82
## Curtosis: 6.18
## Q1: 5.7
## Q2: 6.3
## Q3: 6.9
##
## ===== Idioma: es =====
## Media: 6.67
## Mediana: 7
## Moda: 5.6
## Desv. Estándar: 0.83
## Asimetría: -0.5
## Curtosis: 1.91
## Q1: 5.9
## Q2: 7
## Q3: 7.4
##
## ===== Idioma: fr =====
## Media: 6.63
## Mediana: 6.7
## Moda: 6.5
## Desv. Estándar: 0.87
## Asimetría: -0.91
## Curtosis: 4.18
## Q1: 6.2
## Q2: 6.7
## Q3: 7.2
Se analizó vote_average de las películas según su idioma. Las películas en español y francés presentaron medias más altas que las de inglés, lo que indica una tendencia a mejores valoraciones en esos idiomas. En los tres casos, las calificaciones mostraron poca variación y una asimetría negativa, lo que sugiere que la mayoría de las películas tienen puntuaciones altas, pero existen algunas con valoraciones muy bajas que afectan el promedio. Además, la curtosis fue mayor en inglés y francés, lo que indica mayor concentración de valores cerca de la media y algunos valores extremos. En general, las películas en español destacan por su distribución más equilibrada y calificaciones más altas.
analizar_variable_idioma(movies, "popularity")
##
## ===== Idioma: en =====
## Media: 10.25
## Mediana: 8.8
## Moda: 7.9
## Desv. Estándar: 13.8
## Asimetría: 19.63
## Curtosis: 608.44
## Q1: 6.06
## Q2: 8.8
## Q3: 12.03
##
## ===== Idioma: es =====
## Media: 8.43
## Mediana: 8.08
## Moda: 5
## Desv. Estándar: 5.09
## Asimetría: 1.56
## Curtosis: 6.68
## Q1: 5.01
## Q2: 8.08
## Q3: 10.54
##
## ===== Idioma: fr =====
## Media: 7.05
## Mediana: 6.87
## Moda: 0.1
## Desv. Estándar: 3.87
## Asimetría: 0.85
## Curtosis: 4.93
## Q1: 5.02
## Q2: 6.87
## Q3: 9.01
Las películas en inglés presentan la media más alta, pero también una gran dispersión y una asimetría muy elevada, lo que indica que hay muchas películas con baja popularidad y pocas con valores muy altos que influyen en el promedio. En español, aunque la media es más baja, la dispersión también es menor, y la distribución está más equilibrada. Por último, el francés muestra la media más baja y la menor dispersión, lo que indica valores de popularidad más concentrados. En resumen, las películas en inglés tienen mayor popularidad, pero de forma muy desigual.
analizar_variable_idioma(movies, "vote_count")
##
## ===== Idioma: en =====
## Media: 800.86
## Mediana: 321
## Moda: 26
## Desv. Estándar: 1312.82
## Asimetría: 3.59
## Curtosis: 20.59
## Q1: 99
## Q2: 321
## Q3: 894.5
##
## ===== Idioma: es =====
## Media: 320.45
## Mediana: 219
## Moda: 6
## Desv. Estándar: 535.59
## Asimetría: 4.53
## Curtosis: 24.17
## Q1: 82.5
## Q2: 219
## Q3: 320
##
## ===== Idioma: fr =====
## Media: 366.12
## Mediana: 161
## Moda: 20
## Desv. Estándar: 827.44
## Asimetría: 4.8
## Curtosis: 26.21
## Q1: 78.5
## Q2: 161
## Q3: 347
En general, las películas en inglés tienen una media de votos mucho mayor que las de otros idiomas, lo que refleja su mayor alcance y visibilidad global. Sin embargo, también muestran una gran dispersión (desviación estándar de 1312.82), lo que indica que hay películas con muchísimos votos y otras con muy pocos. Para el español y el francés, la media es bastante menor (320.45 y 366.12 respectivamente), y ambas muestran una fuerte asimetría positiva (muchas películas con pocos votos y unas pocas con muchísimos). Esto se confirma con las curtosis elevadas. En resumen, el idioma sí parece influir en el número de votos, y el inglés domina en volumen y variabilidad.
analizar_variable_idioma(movies, "runtime")
##
## ===== Idioma: en =====
## Media: 108.29
## Mediana: 105
## Moda: 100
## Desv. Estándar: 19.81
## Asimetría: 1.68
## Curtosis: 10.74
## Q1: 95
## Q2: 105
## Q3: 118
##
## ===== Idioma: es =====
## Media: 106.67
## Mediana: 106
## Moda: 106
## Desv. Estándar: 16.36
## Asimetría: 0.9
## Curtosis: 3.96
## Q1: 92.5
## Q2: 106
## Q3: 116
##
## ===== Idioma: fr =====
## Media: 107.73
## Mediana: 105
## Moda: 105
## Desv. Estándar: 23.87
## Asimetría: -0.52
## Curtosis: 7.65
## Q1: 95.5
## Q2: 105
## Q3: 121
Se observaron valores de media muy similares en los tres grupos, alrededor de los 107 minutos. La dispersión de los datos, medida con la desviación estándar, fue mayor en las películas en francés, lo que indica más variabilidad en sus duraciones. En cuanto a la asimetría y curtosis, las películas en inglés y español mostraron una ligera asimetría positiva (colas hacia la derecha), mientras que las de idioma francés tendieron a ser más simétricas.
analizar_variable_idioma(movies, "revenue")
##
## ===== Idioma: en =====
## Media: 98909246.14
## Mediana: 34854990
## Moda: 2e+06
## Desv. Estándar: 176147107.84
## Asimetría: 4.29
## Curtosis: 32.88
## Q1: 8811634.5
## Q2: 34854990
## Q3: 1.1e+08
##
## ===== Idioma: es =====
## Media: 22083431.06
## Mediana: 11724119
## Moda: 58510
## Desv. Estándar: 26851419.39
## Asimetría: 1.57
## Curtosis: 4.52
## Q1: 2391063.5
## Q2: 11724119
## Q3: 28808346
##
## ===== Idioma: fr =====
## Media: 25677786.01
## Mediana: 8786375
## Moda: 115860
## Desv. Estándar: 54995835.39
## Asimetría: 5.28
## Curtosis: 36.75
## Q1: 543863
## Q2: 8786375
## Q3: 29650376.5
Las películas en inglés presentaron los ingresos más altos, con una media cercana a los 98 millones. Sin embargo, también mostraron una gran dispersión (desviación estándar alta) y fuerte asimetría, lo que indica que solo unas pocas películas obtuvieron ingresos extremadamente altos. En comparación, las películas en español y francés tuvieron ingresos promedio mucho menores, aunque también con mucha variabilidad.
analizar_variable_idioma(movies, "budget")
##
## ===== Idioma: en =====
## Media: 33879272.37
## Mediana: 2e+07
## Moda: 2e+07
## Desv. Estándar: 41992393.29
## Asimetría: 2.4
## Curtosis: 10.16
## Q1: 6500000
## Q2: 2e+07
## Q3: 4.3e+07
##
## ===== Idioma: es =====
## Media: 7602177.61
## Mediana: 5e+06
## Moda: 2e+06
## Desv. Estándar: 7576632.59
## Asimetría: 2.01
## Curtosis: 6.94
## Q1: 2750000
## Q2: 5e+06
## Q3: 9278953
##
## ===== Idioma: fr =====
## Media: 13331089.02
## Mediana: 1e+07
## Moda: 8e+06
## Desv. Estándar: 14619177.82
## Asimetría: 3.09
## Curtosis: 16.01
## Q1: 4220729.5
## Q2: 1e+07
## Q3: 15200000
Al comparar los presupuestos de producción, también se observa que las películas en inglés tienen valores mucho más elevados en promedio, con una distribución muy dispersa y asimétrica. Las películas en español y francés tienen presupuestos más bajos, y aunque también muestran variabilidad, esta es menor en comparación. En conclusión, el presupuesto para las peliculas en inglés es bastante mayor, tienen mas recursos y financiación, lo que puede influir tambien en los ingresos obtenidos.
mipaleta<- c("#B2DFEE", "lightpink", "#C1FFC1")
Frecuencia_idiomas<-ggplot(movies, aes(x = spoken_lang_1)) +
geom_bar(fill = mipaleta) +
labs(x = "Idioma", y = "Frecuencia", title = "Frecuencia de Idiomas") +
theme_minimal()
Frecuencia_idiomas
ggplotly(Frecuencia_idiomas)
Este gráfico de barras muestra la cantidad de películas en el conjunto de datos según su idioma original. Como se observa, la mayoría de las películas están en inglés, con una diferencia muy marcada respecto al español y francés. Esto refleja el dominio del idioma inglés en la industria cinematográfica global, especialmente en producciones con mayor alcance comercial. Esta distribución también influye en los resultados posteriores del análisis, ya que la muestra está muy centrada en un solo idioma.
mipaleta <- c("#B2DFEE", "lightpink", "#C1FFC1")
mean(movies$runtime)
## [1] 108.4959
hist_runtime <- ggplot(movies, aes(x = runtime)) +
geom_histogram(binwidth = 10, fill = "#C1FFC1", color = "black") +
labs(
title = "Distribución de la Duración de Películas",
x = "Duración (minutos)",
y = "Frecuencia"
) +
theme_minimal()
hist_runtime
ggplotly(hist_runtime)
Este histograma muestra cómo se distribuyen las duraciones de las películas en el conjunto de datos. La mayoría tienen una duración entre 80 y 120 minutos, lo cual es consistente con lo que comúnmente se considera una película de duración estándar. La forma del gráfico es ligeramente asimétrica a la derecha, indicando que existen algunas películas mucho más largas que la media, pero en menor cantidad.
mipaleta<- c("#B2DFEE", "lightpink", "#C1FFC1")
myplot.hist <- ggplot(movies, mapping = aes(x = vote_average, fill = spoken_lang_1)) + scale_fill_manual(values = mipaleta) +
geom_histogram(color="white", binwidth=1) +
labs(title = "Histograma de Promedio de las Votaciones", x = "Promedio de Votaciones")
myplot.hist
ggplotly(myplot.hist)
La mayoría de las películas tienen un promedio de votación entre 5 y 7, lo que indica que las calificaciones tienden a concentrarse en valores medios. Al observar los colores, se concluye que el idioma predominante en las películas analizadas es el inglés, con una presencia muy reducida de películas en español o francés.
movies_num<-movies[,c(2,7,9,10,14,15)]
matriz.correlaciones<-cor(movies_num)
corrplot.mixed(matriz.correlaciones, upper="number", lower="circle", number.cex=1.5, upper.col = "black", order="alphabet")
La correlación positiva fuerte entre el número de votos y los ingresos
destaca la importancia de la valoración del público como indicador clave
del éxito comercial de una película. Además, el presupuesto y la
popularidad también están relacionados con los ingresos, aunque en menor
medida. Esto sugiere que, aunque invertir más puede ayudar, lo que
realmente impulsa el éxito económico de las peliculas es el nivel de
atención y participación que la película logra generar entre los
espectadores.
with(movies, plot(x = popularity,
y = budget,
pch = 20,
col = 'pink',
xlab = 'Número de votos',
ylab = 'Ingresos'))
cor(movies$vote_count, movies$revenue, use = "complete.obs", method = "pearson")
## [1] 0.7744513
Aunque se podría pensar que un mayor presupuesto genera automáticamente una mayor popularidad, el análisis muestra que esta relación es moderada (correlación ≈ 0.44). La gráfica de dispersión confirma esta idea: no hay una tendencia fuerte y clara, y hay muchas películas con alto presupuesto que no son especialmente populares. Esto sugiere que, aun que el presupuesto puede influir, no garantiza por sí solo el éxito o la visibilidad de una película.
top5_generos <- movies %>%
group_by(genre1) %>%
summarise(promedio_popularidad = mean(popularity)) %>%
arrange(desc(promedio_popularidad)) %>%
slice_head(n = 5)
Promedio_popularidad<-ggplot(top5_generos, aes(x = reorder(genre1, promedio_popularidad), y = promedio_popularidad)) +
geom_bar(stat = "identity", fill = "#B2DFEE") +
labs(title = "Top 5 géneros con mayor popularidad",
x = "Género",
y = "Popularidad promedio")
Promedio_popularidad
ggplotly(Promedio_popularidad)
El análisis muestra que el género “Family” es el más popular entre las películas analizadas, con un promedio de popularidad claramente superior al resto. Esto sugiere que las películas dirigidas a un público familiar tienden a generar más interés o visibilidad. Le siguen géneros como ciencia ficción, misterio, aventura y animación, que también presentan un buen nivel de popularidad, aunque en menor medida.
top5_genres <- movies %>%
group_by(genre1) %>%
summarise(promedio_runtime = mean(runtime, na.rm = TRUE)) %>%
arrange(desc(promedio_runtime)) %>%
slice_head(n = 5) %>%
pull(genre1)
filtered_movies <- movies %>%
filter(genre1 %in% top5_genres)
top5_generos<-ggplot(filtered_movies, aes(x = genre1, y = runtime)) +
geom_boxplot(fill = "lightgoldenrod1", outlier.size = 3) +
labs(title = "Distribución del Duración por género (Top 5)",
x = "Género", y = "Duración (minutos)") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
top5_generos
ggplotly(top5_generos)
Se mestra la distribución de la duración de las películas correspondientes a los cinco géneros con mayor promedio de duración: Drama, Adventure, History, War y Western. Primeramente, hay diferencias importantes tanto en la consistencia como en la extensión de sus duraciones.
El género Drama destaca notablemente. No solo tiene una duración media elevada, sino que muestra una alta dispersión, con una gran cantidad de películas tanto muy largas como sorprendentemente cortas. Asimismo, es el único género del grupo con tantos valores atípicos visibles hacia ambos extremos,lo que indica diversidad. Por otro lado, géneros como War y Western presentan una duración mucho más estable. La mayoría de las películas se concentran en torno a una duración media bien definida.
Adventure y History se encuentran en un punto medio: tienen duraciones también elevadas, pero con menos dispersión que Drama. En ambos casos, encontramos algunas películas notablemente largas, lo que podría explicarse por su necesidad de construir contextos históricos más complejos que suponen más tiempo en pantalla.
top5_genres <- movies %>%
group_by(genre1) %>%
slice_head(n = 5) %>%
pull(genre1) # Solo extrae el vector de nombres
# 2. Filtrar las películas de esos géneros
filtered_movies_votacion <- movies %>%
filter(genre1 %in% top5_genres)
# 3. Hacer boxplot con datos individuales
top_5_promediovotacion<-ggplot(filtered_movies, aes(x = genre1, y = vote_average)) +
geom_boxplot(fill = "pink", outlier.size = 3) +
labs(title = "Distribución del promedio de votaciones (Top 5)",
x = "Género", y = "Promedio de votaciones") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
top_5_promediovotacion
ggplotly(top_5_promediovotacion)
Se observa que todas las medianas se sitúan entre 6 y 7, lo que indica que las películas de estos géneros tienden a recibir valoraciones medias-altas por parte del público. Adventure es el género con la mayor dispersión hacia abajo, con un número considerable de películas que reciben puntuaciones notablemente bajas. Esto indica que aun que algunas películas de aventuras son bien valoradas, muchas no alcanzan una valoración positiva, lo que podría deberse a la saturación del género .
En cambio, géneros como History, War y Western muestran distribuciones más concentradas,, con menos valores extremos y una mayor concentración de votaciones en torno al promedio. Esto sugiere que estos géneros tienden a ser más consistentes en calidad percibida, aunque con menos películas bien valoradas.
El género Drama, por su parte, muestra un comportamiento intermedio: tiene una distribución amplia con varios valores atípicos, pero su mediana es alta y bastante estable, lo que sugiere una combinación de películas muy bien valoradas con otras que no lograron conectar tanto con el público.
myplot.density <- ggplot(movies, aes(x = log(revenue))) +
geom_density(fill = "lightgreen") +
labs(title = "Ingresos")
myplot.density
ggplotly(myplot.density)
La distribución de ingresos muestra que el éxito en el cine no es lo común. La gran mayoría de las películas generan ingresos moderados, mientras que solo unas pocas alcanzan cifras sorprendentes. Esta visualización permite entender que, en términos económicos, la industria del cine es altamente desigual, donde unos pocos títulos consiguen concentrar una gran parte del dinero recaudado.
myplot.density2 <- ggplot(movies, aes(x = log(budget))) +
geom_density(fill = "pink") +
labs(title = "Presupuesto")
myplot.density2
ggplotly(myplot.density2)
La distribución de los presupuestos de las películas muestra que la mayoría de las películas se producen con presupuestos moderados y que los presupuestos millonarios, aunque muy visibles en medios, son poco frecuentes.
D_ingresos_Presupuesto<- ggplot() +
geom_density(data = movies, aes(x = log(revenue), fill = "Ingresos"), alpha = 0.5, color = "white") +
geom_density(data = movies, aes(x = log(budget), fill = "Presupuesto"), alpha = 0.5, color = "white") +
scale_fill_manual(values = c("Ingresos" = "#A1D99B", "Presupuesto" = "#9ECAE1")) +
labs(
title = "Distribución Logarítmica de Ingresos vs Presupuesto",
x = "Log(Valor)",
y = "Densidad",
fill = "Variable"
) +
theme_minimal()
D_ingresos_Presupuesto
ggplotly(D_ingresos_Presupuesto)
Esta gráfica muestra las distribuciones de los ingresos y los presupuestos de las películas. La mayoría de las películas se realizan con presupuestos moderados y bastante similares entre sí, lo que sugiere que las productoras suelen manejar rangos de inversión estables y predecibles. Aun así, los ingresos que estas películas generan pueden variar significativamente, algunas apenas recuperan lo invertido, mientras que otras logran recaudar mucho más. En general, las películas tienden a ser rentables, es decir, suelen generar más dinero del que costaron. Sin embargo, el verdadero éxito económico, es en el que una película genera ingresos extraordinarios pero es poco común. Esto muestra que invertir mucho no garantiza ganar mucho, y que el éxito en taquilla depende de muchos otros factores, como la historia, la promoción, el reparto o incluso el momento del estreno. En conclusión, hacer cine rentable es posible, pero lograr un gran impacto financiero sigue siendo un reto y no está asegurado solo con el presupuesto.
votos <- na.omit(movies$vote_average)
votos <- na.omit(movies$vote_average)
media <- mean(votos)
desviacion <- sd(votos)
minimo <- min(votos)
maximo <- max(votos)
# Crear los puntos de la curva normal con misma media y desviación
puntos <- seq(minimo, maximo, length = 1000)
curva_normal <- dnorm(puntos, mean = media, sd = desviacion)
# Crear histograma + curva normal
Comparacion<-ggplot() +
geom_histogram(data = movies, aes(x = vote_average, y = ..density..),
fill = "#C1FFC1", color = "white", bins = 20) +
geom_line(aes(x = puntos, y = curva_normal), color = "red", size = 1) +
labs(title = "Comparación de Votaciones con Distribución Normal",
x = "Promedio de Votación",
y = "Densidad") +
theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Comparacion
## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
ggplotly(Comparacion)
Al comparar la distribución real de las votaciones promedio de las películas con una distribución normal teórica, observamos que los datos reales están centrados alrededor de valores entre 6 y 7, lo cual indica que la mayoría de las películas reciben calificaciones promedio moderadamente buenas. Sin embargo, la distribución real menos concentrada y más extendida que una distribución normal perfecta, con más películas recibiendo calificaciones muy bajas que lo que predeciría la normal. Esto indica que, aunque el público tiende a calificar la mayoría de las películas de forma “promedio”, también existen más casos extremos de baja valoración de lo que se esperaría en un comportamiento completamente simétrico
plot(movies$revenue, movies$budget)
regression.line <- lm(movies$budget ~ movies$revenue)
abline(regression.line, col="blue", lwd=2)
modelo1 <- lm(movies$revenue ~ movies$budget)
predicciones <- predict(modelo1)
movies$predicciones <- predicciones
movies$residuos <- residuals(modelo1)
ggplot(movies, aes(x = budget, y = revenue)) +
geom_point(alpha = 0.3) +
geom_smooth(method=lm, se=FALSE, color="blue") +
geom_segment(aes(xend = budget, yend = predicciones),
color = "red", linetype = 2) +
labs(title = "Regresión: Ingresos vs Presupuesto con residuos",
x = "Presupuesto", y = "Ingresos")
## `geom_smooth()` using formula = 'y ~ x'
Las gráficas muestran que existe una tendencia positiva entre el
presupuesto de una película y los ingresos que genera: a mayor
inversión, mayores ingresos esperados. Sin embargo, también se observa
una gran dispersión de los datos, especialmente entre películas con
presupuestos bajos. En este grupo hay tanto fracasos rotundos como
éxitos millonarios, lo que indica un mayor nivel de riesgo e
incertidumbre. En cambio, las películas con presupuestos más altos
tienden a generar ingresos también altos, pero con menor variabilidad,
es decir, menos sorpresas extremas.
sum(movies$residuos > 0)
## [1] 2020
sum(movies$residuos < 0)
## [1] 2610
summary(modelo1)
##
## Call:
## lm(formula = movies$revenue ~ movies$budget)
##
## Residuals:
## Min 1Q Median 3Q Max
## -685756187 -41262232 -5691335 15788939 2067973821
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.897e+06 2.222e+06 -2.204 0.0276 *
## movies$budget 3.059e+00 4.193e-02 72.949 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 118300000 on 4628 degrees of freedom
## Multiple R-squared: 0.5349, Adjusted R-squared: 0.5348
## F-statistic: 5322 on 1 and 4628 DF, p-value: < 2.2e-16
Aunque en general vemos que cuando una película tiene más presupuesto suele ganar más dinero, el modelo que usamos para predecir los ingresos se equivoca más veces al predecir de más. Es decir, en muchos casos calcula que la película va a ganar mucho, pero en realidad gana menos. Esto nos dice que gastar más dinero no garantiza el éxito. Hay muchas películas que, aunque costaron mucho, no lograron recuperar todo ese dinero.
ingresos_pais <- movies %>%
group_by(Clean_production_countries) %>%
summarise(Ingreso_promedio = sum(revenue, na.rm = TRUE))
ingresos_pais$code <- countrycode(ingresos_pais$Clean_production_countries,
origin = 'country.name',
destination = 'iso3c')
## Warning: Some values were not matched unambiguously:
plot_ly(type="choropleth",
locations = ingresos_pais$code,
z = ingresos_pais$Ingreso_promedio,
text = ingresos_pais$Clean_production_countries,
colorscale = "pink") %>%
layout(title = "Ingreso Promedio por País de Producción",
geo = list(showframe = FALSE, showcoastlines = FALSE))
Se muestra la suma de los ingresos por país de producción revela que Estados Unidos genera, por mucho, los mayores ingresos en comparación con el resto del mundo. Esto sugiere que la industria cinematográfica estadounidense no solo produce una gran cantidad de películas, sino que también domina el mercado en términos de rentabilidad. La diferencia con otros países es tan amplia que prácticamente ningún otro país aparece con relevancia en la escala. Esto refleja una concentración de poder económico y de audiencia en la industria del cine global.
ingresos_pais <- movies %>%
group_by(Clean_production_countries) %>%
summarise(Ingreso_promedio = mean(revenue, na.rm = TRUE))
ingresos_pais$code <- countrycode(ingresos_pais$Clean_production_countries,
origin = 'country.name',
destination = 'iso3c')
## Warning: Some values were not matched unambiguously:
plot_ly(type="choropleth",
locations = ingresos_pais$code,
z = ingresos_pais$Ingreso_promedio,
text = ingresos_pais$Clean_production_countries,
colorscale = "pink") %>%
layout(title = "Ingreso Promedio por País de Producción",
geo = list(showframe = FALSE, showcoastlines = FALSE))
Este mapa nos muestra qué tan rentables son, en promedio, las películas producidas en cada país. Este enfoque revela la rentabilidad individual de cada película por país. Lo que observamos es que Estados Unidos sigue destacando, lo cual indica que no solo produce muchas películas, sino que también, en promedio, cada una de sus películas genera ingresos altos. Sin embargo, este mapa también permite visibilizar otros países donde, aunque se produzcan menos películas, las pocas que se hacen logran buenos ingresos promedio, lo que podría indicar una industria más selectiva o producciones más exitosas individualmente.
El objetivo de este análisis fue explorar y comprender los factores que influyen en el desempeño económico y en la percepción del público sobre las películas, descubrimos que:
El género influye en la duración y en la valoración de las películas: algunos géneros como Adventure y Drama presentan mayor variabilidad, mientras que History, War y Western son más consistentes en su calidad percibida.
Las votaciones promedio tienden a concentrarse en calificaciones moderadamente buenas (entre 6 y 7), pero con más casos extremos de baja puntuación de lo que se esperaría en un comportamiento ideal, lo que sugiere una percepción más desigual entre producciones.
La relación entre presupuesto e ingresos es positiva, es decir, invertir más tiende a generar más ingresos, aunque con excepciones notables: muchas películas no logran recuperar lo invertido, y solo algunas alcanzan un éxito económico desproporcionado.
Estados Unidos lidera tanto en ingresos totales como en promedio por película, lo que refuerza su dominio global en la industria cinematográfica, pero también se detectan otros países con ingresos promedio altos, aunque con menos volumen de producción.
En conclusión, este estudio nos permitió ver que el éxito de una película no depende de una sola variable, sino de una combinación de factores, y que tanto las decisiones creativas como las económicas pueden influir en su rendimiento y recepción. .