# RPubs: https://rpubs.com/Cuervo_2/1305598
#Abrir librerías y definir la variable de la base de datos
library(readr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(stringr)
library(ggplot2)
películas <- read_csv("~/Desktop/R/Victor R/rotten_tomatoes_data_1970_2024/movie_info.csv",
col_types = cols(.default = "c"))
#Cambiando las variables audience_score, critic_score y año a númericas.
películas <- películas%>%
mutate(
audience_score = as.numeric(str_remove(audience_score, "%")),
critic_score = as.numeric(str_remove(critic_score, "%")),
year = str_extract(release_date, "\\d{4}"),
year = as.numeric(year)
)
#Elige una película específica (title) y filtra la base. #Compara su puntuación de crítica y audiencia contra la media general.
película_TB <- películas%>%
filter(title=="The Breach")
media_audience_score <- mean(películas$audience_score, na.rm = TRUE)
media_critic_score <- mean(películas$critic_score, na.rm = TRUE)
comparison_audience_score<- película_TB$audience_score - media_audience_score
comparsion_critic_score <- película_TB$critic_score - media_critic_score
print(comparison_audience_score)
## [1] -34.07482
print(comparsion_critic_score)
## [1] 24.33913
#Filtra las películas del año 1997, ¿cuál es la que tiene mayor puntuación en crítica?
películas_1997 <- películas%>%
filter(year == 1997)%>%
select(title, critic_score, audience_score, year)%>%
arrange(desc(critic_score))%>%
slice(1,2)
películas_1997
## # A tibble: 2 × 4
## title critic_score audience_score year
## <chr> <dbl> <dbl> <dbl>
## 1 A Brother's Kiss 100 68 1997
## 2 4 Little Girls 100 89 1997
#Crea un gráfico de dispersión sólo para las películas del año 2000 en adelante.
películas_mayor_a_2000 <- películas%>%
filter(year >= 2000)%>%
arrange(year)
ggplot(películas_mayor_a_2000, aes(x = audience_score, y = critic_score)) +
geom_point(color = "red", size = 1, shape = 1) +
geom_smooth(method = "lm", color = "black") +
labs(title = "Dispersion de puntuaciones entre audiencia y crítica ", x = "Audience_score", y = "Critic_score") +
theme_gray()
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 1252 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 1252 rows containing missing values or values outside the scale range
## (`geom_point()`).
#Genera la media de las puntuaciones de crítica para el conjunto de datos anteriores a 2000 (inlcuido). Genera la media de las puntuaciones de crítica para el conjunto de datos posteriores a 2000. ¿Qué tan diferentes son estas medias, qué indica eso?
movies_less_2000 <- películas%>%
filter(year <= 2000)%>%
arrange(year)
media_cs_less_2000 <- mean(movies_less_2000$critic_score, na.rm = TRUE)
print(media_cs_less_2000)
## [1] 58.71699
media_cs_more_2000 <- mean(películas_mayor_a_2000$critic_score, na.rm = TRUE)
print(media_cs_more_2000)
## [1] 56.05582
#La media de las puntuaciones de crítica para las películas anteriores al año 2000 fue de 58.7, mientras que para las películas posteriores a 2000 fue de 56.1. Esto sugiere que, en términos generales, las películas lanzadas antes del año 2000 recibieron una crítica ligeramente más favorable, con una diferencia promedio de 2.6%.
#Genera la media de las puntuaciones de audiciencia para el conjunto de datos anteriores a 2000 (inlcuido). Genera la media de las puntuaciones de audiencia para el conjunto de datos posteriores a 2000. ¿Qué tan diferentes son estas medias, qué indica eso?
media_ad_less_2000 <- mean(movies_less_2000$audience_score, na.rm = TRUE)
print(media_ad_less_2000)
## [1] 59.52369
media_ad_more_2000 <- mean(películas_mayor_a_2000$audience_score, na.rm = TRUE)
print(media_ad_more_2000)
## [1] 60.26231
#La media de las puntuaciones de audiencia para las películas anteriores al año 2000 fue de 59.5, mientras que para las películas posteriores a 2000 fue de 60.3. Aunque la diferencia es pequeña, con un aumento de solo 0.08%, las películas lanzadas después de 2000 lograron una ligera preferencia entre la audiencia.