# RPubs: https://rpubs.com/Cuervo_2/1305598

#Abrir librerías y definir la variable de la base de datos

library(readr)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(stringr)
library(ggplot2)

películas <- read_csv("~/Desktop/R/Victor R/rotten_tomatoes_data_1970_2024/movie_info.csv",
                      col_types = cols(.default = "c"))

#Cambiando las variables audience_score, critic_score y año a númericas.

películas <- películas%>%
  mutate(
    audience_score = as.numeric(str_remove(audience_score, "%")),
    critic_score = as.numeric(str_remove(critic_score, "%")),
    year = str_extract(release_date, "\\d{4}"),
    year = as.numeric(year)
  )

#Elige una película específica (title) y filtra la base. #Compara su puntuación de crítica y audiencia contra la media general.

película_TB <- películas%>%
  filter(title=="The Breach")

media_audience_score <- mean(películas$audience_score, na.rm = TRUE)
media_critic_score <- mean(películas$critic_score, na.rm = TRUE)

comparison_audience_score<- película_TB$audience_score - media_audience_score 
comparsion_critic_score <- película_TB$critic_score - media_critic_score 

print(comparison_audience_score)
## [1] -34.07482
print(comparsion_critic_score)
## [1] 24.33913

#Filtra las películas del año 1997, ¿cuál es la que tiene mayor puntuación en crítica?

películas_1997 <- películas%>%
  filter(year == 1997)%>%
  select(title, critic_score, audience_score, year)%>%
  arrange(desc(critic_score))%>%
  slice(1,2)

películas_1997
## # A tibble: 2 × 4
##   title            critic_score audience_score  year
##   <chr>                   <dbl>          <dbl> <dbl>
## 1 A Brother's Kiss          100             68  1997
## 2 4 Little Girls            100             89  1997

#Crea un gráfico de dispersión sólo para las películas del año 2000 en adelante.

películas_mayor_a_2000 <- películas%>%
  filter(year >= 2000)%>%
  arrange(year)

ggplot(películas_mayor_a_2000, aes(x = audience_score, y = critic_score)) + 
  geom_point(color = "red", size = 1, shape = 1) + 
  geom_smooth(method = "lm", color = "black")  +
  labs(title = "Dispersion de puntuaciones entre audiencia y crítica ", x = "Audience_score", y = "Critic_score") + 
  theme_gray()
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 1252 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 1252 rows containing missing values or values outside the scale range
## (`geom_point()`).

#Genera la media de las puntuaciones de crítica para el conjunto de datos anteriores a 2000 (inlcuido). Genera la media de las puntuaciones de crítica para el conjunto de datos posteriores a 2000. ¿Qué tan diferentes son estas medias, qué indica eso?

movies_less_2000 <- películas%>%
  filter(year <= 2000)%>%
  arrange(year)

media_cs_less_2000 <- mean(movies_less_2000$critic_score, na.rm = TRUE)
print(media_cs_less_2000)
## [1] 58.71699
media_cs_more_2000 <- mean(películas_mayor_a_2000$critic_score, na.rm = TRUE)
print(media_cs_more_2000)
## [1] 56.05582
#La media de las puntuaciones de crítica para las películas anteriores al año 2000 fue de 58.7, mientras que para las películas posteriores a 2000 fue de 56.1. Esto sugiere que, en términos generales, las películas lanzadas antes del año 2000 recibieron una crítica ligeramente más favorable, con una diferencia promedio de 2.6%. 

#Genera la media de las puntuaciones de audiciencia para el conjunto de datos anteriores a 2000 (inlcuido). Genera la media de las puntuaciones de audiencia para el conjunto de datos posteriores a 2000. ¿Qué tan diferentes son estas medias, qué indica eso?

media_ad_less_2000 <- mean(movies_less_2000$audience_score, na.rm = TRUE)
print(media_ad_less_2000)
## [1] 59.52369
media_ad_more_2000 <- mean(películas_mayor_a_2000$audience_score, na.rm = TRUE)
print(media_ad_more_2000)
## [1] 60.26231
#La media de las puntuaciones de audiencia para las películas anteriores al año 2000 fue de 59.5, mientras que para las películas posteriores a 2000 fue de 60.3. Aunque la diferencia es pequeña, con un aumento de solo 0.08%, las películas lanzadas después de 2000 lograron una ligera preferencia entre la audiencia.