Descarga el conjunto de datos en formato csv en la siguiente liga: https://drive.google.com/file/d/12IpMErb4j83h5gGTdTpv0WZOf5ceY7b3/view?usp=sharing
library(readr)
library(dplyr)
library(stringr)
library(ggplot2)
# Leer archivo
movies_original <- read_csv("movie_info.csv",
col_types = cols(.default = "c"))
movies <- movies_original %>%
mutate(
critic_score = as.numeric(str_remove(critic_score, "%")),
audience_score = as.numeric(str_remove(audience_score, "%")),
year = str_extract(release_date, "\\d{4}"),
year = as.numeric(year)
)
#geom_point
#geom_smooth
#facet_wrap(~ year, ncol = 4, scales = "free")
Elige una película específica (title) y filtra la base.
Compara su puntuación de crítica y audiencia contra la media general.
Filtra las películas del año 1997, ¿cuál es la que tiene mayor puntuación en crítica?
Crea un gráfico de dispersión sólo para las películas del año 2000 en adelante.
Genera la media de las puntuaciones de crítica para el conjunto de datos anteriores a 2000 (inlcuido). Genera la media de las puntuaciones de crítica para el conjunto de datos posteriores a 2000. ¿Qué tan diferentes son estas medias, qué indica eso?
Genera la media de las puntuaciones de audiciencia para el conjunto de datos anteriores a 2000 (inlcuido). Genera la media de las puntuaciones de audiencia para el conjunto de datos posteriores a 2000. ¿Qué tan diferentes son estas medias, qué indica eso?
En esta sesión aprendiste a:
Crear gráficos de dispersión en ggplot2.
Personalizar color, forma, tamaño y transparencia.
Agregar líneas de tendencia para interpretación.
Separar visualizaciones por grupos usando facet_grid().