library(tidyverse)
## ── Attaching packages ─────────────────────────────────────────── tidyverse 1.3.0 ──
## ✓ ggplot2 3.3.0 ✓ purrr 0.3.3
## ✓ tibble 2.1.3 ✓ dplyr 0.8.5
## ✓ tidyr 1.0.2 ✓ stringr 1.4.0
## ✓ readr 1.3.1 ✓ forcats 0.5.0
## ── Conflicts ────────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
series = read_csv("data/series_from_imdb.csv.zip")
## Parsed with column specification:
## cols(
## series_name = col_character(),
## Episode = col_character(),
## series_ep = col_double(),
## season = col_double(),
## season_ep = col_double(),
## url = col_character(),
## UserRating = col_double(),
## UserVotes = col_double(),
## r1 = col_double(),
## r2 = col_double(),
## r3 = col_double(),
## r4 = col_double(),
## r5 = col_double(),
## r6 = col_double(),
## r7 = col_double(),
## r8 = col_double(),
## r9 = col_double(),
## r10 = col_double()
## )
sherlock = series %>%
filter(series_name == "Sherlock")
Observações: As notas da série oscilam entre pouco mais de 8.0 e pouco menos que 10.0, possuindo uma maior concentração entre 8.75 e 9.5.
sherlock %>%
ggplot(mapping = aes(x = "Sherlock", y = UserRating)) +
geom_point(alpha = 0.25)
library(ggbeeswarm)
sherlock %>%
ggplot(mapping = aes(x = "GoT", y = UserRating)) +
geom_quasirandom(width = .15)
Observações: A temporada com episódios mais bem avaliados é a segunda e a mais consistente (ou seja, com menores oscilações nas notas) é a terceira. A temporada com maior diferença da maior nota para a menor é a quarta.
sherlock %>%
ggplot(mapping = aes(y = UserRating, x = season)) +
geom_quasirandom(width = .1, alpha = .75)
Observações: Os gráficos das duas primeiras temporadas são vem parecidos. A terceira acaba sendo também semelhante, mas com picos diferentes. A temporada com a oscilação mais diferente é a terceira. Por esse grafo fica mais perceptível a afirmação de que a terceira temporada é a mais consistente (ver definição acima).
sherlock %>%
ggplot(mapping = aes(y = UserRating, x = series_ep, group = season, color = season)) +
geom_line(alpha = .7, color = 'red') +
geom_point(color = 'red')
observações: A quantidade de votos é bem espalhada, mostrando que não há tanta consistência na votação dos usuários dessa série. Curiosamente, esse gráfico possui uma distribuição de pontos bem parecida com a do anterior.
sherlock %>%
ggplot(mapping = aes(y = UserVotes, x = season)) +
geom_quasirandom(width = .1, alpha = .6)