library(tidyverse)
## ── Attaching packages ─────────────────────────────────────────── tidyverse 1.3.0 ──
## ✓ ggplot2 3.3.0     ✓ purrr   0.3.3
## ✓ tibble  2.1.3     ✓ dplyr   0.8.5
## ✓ tidyr   1.0.2     ✓ stringr 1.4.0
## ✓ readr   1.3.1     ✓ forcats 0.5.0
## ── Conflicts ────────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
series = read_csv("data/series_from_imdb.csv.zip")
## Parsed with column specification:
## cols(
##   series_name = col_character(),
##   Episode = col_character(),
##   series_ep = col_double(),
##   season = col_double(),
##   season_ep = col_double(),
##   url = col_character(),
##   UserRating = col_double(),
##   UserVotes = col_double(),
##   r1 = col_double(),
##   r2 = col_double(),
##   r3 = col_double(),
##   r4 = col_double(),
##   r5 = col_double(),
##   r6 = col_double(),
##   r7 = col_double(),
##   r8 = col_double(),
##   r9 = col_double(),
##   r10 = col_double()
## )
sherlock = series %>% 
    filter(series_name == "Sherlock")

Avaliação de todos os episódios

Observações: As notas da série oscilam entre pouco mais de 8.0 e pouco menos que 10.0, possuindo uma maior concentração entre 8.75 e 9.5.

sherlock %>% 
    ggplot(mapping = aes(x = "Sherlock", y = UserRating)) +
    geom_point(alpha = 0.25)

library(ggbeeswarm)
sherlock %>% 
    ggplot(mapping = aes(x = "GoT", y = UserRating)) +
    geom_quasirandom(width = .15)

Avaliação dos episódios por temporada

Observações: A temporada com episódios mais bem avaliados é a segunda e a mais consistente (ou seja, com menores oscilações nas notas) é a terceira. A temporada com maior diferença da maior nota para a menor é a quarta.

sherlock %>% 
    ggplot(mapping = aes(y = UserRating, x = season)) +
    geom_quasirandom(width = .1, alpha = .75)

Oscilação das notas dos episódios de cada temporada

Observações: Os gráficos das duas primeiras temporadas são vem parecidos. A terceira acaba sendo também semelhante, mas com picos diferentes. A temporada com a oscilação mais diferente é a terceira. Por esse grafo fica mais perceptível a afirmação de que a terceira temporada é a mais consistente (ver definição acima).

sherlock %>% 
    ggplot(mapping = aes(y = UserRating, x = series_ep, group = season, color = season)) +
    geom_line(alpha = .7, color = 'red') +
    geom_point(color = 'red')

Quantidade de votos por episódio de cada temporada

observações: A quantidade de votos é bem espalhada, mostrando que não há tanta consistência na votação dos usuários dessa série. Curiosamente, esse gráfico possui uma distribuição de pontos bem parecida com a do anterior.

sherlock %>% 
    ggplot(mapping = aes(y = UserVotes, x = season)) +
    geom_quasirandom(width = .1, alpha = .6)