As seguinte informações estão presentes nos dados:
O objetivo deste relatório é responder algumas perguntas referente a distribuição e correlação dos dados, utilizando sumários, visualização etc.
Abaixo uma breve visualização da base de dados, o qual pode ser encontrada em: https://github.com/cienciadedados-ufcg/eda-series .
Primeiramente, veremos quantas series estão disponíveis nesta base de dados:
unique(all_series$series_name) %>% length()
## [1] 888
Alguns exemplos de series:
unique(all_series$series_name) %>% head(10)
## [1] "Altered Carbon"
## [2] "Dark"
## [3] "Sex and the City"
## [4] "The Newsroom"
## [5] "Weeds"
## [6] "Cosmos: Uma Odisséia do Espaço-Tempo"
## [7] "Elementar"
## [8] "Um Amor de Família"
## [9] "Meu Nome é Earl"
## [10] "Mr. Bean"
Há bastante séries disponíveis, portanto, espero que tenha algumas das minhas séries preferidas. Irei analisar algumas das minhas séries favoritas:
Cosmos: Uma Odisseia do Espaço-Tempo é uma série americana de documentário científico. É um remake da série de 1980, Cosmos, que foi apresentada por Carl Sagan. O apresentador da nova série é o físico Neil deGrasse Tyson.
cosmos = all_series %>%
filter(series_name %in% c("Cosmos", "Cosmos: Uma Odisséia do Espaço-Tempo"), season == 1)
cosmos %>%
ggplot(aes(UserVotes, color = series_name)) +
geom_density()+
labs(
x = "votos",
title="Densidade de votos"
)
Em cosmos, o publico que o assiste manteve uma faixa de votação em valores pequenos e poucos votaram muito em determinados episodios. Já em Cosmos: Uma Odisséia do Espaço-Tempo, seu publico é mais atuante na votação em comparação com o antecessor, este contém uma distribuição normal.
cosmos %>%
group_by(series_name) %>%
summarise(percentil_95=quantile(UserVotes,.95),
mediana=quantile(UserVotes,.5),
media=mean(UserVotes))
## # A tibble: 2 x 4
## series_name percentil_95 mediana media
## <chr> <dbl> <dbl> <dbl>
## 1 Cosmos 400. 289 306
## 2 Cosmos: Uma Odisséia do Espaço-Tempo 2219. 1267 1454.
A partir da sumarização acima, fica evidente que “Cosmos: Uma Odisséia do Espaço-Tempo” há bem mais votos que o seu antecessor.
House, M.D. ou simplesmente House (no Brasil, Dr. House) é uma série médica norte-americana criada por David Shore e exibida originalmente nos Estados Unidos pela Fox de 16 de novembro de 2004 a 21 de maio de 2012.
house = all_series %>%
filter(series_name == "Dr. House")
house %>%
ggplot(aes(x = series_ep, y =UserRating, color = season)) +
geom_point()+
labs(title = "Avaliação de cada episodio por temporada",
y = "Avaliação do Episodio",
x = "Numero do Episodio")
É possível perceber que a série tem ótimas notas, sempre entre 8 e 9. No geral, a opinião do publico se mantém constante entre as temporadas. Porém, há alguns outliers, tanto para ótima avalização, que são os casos 1ª, 4ª e 5ª temporadas, ultrapassando 9.5 de nota, como também para péssima avaliação, que foi o caso da última temporada, como nota de quase 7.5.
media = house %>%
group_by(season) %>%
summarise(media_season = mean(UserRating))
media
## # A tibble: 8 x 2
## season media_season
## <chr> <dbl>
## 1 1 8.56
## 2 2 8.61
## 3 3 8.65
## 4 4 8.78
## 5 5 8.62
## 6 6 8.61
## 7 7 8.42
## 8 8 8.35
A média das avaliações das temporadas demostra-se constante, como observado anteriormente.
house %>%
ggplot(aes(y = "", x = UserRating, color = season)) +
geom_jitter(alpha = .9)+
facet_wrap(~season, ncol = 1) +
stat_summary(fun = mean, color="black") +
labs(
y = "temporada",
x = "avaliação",
title="Distribuição e média de avaliação entre as 8 temporadas"
)
Por fim, analisando a média junto com a distribuição das notas, concluimos que há uma leve melhoria na nota entre a 1ª e 5ª temporadas. E que há um leve declínio da 6ª temporada até a 8ª.
A Anatomia de Grey ou Grey’s Anatomy é um drama médico norte-americano exibido no horário nobre da rede ABC.
grey = all_series %>%
filter(series_name == "A Anatomia de Grey")
grey %>%
ggplot(aes(y=r10, x = UserRating)) +
geom_point()+
labs(
x="Avaliação do Episodio",
y = "Quantidade de notas máximas",
title= "Correlação")
É perceptível que há uma correlação linear.
grey %>%
summarise(spearman = cor(y=r10, x = UserRating,method="spearman"),
kendall = cor(y=r10, x = UserRating,method="kendall"),
pearson = cor(y=r10, x = UserRating,method="pearson"))
## # A tibble: 1 x 3
## spearman kendall pearson
## <dbl> <dbl> <dbl>
## 1 0.897 0.738 0.812
Os métodosde correlação comprovam a existência da correlação linear. Destaque para Spearman, com maior correlação.