L2P1

Analisando episódios de séries de TV e Streaming no IMDB e sua avaliação pelos usuários do site.

As seguinte informações estão presentes nos dados:

series_name - Self explanatory
series_ep - Episode index in the series from 1 onwards.
season - From 1 onwards
season_ep - Episode index in the season
url - IMDB url for the episode (eg“http://www.imdb.com/title/tt5174246/”)
Episode - Episode title
UserRating - IMDB User Rating calculated as explained in theirsite.
UserVotes - Num of votes for the rating
r1 - Proportion of users who rated this episode with score 1
r10 - Proportion of userswho rated this episode with score 10
etc.

O objetivo deste relatório é responder algumas perguntas referente a distribuição e correlação dos dados, utilizando sumários, visualização etc.

Abaixo uma breve visualização da base de dados, o qual pode ser encontrada em: https://github.com/cienciadedados-ufcg/eda-series .

Primeiramente, veremos quantas series estão disponíveis nesta base de dados:

unique(all_series$series_name) %>% length()

## [1] 888

Alguns exemplos de series:

unique(all_series$series_name) %>% head(10)

##  [1] "Altered Carbon"                      
##  [2] "Dark"                                
##  [3] "Sex and the City"                    
##  [4] "The Newsroom"                        
##  [5] "Weeds"                               
##  [6] "Cosmos: Uma Odisséia do Espaço-Tempo"
##  [7] "Elementar"                           
##  [8] "Um Amor de Família"                  
##  [9] "Meu Nome é Earl"                     
## [10] "Mr. Bean"

Pergunta: Quais são as minhas 4 séries mais favoritas?

Há bastante séries disponíveis, portanto, espero que tenha algumas das minhas séries preferidas. Irei analisar algumas das minhas séries favoritas:

Cosmos: Uma Odisséia do Espaço-Tempo
Cosmos
Dr. House
A Anatomia de Grey

Pergunta: Com relação as series Cosmos (dos anos 80) e Cosmos: Uma Odisséia do Espaço-Tempo, como é a proporção de votos de usuários entre essas duas séries?

Cosmos: Uma Odisseia do Espaço-Tempo é uma série americana de documentário científico. É um remake da série de 1980, Cosmos, que foi apresentada por Carl Sagan. O apresentador da nova série é o físico Neil deGrasse Tyson.

cosmos = all_series %>% 
  filter(series_name %in% c("Cosmos", "Cosmos: Uma Odisséia do Espaço-Tempo"), season == 1)

cosmos %>% 
  ggplot(aes(UserVotes, color = series_name)) +
  geom_density()+
  labs(
    x = "votos",
    title="Densidade de votos"
  )

Em cosmos, o publico que o assiste manteve uma faixa de votação em valores pequenos e poucos votaram muito em determinados episodios. Já em Cosmos: Uma Odisséia do Espaço-Tempo, seu publico é mais atuante na votação em comparação com o antecessor, este contém uma distribuição normal.

cosmos %>% 
  group_by(series_name) %>% 
  summarise(percentil_95=quantile(UserVotes,.95),
            mediana=quantile(UserVotes,.5),
            media=mean(UserVotes))

## # A tibble: 2 x 4
##   series_name                          percentil_95 mediana media
##   <chr>                                       <dbl>   <dbl> <dbl>
## 1 Cosmos                                       400.     289  306 
## 2 Cosmos: Uma Odisséia do Espaço-Tempo        2219.    1267 1454.

A partir da sumarização acima, fica evidente que “Cosmos: Uma Odisséia do Espaço-Tempo” há bem mais votos que o seu antecessor.

pergunta: Sobre a avaliação dos episódios da série Dr. House, a opinião do público com relação as 8 temporadas? House muita alteração, ou se manteve constante?

House, M.D. ou simplesmente House (no Brasil, Dr. House) é uma série médica norte-americana criada por David Shore e exibida originalmente nos Estados Unidos pela Fox de 16 de novembro de 2004 a 21 de maio de 2012.

house = all_series %>% 
  filter(series_name == "Dr. House")

house %>% 
  ggplot(aes(x = series_ep, y =UserRating, color = season)) +
  geom_point()+
  labs(title = "Avaliação de cada episodio por temporada",
      y = "Avaliação do Episodio",
      x = "Numero do Episodio")

É possível perceber que a série tem ótimas notas, sempre entre 8 e 9. No geral, a opinião do publico se mantém constante entre as temporadas. Porém, há alguns outliers, tanto para ótima avalização, que são os casos 1ª, 4ª e 5ª temporadas, ultrapassando 9.5 de nota, como também para péssima avaliação, que foi o caso da última temporada, como nota de quase 7.5.

media = house %>% 
  group_by(season) %>% 
  summarise(media_season = mean(UserRating))
media

## # A tibble: 8 x 2
##   season media_season
##   <chr>         <dbl>
## 1 1              8.56
## 2 2              8.61
## 3 3              8.65
## 4 4              8.78
## 5 5              8.62
## 6 6              8.61
## 7 7              8.42
## 8 8              8.35

A média das avaliações das temporadas demostra-se constante, como observado anteriormente.

house %>%
  ggplot(aes(y = "", x = UserRating, color = season)) +
  geom_jitter(alpha = .9)+
  facet_wrap(~season, ncol = 1) +
  stat_summary(fun = mean, color="black") + 
  labs(
    y = "temporada",
    x = "avaliação",
    title="Distribuição e média de avaliação entre as 8 temporadas"
  )

Por fim, analisando a média junto com a distribuição das notas, concluimos que há uma leve melhoria na nota entre a 1ª e 5ª temporadas. E que há um leve declínio da 6ª temporada até a 8ª.

Pergunta: Qual a relação entre a quantidade de notas máximas e a avaliação por episodio, em “A Anatomia de Grey”?

A Anatomia de Grey ou Grey’s Anatomy é um drama médico norte-americano exibido no horário nobre da rede ABC.

grey = all_series %>%
  filter(series_name == "A Anatomia de Grey") 

grey %>% 
  ggplot(aes(y=r10, x = UserRating)) +
  geom_point()+
  labs(
    x="Avaliação do Episodio",
    y = "Quantidade de notas máximas",
    title= "Correlação")

É perceptível que há uma correlação linear.

grey %>% 
  summarise(spearman = cor(y=r10, x = UserRating,method="spearman"),
            kendall = cor(y=r10, x = UserRating,method="kendall"),
            pearson = cor(y=r10, x = UserRating,method="pearson"))

## # A tibble: 1 x 3
##   spearman kendall pearson
##      <dbl>   <dbl>   <dbl>
## 1    0.897   0.738   0.812

Os métodosde correlação comprovam a existência da correlação linear. Destaque para Spearman, com maior correlação.