Análise explanatória sobre as avaliações dos episódios da série de TV Breaking Bad, extraídos dos site IMDb e Breaking Bad Wikia.

Os dados desta análise que envolveram avaliação dos usuários foram obtidos do site IMDb (http://www.imdb.com/title/tt0903747/episodes). Os dados sobre as mortes dos personagens por episódio está disponível no site Breaking Bad Wikia (http://www.imdb.com/title/tt0903747/episodes) e a importância para cada morte foi atribuída pela autora desta análise e está enumerada de 0 (sem importância) a 3 (muito importante).

Carregando as bibliotecas e os dados

Inicialmente carregam-se as bibliotecas e os dados a serem analisados.

#library(dplyr)
#library(ggplot2)
#library(readr)
#library(plotly)

aqua <- 'rgba(61, 217, 219, 1)'
data <- read_csv("./data/data.csv")

1. Como se comporta as avaliações dos episódios por temporada?

ratesBySeason <- data %>% group_by(season) 
  plot_ly(data = ratesBySeason, type = 'box',
             y = ratesBySeason$rating,
             x = ratesBySeason$season,
              line = list(color = "#57D1C9"),
              name = "All Points") %>% 
  layout( title="Avaliações dos episódios por temporada",
          xaxis = list(title = 'Temporada'),
          yaxis = list(title = 'Avaliação'))

Como se pode observar no gráfico acima, as duas primeiras temporas tiveram a avaliação dos episódios quase simétrica, variando de 8.2 a 9.2, com mediana igual a 8.7 e 8.8, respectivamente e nota máxima igual a 9.2. A terceira temporada teve o episódio com a menor avaliação de todo o seriado, 10: Fly, com nota igual a 7.8, mediana igual a 8.7 e com nota máxima igual a 9.6. Na temporada 4 o crescimento da avaliação é bem parecido com o da temporada anterior, com nota mínima de 8.0, mediana de 8.8 e nota máxima de 9.8. A última temporada possui a melhor avaliação de todas, com nota mínima de 8.8, mediana de 9.45 e nota máxima igual a 9.9.

2. Quais são os episódios mais bem votados? E os que possuem piores votos?

top5 <- data %>% arrange(desc(rating, votes)) %>% head(5)
top_5 <- data %>% arrange(desc(rating, votes)) %>% tail(5)

top <- rbind(top5, top_5)
top$season = as.factor(top$season)

plot_ly(data = top, type = 'scatter',
             y = top$rating,
             x = reorder(top$episode, -top$rating),
             mode = 'markers',
             color = ~season,
             colors = c('darkviolet', 'darkturquoise', 'lightsalmon1', 'mediumvioletred'),
             marker = list(size = 15,
                           symbol = 'star',
                           line = list(color = '#000000',
                                       width = 0.5)),
        text=~paste('Season:', season, ', EP:', episode,'-', name, ', Rating:', rating,
                    'Votes:', votes, 'Deaths:', num_deaths, 'Importance:', importance)) %>% 
  layout(title = "Episódios mais votados e menos votados",
            xaxis = list(title = 'Episódio', autotick = F, dtick = 1),
            yaxis = list(title = 'Avaliação')) %>%
  add_annotations( text="Temporada", xref="paper", yref="paper",
                  x=1.01, xanchor="left",
                  y=0.9, yanchor="bottom",
                  legendtitle=TRUE, showarrow=FALSE ) %>%
  layout(legend=list(y=0.9, yanchor="top"))

Os episódios mais bem votados são: Ozymandias (S5EP14) e Felina (S5EP16) com nota 9.9, Face Off (S4EP13) com nota 9.8, ‘To’‘hajiilee’ (S5EP13) com nota 9.7 e Full Measure (S3EP13) com nota 9.6. Entre os episódios menos votados, estão Fly (S3EP10) com nota 7.6, Open House(S4EP3) com nota 8.0, Green Light (S3EP4) e Down (S2EP4) com nota 8.2 e Thirty-Eight Snub (S4EP2) com nota 8.3. Um fato curioso sobre estas avaliações é que nos 5 episódios com menores notas não houveram mortes, enquanto que em 4 dos 5 episódios mais votados houveram mortes de personagens considerados importantes, como Walter White, Gustavo Fring e Hank Schrader, totalizando em 22 personagens assassinados.

3. Como se comporta o número de mortes por episódio?

numDeathsByEp <- data %>% filter(num_deaths >= 1)
numDeathsByEp$season <- as.factor(numDeathsByEp$season) 

plot_ly(numDeathsByEp, type = 'scatter',
             y = numDeathsByEp$num_deaths,
             x = reorder(numDeathsByEp$episode, -numDeathsByEp$num_deaths),
             mode = 'markers',
             color = numDeathsByEp$season,
            colors = colorRamp(c("white", "darkturquoise", "black")),
             marker = list(size = 15,
                           symbol = 'cross',
                           line = list(color = '#000000',
                                       width = 0.5)),
text=~paste('Season:', season, ', EP:', episode,'-', name, ', Rating:', rating,
                    'Votes:', votes, 'Deaths:', num_deaths, 'Importance:', importance)) %>% 
  layout(title = "Número de mortes por episódio",
            xaxis = list(title = 'Episódio', autotick = F, dtick = 1),
            yaxis = list(title = 'Número de mortes', range = c(0,15))) %>%
  add_annotations( text="Temporada", xref="paper", yref="paper",
                  x=1.01, xanchor="left",
                  y=0.9, yanchor="bottom",    # Same y as legend below
                  legendtitle=TRUE, showarrow=FALSE ) %>%
  layout( legend=list(y=0.9, yanchor="top" ) )

4. Exite alguma relação entre mortes importantes e a avaliação de cada episódio?

cor_plot <- ggplot(data, aes(x = rating, y = importance)) +
    geom_point(shape = 1) +
    geom_smooth(method = "lm") + 
  labs(title = "Correlação entre a importância das mortes e a avaliação dos episódios", y = "Importância do personagem", x = "Avaliação") + xlim(8, 10) + ylim(0, 4) + theme_bw()

ggplotly(cor_plot)
correlacao <- cor(data$rating, data$importance)
correlacao
## [1] 0.5952737

As mortes de cada episódio foram enumeradas de 0 a 3: 0 para as mortes de personagens desconhecidos; 1 para os personagens que apareceram poucas vezes e tiveram pouca relavância para o desenvolvimento da série, como Duane Chow; 2 para os personagens que tiveram grande relevânia para o desenvolvimento da série, como Jane Margolis e a família Salamanca; e valor 3 para os personagens principais da série, como Walter White, Gustavo Fring e Hank Schrader. A correlação feita entre a importância das mortes ocorridas em um episódio e sua avaliação pelos usuários obteve valor igual a 0.5952737 é considerada uma correlação moderada.