Os dados desta análise que envolveram avaliação dos usuários foram obtidos do site IMDb (http://www.imdb.com/title/tt0903747/episodes). Os dados sobre as mortes dos personagens por episódio está disponível no site Breaking Bad Wikia (http://www.imdb.com/title/tt0903747/episodes) e a importância para cada morte foi atribuída pela autora desta análise e está enumerada de 0 (sem importância) a 3 (muito importante).
Inicialmente carregam-se as bibliotecas e os dados a serem analisados.
#library(dplyr)
#library(ggplot2)
#library(readr)
#library(plotly)
aqua <- 'rgba(61, 217, 219, 1)'
data <- read_csv("./data/data.csv")
ratesBySeason <- data %>% group_by(season)
plot_ly(data = ratesBySeason, type = 'box',
y = ratesBySeason$rating,
x = ratesBySeason$season,
line = list(color = "#57D1C9"),
name = "All Points") %>%
layout( title="Avaliações dos episódios por temporada",
xaxis = list(title = 'Temporada'),
yaxis = list(title = 'Avaliação'))
Como se pode observar no gráfico acima, as duas primeiras temporas tiveram a avaliação dos episódios quase simétrica, variando de 8.2 a 9.2, com mediana igual a 8.7 e 8.8, respectivamente e nota máxima igual a 9.2. A terceira temporada teve o episódio com a menor avaliação de todo o seriado, 10: Fly, com nota igual a 7.8, mediana igual a 8.7 e com nota máxima igual a 9.6. Na temporada 4 o crescimento da avaliação é bem parecido com o da temporada anterior, com nota mínima de 8.0, mediana de 8.8 e nota máxima de 9.8. A última temporada possui a melhor avaliação de todas, com nota mínima de 8.8, mediana de 9.45 e nota máxima igual a 9.9.
top5 <- data %>% arrange(desc(rating, votes)) %>% head(5)
top_5 <- data %>% arrange(desc(rating, votes)) %>% tail(5)
top <- rbind(top5, top_5)
top$season = as.factor(top$season)
plot_ly(data = top, type = 'scatter',
y = top$rating,
x = reorder(top$episode, -top$rating),
mode = 'markers',
color = ~season,
colors = c('darkviolet', 'darkturquoise', 'lightsalmon1', 'mediumvioletred'),
marker = list(size = 15,
symbol = 'star',
line = list(color = '#000000',
width = 0.5)),
text=~paste('Season:', season, ', EP:', episode,'-', name, ', Rating:', rating,
'Votes:', votes, 'Deaths:', num_deaths, 'Importance:', importance)) %>%
layout(title = "Episódios mais votados e menos votados",
xaxis = list(title = 'Episódio', autotick = F, dtick = 1),
yaxis = list(title = 'Avaliação')) %>%
add_annotations( text="Temporada", xref="paper", yref="paper",
x=1.01, xanchor="left",
y=0.9, yanchor="bottom",
legendtitle=TRUE, showarrow=FALSE ) %>%
layout(legend=list(y=0.9, yanchor="top"))
Os episódios mais bem votados são: Ozymandias (S5EP14) e Felina (S5EP16) com nota 9.9, Face Off (S4EP13) com nota 9.8, ‘To’‘hajiilee’ (S5EP13) com nota 9.7 e Full Measure (S3EP13) com nota 9.6. Entre os episódios menos votados, estão Fly (S3EP10) com nota 7.6, Open House(S4EP3) com nota 8.0, Green Light (S3EP4) e Down (S2EP4) com nota 8.2 e Thirty-Eight Snub (S4EP2) com nota 8.3. Um fato curioso sobre estas avaliações é que nos 5 episódios com menores notas não houveram mortes, enquanto que em 4 dos 5 episódios mais votados houveram mortes de personagens considerados importantes, como Walter White, Gustavo Fring e Hank Schrader, totalizando em 22 personagens assassinados.
numDeathsByEp <- data %>% filter(num_deaths >= 1)
numDeathsByEp$season <- as.factor(numDeathsByEp$season)
plot_ly(numDeathsByEp, type = 'scatter',
y = numDeathsByEp$num_deaths,
x = reorder(numDeathsByEp$episode, -numDeathsByEp$num_deaths),
mode = 'markers',
color = numDeathsByEp$season,
colors = colorRamp(c("white", "darkturquoise", "black")),
marker = list(size = 15,
symbol = 'cross',
line = list(color = '#000000',
width = 0.5)),
text=~paste('Season:', season, ', EP:', episode,'-', name, ', Rating:', rating,
'Votes:', votes, 'Deaths:', num_deaths, 'Importance:', importance)) %>%
layout(title = "Número de mortes por episódio",
xaxis = list(title = 'Episódio', autotick = F, dtick = 1),
yaxis = list(title = 'Número de mortes', range = c(0,15))) %>%
add_annotations( text="Temporada", xref="paper", yref="paper",
x=1.01, xanchor="left",
y=0.9, yanchor="bottom", # Same y as legend below
legendtitle=TRUE, showarrow=FALSE ) %>%
layout( legend=list(y=0.9, yanchor="top" ) )
cor_plot <- ggplot(data, aes(x = rating, y = importance)) +
geom_point(shape = 1) +
geom_smooth(method = "lm") +
labs(title = "Correlação entre a importância das mortes e a avaliação dos episódios", y = "Importância do personagem", x = "Avaliação") + xlim(8, 10) + ylim(0, 4) + theme_bw()
ggplotly(cor_plot)
correlacao <- cor(data$rating, data$importance)
correlacao
## [1] 0.5952737
As mortes de cada episódio foram enumeradas de 0 a 3: 0 para as mortes de personagens desconhecidos; 1 para os personagens que apareceram poucas vezes e tiveram pouca relavância para o desenvolvimento da série, como Duane Chow; 2 para os personagens que tiveram grande relevânia para o desenvolvimento da série, como Jane Margolis e a família Salamanca; e valor 3 para os personagens principais da série, como Walter White, Gustavo Fring e Hank Schrader. A correlação feita entre a importância das mortes ocorridas em um episódio e sua avaliação pelos usuários obteve valor igual a 0.5952737 é considerada uma correlação moderada.