## ANTES DE USAR
# Para criar data/movies.csv
import_data("rodrigo_santoro") # ou com o ator/atriz que você escolher
## Loading required package: rvest
## Loading required package: xml2
##
## Attaching package: 'rvest'
## The following object is masked from 'package:purrr':
##
## pluck
## The following object is masked from 'package:readr':
##
## guess_encoding
## Warning in rlang::eval_tidy(~as.numeric(gsub("[$|M]", "", BOXOFFICE)),
## <environment>): NAs introduzidos por coerção
O ator escolhido foi o brasileiro Rodrigo Santoro.
filmes = read_imported_data()
filmes %>%
ggplot(aes(x = ano, y = bilheteria)) +
geom_point(size = 4, color = paleta[1])
Para o ator Rodrigo Santoro, os filmes de maior bilheteria se encontram no meio de sua carreira.
filmes %>%
ggplot(aes(x = bilheteria)) +
geom_histogram(binwidth = 15, fill = paleta[2], color = "black") +
geom_rug(size = .5)
Vemos que a quantidade de filmes que ultrapassaram a marca de 100 milhões de dólares em bilheteria foram 4. Destaque para dois, que ultrapassaram 150 milhões de dólares.
filmes %>%
ggplot(aes(x = avaliacao)) +
geom_histogram(binwidth = 10, boundary = 0, fill = paleta[3], color = "black") +
geom_rug(size = .5)
Vemos que a maior parte das notas dadas na avaliação se concentram entre 40 e 80. Observamos que a faixa de nota que recebeu mais avaliação foi entre 40 e 50, sendo 5 no total.
Agora, iremos agrupar os dados dos filmes de acordo com dois critérios: sucesso de público (bilheteria) e sucesso de crítica.
agrupamento_h = filmes %>%
mutate(nome = paste0(filme,
" (av=",
bilheteria,
")")) %>%
as.data.frame() %>%
column_to_rownames("filme") %>%
select(bilheteria) %>%
dist(method = "euclidian") %>%
hclust(method = "complete")
get_grupos <- function(agrupamento, num_grupos){
agrupamento %>%
cutree(num_grupos) %>%
as.data.frame() %>%
mutate(label = rownames(.)) %>%
gather(key = "k", value = "grupo", -label) %>%
mutate(grupo = as.character(grupo))
}
atribuicoes = get_grupos(agrupamento_h, num_grupos = 1:6)
atribuicoes = atribuicoes %>%
left_join(filmes, by = c("label" = "filme"))
atribuicoes %>%
ggplot(aes(x = "Filmes", y = bilheteria, colour = grupo)) +
geom_jitter(width = .02, height = 0, size = 1.6, alpha = .6) +
facet_wrap(~ paste(k, " grupos")) +
scale_color_brewer(palette = "Dark2")
Primeiro faremos para o sucesso de bilheteria.
k_escolhido = 3
atribuicoes %>%
filter(k == k_escolhido) %>%
ggplot(aes(x = reorder(label, bilheteria), y = bilheteria, colour = grupo)) +
geom_jitter(width = .02, height = 0, size = 3, alpha = .6) +
facet_wrap(~ paste(k, " grupos")) +
scale_color_brewer(palette = "Dark2") +
labs(x = "", y = "Bilheteria") +
coord_flip()
Observamos que, em relação a bilheteria, com 3 grupos distintos, a divisão se caracteriza pelo filme 300, de maior bilheteria, ocupando um único grupo, pelo fato do mesmo estar razoavelmente afastado dos demais filmes nesse critério. O segundo grupo é formado por 4 filmes de bilheteria pouco menor que 100 milhões e 150 milhões, são filmes de razoável sucesso. Já o terceiro grupo é formado pelos filmes que alcançaram uma bilheteria modesta, se comparadas com o restante. Esse grupo engloba os filmes com bilhteria até pouco mais que 50 milhões de dólares.
Agora, faremos o agrupamento para o sucesso de crítica.
agrupamento_h = filmes %>%
mutate(nome = paste0(filme,
" (av=",
avaliacao,
")")) %>%
as.data.frame() %>%
column_to_rownames("filme") %>%
select(avaliacao) %>%
dist(method = "euclidian") %>%
hclust(method = "complete")
get_grupos <- function(agrupamento, num_grupos){
agrupamento %>%
cutree(num_grupos) %>%
as.data.frame() %>%
mutate(label = rownames(.)) %>%
gather(key = "k", value = "grupo", -label) %>%
mutate(grupo = as.character(grupo))
}
atribuicoes = get_grupos(agrupamento_h, num_grupos = 1:6)
atribuicoes = atribuicoes %>%
left_join(filmes, by = c("label" = "filme"))
k_escolhido = 3
atribuicoes %>%
filter(k == k_escolhido) %>%
ggplot(aes(x = reorder(label, avaliacao), y = avaliacao, colour = grupo)) +
geom_jitter(width = .02, height = 0, size = 3, alpha = .6) +
facet_wrap(~ paste(k, " grupos")) +
scale_color_brewer(palette = "Dark2") +
labs(x = "", y = "Bilheteria") +
coord_flip()
Agora, em relação ao sucesso de crítica, temos um primeiro grupo, com nota de pouco menos que 70 até pouco menos de 80. São os 5 filmes mais bem avaliados. No segundo grupo, temos as notas indo de um pouco mais que 40 até um pouco mais que 60. Esse é o grupo mais populoso de filmes, possuindo 9 filmes classificados. Por último, temos os que obtiveram as notas mais baixas. Esse grupo compreende notas de pouco mais que 0 até pouco menos que 30. É o menor grupo em quantidade, possuindo 4 filmes classificados.