## ANTES DE USAR
# Para criar data/movies.csv
import_data("rodrigo_santoro") # ou com o ator/atriz que você escolher
## Loading required package: rvest
## Loading required package: xml2
## 
## Attaching package: 'rvest'
## The following object is masked from 'package:purrr':
## 
##     pluck
## The following object is masked from 'package:readr':
## 
##     guess_encoding
## Warning in rlang::eval_tidy(~as.numeric(gsub("[$|M]", "", BOXOFFICE)),
## <environment>): NAs introduzidos por coerção
O ator escolhido foi o brasileiro Rodrigo Santoro.
filmes = read_imported_data()

DESCRIÇÃO

filmes %>% 
    ggplot(aes(x = ano, y = bilheteria)) + 
    geom_point(size = 4, color = paleta[1]) 

Para o ator Rodrigo Santoro, os filmes de maior bilheteria se encontram no meio de sua carreira.
filmes %>% 
    ggplot(aes(x = bilheteria)) + 
    geom_histogram(binwidth = 15, fill = paleta[2], color = "black") + 
    geom_rug(size = .5) 

Vemos que a quantidade de filmes que ultrapassaram a marca de 100 milhões de dólares em bilheteria foram 4. Destaque para dois, que ultrapassaram 150 milhões de dólares.
filmes %>% 
    ggplot(aes(x = avaliacao)) + 
    geom_histogram(binwidth = 10, boundary = 0, fill = paleta[3], color = "black") + 
    geom_rug(size = .5) 

Vemos que a maior parte das notas dadas na avaliação se concentram entre 40 e 80. Observamos que a faixa de nota que recebeu mais avaliação foi entre 40 e 50, sendo 5 no total.

Agora, iremos agrupar os dados dos filmes de acordo com dois critérios: sucesso de público (bilheteria) e sucesso de crítica. 
agrupamento_h = filmes %>% 
    mutate(nome = paste0(filme, 
                         " (av=", 
                         bilheteria, 
                         ")")) %>% 
    as.data.frame() %>% 
    column_to_rownames("filme") %>% 
    select(bilheteria) %>%
    dist(method = "euclidian") %>% 
    hclust(method = "complete")
get_grupos <- function(agrupamento, num_grupos){
    agrupamento %>% 
        cutree(num_grupos) %>% 
        as.data.frame() %>% 
        mutate(label = rownames(.)) %>% 
        gather(key =  "k", value = "grupo", -label) %>% 
        mutate(grupo = as.character(grupo))
}

atribuicoes = get_grupos(agrupamento_h, num_grupos = 1:6)

atribuicoes = atribuicoes %>% 
    left_join(filmes, by = c("label" = "filme"))

atribuicoes %>% 
    ggplot(aes(x = "Filmes", y = bilheteria, colour = grupo)) + 
    geom_jitter(width = .02, height = 0, size = 1.6, alpha = .6) + 
    facet_wrap(~ paste(k, " grupos")) + 
    scale_color_brewer(palette = "Dark2")

Primeiro faremos para o sucesso de bilheteria.

k_escolhido = 3

atribuicoes %>% 
    filter(k == k_escolhido) %>% 
    ggplot(aes(x = reorder(label, bilheteria), y = bilheteria, colour = grupo)) + 
    geom_jitter(width = .02, height = 0, size = 3, alpha = .6) + 
    facet_wrap(~ paste(k, " grupos")) + 
    scale_color_brewer(palette = "Dark2") + 
    labs(x = "", y = "Bilheteria") + 
    coord_flip() 

Observamos que, em relação a bilheteria, com 3 grupos distintos, a divisão se caracteriza pelo filme 300, de maior bilheteria, ocupando um único grupo, pelo fato do mesmo estar razoavelmente afastado dos demais filmes nesse critério. O segundo grupo é formado por 4 filmes de bilheteria pouco menor que 100 milhões e 150 milhões, são filmes de razoável sucesso. Já o terceiro grupo é formado pelos filmes que alcançaram uma bilheteria modesta, se comparadas com o restante. Esse grupo engloba os filmes com bilhteria até pouco mais que 50 milhões de dólares.

Agora, faremos o agrupamento para o sucesso de crítica.

agrupamento_h = filmes %>% 
    mutate(nome = paste0(filme, 
                         " (av=", 
                         avaliacao, 
                         ")")) %>% 
    as.data.frame() %>% 
    column_to_rownames("filme") %>% 
    select(avaliacao) %>%
    dist(method = "euclidian") %>% 
    hclust(method = "complete")
get_grupos <- function(agrupamento, num_grupos){
    agrupamento %>% 
        cutree(num_grupos) %>% 
        as.data.frame() %>% 
        mutate(label = rownames(.)) %>% 
        gather(key =  "k", value = "grupo", -label) %>% 
        mutate(grupo = as.character(grupo))
}

atribuicoes = get_grupos(agrupamento_h, num_grupos = 1:6)

atribuicoes = atribuicoes %>% 
    left_join(filmes, by = c("label" = "filme"))
k_escolhido = 3

atribuicoes %>% 
    filter(k == k_escolhido) %>% 
    ggplot(aes(x = reorder(label, avaliacao), y = avaliacao, colour = grupo)) + 
    geom_jitter(width = .02, height = 0, size = 3, alpha = .6) + 
    facet_wrap(~ paste(k, " grupos")) + 
    scale_color_brewer(palette = "Dark2") + 
    labs(x = "", y = "Bilheteria") + 
    coord_flip() 

Agora, em relação ao sucesso de crítica, temos um primeiro grupo, com nota de pouco menos que 70 até pouco menos de 80. São os 5 filmes mais bem avaliados. No segundo grupo, temos as notas indo de um pouco mais que 40 até um pouco mais que 60. Esse é o grupo mais populoso de filmes, possuindo 9 filmes classificados. Por último, temos os que obtiveram as notas mais baixas. Esse grupo compreende notas de pouco mais que 0 até pouco menos que 30. É o menor grupo em quantidade, possuindo 4 filmes classificados.