Tilda Swinton é uma atriz que já participou de diversos filmes em diferentes papéis o que a torna uma atriz muito versátil. Diante disso, irei analisar os dados de filmes que tiveram a sua participação, coletados no site Rotten Tomatoes. Tentarei achar semelhanças quanto a avaliação de seus filmes e classifica-los em pequenos grupos.

## ANTES DE USAR
# Para criar data/movies.csv
import_data("tilda_swinton") # ou com o ator/atriz que você escolher
## Loading required package: rvest
## Loading required package: xml2
## 
## Attaching package: 'rvest'
## The following object is masked from 'package:purrr':
## 
##     pluck
## The following object is masked from 'package:readr':
## 
##     guess_encoding
## Warning: NAs introduced by coercion
filmes = read_imported_data()

Criando agrupamentos

Utilizarei o método k-means para estudar possíveis grupos de dados semelhantes.

agrupamento_h = filmes %>% 
    mutate(nome = paste0(filme, 
                         " (av=", 
                         avaliacao, 
                         ")")) %>% 
    as.data.frame() %>% 
    column_to_rownames("filme") %>% 
    select(avaliacao) %>%
    dist(method = "euclidian") %>% 
    hclust(method = "complete")

get_grupos <- function(agrupamento, num_grupos){
    agrupamento %>% 
        cutree(num_grupos) %>% 
        as.data.frame() %>% 
        mutate(label = rownames(.)) %>% 
        gather(key =  "k", value = "grupo", -label) %>% 
        mutate(grupo = as.character(grupo))
}

atribuicoes = get_grupos(agrupamento_h, num_grupos = 1:6)

atribuicoes = atribuicoes %>% 
    left_join(filmes, by = c("label" = "filme"))

Criando visualização

k_escolhido = 4

p = atribuicoes %>% 
    filter(k == k_escolhido) %>% 
    mutate(Filme = str_glue("{label}\n Avaliação: {avaliacao}\n Bilheteria: {bilheteria}")) %>%
    ggplot(aes(x = reorder(label, avaliacao), y = avaliacao, colour = grupo, size = bilheteria, label = Filme)) + 
    geom_point(alpha = .6) + 
    scale_color_brewer(palette = "Dark2") + 
    coord_flip() +
    labs(title = "A versatilidade",
         y = "Avaliação RT",
         x = " ",
         size = "",
         color = "Grupos")

ggplotly(p, tooltip = "label")

Após analisar as possíveis soluções de grupos, utilizando o algoritmo k-means, escolhi separar em quatro grupos, comparando por suas avaliações:

1- Anciã

2- Rainha Branca

3- Gabriel

4- Eva

A escolha da nomeclatura de cada grupo foi feita a partir do nome de grandes personagens que Tilda Swinton viveu durante algum filme. Grupo Anciã faz referência a sua personagem no filme “Doutor Estranho”, já o grupo Rainha Branca referencia o filme de maior bilheteria no qual Tilda já atuou, “As Crônicas de Narnia”. No grupo Gabriel a referência é ao seu filme de pior avaliação, “Constantine”, onde ela interpreta o anjo Gabriel, papel masculino. O grupo Eva faz referência ao papel no filme “Precisamos Falar Sobre Kevin”, este que foi uma das menores bilheterias entre os filmes observados, porém com avaliações muito boas.

Dentre os grupos, podemos ver uma grande diferença de notas entre os filmes do grupo Eva e do grupo Gabriel, porém do grupo Eva em diante as notas crescem mais devagar e se mantem. Podemos notar também que quase metade de seus filmes obtiveram notas bem elevadas e se encontram no grupo Anciã, isto é, mantendo notas acima de 86 em oito filmes.