Anne Hathaway é uma atriz que (para aqueles dos anos 2000) crescemos acompanhando seus filmes: Diário da Princesa 1 e 2, Ella Encantada e O Diabo Veste Prada são apenas alguns exemplos de seus filmes que marcaram uma geração. Para nos aprofundarmos no conhecimento da sua filmografia, a presente análise visa trabalhar com agrupamentos e entender possíveis grupos em seus trabalhos.
# Para criar data/movies.csv
import_data("anne_hathaway")
filmes = read_imported_data("anne_hathaway")
Inicialmente, é importante sabermos em quantos filmes Anne Hathaway trabalhou ao longo de sua carreira e, tendo estes se somado 26 até então, estamos analisando um bom número de dados.
nrow(filmes)
## [1] 26
Uma primeira forma de analisarmos sua filmografia é tentarmos entender visualmente a existência de grupos. No gráfico de dispersão abaixo, temos dados de bilheteria e do ano de lançamento dos filmes.
bil = filmes %>%
ggplot(aes(x = ano, y = bilheteria)) +
geom_point(size = 4, color = paleta[2], alpha = 0.7) +
scale_y_log10()
ggplotly(bil)
Através do gráfico apresentado ainda não podemos inferir com clareza quais grupos se formam nesses dados, mas é interessante notar que, com exceção de um, os filmes iniciais de sua carreira tiveram baixa bilheteria.
Buscamos visualizar as mesmas informações também através de um histograma, o que nos possibilitou novos insights em relação à esses dados: poucos filmes tem números estrondosos de bilheteria e mais da metade se encontra na faixa de valores mais baixos.
bil_hist <- filmes %>%
ggplot(aes(x = bilheteria)) +
geom_histogram(binwidth = 15, fill = paleta[2], color = "black") +
geom_rug(size = .5)
ggplotly(bil_hist)
Já na visualização seguinte, em que temos dados de avaliação e bilheteria, há um grupo curioso que se destaca: baixa bilheteria e altas avaliações.
aval = filmes %>%
ggplot(aes(x = bilheteria, y = avaliacao)) +
geom_point(size = 4, color = paleta[3], alpha = 0.7) +
scale_x_log10()
ggplotly(aval)
Analisando esses dados de avaliação em um histograma, percemos que esses números se dispersam entre todas as faixas de valores: ela não trabalha só em filmes mal avaliados e nem só em filmes que conquistam a crítica.
aval_hist <- filmes %>%
ggplot(aes(x = avaliacao)) +
geom_histogram(binwidth = 10, boundary = 0, fill = paleta[3], color = "black") +
geom_rug(size = .5)
ggplotly(aval_hist)
Agora o que queremos entender é: quais são os possíveis grupos nos dados de bilheteria e avaliação? Para isso, o algoritmo utilizado foi o k-means e o número de grupos escolhido foi 5 (o algoritmo também foi rodado com os valores 2, 3 e 4), pois trouxe percepções interessantes e que faziam sentido com o que foi observado.
grupos <- filmes %>%
select(bilheteria, avaliacao) %>%
filter(!is.na(bilheteria + avaliacao))
row.names(grupos) <- filmes$filme
grupos <- scale(grupos)
res <- kmeans(grupos, 5)
fviz_cluster(res, data = grupos)
Diante desse gráfico de clusters, temos para os filmes de Anne Hathaway os grupos de: baixa bilheteria e baixa avaliação, baixa bilheteria e avaliação mediana, boa bilheteria e boa avaliação, baixa bilheteria e ótima avaliação, e ótima bilheteria e boa avaliação. Nenhum filme se encaixou num possível grupo de ótima bilheteria e ótima avaliação.
Os grupos formados de fato fazem sentido com o buzz gerado na época de cada filme. Alice in Wonderland foi um filme de grandes números de bilheteria por se tratar de uma super produção dos estúdios Walt Disney, mas não alcançou avaliações tão elevadas assim na crítica. Interstellar, The Devil Wears Prada, Lés Misérables e The Princess Diaries foram filmes marcantes em sua carreira, os quais não decepcionaram em ter boas avaliações e boa bilheteria.