Analisando os filmes com o Tom Cruise.

Nesta documento, vamos utilizar os dados do Rotten Tomatoes, sobre os filmes em que o Tom Cruise participou.

Thomas Cruise Mapother IV (Syracuse, 3 de julho de 1962) é um ator e produtor de cinema norte-americano. Listado pela revista Forbes como a celebridade mais popular de 2006, foi indicado por três vezes para o Oscar e venceu três Globos de Ouro. Seu primeiro papel de destaque foi no filme Risky Business, descrito como um “clássico da geração X”, responsável por consagrar sua carreira como ator. Após desempenhar o papel de um heroico piloto de caças no filme Top Gun, de 1986, enorme sucesso de público e crítica, Cruise continuou a fazer filmes representativos como A cor do dinheiro (de Martin Scorsese) e Rain Man, posteriormente interpretou um agente secreto na série de filmes de ação Mission: Impossible durante as décadas de 1990 e 2000. Além destes papéis heroicos, interpretou outros personagens de destaque, como o misógino guru de auto-ajuda em Magnólia (1999) e um sociopático assassino de aluguel, frio e calculista, no thriller de Michael Mann, Collateral (2004).

A base de dados possuem as seguintes informações:

Os dados podem ser encontrados em: https://www.kaggle.com/stefanoleone992/rotten-tomatoes-movies-and-critic-reviews-dataset

Sumarização:

Abaixo, uma sumarização sobre as notas. A média é 64, um pouco abaixo de uma nota ok (70).

summary(filmes$rating)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   16.00   52.00   66.00   64.48   86.00   93.00

Abaixo, uma sumarização sobre as bilheterias. A média é 103. Acredito que este valor seja em milhões de dólares.

summary(filmes$box_office)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    15.0    76.5    89.1   103.1   132.1   234.2

Por fim, abaixo, uma sumarização sobre os anos de lançamento. Claramente, os dados que estamos analisando não incluem todos os filmes com o Tom Cruise, pois estes estão entre 2002 e 2017, excluindo filmes como: Top Gun e os primeiros filmes de Mission Impossible.

summary(filmes$year)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2002    2005    2008    2009    2013    2017

Visualaizando os dados:

Começando pelas notas, abaixo, conclui-se que há bastante notas acima de 70, e que a nota 80 possui a maior quantidade.

filmes %>% 
    ggplot(aes(x = rating)) + 
    geom_density(fill = "gray", color = "black") + 
    geom_rug(size = .5) 

Sobre as bilheterias, abaixo, em sua grande maioria estão entre 50 e 100 milhões.

filmes %>% 
    ggplot(aes(x = box_office)) + 
    geom_density(fill = "gray", color = "black") + 
    geom_rug(size = .5) 

Abaixo, a bilheteira varia bastante ao longo dos anos, com altos e baixos. Mesma analise para as avalizações ao longo dos anos. Não há um padrão.

distribuicao = filmes %>% 
    ggplot(aes(x = year, y = box_office, label = 'filmes')) + 
    geom_point(size = 1, color = 'black')

ggplotly(distribuicao)
distribuicao = filmes %>% 
    ggplot(aes(x = year, y = rating, label = 'filmes')) + 
    geom_point(size = 1, color = 'black')

ggplotly(distribuicao)

Porém, visualizando as avaliações junto com as bilheterias, percebe-se que há uma leve inclinação positiva na distribuição dos dados. Ter notas altas, em geral, ajuda a ter uma alta bilheteria também. Assim, como mostra a figura abaixo:

distribuicao = filmes %>% 
    ggplot(aes(x = rating, y = box_office, label = 'filmes')) + 
    geom_point(size = 1, color = 'black')

ggplotly(distribuicao)

Clusterização dos dados.

df <- filmes %>%
    select(box_office, rating) %>%
    filter(!is.na(box_office + rating))
row.names(df) <- filmes$title

df <- scale(df)

res <- kmeans(df, 3)

#library("factoextra")
fviz_cluster(res, data = df)

Escolhi dividir os dados em 3 clusters:

Verde (2): possui notas e bilheterias baixas. Vermelho (1): possui notas altas, porém com bilheterias médias. *Azul (3): possui notas e bilheterias altas. Verdadeiros sucesso de crítica e bilheterias.

Como esperado, os filmes de Missão Impossível são sempre bons ou ótimos, estes estão presentes nos clusters vermelhe e azul.

Ethan Hunt (Tom Cruise) fez o impossível para não está no cluter verde :)

Abaixo, a lista de filmes e seus respectivos clusters:

res$cluster
##                      American Made                          The Mummy 
##                                  1                                  2 
##        Jack Reacher: Never Go Back   Mission: Impossible Rogue Nation 
##                                  2                                  1 
##  Live Die Repeat: Edge of Tomorrow                           Oblivion 
##                                  1                                  2 
##                       Jack Reacher                       Rock of Ages 
##                                  1                                  2 
## Mission: Impossible Ghost Protocol                       Knight & Day 
##                                  3                                  2 
##                           Valkyrie                     Tropic Thunder 
##                                  1                                  1 
##                    Lions for Lambs            Mission: Impossible III 
##                                  2                                  1 
##                      Elizabethtown                  War of the Worlds 
##                                  2                                  3 
##                         Collateral                   The Last Samurai 
##                                  1                                  1 
##        Austin Powers in Goldmember                    Minority Report 
##                                  3                                  1 
##                      Space Station 
##                                  1