Conhecendo Tom Hanks

Tom Hanks é um ator e produtor, iniciou sua carreira no filme Trilha de Corpos, mas foi graças ao programa de TV Bosom Buddies, na qual o ator trabalha com comédia que recebeu o seu convite de volta ao cinema, como o filme Slash ( 1984 ), e emplacando em seguida outras comédias. Mas foi apenas em 1993, com o filme Filadélfia que Tom Hanks obtém seu primeiro oscar, e logo em 1994 com o filme Forrest Gump, Tom Hanks iria ser consagrado com a sua segunda estatueta dourada algo que foi obtido apenas a 60 anos antes. Logo Tom Hanks se tornaria um dos maiores astros de Hollywood, e passou a emendar um sucesso após o outro, como Toy Story, Resgate do Soldado Ryan, Prenda-me Se for Capaz e entre outros.

Agora já que conhecemos um pouco de Tom Hanks vamos ver, como os seus filmes e como são agrupados em bilheteria e avaliação no Rotten Tomatoes.

Descrição dos dados

Os dados utilizados foram obtidos através do site Rotten Tomatoes. Onde utilizou uma base de dados que contém informações sobre as participações do ator Tom Hanks nos filmes. Onde através desse relatório vamos utilizar as técnicas de clusterização para entender como os filmes de Tom Hanks se comportam. Como podemos ver, iremos realizar a análise de 22 filmes de Tom Hanks, que são em seu conjunto de dados divididos entre: Nome do filme, Papel/Nome do Personagem, avaliação e bilheteria.

summary(filmes)

Já que queremos agrupar em filmes, que tal verificarmos como a bilheteria e a avaliação em um gráfico de dispersão podemos gerar um gráfico.

Podemos entender dado esse gráfico uma leve estrutura de grupos, onde alguns grupos estão associados em relação a avaliação e a bilheteria.

Já que queremos extrair da melhor maneira, vamos entender melhor as variáveis de interesse em sua conjuntura e visualizar sua distribuição.

Entendemos a partir do histograma, que a maioria dos filmes possuem uma bilheteria inferior a 200 milhões de dolares, por outro lado, temos que a maioria das avaliações são superiores a 70, além disso percebemos que não são distribuições simétricas, ou seja, valores dispersos entre altos e baixos.

Vamos utilizar uma função logarítimica afim de reduzir estas distâncias, e redesenhar no gráfico de dispersão.

Como vimos, nessa nova faixa de valores, percebemos uma estrutura de grupos muito mais definida do que anteriormente.

Estrutura de grupos?

Agrupamento hierárquico

Aqui montamos um cluster hierárquico utilizando o método de complete, como resultado temos um dendrograma com os 22 filmes,concluimos que com esse dendograma, um bom número de agrupamento seria 5, como podemos observar;

Paa melhor visualização, vamos utilizar esse guia mostrando agrupamentos entre 1 a 6 grupos. O grupo com 5 clusters, é de melhor visualização pois, a nuvem de pontos se encontra melhor distruibuida por todo o conjunto de dados e podemos separar visualmente os grupos e entender como são de acordo com a bilheteria.

Visualizando as nossas distribuições temos, no primeiro gráfico em ordem de crescente de avaliação dos filmes de acordo com os grupos, os grupos de visualização foram baseados nos índices de avaliação dos usuários do Rotten Tomatoes, para melhor entendimento dos grupos e dos filmes é so passar o mouse em cima ;).

Dando nome aos bois: