import_data("robert_downey_jr")
## Loading required package: rvest
##
## Attaching package: 'rvest'
## The following object is masked from 'package:readr':
##
## guess_encoding
## Loading required package: janitor
##
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
##
## chisq.test, fisher.test
filmes = read_imported_data("robert_downey_jr")
Neste blog iremos utilizar os dados de Robert Downey Jr. Os dados foram retirados do Rotten Tomatoes que contam com uma coletanea de 49 filmes, que foram gravados desde a decada de 1980 até a decada atual. Robert é um ator muito conhecido por seus filmes de grande sucesso, desde de Sherlock holmes até interpretando o Homem de Ferro no Universo Cinematografico Marvel.
p = filmes %>%
ggplot(aes(x = ano, y = bilheteria, label = filme)) +
geom_point(size = 4, color = paleta[1])
ggplotly(p)
Primeiramente Estamos analisando seus filmes com relação a avaliação e bilheteria. Aqui podemos ver que grande parte dos dados estão com uma bilheteria ate 250 milhoes. De acordo com o grafico acima, é possivel analisar que seus filmes com maiores bilheterias são aqueles que ele atuou como Homem de Ferro, dentro do universo marvel. Sua bilheteria está acima de 500 milhoes de Dolares. Nesse grafico de pontos abaixo, podemos uma distribuição bastante esparça, não parecendo haver uma correlação forte entre as variaveis.
filmes %>%
ggplot(aes(x = avaliacao, y = bilheteria))+
geom_point()+
scale_y_log10()
filmes_robert = filmes %>%
select(bilheteria, avaliacao)
robert_df = as.data.frame(filmes_robert)
set.seed(1234)
robert_kmean = kmeans(robert_df, centers=5,nstart = 10)
previsao = robert_kmean$cluster
robert_df %>%
ggplot(aes(x = avaliacao, y = bilheteria)) +
geom_point(color=previsao, shape=previsao)+
labs(
x = "Avaliação",
y = "Bilheteria",
subtitle="Grafico de pontos de Bilheteria X Avaliação"
)
Para analisarmos os dados, foi separado em 5 grupos: