## Loading required package: rvest
## Loading required package: xml2
## 
## Attaching package: 'rvest'
## The following object is masked from 'package:purrr':
## 
##     pluck
## The following object is masked from 'package:readr':
## 
##     guess_encoding
## Warning: NAs introduced by coercion

Agrupamento K-Means, Avaliação do Filme:

Agrupamento utilizando o algoritmo K-Means, partindo do parâmetro Avaliação. Os agrupamentos foram designados para distinguir as avaliações dos filmes, sendo distribuidos em 4 grupos. Assim podemos identificar 4 categorias diferentes de filmes e definir, um padrão de qualiadade.

aval = filmes %>% 
    mutate(avaliacao_log = log10(avaliacao))

#summary(aval %>% select(avaliacao, avaliacao_log))

n_clusters = 4

# O agrupamento de fato:
kaval = aval %>% 
    select(avaliacao_log) %>% 
    kmeans(centers = n_clusters, nstart = 20)

agrupado_aval = kaval %>% 
    augment(aval)

av = agrupado_aval %>%
    ggplot(aes(x = filme, y = avaliacao_log, color = .cluster))  + 
    geom_point() + 
    scale_y_log10()+
    coord_flip() + 
    labs(x = "Filme",
         y = "Avaliação")

ggplotly(av)

Agrupamento K-Means, Bilheteria do Filme:

Agrupamento utilizando o algoritmo K-Means, partindo do parâmetro Bilheteria.Os agrupamentos foram designados para distinguir as bilheterias dos filmes, sendo distribuidos em 4 grupos. Assim podemos identificar 4 categorias diferentes que definem o quão vendáveis os filmes foram.

bilhet = filmes %>% 
    mutate(bilheteria_log = log10(bilheteria))

#summary(bilhet %>% select(bilheteria, bilheteria_log))

n_clusters = 4

# O agrupamento de fato:
kbilhet = bilhet %>% 
    select(bilheteria_log) %>% 
    kmeans(centers = n_clusters, nstart = 20)

agrupado_bilhet = kbilhet %>% 
    augment(bilhet)

ab = agrupado_bilhet %>% 
    ggplot(aes(x = filme, y = bilheteria_log, color = .cluster))  + 
    geom_point() + 
    scale_y_log10()+
    coord_flip() + 
    labs(x = "Filme",
         y = "Bilheteria")

ggplotly(ab)