L2P3: Agrupamentos de filmes com kmeans

DESCRIÇÃO

filmes %>% 
    ggplot(aes(x = ano, y = bilheteria)) + 
    geom_point(size = 4, color = paleta[1])

Para o ator Rodrigo Santoro, os filmes de maior bilheteria se encontram no meio de sua carreira.

filmes %>% 
    ggplot(aes(x = bilheteria)) + 
    geom_histogram(binwidth = 15, fill = paleta[2], color = "black") + 
    geom_rug(size = .5)

Vemos que a quantidade de filmes que ultrapassaram a marca de 100 milhões de dólares em bilheteria foram 4. Destaque para dois, que ultrapassaram 150 milhões de dólares.

filmes %>% 
    ggplot(aes(x = avaliacao)) + 
    geom_histogram(binwidth = 10, boundary = 0, fill = paleta[3], color = "black") + 
    geom_rug(size = .5)

Vemos que a maior parte das notas dadas na avaliação se concentram entre 40 e 80. Observamos que a faixa de nota que recebeu mais avaliação foi entre 40 e 50, sendo 5 no total.

Agora, iremos agrupar os dados dos filmes de acordo com dois critérios: sucesso de público (bilheteria) e sucesso de crítica.

agrupamento_h = filmes %>% 
    mutate(nome = paste0(filme, 
                         " (av=", 
                         bilheteria, 
                         ")")) %>% 
    as.data.frame() %>% 
    column_to_rownames("filme") %>% 
    select(bilheteria) %>%
    dist(method = "euclidian") %>% 
    hclust(method = "complete")

get_grupos <- function(agrupamento, num_grupos){
    agrupamento %>% 
        cutree(num_grupos) %>% 
        as.data.frame() %>% 
        mutate(label = rownames(.)) %>% 
        gather(key =  "k", value = "grupo", -label) %>% 
        mutate(grupo = as.character(grupo))
}

atribuicoes = get_grupos(agrupamento_h, num_grupos = 1:6)

atribuicoes = atribuicoes %>% 
    left_join(filmes, by = c("label" = "filme"))

atribuicoes %>% 
    ggplot(aes(x = "Filmes", y = bilheteria, colour = grupo)) + 
    geom_jitter(width = .02, height = 0, size = 1.6, alpha = .6) + 
    facet_wrap(~ paste(k, " grupos")) + 
    scale_color_brewer(palette = "Dark2")

Primeiro faremos para o sucesso de bilheteria.

k_escolhido = 3

atribuicoes %>% 
    filter(k == k_escolhido) %>% 
    ggplot(aes(x = reorder(label, bilheteria), y = bilheteria, colour = grupo)) + 
    geom_jitter(width = .02, height = 0, size = 3, alpha = .6) + 
    facet_wrap(~ paste(k, " grupos")) + 
    scale_color_brewer(palette = "Dark2") + 
    labs(x = "", y = "Bilheteria") + 
    coord_flip()

Observamos que, em relação a bilheteria, com 3 grupos distintos, a divisão se caracteriza pelo filme 300, de maior bilheteria, ocupando um único grupo, pelo fato do mesmo estar razoavelmente afastado dos demais filmes nesse critério. O segundo grupo é formado por 4 filmes de bilheteria pouco menor que 100 milhões e 150 milhões, são filmes de razoável sucesso. Já o terceiro grupo é formado pelos filmes que alcançaram uma bilheteria modesta, se comparadas com o restante. Esse grupo engloba os filmes com bilhteria até pouco mais que 50 milhões de dólares.

Agora, faremos o agrupamento para o sucesso de crítica.

agrupamento_h = filmes %>% 
    mutate(nome = paste0(filme, 
                         " (av=", 
                         avaliacao, 
                         ")")) %>% 
    as.data.frame() %>% 
    column_to_rownames("filme") %>% 
    select(avaliacao) %>%
    dist(method = "euclidian") %>% 
    hclust(method = "complete")

get_grupos <- function(agrupamento, num_grupos){
    agrupamento %>% 
        cutree(num_grupos) %>% 
        as.data.frame() %>% 
        mutate(label = rownames(.)) %>% 
        gather(key =  "k", value = "grupo", -label) %>% 
        mutate(grupo = as.character(grupo))
}

atribuicoes = get_grupos(agrupamento_h, num_grupos = 1:6)

atribuicoes = atribuicoes %>% 
    left_join(filmes, by = c("label" = "filme"))

k_escolhido = 3

atribuicoes %>% 
    filter(k == k_escolhido) %>% 
    ggplot(aes(x = reorder(label, avaliacao), y = avaliacao, colour = grupo)) + 
    geom_jitter(width = .02, height = 0, size = 3, alpha = .6) + 
    facet_wrap(~ paste(k, " grupos")) + 
    scale_color_brewer(palette = "Dark2") + 
    labs(x = "", y = "Bilheteria") + 
    coord_flip()

Agora, em relação ao sucesso de crítica, temos um primeiro grupo, com nota de pouco menos que 70 até pouco menos de 80. São os 5 filmes mais bem avaliados. No segundo grupo, temos as notas indo de um pouco mais que 40 até um pouco mais que 60. Esse é o grupo mais populoso de filmes, possuindo 9 filmes classificados. Por último, temos os que obtiveram as notas mais baixas. Esse grupo compreende notas de pouco mais que 0 até pouco menos que 30. É o menor grupo em quantidade, possuindo 4 filmes classificados.

L2P3: Agrupamentos de filmes com kmeans

José Ivan Silva da Cruz Júnior

DESCRIÇÃO