Análise e pesquisa feitas por:

Bem vindos a esta humilde postagem que tentará visualizar algumas informações contidas nos dados das músicas do rei do baião (confesso que estou escutando agora mesmo). A princípio podemos observar como são compostos nossos dados extraídos da API do Spotify, quais campos temos ? quais seus tipos ? como podemos visualizá-los melhor ?

Importando libs

library(tidyverse)
library(here)
library(cowplot)
library(viridis)
library(ggridges)
library(ggplot2)
library(dplyr)
library(tidyr)
library(forcats)
library(GGally)
theme_set(theme_bw())

Lendo os dados

l_gonzaga = read_csv(here("data/gonzaga_musicas.csv"))

-- Column specification --------------------------------------------------------------------------------------
cols(
  .default = col_double(),
  album_uri = col_character(),
  album_name = col_character(),
  album_img = col_character(),
  album_release_date = col_character(),
  album_release_year = col_date(format = ""),
  track_name = col_character(),
  track_uri = col_character(),
  key = col_character(),
  mode = col_character(),
  key_mode = col_character()
)
i Use `spec()` for the full column specifications.

Nessa nossa primeira análise iremos mostrar dois valores, conhecidos como:

Vamos começar nossa análise buscando explorar quais são os 10 albuns mais e menos populares do Luiz gonzaga, podemos tentar visualizar se esses albuns possuem similaridades ou diferenças de tal maneira que o fizeram se destacar ou não, observando em quesitos de energia e valência.

pop_albuns = l_gonzaga %>%
    group_by(album_name) %>%
    summarise(album_popularity = max(album_popularity))

menos_pop = pop_albuns[order(pop_albuns$album_popularity),] %>%
    head(10)

menos_pop = l_gonzaga %>% 
    filter(album_name %in% menos_pop$album_name)

mais_pop = pop_albuns[order(pop_albuns$album_popularity),] %>%
    tail(10)

mais_pop = l_gonzaga %>% 
    filter(album_name %in% mais_pop$album_name)

menos_pop$pop <- 'menos popular'
mais_pop$pop <- 'mais popular'

pops <- rbind(menos_pop, mais_pop)
pops %>% 
    arrange(album_release_date) %>% 
    ggplot(aes(x = energy, 
               group = pop,
               label = track_name,
               y = valence)) + 
    stat_density2d(aes(fill=..level..), geom="polygon", n = 100, h = .25) +
    scale_fill_viridis() +  # escalas de cores contínuas mais legíveis que as default
    # geom_density2d() + # ou o stat_density ou geom_density
    facet_wrap(~pop) + 
    scale_x_continuous(limits = c(-.05, 1.05)) + 
    scale_y_continuous(limits = c(-.05, 1.05)) + 
    theme(legend.position = "None") + 
    labs(title = "Emoção nas gravações tropicalistas segundo o spotify", 
         subtitle = "A partir da análise de áudio de algumas centenas de faixas de cada um", 
         x = "Energia (+ = rápida, alta, cheia de sons)", 
         y = "Valência (+ = animada, alegre, eufórica)")

Aqui temos um gráfico de densidade para as músicas dos 10 albuns mais e menos populares do Luiz gonzaga, a princípio poderíamos pensar que os albuns menos populares pudessem ser diferentes se tratando de ambas as características, energia e valência, porém vemos no gráfico que o rei do baião se manteve com sua identidade com músicas mais animadas, alegres e rápidas.

Tá mais e ai ? será que os anos de lançamento dos albuns influenciaram na popularidade das músicas do Luiz gonzaga ?

# Plot
pops %>%
  mutate(album_name = fct_reorder(album_name, album_release_year)) %>%
  ggplot( aes(y=album_release_year, x=album_popularity, fill=album_name)) +
    geom_density_ridges(alpha=0.6, stat="binline", bins=20) +
    theme_ridges(
        center = TRUE
    ) +
    labs(title = "Popularidade dos albuns do Luiz Gonzaga ao longo dos anos") +
    theme(
        plot.title = element_text(hjust = 0.5),
        legend.position="bottom",
        panel.spacing = unit(0.1, "lines"),
        strip.text.x = element_text(size = 2)
    ) +
    xlab("Popularidade do album") +
    ylab("Ano de lançamento do album") +
    guides(fill=guide_legend(title="Nome do album"))

Com esse gráfico podemos observar que para os nossos 20 albuns anteriormente escolhidos como, 10 mais populares e 10 menos populares, a sua distribuição de popularidade ao longo dos anos possui um evidente limiar a partir dos albuns lançados entre os anos de 1990 e 2000, isso não quer dizer que seus albuns mais famosos foram lançados a partir dessa data, até porque ele faleceu no ano de 1989, oque podemos tentar sugerir é que alguns albuns conhecidos foram provavelmente re-lançados com melhor qualidade e portanto se torna um fator importante para as pessoas que querem escutar suas músicas.

Para finalizar que tal tentarmos obter a correlação entre todas os seguintes dados para cada música.

OBS: Para a tonalidade da música, que pode ser maior ou menor, optamos por transformar o dado em 1 para músicas com tonalidade maior e -1 para músicas com tonalidade menor.

new_l_gonzaga <- l_gonzaga %>%
    mutate(mode_c = ifelse(test = (mode == 'major'),
                           yes = 1,
                           no = -1
    )) %>% 
    select(danceability, energy, loudness, speechiness, acousticness, instrumentalness, liveness, valence, tempo, mode_c, track_popularity)

ggp = ggpairs(new_l_gonzaga, title="Correlações") 
print(ggp, progress = F)  # no progress bar

Podemos visualizar que os seguintes dados possuem um certa e esperada correlação entre si!

