Análise e pesquisa feitas por:

Bem vindos a esta humilde postagem que tentará visualizar algumas informações contidas nos dados das músicas do rei do baião (confesso que estou escutando agora mesmo). A princípio podemos observar como são compostos nossos dados extraídos da API do Spotify, quais campos temos ? quais seus tipos ? como podemos visualizá-los melhor ?

Importando libs

library(tidyverse)
library(here)
library(cowplot)
library(viridis)
library(ggridges)
library(ggplot2)
library(dplyr)
library(tidyr)
library(forcats)
library(GGally)
theme_set(theme_bw())

Lendo os dados

l_gonzaga = read_csv(here("data/gonzaga_musicas.csv"))

-- Column specification --------------------------------------------------------------------------------------
cols(
  .default = col_double(),
  album_uri = col_character(),
  album_name = col_character(),
  album_img = col_character(),
  album_release_date = col_character(),
  album_release_year = col_date(format = ""),
  track_name = col_character(),
  track_uri = col_character(),
  key = col_character(),
  mode = col_character(),
  key_mode = col_character()
)
i Use `spec()` for the full column specifications.

Nessa nossa primeira análise iremos mostrar dois valores, conhecidos como:

Vamos começar nossa análise buscando explorar quais são os 10 albuns mais e menos populares do Luiz gonzaga, podemos tentar visualizar se esses albuns possuem similaridades ou diferenças de tal maneira que o fizeram se destacar ou não, observando em quesitos de energia e valência.

pop_albuns = l_gonzaga %>%
    group_by(album_name) %>%
    summarise(album_popularity = max(album_popularity))

menos_pop = pop_albuns[order(pop_albuns$album_popularity),] %>%
    head(10)

menos_pop = l_gonzaga %>% 
    filter(album_name %in% menos_pop$album_name)

mais_pop = pop_albuns[order(pop_albuns$album_popularity),] %>%
    tail(10)

mais_pop = l_gonzaga %>% 
    filter(album_name %in% mais_pop$album_name)

menos_pop$pop <- 'menos popular'
mais_pop$pop <- 'mais popular'

pops <- rbind(menos_pop, mais_pop)
pops %>% 
    arrange(album_release_date) %>% 
    ggplot(aes(x = energy, 
               group = pop,
               label = track_name,
               y = valence)) + 
    stat_density2d(aes(fill=..level..), geom="polygon", n = 100, h = .25) +
    scale_fill_viridis() +  # escalas de cores contínuas mais legíveis que as default
    # geom_density2d() + # ou o stat_density ou geom_density
    facet_wrap(~pop) + 
    scale_x_continuous(limits = c(-.05, 1.05)) + 
    scale_y_continuous(limits = c(-.05, 1.05)) + 
    theme(legend.position = "None") + 
    labs(title = "Emoção nas gravações tropicalistas segundo o spotify", 
         subtitle = "A partir da análise de áudio de algumas centenas de faixas de cada um", 
         x = "Energia (+ = rápida, alta, cheia de sons)", 
         y = "Valência (+ = animada, alegre, eufórica)")

Aqui temos um gráfico de densidade para as músicas dos 10 albuns mais e menos populares do Luiz gonzaga, a princípio poderíamos pensar que os albuns menos populares pudessem ser diferentes se tratando de ambas as características, energia e valência, porém vemos no gráfico que o rei do baião se manteve com sua identidade com músicas mais animadas, alegres e rápidas.

Tá mais e ai ? será que os anos de lançamento dos albuns influenciaram na popularidade das músicas do Luiz gonzaga ?

# Plot
pops %>%
  mutate(album_name = fct_reorder(album_name, album_release_year)) %>%
  ggplot( aes(y=album_release_year, x=album_popularity, fill=album_name)) +
    geom_density_ridges(alpha=0.6, stat="binline", bins=20) +
    theme_ridges(
        center = TRUE
    ) +
    labs(title = "Popularidade dos albuns do Luiz Gonzaga ao longo dos anos") +
    theme(
        plot.title = element_text(hjust = 0.5),
        legend.position="bottom",
        panel.spacing = unit(0.1, "lines"),
        strip.text.x = element_text(size = 2)
    ) +
    xlab("Popularidade do album") +
    ylab("Ano de lançamento do album") +
    guides(fill=guide_legend(title="Nome do album"))

Com esse gráfico podemos observar que para os nossos 20 albuns anteriormente escolhidos como, 10 mais populares e 10 menos populares, a sua distribuição de popularidade ao longo dos anos possui um evidente limiar a partir dos albuns lançados entre os anos de 1990 e 2000, isso não quer dizer que seus albuns mais famosos foram lançados a partir dessa data, até porque ele faleceu no ano de 1989, oque podemos tentar sugerir é que alguns albuns conhecidos foram provavelmente re-lançados com melhor qualidade e portanto se torna um fator importante para as pessoas que querem escutar suas músicas.

Para finalizar que tal tentarmos obter a correlação entre todas os seguintes dados para cada música.

OBS: Para a tonalidade da música, que pode ser maior ou menor, optamos por transformar o dado em 1 para músicas com tonalidade maior e -1 para músicas com tonalidade menor.

new_l_gonzaga <- l_gonzaga %>%
    mutate(mode_c = ifelse(test = (mode == 'major'),
                           yes = 1,
                           no = -1
    )) %>% 
    select(danceability, energy, loudness, speechiness, acousticness, instrumentalness, liveness, valence, tempo, mode_c, track_popularity)

ggp = ggpairs(new_l_gonzaga, title="Correlações") 
print(ggp, progress = F)  # no progress bar

Podemos visualizar que os seguintes dados possuem um certa e esperada correlação entre si!

---
title: "Análise das músicas de Luiz Gonzaga no Spotify"
output: html_notebook
---

#### Análise e pesquisa feitas por:

- Leonardo Lima Felix da Silva, instagram: @leo_mirach
- José Augusto Bezerra Neto, instagram: @augustonnt

Bem vindos a esta humilde postagem que tentará visualizar algumas informações contidas nos dados das músicas do rei do baião (confesso que estou escutando agora mesmo).
A princípio podemos observar como são compostos nossos dados extraídos da API do Spotify, quais campos temos ? quais seus tipos ? como podemos visualizá-los melhor ?

#### Importando libs

```{r warning=FALSE, message=FALSE}
library(tidyverse)
library(here)
library(cowplot)
library(viridis)
library(ggridges)
library(ggplot2)
library(dplyr)
library(tidyr)
library(forcats)
library(GGally)
theme_set(theme_bw())
```

#### Lendo os dados

```{r}
l_gonzaga = read_csv(
    here("data/gonzaga_musicas.csv"),
    col_types = cols(
      .default = col_double(),
      album_uri = col_character(),
      album_name = col_character(),
      album_img = col_character(),
      album_release_date = col_character(),
      album_release_year = col_date(format = ""),
      track_name = col_character(),
      track_uri = col_character(),
      key = col_character(),
      mode = col_character(),
      key_mode = col_character()
    )
)
```

Nessa nossa primeira análise iremos mostrar dois valores, conhecidos como: 

- **Energy:** Normalmente, faixas energéticas que se parecem rápidas, altas e barulhentas
- **Valence:** Faixas com alta valência soam mais positivas (por exemplo, feliz, alegre, eufórico), enquanto faixas com baixa valência soam mais negativas (por exemplo, triste, deprimido, com raiva)

**Vamos começar** nossa análise buscando explorar quais são os 10 albuns mais e menos populares do Luiz gonzaga, podemos tentar visualizar se esses albuns possuem similaridades ou diferenças de tal maneira que o fizeram se destacar ou não, observando em quesitos de energia e valência.

```{r}
pop_albuns = l_gonzaga %>%
    group_by(album_name) %>%
    summarise(album_popularity = max(album_popularity))

menos_pop = pop_albuns[order(pop_albuns$album_popularity),] %>%
    head(10)

menos_pop = l_gonzaga %>% 
    filter(album_name %in% menos_pop$album_name)

mais_pop = pop_albuns[order(pop_albuns$album_popularity),] %>%
    tail(10)

mais_pop = l_gonzaga %>% 
    filter(album_name %in% mais_pop$album_name)

menos_pop$pop <- 'menos popular'
mais_pop$pop <- 'mais popular'

pops <- rbind(menos_pop, mais_pop)
```


```{r}
pops %>% 
    arrange(album_release_date) %>% 
    ggplot(aes(x = energy, 
               group = pop,
               label = track_name,
               y = valence)) + 
    stat_density2d(aes(fill=..level..), geom="polygon", n = 100, h = .25) +
    scale_fill_viridis() +  # escalas de cores contínuas mais legíveis que as default
    # geom_density2d() + # ou o stat_density ou geom_density
    facet_wrap(~pop) + 
    scale_x_continuous(limits = c(-.05, 1.05)) + 
    scale_y_continuous(limits = c(-.05, 1.05)) + 
    theme(legend.position = "None") + 
    labs(title = "Emoção nas gravações tropicalistas segundo o spotify", 
         subtitle = "A partir da análise de áudio de algumas centenas de faixas de cada um", 
         x = "Energia (+ = rápida, alta, cheia de sons)", 
         y = "Valência (+ = animada, alegre, eufórica)")
```
Aqui temos um gráfico de densidade para as músicas dos 10 albuns mais e menos populares do Luiz gonzaga, a princípio poderíamos pensar que os albuns menos populares pudessem ser diferentes se tratando de ambas as características, energia e valência, porém vemos no gráfico que o rei do baião se manteve com sua identidade com músicas mais animadas, alegres e rápidas.  

**Tá mais e ai ?** será que os anos de lançamento dos albuns influenciaram na popularidade das músicas do Luiz gonzaga ?

```{r, fig.width = 22, fig.height= 8}
# Plot
pops %>%
  mutate(album_name = fct_reorder(album_name, album_release_year)) %>%
  ggplot( aes(y=album_release_year, x=album_popularity, fill=album_name)) +
    geom_density_ridges(alpha=0.6, stat="binline", bins=20) +
    theme_ridges(
        center = TRUE
    ) +
    labs(title = "Popularidade dos albuns do Luiz Gonzaga ao longo dos anos") +
    theme(
        plot.title = element_text(hjust = 0.5),
        legend.position="bottom",
        panel.spacing = unit(0.1, "lines"),
        strip.text.x = element_text(size = 2)
    ) +
    xlab("Popularidade do album") +
    ylab("Ano de lançamento do album") +
    guides(fill=guide_legend(title="Nome do album"))
```
Com esse gráfico podemos observar que para os nossos 20 albuns anteriormente escolhidos como, 10 mais populares e 10 menos populares, a sua distribuição de popularidade ao longo dos anos possui um evidente limiar a partir dos albuns lançados entre os anos de 1990 e 2000, isso não quer dizer que seus albuns mais famosos foram lançados a partir dessa data, até porque ele faleceu no ano de 1989, oque podemos tentar sugerir é que alguns albuns conhecidos foram provavelmente re-lançados com melhor qualidade e portanto se torna um fator importante para as pessoas que querem escutar suas músicas.

**Para finalizar** que tal tentarmos obter a correlação entre todas os seguintes dados para cada música. 

- **danceability:** Descreve como uma faixa é adequada para dançar combinando elementos musicais; tempo, ritmo, batida e regularidade geral
- **energy:** Normalmente, faixas energéticas que se parecem rápidas, altas e barulhentas.
- **loudness:** O volume ou nível de audibilidade do som.
- **speechiness:** Detecta a presença de palavras faladas em uma faixa.
- **acoustiness:** Representa se a faixa é acústica ou não.
- **instrumentalness:** Este valor representa a quantidade de vocais na música, ou seja, quanto mais próximo a 1 mais significia que é uma música instrumental.
- **liveness:** Este valor descreve a probabilidade de a música ter sido gravada com um público ao vivo.
- **valence:** Faixas com alta valência soam mais positivas (por exemplo, feliz, alegre, eufórico), enquanto faixas com baixa valência soam mais negativas (por exemplo, triste, deprimido, com raiva).
- **Tempo da música:** :p
- **Tonalidade da música:** :p
- **Popularidade da música:** :p

OBS: Para a tonalidade da música, que pode ser maior ou menor, optamos por transformar o dado em 1 para músicas com tonalidade maior e -1 para músicas com tonalidade menor.

```{r, fig.width = 12, fig.height = 8, warning=FALSE, message=FALSE}
new_l_gonzaga <- l_gonzaga %>%
    mutate(mode_c = ifelse(test = (mode == 'major'),
                           yes = 1,
                           no = -1
    )) %>% 
    select(danceability, energy, loudness, speechiness, acousticness, instrumentalness, liveness, valence, tempo, mode_c, track_popularity)

ggp = ggpairs(new_l_gonzaga, title="Correlações") 
print(ggp, progress = F)  # no progress bar
```
Podemos visualizar que os seguintes dados possuem um certa e esperada correlação entre si!

- **Valence e Danceability**: Faz sentido! visto que ambas indicam músicas com volume mais altos ou mais animadas.
- **Valence e Energy**: Aqui o mesmo se repete! para músicas altas, rápidas e barulhentas.
- **Acoustiness e Energy**: Interessante! aqui para as músicas do Luiz, quanto mais acustica é a música, mais ela tende a ter valores menores de energia, e vice e versa.
- **Loudness e Energy**: Similar as outras correlações vistas, dado que o volume da música tende a aumentar quando ela é mais animada!
