Lendo os dados
l_gonzaga = read_csv(here("data/gonzaga_musicas.csv"))
-- Column specification --------------------------------------------------------------------------------------
cols(
.default = col_double(),
album_uri = col_character(),
album_name = col_character(),
album_img = col_character(),
album_release_date = col_character(),
album_release_year = col_date(format = ""),
track_name = col_character(),
track_uri = col_character(),
key = col_character(),
mode = col_character(),
key_mode = col_character()
)
i Use `spec()` for the full column specifications.
Nessa nossa primeira análise iremos mostrar dois valores, conhecidos como:
- Energy: Normalmente, faixas energéticas que se parecem rápidas, altas e barulhentas
- Valence: Faixas com alta valência soam mais positivas (por exemplo, feliz, alegre, eufórico), enquanto faixas com baixa valência soam mais negativas (por exemplo, triste, deprimido, com raiva)
Vamos começar nossa análise buscando explorar quais são os 10 albuns mais e menos populares do Luiz gonzaga, podemos tentar visualizar se esses albuns possuem similaridades ou diferenças de tal maneira que o fizeram se destacar ou não, observando em quesitos de energia e valência.
pop_albuns = l_gonzaga %>%
group_by(album_name) %>%
summarise(album_popularity = max(album_popularity))
menos_pop = pop_albuns[order(pop_albuns$album_popularity),] %>%
head(10)
menos_pop = l_gonzaga %>%
filter(album_name %in% menos_pop$album_name)
mais_pop = pop_albuns[order(pop_albuns$album_popularity),] %>%
tail(10)
mais_pop = l_gonzaga %>%
filter(album_name %in% mais_pop$album_name)
menos_pop$pop <- 'menos popular'
mais_pop$pop <- 'mais popular'
pops <- rbind(menos_pop, mais_pop)
pops %>%
arrange(album_release_date) %>%
ggplot(aes(x = energy,
group = pop,
label = track_name,
y = valence)) +
stat_density2d(aes(fill=..level..), geom="polygon", n = 100, h = .25) +
scale_fill_viridis() + # escalas de cores contínuas mais legíveis que as default
# geom_density2d() + # ou o stat_density ou geom_density
facet_wrap(~pop) +
scale_x_continuous(limits = c(-.05, 1.05)) +
scale_y_continuous(limits = c(-.05, 1.05)) +
theme(legend.position = "None") +
labs(title = "Emoção nas gravações tropicalistas segundo o spotify",
subtitle = "A partir da análise de áudio de algumas centenas de faixas de cada um",
x = "Energia (+ = rápida, alta, cheia de sons)",
y = "Valência (+ = animada, alegre, eufórica)")

Aqui temos um gráfico de densidade para as músicas dos 10 albuns mais e menos populares do Luiz gonzaga, a princípio poderíamos pensar que os albuns menos populares pudessem ser diferentes se tratando de ambas as características, energia e valência, porém vemos no gráfico que o rei do baião se manteve com sua identidade com músicas mais animadas, alegres e rápidas.
Tá mais e ai ? será que os anos de lançamento dos albuns influenciaram na popularidade das músicas do Luiz gonzaga ?
# Plot
pops %>%
mutate(album_name = fct_reorder(album_name, album_release_year)) %>%
ggplot( aes(y=album_release_year, x=album_popularity, fill=album_name)) +
geom_density_ridges(alpha=0.6, stat="binline", bins=20) +
theme_ridges(
center = TRUE
) +
labs(title = "Popularidade dos albuns do Luiz Gonzaga ao longo dos anos") +
theme(
plot.title = element_text(hjust = 0.5),
legend.position="bottom",
panel.spacing = unit(0.1, "lines"),
strip.text.x = element_text(size = 2)
) +
xlab("Popularidade do album") +
ylab("Ano de lançamento do album") +
guides(fill=guide_legend(title="Nome do album"))

Com esse gráfico podemos observar que para os nossos 20 albuns anteriormente escolhidos como, 10 mais populares e 10 menos populares, a sua distribuição de popularidade ao longo dos anos possui um evidente limiar a partir dos albuns lançados entre os anos de 1990 e 2000, isso não quer dizer que seus albuns mais famosos foram lançados a partir dessa data, até porque ele faleceu no ano de 1989, oque podemos tentar sugerir é que alguns albuns conhecidos foram provavelmente re-lançados com melhor qualidade e portanto se torna um fator importante para as pessoas que querem escutar suas músicas.
Para finalizar que tal tentarmos obter a correlação entre todas os seguintes dados para cada música.
- danceability: Descreve como uma faixa é adequada para dançar combinando elementos musicais; tempo, ritmo, batida e regularidade geral
- energy: Normalmente, faixas energéticas que se parecem rápidas, altas e barulhentas.
- loudness: O volume ou nível de audibilidade do som.
- speechiness: Detecta a presença de palavras faladas em uma faixa.
- acoustiness: Representa se a faixa é acústica ou não.
- instrumentalness: Este valor representa a quantidade de vocais na música, ou seja, quanto mais próximo a 1 mais significia que é uma música instrumental.
- liveness: Este valor descreve a probabilidade de a música ter sido gravada com um público ao vivo.
- valence: Faixas com alta valência soam mais positivas (por exemplo, feliz, alegre, eufórico), enquanto faixas com baixa valência soam mais negativas (por exemplo, triste, deprimido, com raiva).
- Tempo da música: :p
- Tonalidade da música: :p
- Popularidade da música: :p
OBS: Para a tonalidade da música, que pode ser maior ou menor, optamos por transformar o dado em 1 para músicas com tonalidade maior e -1 para músicas com tonalidade menor.
new_l_gonzaga <- l_gonzaga %>%
mutate(mode_c = ifelse(test = (mode == 'major'),
yes = 1,
no = -1
)) %>%
select(danceability, energy, loudness, speechiness, acousticness, instrumentalness, liveness, valence, tempo, mode_c, track_popularity)
ggp = ggpairs(new_l_gonzaga, title="Correlações")
print(ggp, progress = F) # no progress bar

Podemos visualizar que os seguintes dados possuem um certa e esperada correlação entre si!
- Valence e Danceability: Faz sentido! visto que ambas indicam músicas com volume mais altos ou mais animadas.
- Valence e Energy: Aqui o mesmo se repete! para músicas altas, rápidas e barulhentas.
- Acoustiness e Energy: Interessante! aqui para as músicas do Luiz, quanto mais acustica é a música, mais ela tende a ter valores menores de energia, e vice e versa.
- Loudness e Energy: Similar as outras correlações vistas, dado que o volume da música tende a aumentar quando ela é mais animada!
---
title: "Análise das músicas de Luiz Gonzaga no Spotify"
output: html_notebook
---

#### Análise e pesquisa feitas por:

- Leonardo Lima Felix da Silva, instagram: @leo_mirach
- José Augusto Bezerra Neto, instagram: @augustonnt

Bem vindos a esta humilde postagem que tentará visualizar algumas informações contidas nos dados das músicas do rei do baião (confesso que estou escutando agora mesmo).
A princípio podemos observar como são compostos nossos dados extraídos da API do Spotify, quais campos temos ? quais seus tipos ? como podemos visualizá-los melhor ?

#### Importando libs

```{r warning=FALSE, message=FALSE}
library(tidyverse)
library(here)
library(cowplot)
library(viridis)
library(ggridges)
library(ggplot2)
library(dplyr)
library(tidyr)
library(forcats)
library(GGally)
theme_set(theme_bw())
```

#### Lendo os dados

```{r}
l_gonzaga = read_csv(
    here("data/gonzaga_musicas.csv"),
    col_types = cols(
      .default = col_double(),
      album_uri = col_character(),
      album_name = col_character(),
      album_img = col_character(),
      album_release_date = col_character(),
      album_release_year = col_date(format = ""),
      track_name = col_character(),
      track_uri = col_character(),
      key = col_character(),
      mode = col_character(),
      key_mode = col_character()
    )
)
```

Nessa nossa primeira análise iremos mostrar dois valores, conhecidos como: 

- **Energy:** Normalmente, faixas energéticas que se parecem rápidas, altas e barulhentas
- **Valence:** Faixas com alta valência soam mais positivas (por exemplo, feliz, alegre, eufórico), enquanto faixas com baixa valência soam mais negativas (por exemplo, triste, deprimido, com raiva)

**Vamos começar** nossa análise buscando explorar quais são os 10 albuns mais e menos populares do Luiz gonzaga, podemos tentar visualizar se esses albuns possuem similaridades ou diferenças de tal maneira que o fizeram se destacar ou não, observando em quesitos de energia e valência.

```{r}
pop_albuns = l_gonzaga %>%
    group_by(album_name) %>%
    summarise(album_popularity = max(album_popularity))

menos_pop = pop_albuns[order(pop_albuns$album_popularity),] %>%
    head(10)

menos_pop = l_gonzaga %>% 
    filter(album_name %in% menos_pop$album_name)

mais_pop = pop_albuns[order(pop_albuns$album_popularity),] %>%
    tail(10)

mais_pop = l_gonzaga %>% 
    filter(album_name %in% mais_pop$album_name)

menos_pop$pop <- 'menos popular'
mais_pop$pop <- 'mais popular'

pops <- rbind(menos_pop, mais_pop)
```


```{r}
pops %>% 
    arrange(album_release_date) %>% 
    ggplot(aes(x = energy, 
               group = pop,
               label = track_name,
               y = valence)) + 
    stat_density2d(aes(fill=..level..), geom="polygon", n = 100, h = .25) +
    scale_fill_viridis() +  # escalas de cores contínuas mais legíveis que as default
    # geom_density2d() + # ou o stat_density ou geom_density
    facet_wrap(~pop) + 
    scale_x_continuous(limits = c(-.05, 1.05)) + 
    scale_y_continuous(limits = c(-.05, 1.05)) + 
    theme(legend.position = "None") + 
    labs(title = "Emoção nas gravações tropicalistas segundo o spotify", 
         subtitle = "A partir da análise de áudio de algumas centenas de faixas de cada um", 
         x = "Energia (+ = rápida, alta, cheia de sons)", 
         y = "Valência (+ = animada, alegre, eufórica)")
```
Aqui temos um gráfico de densidade para as músicas dos 10 albuns mais e menos populares do Luiz gonzaga, a princípio poderíamos pensar que os albuns menos populares pudessem ser diferentes se tratando de ambas as características, energia e valência, porém vemos no gráfico que o rei do baião se manteve com sua identidade com músicas mais animadas, alegres e rápidas.  

**Tá mais e ai ?** será que os anos de lançamento dos albuns influenciaram na popularidade das músicas do Luiz gonzaga ?

```{r, fig.width = 22, fig.height= 8}
# Plot
pops %>%
  mutate(album_name = fct_reorder(album_name, album_release_year)) %>%
  ggplot( aes(y=album_release_year, x=album_popularity, fill=album_name)) +
    geom_density_ridges(alpha=0.6, stat="binline", bins=20) +
    theme_ridges(
        center = TRUE
    ) +
    labs(title = "Popularidade dos albuns do Luiz Gonzaga ao longo dos anos") +
    theme(
        plot.title = element_text(hjust = 0.5),
        legend.position="bottom",
        panel.spacing = unit(0.1, "lines"),
        strip.text.x = element_text(size = 2)
    ) +
    xlab("Popularidade do album") +
    ylab("Ano de lançamento do album") +
    guides(fill=guide_legend(title="Nome do album"))
```
Com esse gráfico podemos observar que para os nossos 20 albuns anteriormente escolhidos como, 10 mais populares e 10 menos populares, a sua distribuição de popularidade ao longo dos anos possui um evidente limiar a partir dos albuns lançados entre os anos de 1990 e 2000, isso não quer dizer que seus albuns mais famosos foram lançados a partir dessa data, até porque ele faleceu no ano de 1989, oque podemos tentar sugerir é que alguns albuns conhecidos foram provavelmente re-lançados com melhor qualidade e portanto se torna um fator importante para as pessoas que querem escutar suas músicas.

**Para finalizar** que tal tentarmos obter a correlação entre todas os seguintes dados para cada música. 

- **danceability:** Descreve como uma faixa é adequada para dançar combinando elementos musicais; tempo, ritmo, batida e regularidade geral
- **energy:** Normalmente, faixas energéticas que se parecem rápidas, altas e barulhentas.
- **loudness:** O volume ou nível de audibilidade do som.
- **speechiness:** Detecta a presença de palavras faladas em uma faixa.
- **acoustiness:** Representa se a faixa é acústica ou não.
- **instrumentalness:** Este valor representa a quantidade de vocais na música, ou seja, quanto mais próximo a 1 mais significia que é uma música instrumental.
- **liveness:** Este valor descreve a probabilidade de a música ter sido gravada com um público ao vivo.
- **valence:** Faixas com alta valência soam mais positivas (por exemplo, feliz, alegre, eufórico), enquanto faixas com baixa valência soam mais negativas (por exemplo, triste, deprimido, com raiva).
- **Tempo da música:** :p
- **Tonalidade da música:** :p
- **Popularidade da música:** :p

OBS: Para a tonalidade da música, que pode ser maior ou menor, optamos por transformar o dado em 1 para músicas com tonalidade maior e -1 para músicas com tonalidade menor.

```{r, fig.width = 12, fig.height = 8, warning=FALSE, message=FALSE}
new_l_gonzaga <- l_gonzaga %>%
    mutate(mode_c = ifelse(test = (mode == 'major'),
                           yes = 1,
                           no = -1
    )) %>% 
    select(danceability, energy, loudness, speechiness, acousticness, instrumentalness, liveness, valence, tempo, mode_c, track_popularity)

ggp = ggpairs(new_l_gonzaga, title="Correlações") 
print(ggp, progress = F)  # no progress bar
```
Podemos visualizar que os seguintes dados possuem um certa e esperada correlação entre si!

- **Valence e Danceability**: Faz sentido! visto que ambas indicam músicas com volume mais altos ou mais animadas.
- **Valence e Energy**: Aqui o mesmo se repete! para músicas altas, rápidas e barulhentas.
- **Acoustiness e Energy**: Interessante! aqui para as músicas do Luiz, quanto mais acustica é a música, mais ela tende a ter valores menores de energia, e vice e versa.
- **Loudness e Energy**: Similar as outras correlações vistas, dado que o volume da música tende a aumentar quando ela é mais animada!
