library(tidyverse)
library(here)
library(cluster)
library(plotly)
library(factoextra)
source(here::here("code/lib.R"))
theme_set(theme_report())

knitr::opts_chunk$set(tidy = FALSE,
                      fig.width = 6,
                      fig.height = 5,
                      echo = TRUE)

paleta = c("#404E4D",
           "#92DCE5",
           "#938BA1",
           "#2D3142",
           "#F4743B")
tops <- read_csv("../data/tops.csv")

Introdução

Descobrir o gosto musical de uma pessoa nos faz entender um pouco mais sobre ela, sobre suas características e personalidade. Goste ela de uma música mais ou menos dançante, mais enérgica ou mais calma, mais positiva ou triste, tudo isso pode nos dizer muito sobre essa pessoa e a nova descoberta que estamos fazendo sobre ela. Tendo isso em mente, por que não entender melhor o gosto musical de um país inteiro? Ou do mundo?

Com esse objetivo, essa análise se utiliza dos dados fornecidos pela API do Spotify das suas playlists semanais criadas para as Top 50 músicas mais ouvidas no Brasil e as Top 50 músicas mais ouvidas globalmente – nesse caso as Top 50 da primeira semana de outubro de 2021. Para estudar o perfil brasileiro e global nas músicas mais tocadas, inicialmente será realizada uma análise exploratória dos dados coletados e, em seguida, entender possíveis grupos presentes nesses perfis musicais.

Os dados

Tendo os dados sido coletados através da API do Spotify e do pacote spotifyr em R, foram obtidas 56 variáveis, algumas as quais valem uma breve explicação:

danceability: a partir da combinação de elementos musicais como andamento, ritmo, batida e regularidade, essa medida descreve o quanto a música é adequada para dançar. Um valor de 0.0 é o menos “dançável” e um valor de 1.0 é o mais “dançável”.

energy: energia é uma medida de 0.0 a 1.0 que representa uma medida percentual de intensidade e atividade – tipicamente músicas enérgicas passam uma sensação de serem mais rápidas e agitadas.

valence: uma medida que vai de 0.0 a 1.0 para descrever a positividade presente em uma música, ou seja, uma música de valência mais alta soa mais positiva, alegre, eufórica, enquanto músicas com valência mais baixa soam mais tristes, depressivas, irritadas.

popularity: representa a popularidade da música. essa medida vai de 0 a 100, sendo 100 a mais popular.

Tendo em vista a quantidade de variáveis obtidas com esses dados, apenas as medidas citadas acima serão utilizadas para a análise exploratória.

A análise

Exploratória

Para começar a entender os gostos musicais do Brasil e do mundo, temos um gráfico de distribuição com a valência das músicas mais ouvidas e, a partir dele e das medianas, podemos perceber que a positividade das músicas ouvidas no Brasil tem uma mediana de valor 0.223 superior ao valor da mediana global. Estaria o brasileiro então ouvindo músicas mais positivas que os demais?

sumarios <- tops %>% 
    group_by(playlist_name) %>% 
    summarise(valence_median = median(valence), 
              danceability_median = median(danceability),
              .groups = "drop")
eda_valence <- tops %>% 
  ggplot(aes(x = valence, y = playlist_name)) +
  geom_jitter(height = .1, alpha = 0.7, size = 2, color = "orchid4") +
  geom_point(data = sumarios, aes(x = valence_median), size = 2, color = "red") +
  labs(
    title = "Distribuição de valência",
    x = "Valência",
    y = "Playlist"
  )
ggplotly(eda_valence)

Na distribuição seguinte temos a dançabilidade presente nessas músicas mais ouvidas, que, apesar de haver uma diferença entre as playlists, esta diferença é de apenas 0.093 (o que a torna um pouco relevante, já que o intervalo da medida vai de 0 a 1). Com poucos outliers, podemos dizer que tanto o Brasil como o mundo escutam músicas bem dançantes (acima de 0.5). Povo animado.

eda_danceability <- tops %>% 
  ggplot(aes(x = danceability, y = playlist_name)) +
  geom_jitter(height = .1, alpha = 0.7, size = 2, color = "skyblue3") +
  geom_point(data = sumarios, aes(x = danceability_median), size = 2, color = "red") +
  labs(
    title = "Distribuição de dançabilidade",
    x = "Dançabilidade",
    y = "Playlist"
  )
ggplotly(eda_danceability)

Algo que valeu a curiosidade foi entender se existe relação entre a valência (ou seja, sua positividade) e a energia (agitação e intensidade) de uma música – já que não necessariamente uma música agitada poderia ser positiva. Através do gráfico abaixo é possível observar a existência de uma relação linear entre essas duas variáveis.

eda_energy <- tops %>% 
  ggplot(aes(x = energy, y = valence, color = playlist_name)) +
  geom_jitter(height = .1, alpha = 0.7, size = 2) +
  labs(
    title = "Relação entre energia e valência",
    x = "Energia",
    y = "Valência",
    color = "Playlist"
  )
ggplotly(eda_energy)

Dessa relação linear podemos então realizar o cálculo do coefiente de Pearson e, com o resultado de 0.63, podemos dizer que há então uma relação linear forte e positiva entre valência e energia. Músicas mais enérgicas podem ser mais positivas!

tops %>% 
  summarise(correlacao = cor(valence, energy, method = "pearson"))

Também buscamos entender se há relação entre a valência de uma música e sua popularidade, relação essa que, a partir do seguinte gráfico, não pode ser considerada linear.

eda_popularity <- tops %>% 
  ggplot(aes(x = track.popularity, y = valence, color = playlist_name)) +
  geom_jitter(height = .1, alpha = 0.7, size = 2) +
  labs(
    title = "Relação entre a popularidade da música e valência",
    x = "Popularidade da música",
    y = "Valência",
    color = "Playlist"
  )
ggplotly(eda_popularity)

Por não ser linear, para o cálculo dessa relação nos utilizamos dos coeficientes de Spearman e Kendall. Através desses resultados, podemos dizer que há uma relação fraca negativa entre essas variáveis.

tops %>% 
  summarise(spearman = cor(valence, track.popularity, method = "spearman"),
            kendall = cor(valence, track.popularity, method = "kendall"), )

Com k-means

Ainda mantendo a curiosidade em relação às variáveis valência e popularidade da música, agora queremos entender possíveis grupos presentes nesses dados. Para isso, trabalhamos com k-means e os gráficos gerados foram através do ggplotly para que se pudesse ter uma maior interação com cada um dos grupos encontrados.

Para as mais ouvidas do Brasil, um número de grupos a que se chegou um resultado interessante foi de 5. Dessa forma, os grupos observados se dividiram em: músicas muito positivas e pouco populares, músicas pouco positivas e pouco populares, músicas pouco positivas e médio populares, músicas muito positivas e médio populares, músicas médio positivas e muito populares, o que mostra o quanto o gosto dos brasileiros é diverso no que diz respeito à positividade de uma música.

topsbrasil <- tops %>%  filter(playlist_name == "Top Songs - Brazil")

gruposbr <- topsbrasil %>%
    select(valence, track.popularity) %>%
    filter(!is.na(valence + track.popularity))
rownames(gruposbr) <- make.names(topsbrasil$track.name, unique = T)

gruposbr <- scale(gruposbr)
set.seed(1234)
res <- kmeans(gruposbr, 5)
gruposbrasil <- fviz_cluster(res, data = gruposbr) +
  theme_report() +
  labs(
    title = "Grupos presentes nas mais ouvidas do Brasil",
    x = "Valência",
    y = "Popularidade da música"
  )
ggplotly(gruposbrasil)

Já em relação às mais ouvidas do mundo, a quantidade apropriada de grupos não foi a mesma do Brasil. Aqui tivemos a presença de 3 grupos mais distintos, que se dividiram apenas entre pouco popular, médio popular e muito popular, já que em todos a valência se dispersa bastante. Dessa forma, o mundo não apresenta tanta distinção entre a positividade de uma música para torná-la mais popular ou não.

topsglobal <- tops %>%  filter(playlist_name == "Top Songs - Global")

gruposgb <- topsglobal %>%
    select(valence, track.popularity) %>%
    filter(!is.na(valence + track.popularity))
rownames(gruposgb) <- make.names(topsglobal$track.name, unique = T)

grupos <- scale(gruposgb)
set.seed(1234)
res <- kmeans(gruposgb, 3)
gruposglobal <- fviz_cluster(res, data = gruposgb) +
  theme_report() +
  labs(
    title = "Grupos presentes nas mais ouvidas do mundo",
    x = "Valência",
    y = "Popularidade da música"
  )
ggplotly(gruposglobal)

Conclusão

Diante do que foi visto, foi possível perceber quantas diferentes análises podemos realizar a partir dos dados fornecidos pelo Spotify e o quanto os gostos de um país podem diferir quando comparados com o resto do mundo. É importante lembrar que esta é uma base limitada de dados, restringida a uma semana de coleta apenas, já que o Spotify não disponibiliza playlists das mais tocadas de um período maior de tempo. Uma proposta interessante para a continuação desta análise seria a de semanalmente repetir essa coleta por um maior período de tempo, de forma a trazer uma maior riqueza de detalhes e de observações em relação aos possíveis gostos musicais do Brasil, do mundo e até mesmo de outros países separadamente.

