Introdução
O Spotify é um serviço digital que permite acesso a milhões de músicas, podcasts, vídeos, e outros conteúdos. Atualmente, ele é um dos serviços de streaming de música mais popular e usado no mundo e dispõe de uma api a qual podemos acessá-la para ter acesso aos dados.
Sabemos que a popularidade de uma música depende de diversos fatores. Nesse experimento, buscamos analisar a popularidade das músicas que estão que estiveram no Top 200 das paradas semanais (globais) do Spotify em 2020 e 2021, segundo sua energia, valência e dançabilidade.
Dados
O conjunto de dados inclui todas as músicas que estiveram no Top 200 das paradas semanais (globais) do Spotify em 2020 e 2021. Nesse conjunto de dados, temos diversas variáveis que nos trazem informações sobre o nome da música, os artistas, quantas vezes a música ficou no Top 200 e em quais semanas, streams, número de seguidores do artista, gênero, popularidade, o quanto a música é adequada para dançar, etc. Aqui, queremos saber o que leva uma música a ser popular e como algumas variáveis estão relacionadas com essa popularidade. Para isso, usaremos as seguintes variáveis:
- Popularity: a popularidade da faixa. O valor estará entre 0 e 100, sendo 100 o mais popular.
- Danceability: descreve como uma faixa é adequada para dançar com base em uma combinação de elementos musicais incluindo tempo, estabilidade de ritmo, força de batida e regularidade geral. Um valor de 0,0 é menos dançável e 1,0 é mais dançante.
- Valency: é uma medida de 0,0 a 1,0 que descreve a positividade musical transmitida por uma faixa. Faixas com alta valência soam mais positivas (por exemplo, feliz, alegre, eufórico), enquanto faixas com baixa valência soam mais negativas (por exemplo, triste, deprimido, com raiva).
- Energy: é uma medida de 0,0 a 1,0 e representa uma medida percentual de intensidade e atividade.
Essas variáveis passaram por processamento e estão em porcentagem.
Os dados podem ser encontrados em: https://www.kaggle.com/sashankpillai/spotify-top-200-charts-20202021
Análise Exploratória
Abaixo podemos visualizar alguns sumários como o valor máximo de popularidade das músicas que é 100, a mediana que é 73 indicando que a maior parte das músicas são muito populares e a média de 70,08 reforça isso ainda mais.
Rows: 1
Columns: 4
$ pop_max <dbl> 100
$ mediana <dbl> 73
$ min <dbl> 0
$ media <dbl> 70.08932
O gráfico abaixo mostra como está distribuída a variável Danceability em relação a popularidade. Nele, podemos ver claramente que as músicas mais populares são as mais dançantes, já que os valores mais altos de Danceability estão acima de 50. Músicas que são menos populares são menos dançante também. Nessa categoria de músicas os dados são dispersos. Em contrapartida, os valores de faixas mais populares são mais concentrados e ficam mais dispersos a medida que a popularidade aumenta. Ou ponto importante é a mediana é um valor alto e isso indica que essa playlist conta com a maior parte das músicas sendo muito populares. Além disso, as músicas populares são bem dançantes.

O gráfico abaixo mostra como está distribuída a variável Energy em relação a popularidade. Nele, podemos ver claramente que as músicas mais populares são as mais agitadas, já que os valores mais altos de Energy estão acima de 50. Os valores da variável Energy se coomportam de forma semelhante aos valores da variável Danceability. O senso comum sobre isso é que uma música mais agitada indica que ela é mais dançante, assim como uma música mais lenta tende a ser menos dançante. Porém, se observarmos valores de popularidade próximos a 100, notamos que os valores são mais dispersos tanto em Energy quanto em Danceability.

O gráfico abaixo mostra como está distribuída a variável Valence em relação a popularidade. Nele, podemos ver que os valores para músicas menos populares são muito dispersos indicando que a pouca popularidade contém músicas tristes e felizes. Entretanto a média de valencia segue acima 50 em todo o gráfico. Para músicas mais populares a valencia também varia muito. Isso indica que a popularidade de uma música independe dela ser mais feliz ou mais triste.

Para verificar de se realmente a valencia não está relacionada a popularidade, verificamos o coeficiente de Spearman (já que não é linear e a amostra é um pouco grande). O resultado abaixo de 0.03 mostra que, de fato, a correlação entre essas duas variáveis é muito fraca, quase inexistente.
[1] 0.03557571
Regressão Logística
Para descobrir o efeito dessas variáveis sobre a música ser popular ou não, foi feito um experimento usando Regressão logística. No caso, nossa variável de interesse é a faixa_popularidade que indica se a música é popular (Popularity >= 50) ou não (Popularity < 50).
Abaixo, a tabela nos mostra que a estimativa o odds é multiplicado por 1.02 de energia, ou seja, aumenta o odds em 2%, logo a música ser mais energética, tem um efeito positivo sobre a variável de resposta. Exemplo: se duas músicas tem diferença de 30 no valor de Energy, (1.02^30) implica num aumento de 1,82 no odds da música ser popular.
Já a variável valence o odds é multiplicado por 0.97, ou seja, diminui o odds em 3%, logo essa variável tem um efeito negativo sobre a variável de resposta. Exemplo: se duas músicas tem diferença de 30 no valor de Valence, (0.97^30) implica num decréscimo de 0.40 no odds da música ser popular.
A variável Danceability multiplica o odds em 1.03, ou seja, aumenta o odds em 3%, logo essa variável tem um efeito positivo sobre a variável de resposta. Exemplo: se duas músicas tem diferença de 30 no valor de Danceability, (1.03^30) implica num aumento de 2.42 no odds da música ser popular.
Assim, a música ser dançante é o fator que mais tem efeito na chance da música ser mais popular no Top 200 das paradas semanais, dentro das variáveis estudadas.
Nesse tipo de análise com regressão logística não temos um R² análogo ao R² da regressão linear. Aqui, temos um pseudo-R² onde usaremos o R² McFadden que é mais ou menos equivalente ao da regressão linear, mas com limitações. Vendo esse dado, temos que o modelo se ajusta aos dados em 0.0599 (5.99%), ou seja, o modelo não se adequa tão bem aos dados.
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML
-322.61568161 -343.19346086 41.15555850 0.05995971 0.02628624
r2CU
0.07328125
Abaixo temos a curva estimada da popularidade das músicas de acordo com sua energia em função da valência da música. Podemos observar que, quando a música é lenta a sua popularidade é menor do que se ela for mais feliz. Logo, faixas mais lentas precisam ter muita sofrência para chegar a um nivel de 75 de popularidade. Já em relação a musicas mais energéticas, a popularidade é muito maior, mas a medida que a música tem uma pegada mais feliz, tende a cair a popularidade.

Abaixo, podemos ver o impacto de diferentes valres para Danceability, onde a linha clara são as músicas com menor valor para Danceability e a linha mais escuro o maior valor. Assim, músicas que tem maior valor em Danceability, são mais populares seja em músicas mais lentas ou mais energéticas, independentemente se é mais triste ou feliz.

Em relação aos intervalos de confiança, podemos observar que Valence está completamente abaixo de 1 indicando que essa variável tem efeito negativo e diminui o odds, então diminui a probabilidade da música ser popular. Já Energy tem efeito positivo muito relevante, aumentando o odds, ou seja, aumenta a probabilidade da música ser popular. E, em relação a Danceability, o comportamento é semelhante a Energy, aumentando o odds da música ser popular, com efeito positivo.

Conclusões
Na análise exploratória percebemos que as músicas mais populares eram músicas mais dançantes e energéticas. Além disso, vimos que o fato da música ser mais triste ou mais feliz não indica sua popularidade. Na regressão linear pudemos confirmar essas conclusões, mesmo que o modelo não represente tão bem os dados.
