INTRODUÇÃO

Todos nós sabemos que música é uma linguagem universal!
Encontrada em todas as tribos, culturas e regiões do mundo, a música sempre traz a quebra das barreiras etnico-raciais, religiosas, aquisitivas e une diferentes grupos em prol do bem estar. A música passou por diversos períodos da história e sofreu modificações ao longo do tempo, seja pela cultura na qual foi originada e adaptada, ou pelas tecnologias que existem atualmente e permitem uma evolução cada vez mais exponencial da elaboração de novas batidas, melodias e complementos visuais em forma de clipes para passar a mensagem com ainda mais impacto.
Todos temos aquela música preferida do momento, aquela música chiclete que não sai da cabeça, a música triste para os dias chuvosos e aquela batida que faz nosso corpo se animar!
E foi a partir dessa e outras curiosidades que nos propusemos a analisar essa base de dados com as top 50 músicas mais tocadas do Spotify no ano de 2019.

AGRADECIMENTOS

Gostaria de parabenizar o empenho, didática e iniciativa do professor Esteven Dutt Ross em trazer um curso amplo, com relação ao campo de estudo, porém pouco almejado. Inserir o R no estudo estatistico e quebrar a dinâmica de “gravar formulas e aplica-las com fim em uma média” foi bem mais proveitoso e acredito que tenha sido prazeroso ver a evolução dos alunos, ainda que remotamente. Obrigado pelas aulas e espero que continue tendo sucesso com suas pesquisas!

Objetivo

Neste projeto, tentaremos responder a algumas dessas questões. Nosso foco se atentará aos seguintes objetivos:

Demonstrar uma análise diversificada das variáveis, a partir de um estudo estatístico qualitativos e quantitativos, para verificar as relações e correlações expressas nos dados referentes às 50 músicas mais tocadas no ano de 2019 no Spotify.
Examinar as características dos principais gêneros musicais.
Analisar os recursos e o padrão das música que às tornam uma música popular.
verificar as congruências e divergências das hipóteses a serem testadas, com fim em adquirir análises substanciais do estudo.

Questões de Pesquisa

Qual Sexo predominante de artistas no Top 50?
- Artistas do sexo masculino são mais escutados do que artistas do sexo feminino.
Qual gênero/ música/ artista é mais e menos popular?
- Pop e dance pop são músicas mais populares entre os gêneros?
- Tfw rap e reggaeton flow são gêneros menos populares?
Qual a relação entre a Dançabilidade e as Batidas por minuto
- Musicas eletronicas são mais dançaveis do que musicas latinas?
- Coutry rap é mais dançavel do que dfw Rap?
Quantas músicas existem em cada categotia?
Qual artista canta a música com mais batidas por minuto?
Quais os 3 artistas com mais de uma música no conjunto de dados?

Fonte de Dados e Descrição

https://www.kaggle.com/leonardopena/top50spotify2019

Os dados utilizados serão os dados da Planilha ‘Top 50’, referente à base de dados sobre as 50 músicas mais tocadas no Spotify no ano de 2019.
A base de dados conta com 16 variáveis (colunas) e 50 dados informativos (linhas), sendo as variáveis divididas em: Sexo, ‘Grupo ou Solo’, Nome da Trilha, Artista, Gênero da Faixa, Batidas por Minuto, Energia, Dançabilidade, Volume dB, Ao Vivo, Valência, Duração, Acústica, Discurso e Popularidade.
A tabela possui variáveis categóricas (ex: sexo, artista etc), variáveis quantitativas discretas (ex: Batidas por minuto, energia, discurso) e variáveis quantitativas contínuas (ex: duração)

METODOLOGIA

Neste trabalho serão utilizados gráficos de barras, boxplots, diagramas de dispersão com linhas de média e diferentes testes de hipótese para refutar ou corroborar com a pesquisa proposta.

Gráficos de Barra

O gráfico será utilizado para que possamos visualizar a distribuição dos valores esperados. Espera-se conseguir correlações válidas e importântes para a pesquisa.

Gráfico de Dispersão

Será utilizado como base para visualização da média e mediana, para que dessa maneira seja possível estabelecer uma relação analítica precisa dos questionamentos propostos.

Boxplot

Será utilizado para que seja possível visualizar a variabilidades dos dados, assim como suas simetrias, outliers, média, mediana e seus quartis.

Testes de Hipóteses

Pretende-se realizar um teste de hipótese dentro dos parâmetros estabelecidos e retornar o resultado das hipóteses ao p-valor e intervalo de confiança dos parâmetros dados, para um melhor entendimento da parte analítica dos dados qualitativos e quantitativos.
Os testes de hipótese utilizados serão:

Teste de Fisher

Será utilizado para realizar, apenas nas variáveis qualitativas, as hipóteses de que existe um relacionamento linear de associação entre as variáveis Sexo, Grupo ou Solo e Artista.

Teste de Shapiro Wilk

Será utilizado para realizar, apenas nas variáveis quantitativas, as hipóteses de que existe curva normal ou não nas variáveis Energia, Dançabilidade, Volume_db, Ao_vivo, Valência, Duração, Acústica, Discurso e Popularidade.

Teste de Spearman

Será utilizado para definir se as variáveis possuem ou não a mesma correlação entre duas variáveis quantitativas.

Teste de Wilcoxon

Será utilizado para definir se as variáveis possuem ou não a mesma distribuição.

BASE DE DADOS

Carregamento da base de dados

library(readr)
top50 <- read_csv("C:/Users/ferre/Desktop/estatisticas/Spotify/top50 concertado.csv", 
                  col_types = cols(n = col_character()))
library(dplyr)


Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union

library(ggplot2)  
library(readxl)  
library(corrplot)

corrplot 0.88 loaded

library(knitr)

Resumo das Variáveis

summary(top50)

      n                 sexo           grupo_ou_solo      nome_da_trilha    
 Length:50          Length:50          Length:50          Length:50         
 Class :character   Class :character   Class :character   Class :character  
 Mode  :character   Mode  :character   Mode  :character   Mode  :character  
                                                                            
                                                                            
                                                                            
   artista          genero_da_faixa    batidas_por_minuto    energia     
 Length:50          Length:50          Min.   : 85.0      Min.   :32.00  
 Class :character   Class :character   1st Qu.: 96.0      1st Qu.:55.25  
 Mode  :character   Mode  :character   Median :104.5      Median :66.50  
                                       Mean   :120.1      Mean   :64.06  
                                       3rd Qu.:137.5      3rd Qu.:74.75  
                                       Max.   :190.0      Max.   :88.00  
 dançabilidade     volume_db         ao_vivo         valencia    
 Min.   :29.00   Min.   :-11.00   Min.   : 5.00   Min.   :10.00  
 1st Qu.:67.00   1st Qu.: -6.75   1st Qu.: 8.00   1st Qu.:38.25  
 Median :73.50   Median : -6.00   Median :11.00   Median :55.50  
 Mean   :71.38   Mean   : -5.66   Mean   :14.66   Mean   :54.60  
 3rd Qu.:79.75   3rd Qu.: -4.00   3rd Qu.:15.75   3rd Qu.:69.50  
 Max.   :90.00   Max.   : -2.00   Max.   :58.00   Max.   :95.00  
    duração         acustica        discurso      popularidade  
 Min.   :115.0   Min.   : 1.00   Min.   : 3.00   Min.   :70.00  
 1st Qu.:176.8   1st Qu.: 8.25   1st Qu.: 5.00   1st Qu.:86.00  
 Median :198.0   Median :15.00   Median : 7.00   Median :88.00  
 Mean   :201.0   Mean   :22.16   Mean   :12.48   Mean   :87.50  
 3rd Qu.:217.5   3rd Qu.:33.75   3rd Qu.:15.00   3rd Qu.:90.75  
 Max.   :309.0   Max.   :75.00   Max.   :46.00   Max.   :95.00

GRÁFICOS

Média e Desvio Padrão

knitr::kable(resumo <-top50 %>% summarise(media_bpm=mean(batidas_por_minuto),
                                        media_energia=mean(energia),
                                        media_danca=mean(dançabilidade),
                                        media_volume=mean(volume_db),
                                        media_duracao=mean(duração),
                                        media_pularidade=mean(popularidade),
                                        media_discurso=mean(discurso)))

media_bpm	media_energia	media_danca	media_volume	media_duracao	media_pularidade	media_discurso
120.06	64.06	71.38	-5.66	200.96	87.5	12.48

knitr::kable(resumo <-top50 %>% summarise(dp_bpm=sd(batidas_por_minuto),
                                           dp_energia=sd(energia),   
                                        dp_danca=sd(dançabilidade),
                                        dp_volume=sd(volume_db),
                                        dp_duracao=sd(duração),
                                        dp_pularidade=sd(popularidade),
                                        dp_discurso=sd(discurso)))

dp_bpm	dp_energia	dp_danca	dp_volume	dp_duracao	dp_pularidade	dp_discurso
30.89839	14.23191	11.92988	2.056448	39.14388	4.491488	11.1616

Aqui estão demonstradas as médias e desvio padrão das variáveis qualitativas da base de dados Top 50 Músicas do Spotifi 2019.

Relação entre Grupos e Artistas Solo

ggplot(top50) +
    aes(x = grupo_ou_solo, fill = grupo_ou_solo) +
    geom_bar() +
    scale_fill_manual(values = list(
        Grupo = "#0D0887", Solo = "#E0BA29")) +
    labs(x = "grupo ou solo", y = "quantidade", title = "Relação entre Grupos e Artistas Solo") +
    theme_minimal() +
    theme(plot.title = element_text(size = 20L, face = "bold", hjust = 0.5), axis.title.y = element_text(size = 14L, 
                                                                                                         face = "bold"), axis.title.x = element_text(size = 14L, face = "bold"))

Qual Sexo predominante de artistas no Top 50?

Artistas do sexo masculino são mais escutados do que artistas do sexo feminino?
De acordo com o gráfico, o numero de artistas solo no top 50 de 2019 é mais de dez vezes superior ao numero de grupos musicais. Enquanto o número de grupos se estabelece em 4, o número de vezes que os artistas solo aparecem na base de dados é de 46 vezes.

table(top50$sexo)


 Feminino Masculino 
       10        40

ggplot(top50) +
 aes(x = sexo, fill = sexo) +
 geom_bar() +
 scale_fill_hue(direction = -1) +
 labs(x = "sexo", 
 y = "Quantidade", title = "Relação entre o sexo dos artistas", subtitle = "Feminino/Masculino") +
 theme_minimal() +
 theme(plot.title = element_text(size = 14L, face = "bold", hjust = 0.5), plot.subtitle = element_text(size = 12L, 
 hjust = 0.5), axis.title.y = element_text(size = 14L, face = "bold"), axis.title.x = element_text(size = 12L, 
 face = "bold"))

De acordo com os dados obtidos, o número de vezes que os homens aparecem no top 50 é quatro vezes maior do que o número de mulheres artistas. Entre essas mulheres estão, Ariana Grande e Billie Eilish que aparecem duas vezes, tendo como gênero predominantes respectivamente, dance pop e electropop, seguidas das artistas Katty Parry (dance pop), Lady Gaga (dance pop), Lizzo (scape room), Rosalia (r&b en espanol), Taylor Swift (dance pop) e Tones and I (australian pop).

Afinidade entre Artista e Gênero Musical

ggplot(top50) +
    aes(x = sexo, fill = genero_da_faixa) +
    geom_bar(position = "dodge") +
    scale_fill_hue(direction = 1) +
    labs(
        x = "Sexo",
        y = "Quantidade",
        title = "Afinidade entre Artista e Gênero Musical",
        fill = "Gênero Musical"
    ) +
    theme_minimal() +
    theme(
        plot.title = element_text(
            size = 16L,
            face = "bold",
            hjust = 0.5
        ),
        axis.title.y = element_text(
            size = 12L,
            face = "bold"
        ),
        axis.title.x = element_text(
            size = 12L,
            face = "bold"
        )
    )

Embora o número de artistas femininas no top 50 no ano de 2019 tenha apenas 8 mulheres e 10 colocações na base de dados, é possível perceber uma afinidade com o gênero dance pop, pois o mesmo abarca o gênero de 4 das 8 artistas e representa 5 das 10 colocações na base de dados quando focado no sexo feminino.
No entanto, quando analisado pela mesma ótica através dos artistas do sexo masculino, percebe-se uma afinidade muito maior com o gênero musical pop, que se apresenta 7 vezes entre diferentes artistas, seguido do gênero Latin que se apresenta 5 na base de dados quando focados no sexo masculino.
Logo, pelo número das amostras dos sexos terem valores discrepantes, não é possível afirmar uma correlação entre os resultados obtidos. Contudo, de acordo com as comparações, existe uma variabilidade entre os gostos dos artistas, assim como uma divergência com relação a preferência de um determinado gênero quando comparado ambos os sexos.

Qual gênero é mais e menos popular?

summary(top50$popularidade)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  70.00   86.00   88.00   87.50   90.75   95.00

  - Pop e dance pop são músicas mais populares entre os gêneros?     
  - Tfw rap e reggaeton flow são gêneros menos populares?

library(ggplot2)

ggplot(top50) +
 aes(x = genero_da_faixa, fill = genero_da_faixa, weight = popularidade) +
 geom_bar() +
 scale_fill_hue(direction = 1) +
 labs(x = "Gênero da Faixa", y = "Popularidade", title = "Popularidade por Gênero Musical") +
 coord_flip() +
 theme_minimal() +
 theme(plot.title = element_text(size = 16L, face = "bold", hjust = 0.5), 
 axis.title.y = element_text(size = 12L, face = "bold"), axis.title.x = element_text(size = 12L, face = "bold"))

Conclui-se que os gêneros musicais mais populares são: pop e dance pop, conforme a hipótese em questão. Entretanto, não muito atrás desses gêneros damos destaque para música latina que alcançou um alto nível de popularidade entre as amostras coletadas.
Entre os gêneros não populares temos porcentagens quase idênticas entre: trap music, boy band, big room, australian pop e atl hip hop.
Logo, conclui-se que Pop e Dance Pop são as mÚusicas mais populares entre os gêneros e que OS GÊNEROS Fw e Reaggaeton flow não são os gêneros menos populares, como questionado nas hipóteses de pesquisa.

top50 %>%
    filter(!(genero_da_faixa %in% c("trap music", "escape room", "pop house", "australian pop", 
                                    "atl hip hop", "big room", "boy band", "r&b en espanol", "brostep"))) %>%
    ggplot() +
    aes(
        x = genero_da_faixa,
        y = popularidade,
        fill = genero_da_faixa
    ) +
    geom_boxplot(shape = "circle") +
    scale_fill_hue(direction = 1) +
    labs(
        x = "Gênero Musical",
        y = "Quantidade",
        title = "Popularidade Por Gênero Musical",
        subtitle = "Boxplot"
    ) +
    theme_minimal() +
    theme(
        plot.title = element_text(
            size = 16L,
            face = "bold",
            hjust = 0.5
        ),
        plot.subtitle = element_text(
            face = "bold",
            hjust = 0.5
        )
    )

Por meio do gráfico, é possível concluir que:

A variáveis não possuem outliers além dos seus valores máximos e mínimos de Popularidade. Além disso, seus valores encontram-se próximos uns dos outros, embora haja algumas especificidades como:

Canadian hip hop
- Mínimo – 70.00
- 1° Quartil - 72.25
- Median - 74.50
- 3° Quartil – 76.75.00
- Máximo – 79.00
- O gráfico é simétrico

Canadian Pop
- Mínimo – 88.00
- 1° Quartil – 89.00
- Median – 90.00
- Mean – 89.67
- 3° Quartil – 91.00
- Máximo – 92.00
- O gráfico é assimétrico e possui uma variabilidade maior entre a mediana e o terceiro quartil.

EDM – Eletronic Dance Music
- Mínimo – 84.00
- 1° Quartil – 85.00
- Median – 88.00
- Mean – 86.00
- 3° Quartil – 88.00
- Máximo – 88.00
- O gráfico é assimétrico, pois o seu terceiro quartil encontrasse junto da mediana, o que mostra um padrão de variabilidade muito baixo nessa área em comparação ao primeiro quartil.
- Alem disso, demais variáveis da base de dados foram excluidas do boxplot por serem análises com classificações de raridade no campo de análise interpretativa.

Gênero Musical com mais diversidade de palavras

ggplot(top50) +
    aes(
        x = genero_da_faixa,
        fill = genero_da_faixa,
        weight = discurso
    ) +
    geom_bar() +
    scale_fill_hue(direction = 1) +
    labs(
        x = "Gênero Musical",
        y = "Discurso",
        title = "Gênero Musical com mais diversidade de palavras"
    ) +
    coord_flip() +
    theme_minimal() +
    theme(
        plot.title = element_text(
            size = 16L,
            face = "bold",
            hjust = 0.5
        ),
        axis.title.y = element_text(
            size = 12L,
            face = "bold"
        ),
        axis.title.x = element_text(
            size = 12L,
            face = "bold"
        )
    )

Por meio do gráfico concluímos que o “dance pop” possui 2 vezes mais diversidade de palavras em comparação ao “electropop”, “latin” e “pop”. Além disso, possui 5 vezes mais palavras diferentes do que gêneros musicais, como “canadian hip hop” e “dfl rap”.
Gêneros musicais com menor variedade de palavras são: “pop house”, “boy band” e “big room”, enquanto os gêneros de maior diversidade são: “dance pop”, “latin”, “electropop” e “pop”.

Grupos são mais populares do que cantores solos?

ggplot(top50) +
    aes(x = grupo_ou_solo, y = popularidade) +
    geom_boxplot(shape = "circle", fill = "orange") +
    labs(x = "Sexo",
         y = "Popularidade",
         title = "Relação entre  a Popularidade de Grupos e Artistas Solo") +
    theme_minimal() + theme(plot.title = element_text(
        size = 16L,face = "bold",hjust = 0.5),
        axis.title.y = element_text(size = 12L,face = "bold"),
        axis.title.x = element_text(size = 12L,face = "bold"))

O gráfico traz uma informação importante: existem 10 vezes mais artistas solo na amostra coletada do que grupos, o que nos faz supor que a popularidade e aceitabilidade de artistas solo é maior do que de grupos.
Há um questionamento que permeia a realidade do porquê de existirem poucos grupos na classificação e a resposta pode ser simples: existem poucos grupos no top 50 em comparação à artistas solo pois há poucos grupos no mercado musical comparativamente à artistas individuais. Talvez o gráfico seja representativo do que acontece no universo de artistas do mundo todo.
Outra possibilidade é a aceitação de grupos pelo público consumidor de música, que pode associar um sucesso musical com apenas uma voz em evidência. Será que existe baixa aceitação para grupos musicais no mundo todo ou apenas em países que dominam e alimentam a classificação da plataforma analisada, o Spotify?

boxplot sexo por quantidade de palavras

ggplot(top50) +
    aes(x = sexo, y = discurso) +
    geom_boxplot(shape = "circle", fill = "#28CBB6") +
    labs(x = "Sexo",
         y = "Discurso",
         title = "Relação entre Sexo e Discurso") +
    theme_minimal() + theme(plot.title = element_text(
        size = 16L,face = "bold",hjust = 0.5),
        axis.title.y = element_text(size = 12L,face = "bold"),
        axis.title.x = element_text(size = 12L,face = "bold"))

O gráfico possui uma demonstração muito clara e representativa: Mulheres precisam de mais palavras em seu discurso. Levando em consideração que estamos olhando para o top 50 da maior plataforma de música do mundo, fica claro que para serem ouvidas mulheres precisam expor quase 3 vezes mais palavras em suas letras para que sejam entendidas, aceitas e apreciadas.
Em relação aos cantores do sexo masculino, que fazem uso de um terço de palavras em seu discurso do que mulheres, fica o questionamento e curiosidade de: quais são as palavras e mensagens que os levaram a estar nesse pódio?
Destaca-se os 5 outliers do sexo masculino que fogem do comum e apresentam uso de até mais palavras que a maior parte das cantoras presentes da classificação. Além de se comportarem de forma diferente que a maior parte dos homens avaliados na pesquisa, esses outliers podem ser justificados talvez pelo gênero musical que fazem parte ou por uma faixa musical específica que necessita do uso de mais palavras em seu discurso, sendo necessário uma análise individual para conclusões mais exatas.
Os outliers do grupo masculino abarcam os gêneros Latin, reggaeton (sendo repetidos duas vezes cada) e o trap music que geralmente usam um alto discurso para rimar.

Qual o Gênero musical mais “Dançavel”?

ggplot(top50) +
  aes(
    x = genero_da_faixa,
    fill = genero_da_faixa,
    weight = dançabilidade
  ) +
  geom_bar(position = "dodge") +
  scale_fill_hue(direction = 1) +
  labs(
    x = "Gênero Musical",
    y = "Dançabilidade",
    title = "Dançabilidade por Gênero Musical"
  ) +
  coord_flip() +
  theme_minimal() +
  theme(
    plot.title = element_text(
      size = 16L,
      face = "bold",
      hjust = 0.5
    ),
    axis.title.y = element_text(
      size = 12L,
      face = "bold"
    ),
    axis.title.x = element_text(
      size = 12L,
      face = "bold"
    )
  )

Os gêneros musicais que mais se destacam são: dance pop, pop, latin e um pouco de canadian hip hop. as demais musicas variam entre valores abaixo de 200 pontos de dançabilidade.
Em contrapartida mostram-se não dançantes em destaque os gêneros de “pop house”, “big room” e “boy band”.
A respeito deste gráfico os resultados foram surpreendentes, pois de acordo com as hipóteses levantadas e o senso comum, percebeu-se que 3 gêneros encontram-se muito à frente dos outros, quase como uma sentença de que apenas esses são gêneros dançantes. São eles: “pop”, “dance pop” e “latin”.

Com isso, conclui-se que, o Eletro pop não é mais dançavel do que músicas latinas e Country Rap é ligeiramente mais popular do que DFW Rap.

Graficos de Dispesão

Quanto mais Batidas por Minuto maior a popularidade?

par(bg="#d2faf8")
plot(top50$batidas_por_minuto, top50$popularidade, pch=19,
     col="blue",
     main = "Quanto mais Batidas por Minuto maior a popularidade?",
     xlab="Batidas Por Minuto",ylab = "Popularidade")
abline(lsfit(top50$batidas_por_minuto, top50$popularidade), col="red", lwd=3)

par(bg="white")


library(ggplot2)

ggplot(top50) +
 aes(x = batidas_por_minuto, y = popularidade, colour = genero_da_faixa, size = batidas_por_minuto) +
 geom_point(shape = "circle") +
 scale_color_hue(direction = 1) +
 labs(x = "Batidas Por Minuto", y = "Popularidade", 
 title = "Quanto Mais BPM Maior a Popularidade?", subtitle = "BPM/Popularidade", color = "Gênero", 
 size = "BPM") +
 theme_minimal() +
 theme(plot.title = element_text(size = 16L, face = "bold", hjust = 0.5), 
 plot.subtitle = element_text(size = 12L, face = "bold", hjust = 0.5), axis.title.y = element_text(size = 12L, 
 face = "bold"), axis.title.x = element_text(size = 12L, face = "bold"))

cor(top50$batidas_por_minuto, top50$popularidade)

[1] 0.1960969

De acordo com os gráficos de dispersão apresentados, as menores batidas analisadas giram em torno de 85 BPM, como a música You Need To Calm Down da cantora solo, feminina, Taylor Swift do gênero dance pop e a música Akeaway do grupo musical masculino The Chainsmokers do gênero EDM. Percebe-se que com relação as músicas com menos batidas, existe uma variabilidade grande, sem um padrão definido.

A linha de tendência aplicada mostra uma inclinação positiva leve, o que revela uma fragilidade na associação e uma baixa influência entre sí.
Verifica- se que a popularidade não tende a aumentar de forma exponencial. A quantidade de BPM e a popularidade possuem uma associação fragil entre si.
Existe uma leve concentração de músicas com batitas entre 0 e 120, que possuem um numero razoavelmente alto em sua popularidade.
A principio o gráfico demonstra um outlier que é a música If I Can’t Have You, do cantor solo Shawn Mendes com gênero musical canadian pop. O outlier possui popularidade de 70 pontos, o mais baixo, comparado aos demais.
A correlação obtida pelo comando ‘cor’ demonstra um valor aproximado de 0.196, ou seja, a linha de tendência indica um leve crescimento positivo, porém fraco ou inexistênte.
Logo, de acordo com os dados, torna-se mais comum escutar músicas com patidas por minuto que permeiam os valores entre 85 e 120 com popularidade acima de 85 pontos.
Um bom exemplo seria a música China, do cantor Anuel AA do gênero reggaeton flow, com 105Bpm e 92 de Popularidade.

Quanto Maior a Energia Marior a Dançabilidade

library(ggplot2)

par(bg="#d2faf8")
plot(top50$energia, top50$dançabilidade, pch=19,
     col="blue",
     main = "Quanto Maior a Energia Marior a Dançabilidade??",
     xlab="Energia",ylab = "Dançabilidade")
abline(lsfit(top50$energia, top50$dançabilidade), col="red", lwd=3)

par(bg="white")

ggplot(top50) +
 aes(x = energia, y = dançabilidade, colour = genero_da_faixa, size = energia) +
 geom_point(shape = "circle") +
 scale_color_hue(direction = 1) +
 labs(x = "Energia", y = "Dançabilidade", title = "Energia por Dançabilidade", 
 subtitle = "Quanto Maior a Energia Marior a Dançabilidade?") +
 theme_minimal() +
 theme(legend.position = "top", 
 plot.title = element_text(size = 16L, face = "bold", hjust = 0.5), plot.subtitle = element_text(size = 12L, 
 face = "bold", hjust = 0.5), axis.title.y = element_text(size = 12L, face = "bold"), axis.title.x = element_text(size = 12L, 
 face = "bold"))

cor(top50$energia, top50$dançabilidade)

[1] 0.01825358

De acordo com os gráficos de dispersão apresentados, a maior concentração apresentada encontra-se acima do 60 pontos de ambas as variáveis.

A linha de tendência aplicada mostra uma inclinação positiva quase nula e horizontal, que revela uma fraquíssima associação entre as variáveis e uma influência entre sí, próxima de zero.
Verifica- se que a dançabilidade tende a aumentar a uma taxa muito pequena.
A principio o gráfico demonstra um outlier que é a música Takeaway do grupo musical masculino The Chainsmokers com gênero musical EDM. O outlier possui Dançabilidade de 29 pontos, e Energia de 51 pontos, o mais baixo comparado aos demais.
A correlação obtida pelo comando ‘cor’ demonstra um valor aproximado de 0.01825, ou seja, a linha de tendência indica um leve crescimento positivo, porém muito fraco ou inexistênte.
Logo, de acordo com os dados analisados no top 50, é mais comum que sejam escutadas músicas mais animadas e mais dançaveis, porém essas duas variáveis pouco se relacionam com relação ao consumo dos indivíduos.
Um bom exemplo seria a música Con Altura, da cantora feminina ROSALÍA com gênero musical r&b en espanol. A música possui 69 pontos de Energia e 88 de Dançabilidade.

Quanto Maior o Discurso Marior a Popularidade?

par(bg="#d2faf8")
plot(top50$discurso, top50$popularidade, pch=19,
     col="blue",
     main = "Quanto Maior o Discurso Marior a Popularidade?",
     xlab="Discurso",ylab = "Popularidade")
abline(lsfit(top50$batidas_por_minuto, top50$popularidade), col="red", lwd=3)

par(bg="white")


ggplot(top50) + aes(
    x = discurso,
    y = popularidade,
    colour = genero_da_faixa,
    size = discurso
  ) +
  geom_point(shape = "circle") +
  scale_color_hue(direction = 1) +
  labs(
    x = "Discurso",
    y = "Popularidade",
    title = "Discurso por Popularidade",
    subtitle = "Quanto Maior o Discurso Marior a Popularidade?"
  ) +
  theme_minimal() +
  theme(
    legend.position = "top",
    plot.title = element_text(
      size = 16L,
      face = "bold",
      hjust = 0.5
    ),
    plot.subtitle = element_text(
      size = 12L,
      face = "bold",
      hjust = 0.5
    ),
    axis.title.y = element_text(
      size = 12L,
      face = "bold"
    ),
    axis.title.x = element_text(
      size = 12L,
      face = "bold"
    )
  )

cor(top50$discurso, top50$popularidade)

[1] 0.238553

De acordo com os gráficos de dispersão apresentados, a maior concentração apresentada encontra-se acima do 85 pontos de Popularidade e entre 3 e 15 pontos de Discurso.

A linha de tendência aplicada mostra uma inclinação positiva leve, o que revela uma fragilidade na associação e uma baixa influência entre sí.
Verifica- se que a popularidade não tende a aumentar de forma exponencial. A quantidade de Discurso e a popularidade possuem uma associação fragil entre si.
A principio o gráfico demonstra dois outliers que são as músicas If I Can’t Have You, do cantor solo Shawn Mendes com gênero musical canadian pop, o mais baixo, comparado a popularidade demais.Assim com o outlier que representa a música Boyfriend da cantora Ariana Grande com gênero musical dance pop, o mais alto, comparado ao Discurso dos demais.
A correlação obtida pelo comando ‘cor’ demonstra um valor aproximado de 0.238, ou seja, a linha de tendência indica um leve crescimento positivo, porém fraco ou inexistênte.
Logo, de acordo com os dados, torna-se mais comum escutar músicas com uma taxa de Discurso menor, o que explicaria o constante sucesso de muitas “musicas chicletes” no mercado músical.
“Músicas chiclete” são músicas populares com refrões ou conjunto de melodias repetitivas e faceis de lembrar.
Um bom exemplo seria a música Piece Of Your Heart do cantor MEDUZA com gênero musical pop house.

Quanto mais positivo o clima da musica mais dançavel?

par(bg="#d2faf8")
plot(top50$valencia, top50$dançabilidade, pch=19,
     col="blue",
     main = "Quanto mais positivo o clima da musica mais dançavel?",
     xlab="Valência",ylab = "Dançabilidade")
abline(lsfit(top50$valencia, top50$dançabilidade), col="red", lwd=3)

par(bg="white")


library(ggplot2)

ggplot(top50) +
 aes(x = valencia, y = dançabilidade, colour = genero_da_faixa, size = valencia) +
 geom_point(shape = "circle") +
 scale_color_hue(direction = 1) +
 labs(x = "Valência (positividade)", 
      y = "Dançabilidade", title = "Valência por Dançabilidade",
       subtitle = "Quanto mais positivo o clima da musica mais dançavel?", color = "gênero da faixa", size = "valência (positividade)") +
 theme_minimal() +
 theme(plot.title = element_text(size = 16L, face = "bold", hjust = 0.5), plot.subtitle = element_text(size = 12L, 
 face = "bold", hjust = 0.5), axis.title.y = element_text(size = 12L, face = "bold"), axis.title.x = element_text(size = 12L, 
 face = "bold"))

cor(top50$valencia, top50$dançabilidade)

[1] 0.172829

De acordo com os gráficos de dispersão apresentados, não é perceptível uma concentração grande no gráfico, mas há presença de mais indicadores no centro do grafico quando comparado as extremidades.

A linha de tendência aplicada mostra uma inclinação positiva leve, o que revela uma associação de baixa influência entre as variáveis.
Verifica- se que a popularidade tende a aumentar quanto mais positivo for o clima da mpusica, ainda que de forma gradativa. A quantidade de Valência por dançabilidade possuem uma associação fracal entre si.
A principio o gráfico demonstra um outlier, sendo esssa a música Takeaway, do do grupo The Chainsmokers com gênero musical edm, o mais baixo, comparado a dançabilidade dos demais.
A correlação obtida pelo comando ‘cor’ demonstra um valor aproximado de 0.173, ou seja, a linha de tendência indica um leve crescimento positivo, porém fraco ou inexistênte.
Logo, de acordo com os dados, pela dispesão do gráfico não há necessáriamente um gênero ou valência preferidos pelos ouvintes, mas percebe-se que o nivel de dançabilidade maior geralmente é o mais preferido do público.

Tabela de Correlação

library(readxl)
library(dplyr)
library(corrplot)
library(knitr)


variavel_quantit <- top50%>%select(batidas_por_minuto,popularidade,energia,discurso,dançabilidade,duração)
cor(variavel_quantit)

                   batidas_por_minuto popularidade     energia    discurso
batidas_por_minuto         1.00000000   0.19609692  0.04375559  0.55705188
popularidade               0.19609692   1.00000000 -0.08029497  0.23855303
energia                    0.04375559  -0.08029497  1.00000000 -0.08985967
discurso                   0.55705188   0.23855303 -0.08985967  1.00000000
dançabilidade             -0.09418289  -0.07141325  0.01825358 -0.10347192
duração                   -0.13928840  -0.08763886  0.22467681  0.04675526
                   dançabilidade       duração
batidas_por_minuto -0.0941828916 -0.1392883997
popularidade       -0.0714132526 -0.0876388589
energia             0.0182535758  0.2246768064
discurso           -0.1034719217  0.0467552609
dançabilidade       1.0000000000 -0.0001852976
duração            -0.0001852976  1.0000000000

knitr::kable(cor(variavel_quantit))

	batidas_por_minuto	popularidade	energia	discurso	dançabilidade	duração
batidas_por_minuto	1.0000000	0.1960969	0.0437556	0.5570519	-0.0941829	-0.1392884
popularidade	0.1960969	1.0000000	-0.0802950	0.2385530	-0.0714133	-0.0876389
energia	0.0437556	-0.0802950	1.0000000	-0.0898597	0.0182536	0.2246768
discurso	0.5570519	0.2385530	-0.0898597	1.0000000	-0.1034719	0.0467553
dançabilidade	-0.0941829	-0.0714133	0.0182536	-0.1034719	1.0000000	-0.0001853
duração	-0.1392884	-0.0876389	0.2246768	0.0467553	-0.0001853	1.0000000

Com base na Matriz de Correlação apresentada, torna-se mais visível a congruência positiva ou negativa de correlação entre as variáveis qualitativas da base de dados. - A maior correlação(sem levar em conta as correlações lineares das variáveis com elas mesmas) se estabeleceria entre as Batidas por Minuto e o Discurso, com valor de 0.5570519, e a menor correlação seria entre duração e BPM com valor de -0.1392884.

TESTE DE HIPÓTESE

Quali X Quali - Teste de Fisher

Foi utilizado como teste de hipótese o Teste de Fisher, pois os pressupostos do teste Qui-Quadrado não foram atendidos.  
Por conta da violação dos pressupostos, pelas celulas possuirem valor esperado menor que cinco e pela categoria artistas
ter mais de duas categorias em uma variável o teste de fisher foi o mais indicado para as demonstrações.  
As variáveis qualitativas utilizadas foram: Sexo, Grupo ou Solo e   Artistas.

Sexo X Grupo ou Solo

tabela<-table (top50$sexo,top50$grupo_ou_solo)  
      fisher.test(top50$sexo,top50$grupo_ou_solo)


    Fisher's Exact Test for Count Data

data:  top50$sexo and top50$grupo_ou_solo
p-value = 0.571
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.000000 6.313003
sample estimates:
odds ratio 
         0

H0: Não há associação entre as variáveis  
H1: Há associação entre as variáveis  
alpha: 0.05   
pvalor menor que alpha - Rej H0  
pvalor maior que alpha - Não Rej H0  

tabela<-table (top50$sexo,top50$grupo_ou_solo)  
fisher.test(top50$sexo,top50$grupo_ou_solo)  
p-value = 0.571  

- A partir do teste de hipótese descobriu-se que o p-valor é maior do que alfa.    
- Logo esta se pode afirmar que não há associação entre as variáveis.

Grupo ou Solo vs Artista

tabela2<-table (top50$grupo_ou_solo,top50$artista)  
     fisher.test(top50$grupo_ou_solo,top50$artista)


    Fisher's Exact Test for Count Data

data:  top50$grupo_ou_solo and top50$artista
p-value = 0.1038
alternative hypothesis: two.sided

H0: Não há associação entre as variáveis  
H1: Há associação entre as variáveis  
alpha: 0.05  
pvalor menor que alpha - Rej H0  
pvalor maior que alpha - Não Rej H0  

tabela2<-table (top50$grupo_ou_solo,top50$artista)  
fisher.test(top50$grupo_ou_solo,top50$artista)  
p-value = 0.1038  

- A partir do teste de hipótese descobriu-se que o p-valor é maior do que alfa.  
- Logo, esta se pode afirmar que não há associação entre as variáveis.

Quanti X Quanti - Teste de Shapiro Wilk

Batidas Por Minuto

shapiro.test(top50$batidas_por_minuto)


    Shapiro-Wilk normality test

data:  top50$batidas_por_minuto
W = 0.85803, p-value = 2.572e-05

H0: os dados seguem uma distribuição normal  
H1: os dados não seguem uma distribuição normal   
alpha: 0,05  

pvalor menor que 0,05 - Rej H0  
pvalor maior que 0,05 - Não Rej H0  

shapiro.test(top50$batidas_por_minuto)  
p-value = 0.00002572

- A partir do teste de normalidade descobriu-se que o p-valor é menor do que alfa.
- Logo, esta variável Batidas por minuto, na base de dados Top 50, não segue uma distribuição normal em formato de sino.

Energia

shapiro.test(top50$energia)


    Shapiro-Wilk normality test

data:  top50$energia
W = 0.9547, p-value = 0.05339

H0: os dados seguem uma distribuição normal  
H1: os dados não seguem uma distribuição normal   
alpha: 0,05  

pvalor menor que 0,05 - Rej H0  
pvalor maior que 0,05 - Não Rej H0  

shapiro.test(top50$energia)  
p-value = 0.05339  

- A partir do teste de normalidade descobriu-se que o p-valor é maior do que alfa.
- Logo, esta variável Energia, na base de dados Top 50, segue uma distribuição normal em formato de sino.
- Não rejeito H0

Dançabilidade

shapiro.test(top50$dançabilidade)


    Shapiro-Wilk normality test

data:  top50$dançabilidade
W = 0.9065, p-value = 0.000793

H0: os dados seguem uma distribuição normal  
H1: os dados não seguem uma distribuição normal   
alpha: 0,05  

pvalor menor que 0,05 - Rej H0  
pvalor maior que 0,05 - Não Rej H0  

shapiro.test(top50$dançabilidade)  
p-value = 0.000793   

- A partir do teste de normalidade descobriu-se que o p-valor é menor do que alfa.  
- Logo, esta variável Dançabilidade, na base de dados Top 50, não segue uma distribuição normal em formato de sino.  
- Rejeito H0.

Volume_db

shapiro.test(top50$volume_db)


    Shapiro-Wilk normality test

data:  top50$volume_db
W = 0.92276, p-value = 0.002972

H0: os dados seguem uma distribuição normal
H1: os dados não seguem uma distribuição normal 
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0

shapiro.test(top50$volume_db)
p-value = 0.002972

- A partir do teste de normalidade descobriu-se que o p-valor é menor do que alfa.
- Logo, esta variável volume Db, na base de dados Top 50, não segue uma distribuição normal em formato de sino.
- Rejeito H0

Ao_vivo

shapiro.test(top50$ao_vivo)


    Shapiro-Wilk normality test

data:  top50$ao_vivo
W = 0.71606, p-value = 1.626e-08

H0: os dados seguem uma distribuição normal
H1: os dados não seguem uma distribuição normal 
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0

shapiro.test(top50$ao_vivo)
p-value = 0.00000001626

- A partir do teste de normalidade descobriu-se que o p-valor é menor do que alfa.
- Logo, esta variável Ao vivo, na base de dados Top 50, não segue uma distribuição normal em formato de sino.
- Rejeito H0

Valência

shapiro.test(top50$valencia)


    Shapiro-Wilk normality test

data:  top50$valencia
W = 0.97733, p-value = 0.4458

H0: os dados seguem uma distribuição normal
H1: os dados não seguem uma distribuição normal 
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0

options(scipen = 999)
shapiro.test(top50$valencia)
p-value = 0.4458

- A partir do teste de normalidade descobriu-se que o p-valor é maior do que alfa.
- Logo, esta variável Valência, na base de dados Top 50, segue uma distribuição normal em formato de sino.
- Não rejeito H0

Duração

shapiro.test(top50$ duração)


    Shapiro-Wilk normality test

data:  top50$duração
W = 0.95187, p-value = 0.04073

H0: os dados seguem uma distribuição normal
H1: os dados não seguem uma distribuição normal 
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0


shapiro.test(top50$ duração)
p-value = 0.04073

- A partir do teste de normalidade descobriu-se que o p-valor é menor do que alfa.
- Logo, esta variável Duração, na base de dados Top 50, não segue uma distribuição normal em formato de sino.
- Rejeito H0

Acústica

shapiro.test(top50$acustica)


    Shapiro-Wilk normality test

data:  top50$acustica
W = 0.87567, p-value = 8.292e-05

 H0: os dados seguem uma distribuição normal
H1: os dados não seguem uma distribuição normal 
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0

shapiro.test(top50$acustica)
p-value = 0.00008292

- A partir do teste de normalidade descobriu-se que o p-valor é menor do que alfa.
- Logo, esta variável Acústica, na base de dados Top 50, não segue uma distribuição normal em formato de sino.
- Rejeito H0

Discurso

shapiro.test(top50$discurso)


    Shapiro-Wilk normality test

data:  top50$discurso
W = 0.78375, p-value = 3.778e-07

H0: os dados seguem uma distribuição normal
H1: os dados não seguem uma distribuição normal 
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0

shapiro.test(top50$discurso)
p-value = 0.0000003778

- A partir do teste de normalidade descobriu-se que o p-valor é menor do que alfa.
- Logo, esta variável Discurso, na base de dados Top 50, não segue uma distribuição normal em formato de sino.
- Rejeito H0

Popularidade

shapiro.test(top50$popularidade)


    Shapiro-Wilk normality test

data:  top50$popularidade
W = 0.89305, p-value = 0.0002855

H0: os dados seguem uma distribuição normal
H1: os dados não seguem uma distribuição normal 
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0


shapiro.test(top50$popularidade)
p-value = 0.0002855

- A partir do teste de normalidade descobriu-se que o p-valor é menor do que alfa.
- Logo, esta variável Popularidade, na base de dados Top 50, não segue uma distribuição normal em formato de sino.
- Rejeito H0

Teste de correlação entre duas variáveis quantitativas

BPM e Popularidade

cor.test(top50$batidas_por_minuto,top50$popularidade, method = "spearman")


    Spearman's rank correlation rho

data:  top50$batidas_por_minuto and top50$popularidade
S = 16306, p-value = 0.1301
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.2170018

H0: rho  = 0 
H1: rho != 0 existe associação
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0

cor.test(top50$batidas_por_minuto,top50$popularidade, method =      "spearman")
p-value = 0.1301

- A partir do teste de correlação obtido, p-valor é maior do que alfa. Logo, Não rejeito H0.
- Com isso, afirmo que a correlação entre BPM e Popularidade mostram que existe associação linear entre as variáveis.
- Corroborando o gráfco de dispersão acima, quanto maior o valor das Batidas Por Minutos, maior a Popularidade

Energia e Dançabilidade

cor.test(top50$energia,top50$dançabilidade, method = "spearman")


    Spearman's rank correlation rho

data:  top50$energia and top50$dançabilidade
S = 21843, p-value = 0.736
alternative hypothesis: true rho is not equal to 0
sample estimates:
        rho 
-0.04888964

H0: rho  = 0 
H1: rho != 0
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0

cor.test(top50$energia,top50$dançabilidade, method = "spearman")
p-value = 0.736

- A partir do teste de correlação obtido, p-valor é maior do que alfa, logo, Não rejeito H0.
- Com isso, afirmo que a correlação entre Energia e Dançabilidade mostram que não existe associação linear entre as variáveis.
- Logo, o valor da Energia nas músicas não altera o nível de Dançabilidade.

Discurso e Popularidade

cor.test(top50$discurso,top50$popularidade, method = "spearman")


    Spearman's rank correlation rho

data:  top50$discurso and top50$popularidade
S = 17380, p-value = 0.2509
alternative hypothesis: true rho is not equal to 0
sample estimates:
     rho 
0.165431

H0: rho  = 0 
H1: rho != 0
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0

cor.test(top50$discurso,top50$popularidade, method = "spearman")
p-value = 0.2509

- A partir do teste de correlação obtido, p-valor é maior do que alfa, logo, Não rejeito H0.
- Com isso, afirmo que a correlação entre Discurso e Popularidade mostram que existe associação linear entre as variáveis.
- Quanto maior o valor ddo Discurso nas músicas, maior a Popularidade.

Valência e Dançabilidade

cor.test(top50$valencia,top50$dançabilidade, method = "spearman")


    Spearman's rank correlation rho

data:  top50$valencia and top50$dançabilidade
S = 17601, p-value = 0.283
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.1548206

H0: rho  = 0 
H1: rho != 0
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0

cor.test(top50$valencia,top50$dançabilidade, method = "spearman")
p-value = 0.283

- A partir do teste de correlação obtido, p-valor é maior do que alfa, logo, Não rejeito H0.
- Com isso, afirmo que a correlação entre Valência e Dançabilidade mostram que existe associação linear entre as variáveis.
- Quanto mais positivo o clima das músicas, maior a Popularidade.

Quali X Quanti

Os pressupostos analisados a seguir não possuem uma distribuição normal, pois violam esse parâmetro, logo, serão feitos procedimentos não paramétricos.

PRESSUPOSTO 1 - Popularidade por Grupo ou Solo

shapiro.test(top50$popularidade)


    Shapiro-Wilk normality test

data:  top50$popularidade
W = 0.89305, p-value = 0.0002855

wilcox.test(top50$popularidade~top50$grupo_ou_solo)


    Wilcoxon rank sum test with continuity correction

data:  top50$popularidade by top50$grupo_ou_solo
W = 67.5, p-value = 0.3879
alternative hypothesis: true location shift is not equal to 0

H0:Os dois grupos (grupo e solo) tem a mesma distribuição de desempenho
H1:Os dois grupos (grupo e solo) tem distribuições diferentes
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0

shapiro.test(top50$popularidade)
p-value = 0.0002855
wilcox.test(top50$popularidade~top50$grupo_ou_solo)
p-value = 0.3879

- A partir do teste, p-valor é maior do que alfa, logo, NÃO rejeito H0.
- Com isso, afirmo que os dois grupos tem a mesma distribuição de dados.
- A Popularidade independe de ser um grupo ou um artista solo.

PRESSUPOSTO 2 - Popularidade por Sexo

shapiro.test(top50$popularidade)


    Shapiro-Wilk normality test

data:  top50$popularidade
W = 0.89305, p-value = 0.0002855

wilcox.test(top50$popularidade~top50$sexo)


    Wilcoxon rank sum test with continuity correction

data:  top50$popularidade by top50$sexo
W = 222, p-value = 0.5999
alternative hypothesis: true location shift is not equal to 0

H0:Os dois grupos (Masculino e Feminino) tem a mesma distribuição de desempenho
H1:Os dois grupos (Masculino e Feminino) tem distribuições diferentes
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0

shapiro.test(top50$popularidade)
p-value = 0.0002855
wilcox.test(top50$popularidade~top50$sexo)
p-value = 0.5999

- A partir do teste, p-valor é maior do que alfa, logo, NÃO rejeito H0.
- Com isso, afirmo que os dois grupos tem a mesma distribuição de dados.
- A Popularidade independe do Sexo dos artistas analisados.

PRESSUPOSTO 3

Popularidade por gênero musical

#3 Grupos ou mais
kruskal.test(top50$popularidade~top50$genero_da_faixa)


    Kruskal-Wallis rank sum test

data:  top50$popularidade by top50$genero_da_faixa
Kruskal-Wallis chi-squared = 29.513, df = 20, p-value = 0.07814

H0:Os gêneros musicais tem a mesma distribuição de desempenho popularidade
H1:Os Existe pelo menos um gênero com distribuição diferente
alpha: 0,05

pvalor menor que 0,05 - Rej H0
pvalor maior que 0,05 - Não Rej H0

kruskal.test(top50$popularidade~top50$genero_da_faixa)
p-value = 0.07814

A partir do teste, p-valor é maior do que alfa, logo, NÃO rejeito H0.
Com isso, afirmo que os dois grupos tem a mesma distribuição de dados.
Os gêneros mais populares do top 50 músicas mais ouvidas do spotifi (2019), como o pop dance, tem tanta possibilidade de ser popular quanto os demais gêneros lista.

CONCLUSÃO

De acordo com as análises realizadas podemos concluir e sugerir melhorias à respeito do do cenário musical como:  

1- Sugere-se a produção de mais artistas mulheres com recursos e visibilidade superior ao que já existe, buscando abrir mais espaço feminino no topo das paradas musicais. É necessário dar mais voz a essas artistas, tanto pela visibilidade quanto pela equidade entre os artistas no mercado da músical.

2- Os gráficos mostraram que existem muitos gêneros musicais que podem ser mais explorados e desenvolvidos. Um bom ponto seria a produção de mais músicas com batidas por minuto elevadas, uma vez que foi possível enxergar a correlação entre  popularidade e batidas por minuto.   

3- Ainda que exista bastante diferença entre grupos e artistas solo presentes no top 50, essa amostra não representa todo o mercado da música, assim como não representa o ano de 2021, no qual esse projeto foi elaborado. Em 2021 grandes grupos musicais como, BTS, KDA e grupos musicais brasileiros estão ganhando visibilidade. O periodo de transição e visibilidade de grupos com diferentes representatividades e caracteristicas podem possibilitar uma alavancagem no sucesso e no crescimento de mais grupos. Além disso, trazer mais de um integrante para o grupo pode contribuir com a valência, o que seria positivo já que quanto mais positivo o clima das músicas, maior a popularidade do grupo ou artista solo, como demonstrado anteriormente.

4- Diante das possibilidades e sugestões apresentadas, conclui-se que a pesquisa cumpriu seu objetivo principal de analisar as músicas e artistas presentes no top50 do Spotify e encontrar padrões de aceitabilidade e sucesso que levam essas músicas à popularidade. Sugerem-se estudos mais específicos de gênero entre sucesso de artistas musicais, visto que essa variável apresentou uma grande diferenciação nas pesquisas realizadas.

SUMÁRIO

Grupo ou solo - Classificação de artistas em grupos musicais ou artistas solo;
Nome da trilha - Nome da Música e feats (parcerias) dos artistas;
Nome do Artista - Nome do artista;
Gênero - Gênero musical da faixa;
BPM - Batidas por minuto ou ritmo musical;
Energia- A energia da música, quanto mais alto o valor, mais energética a música;
Dançabilidade - Quanto mais alto o valor, mais fácil é dançar essa música;
Volume dB- Unidade de medida decibel (dB) usada para medir a intensidade do som. Quanto mais alto o valor, mais alto o volume da música;
Ao Vivo - Quanto mais alto o valor, maior a probabilidade de a música ser uma gravação ao vivo
Valência- Quanto mais alto o valor, mais positivo será o clima da música;
Duração: Tempo de duração da música em segundos;
Acústica: Quanto mais alto o valor, mais acústica é a música;
Discurso: Quanto maior o valor, maior o número de palavras; usadas.
Popularidade: Quanto mais alto o valor, maior a popularidade ;


Big room- Subgênero de House music (música eletrônica); 
BPM- Tempo de duração da música;
Country rap- Subgênero da música popular fundindo a música country com o estilo de hip hop;
Dfw Rap- Subgênero de RAP;
Pop house-  Estilo musical vertente da música eletrônica surgido na cidade de Chicago;
Reggaeton flow- É um estilo musical que tem suas raízes na música latina, caribenha e europeia;
Trap music- Subgênero do rap que se originou na década de 2000 com DJ Paul no sul dos Estados Unidos;

Trabalho Final - Top 50 Músicas do Spotify em 2019

Leoni Ferreira Garcia e Barbara Souza Agostino

08/05/2021