Registered S3 method overwritten by 'dplyr':
  method           from
  print.rowwise_df     
Registered S3 methods overwritten by 'dbplyr':
  method         from
  print.tbl_lazy     
  print.tbl_sql      
── Attaching packages ───────────── tidyverse 1.3.0 ──
✓ ggplot2 3.3.0     ✓ purrr   0.3.3
✓ tibble  2.1.3     ✓ dplyr   0.8.5
✓ tidyr   1.0.2     ✓ stringr 1.4.0
✓ readr   1.3.1     ✓ forcats 0.5.0
── Conflicts ──────────────── tidyverse_conflicts() ──
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()
Parsed with column specification:
cols(
  .default = col_double(),
  playlist_id = col_character(),
  playlist_name = col_character(),
  track_id = col_character(),
  track_explicit = col_logical(),
  track_href = col_character(),
  track_is_local = col_logical(),
  track_name = col_character(),
  track_preview_url = col_character(),
  track_uri = col_character(),
  track_album_id = col_character(),
  track_album_name = col_character(),
  track_album_release_date = col_character(),
  track_album_release_date_precision = col_character(),
  key_name = col_character(),
  mode_name = col_character(),
  key_mode = col_character()
)
See spec(...) for full column specifications.

Os dados

Os dados a serem analisados vem do Spotify. Foram filtradas músicas de playlists selecionadas, e cada música possui vários atributos, como: daceability(danceabilidade?), energia, valence e outras características provavelmente interessantes.
Vejamos os dados:

rr musicas

Análise básica

Vejamos agora a média e mediana da danceability de cada playlist, verificando esses dados a partir de cada música pertencente.

danceability_mean = musicas %>%
  group_by(playlist_name) %>%
  count(danceability_mean = mean(danceability))

danceability_median = musicas %>%
  group_by(playlist_name) %>%
  count(danceability_median = median(danceability))

ggplot() + 
  geom_point(data = musicas,
             mapping = aes(x = danceability, y = playlist_name),
             alpha = .3,
             size = .5) +
  geom_point(data = danceability_mean,
             mapping = aes(x = danceability_mean, y = playlist_name),
             color = "red",
             size = 0.7) + 
  geom_point(data = danceability_median, mapping = aes(x = danceability_median, y = playlist_name),
             color = "blue",
             size = 0.7) +
  labs(x = "Danceability",
       y = "Nome da playlist",
       title = "Danceabilidade x Nome da playlist",
       subtitle = "Ponto azul = Mediana      Ponto vermelho = Média")


#CLASSICOS DO FUNK TEM A MELHOR MEDIA, E APARENTA TER UMA BAIXA DISPERSAO, VAMOS VER...

A playlist Clássicos do Funk possui a maior média e a maior dispersão, ou seja, os dados estão distantes da média.
Olhando para a playlist Bonde do Funk, vemos que a mesma possui a segunda maior média, e o desvio padrão está bem próximo.

Médias em número

rr musicas %>% group_by(playlist_name) %>% summarise(sd_danceability = sd(danceability)) %>% ggplot(aes(x = sd_danceability, y = playlist_name)) + geom_point(size = .7, color = )

rr #A PLAYLIST CLASSICOS DO FUNK POSSUI O MENOR DP E A MAIOR MEDIA DE

rr musicas %>% group_by(playlist_name) %>% summarise(energy_mean = mean(energy)) %>% ggplot(aes(x = energy_mean, y = playlist_name)) + geom_point(color = , size = .5)

rr #A PLAYLIST CLASSICOS DO FUNK TAMBÉM POSSUI UMA DAS MEDIAS DE ENERGIA MAIS ALTAS

rr musicas %>% group_by(playlist_name) %>% summarise(valence_mean = mean(valence)) %>% ggplot(aes(x = valence_mean, y = playlist_name)) + geom_point(color = , size = .7)

rr #A PLAYLIST CLASSICOS DO FUNK TEM UMA DAS MELHORES MEDIAS DE

rr musicas %>% group_by(playlist_name) %>% ggplot(mapping = aes(y = danceability, x = \, color = playlist_name)) + geom_quasirandom(alpha = 0.4)

rr #!!!!!!!!!!!COMO GIRAR O NOME? NO Y FICA RUIM #AS MELHORES MUSICAS SAO DA PLAYLIST CLASSICOS DO FUNK

rr musicas %>% filter(playlist_name == do Funk) %>% summarise(max(danceability, track_name))

rr musicas %>% filter(playlist_name == do Funk) %>% summarise(max(energy, track_name))

rr musicas %>% filter(playlist_name == do Funk) %>% summarise(max(valence, track_name))

rr musicas %>% group_by(playlist_name) %>% ggplot(mapping = aes(x = track_popularity, y = playlist_name, color = playlist_name)) + geom_jitter()

rr #A PLAYLIST POP UP POSSUI AS TRACKS MAIS POPULARES

rr musicas %>% group_by(playlist_name) %>% count(playlistPopularity = mean(track_popularity)) %>% ggplot(mapping = aes(x = playlistPopularity, y = playlist_name)) + geom_point(color = , size = .4)

rr #AQUI, VERIFICA-SE QUE A PLAYLIST POP UP POSSUI A MAIOR POPULARIDADE ENTRE ESSAS PLAYLISTS, POR MEDIA DE POPULARIDADE DE CADA TRACK

rr musicas %>% group_by(playlist_name) %>% ggplot(mapping = aes(y = playlist_name, x = track_popularity, fill = playlist_name)) + geom_boxplot() + geom_jitter(color = , size = 0.5, alpha = 0.5)

rr playlistPopularity = musicas %>% group_by(playlist_name) %>% count(playlistPopularity = mean(track_popularity))

ggplot() + geom_point(data = musicas, mapping = aes(x = track_popularity, y = playlist_name), alpha = 0.3, size = 0.5) + geom_point(data = playlistPopularity, mapping = aes(x = playlistPopularity, y = playlist_name), color = , size = 0.6) + labs(x = nome, y = nome, title = )

rr musicas %>% group_by(playlist_name) %>% summarise(sdPlaylistPopularity = sd(track_popularity)) %>% arrange(sdPlaylistPopularity)

rr musicas %>% ggplot(aes(x = energy, y = valence), color = playlist_name) + geom_point(alpha = .6, size = .5) + facet_wrap(~ playlist_name)

rr musicas %>% group_by(playlist_name) %>% ggplot(mapping = aes(x = valence, y = energy, color = playlist_name)) + geom_point(alpha = 0.8, size = 0.8)

RELACAO POSITIVA E LINEAR. A ENERGIA INFLUENCIA A FELICIDADE QUE A MUSICA TRANSMITE?

rr musicas %>% summarise(coeficiente = cor(valence, energy, method = )) r #APARENTEMENTE NAO APRESENTA UMA CORRELACAO MUITO BOA

APARENTEMENTE NAO APRESENTA UMA CORRELACAO MUITO ALTA.

Uma coisa curiosa a ser analisada é se as tracks com selo EXPLICIT possuem uma maior valencia, energia ou “dançabilidade”. Vejamos:

rr musicas %>% ggplot(mapping = aes(x = , y = energy, color = playlist_name)) + geom_quasirandom() + facet_wrap(~ track_explicit)

rr musicas %>% group_by(track_explicit) %>% summarise(mean = mean(energy), median = median(energy))

Aparentemente as musicas terem selo EXPLICIT não influenciam na energia que a música passa, mas vejamos como se comporta com a valencia:

rr musicas %>% ggplot(mapping = aes(x = , y = valence, color = playlist_name)) + geom_quasirandom() + facet_wrap(~ track_explicit)

rr musicas %>% group_by(track_explicit) %>% summarise(mean = mean(valence), median = median(valence))

As músicas com selo EXPLICIT também não influenciam a felicidade que passam.

rr musicas %>% ggplot(mapping = aes(x = , y = danceability, color = playlist_name)) + geom_quasirandom() + facet_wrap(~ track_explicit)

rr musicas %>% group_by(track_explicit) %>% summarise(mean = mean(danceability), median = median(danceability), sd = sd(danceability))

As musicas com tag EXPLICIT possuem media e mediana levemente maiores que as que não possuem, assim como um desvio padrão menor, então TALVEZ haja alguma relação.

---
title: "Qual a melhor playlist presente nos dados?"
output: html_notebook
---

```{r echo=FALSE, message=FALSE, warning=FALSE}
library(tidyverse)
library(ggbeeswarm)
musicas = read_csv("https://github.com/cienciadedados-ufcg/vis-cancoes/raw/master/data/playlists-spotify.csv")
```

### Os dados  

Os dados a serem analisados vem do Spotify. Foram filtradas músicas de playlists selecionadas, e cada música possui vários atributos, como: daceability(danceabilidade?), energia, valence e outras características provavelmente interessantes.  
Vejamos os dados:

```{r}
musicas
```

### Análise básica

Vejamos agora a média e mediana da danceability de cada playlist, verificando esses dados a partir de cada música pertencente. 

```{r}
danceability_mean = musicas %>%
  group_by(playlist_name) %>%
  count(danceability_mean = mean(danceability))

danceability_median = musicas %>%
  group_by(playlist_name) %>%
  count(danceability_median = median(danceability))

ggplot() + 
  geom_point(data = musicas,
             mapping = aes(x = danceability, y = playlist_name),
             alpha = .3,
             size = .5) +
  geom_point(data = danceability_mean,
             mapping = aes(x = danceability_mean, y = playlist_name),
             color = "red",
             size = 0.7) + 
  geom_point(data = danceability_median, mapping = aes(x = danceability_median, y = playlist_name),
             color = "blue",
             size = 0.7) +
  labs(x = "Danceabilidade",
       y = "Nome da playlist",
       title = "Danceabilidade x Nome da playlist",
       subtitle = "Ponto azul = Mediana      Ponto vermelho = Média")


```

A playlist Clássicos do Funk possui a maior média e a maior dispersão, ou seja, os dados estão distantes da média.  
Olhando para a playlist Bonde do Funk, vemos que a mesma possui a segunda maior média, e o desvio padrão está bem próximo.  

#### Médias em número

```{r}
musicas %>% 
  group_by(playlist_name) %>%
  summarise(danceability_mean = mean(danceability)) %>%
  arrange(-danceability_mean)
```

```{r}
musicas %>%  group_by(playlist_name) %>%
  summarise(sd_danceability = sd(danceability)) %>%
  ggplot(aes(x = sd_danceability, y = playlist_name)) +
  geom_point(size = .7, color = "red")
#A PLAYLIST CLASSICOS DO FUNK POSSUI O MENOR DP E A MAIOR MEDIA DE "DANCABILIDADE"
```

```{r}
musicas %>% 
  group_by(playlist_name) %>%
  summarise(energy_mean = mean(energy)) %>%
  ggplot(aes(x = energy_mean, y = playlist_name)) +
  geom_point(color = "red", size = .5)
#A PLAYLIST CLASSICOS DO FUNK TAMBÉM POSSUI UMA DAS MEDIAS DE ENERGIA MAIS ALTAS
```

```{r}
musicas %>% 
  group_by(playlist_name) %>%
  summarise(valence_mean = mean(valence)) %>%
  ggplot(aes(x = valence_mean, y = playlist_name)) +
  geom_point(color = "red", size = .7)
#A PLAYLIST CLASSICOS DO FUNK TEM UMA DAS MELHORES MEDIAS DE "VALENCE"
```

```{r}
musicas %>% group_by(playlist_name) %>%
  ggplot(mapping = aes(y = danceability, x = "", color = playlist_name)) + 
  geom_quasirandom(alpha = 0.4)
#!!!!!!!!!!!COMO GIRAR O NOME? NO Y FICA RUIM
#AS MELHORES MUSICAS SAO DA PLAYLIST CLASSICOS DO FUNK
```

```{r}
musicas %>%
  filter(playlist_name == "Clássicos do Funk") %>%
  summarise(max(danceability, track_name))
```

```{r}
musicas %>%
  filter(playlist_name == "Clássicos do Funk") %>%
  summarise(max(energy, track_name))
```
```{r}
musicas %>%
  filter(playlist_name == "Clássicos do Funk") %>%
  summarise(max(valence, track_name))
```

```{r}
musicas %>%
  group_by(playlist_name) %>%
  ggplot(mapping = aes(x = track_popularity, y = playlist_name, 
                       color = playlist_name)) +
  geom_jitter()
#A PLAYLIST POP UP POSSUI AS TRACKS MAIS POPULARES
```

```{r}
musicas %>% 
  group_by(playlist_name) %>%
  count(playlistPopularity = mean(track_popularity)) %>%
  ggplot(mapping = aes(x = playlistPopularity, y = playlist_name)) +
  geom_point(color = "red", size = .4)
#AQUI, VERIFICA-SE QUE A PLAYLIST POP UP POSSUI A MAIOR POPULARIDADE ENTRE ESSAS PLAYLISTS, POR MEDIA DE POPULARIDADE DE CADA TRACK
```
```{r}
musicas %>% 
  group_by(playlist_name) %>%
  ggplot(mapping = aes(y = playlist_name, x = track_popularity, 
                       fill = playlist_name)) +
  geom_boxplot() + 
  geom_jitter(color = "black", size = 0.5, alpha = 0.5)

```

```{r}
playlistPopularity = musicas %>%
  group_by(playlist_name) %>%
  count(playlistPopularity = mean(track_popularity))
  
ggplot() + 
  geom_point(data = musicas, 
             mapping = aes(x = track_popularity, y = playlist_name), 
             alpha = 0.3, size = 0.5) + 
  geom_point(data = playlistPopularity, 
             mapping = aes(x = playlistPopularity, y = playlist_name), 
             color = "red", size = 0.6)   + labs(x = "um nome", y = "outro nome", title = "nomedografico")

```
```{r}
musicas %>%
  group_by(playlist_name) %>%
  summarise(sdPlaylistPopularity = sd(track_popularity)) %>%
  arrange(sdPlaylistPopularity)
```

```{r}
musicas %>%
  ggplot(aes(x = energy, y = valence), color = playlist_name) +
  geom_point(alpha = .6, size = .5) +
  facet_wrap(~ playlist_name)
```

```{r}
musicas %>%
  group_by(playlist_name) %>%
  ggplot(mapping = aes(x = valence, y = energy, color = playlist_name)) +
  geom_point(alpha = 0.8, size = 0.8)
```

RELACAO POSITIVA E LINEAR.
A ENERGIA INFLUENCIA A FELICIDADE QUE A MUSICA TRANSMITE?

```{r}
musicas %>%
  summarise(coeficiente = cor(valence, energy, method = "pearson"))
```

APARENTEMENTE NAO APRESENTA UMA CORRELACAO MUITO ALTA.

Uma coisa curiosa a ser analisada é se as tracks com selo EXPLICIT possuem uma maior valencia, energia ou "dançabilidade". Vejamos:

```{r}
musicas %>%
  ggplot(mapping = aes(x = "Musicas", 
                       y = energy, 
                       color = playlist_name)) +
  geom_quasirandom() + 
  facet_wrap(~ track_explicit)
```

```{r}
musicas %>%
  group_by(track_explicit) %>%
  summarise(mean = mean(energy), 
            median = median(energy))
```

Aparentemente as musicas terem selo EXPLICIT não influenciam na energia que a música passa, mas vejamos como se comporta com a valencia:

```{r}
musicas %>%
  ggplot(mapping = aes(x = "Musicas", y = valence, color = playlist_name)) +
  geom_quasirandom() + facet_wrap(~ track_explicit)
```

```{r}
musicas %>%
  group_by(track_explicit) %>%
  summarise(mean = mean(valence), 
            median = median(valence))
```

As músicas com selo EXPLICIT também não influenciam a felicidade que passam.

```{r}
musicas %>%
  ggplot(mapping = aes(x = "Musicas", y = danceability, color = playlist_name)) +
  geom_quasirandom() + facet_wrap(~ track_explicit)
```

```{r}
musicas %>%
  group_by(track_explicit) %>%
  summarise(mean = mean(danceability), 
            median = median(danceability),
            sd = sd(danceability))
```

As musicas com tag EXPLICIT possuem media e mediana levemente maiores que as que não possuem, assim como um desvio padrão menor, então TALVEZ haja alguma relação.