Contenido

Basados en el dataset de Kaggler: Top Hits Spotify from 2000-2019, se han explorado diversos aspectos:

  1. ¿Cuáles son los 10 temas más populares de todo el dataset?
  2. ¿Cuáles son las canciones más populares por año?
  3. ¿Cuáles son los artistas más populares?
  4. ¿Cuáles son los artistas más populares por año?
  5. ¿Qué géneros musicales dominan las preferencias de los usuarios de Spotify?
  6. ¿Qué duración tienen las canciones incluidas en el dataset?
  7. Clustering de canciones
  8. ¿Qué elementos hacen que una canción sea popular? (regresión)

¿Cuáles son los temas más populares del dataset?

Se seleccionaron los 10 temas más populares, según la variable “popularidad”:

Top 10 - TEMAS MÁS POPULARES
# Canción Artista
1 Sweater Weather The Neighbourhood
2 Another Love Tom Odell
3 Without Me Eminem
4 The Real Slim Shady Eminem
5 Wait a Minute! WILLOW
6 lovely (with Khalid) Billie Eilish
7 ’Till I Collapse Eminem
8 Locked out of Heaven Bruno Mars
9 Daddy Issues The Neighbourhood
10 The Nights Avicii

¿Cuáles con los temas más populares por año?

Pero veamos ahora los temas más populares de cada año de los incluidos en el dataset. Hay años que contienen más de una canción en el top de popularidad.

CANCIONES MÁS POPULARES POR AÑO
Año Canciones Artista Popularidad
1998 Hot Boyz Missy Elliott 49
1999 The Next Episode Dr. Dre 82
2000 The Real Slim Shady Eminem 86
2001 The Middle Jimmy Eat World 78
2001 How You Remind Me Nickelback 78
2002 Without Me Eminem 87
2003 In Da Club 50 Cent 81
2003 Toxic Britney Spears 81
2003 Numb Linkin Park 81
2004 Yeah! (feat. Lil Jon & Ludacris) Usher 81
2005 Feel Good Inc.  Gorillaz 82
2005 Hips Don’t Lie (feat. Wyclef Jean) Shakira 82
2006 Promiscuous Nelly Furtado 82
2007 The Way I Are Timbaland 80
2008 Heartless Kanye West 82
2009 Empire State Of Mind JAY-Z 82
2010 Love The Way You Lie Eminem 81
2010 Baby Justin Bieber 81
2011 Paradise Coldplay 82
2011 Pumped Up Kicks Foster The People 82
2011 Ni**as In Paris JAY-Z 82
2012 Locked out of Heaven Bruno Mars 85
2013 Sweater Weather The Neighbourhood 89
2014 The Nights Avicii 85
2015 Wait a Minute! WILLOW 86
2016 One Dance Drake 84
2017 Perfect Ed Sheeran 85
2018 lovely (with Khalid) Billie Eilish 86
2019 Circles Post Malone 85
2020 Options NSG 57

¿Cuáles son los artistas más populares?

Se procedió agrupar los temas por artista y su nivel de popularidad, de manera de poder sacar la lista del top10 de artistas.

Top 10 - ARTISTAS MÁS POPULARES
# Artista Canciones Popularidad
1 Calvin Harris 8 536
2 David Guetta 6 421
3 Katy Perry 6 421
4 Kesha 6 418
5 Bruno Mars 5 381
6 Drake 5 378
7 Rihanna 5 377
8 Taylor Swift 5 354
9 David Guetta 5 353
10 Justin Timberlake 5 343

¿Cuáles son los artistas más populares por año?

Pero los artistas pueden haber acumulado los temas en un año, o en años distintos. Para analizar mejor la popularidad de los artistas se hizo el análisis por año.El tamaño de los círculos incrementa a medida que los artistas acumulan más canciones en el año.

¿Qué géneros musicales dominan las preferencias de los usuarios de Spotify?

El pop es la categoría dominante, según se verifica en el siguiente gráfico, seguido del hip hop. Como no se tienen detalles de la forma en que se construyen estas categorías, se dificulta segregar más los temas.

¿Qué duración tienen las canciones incluidas en el dataset?

Se hizo un histograma de todas las canciones incluidas en el dataset. Como se ve, la mayoría están entre los 3 y 4 minutos y medio de duración, con una media por debajo de 4 minutos.

Pero queríamos ver si la duración estaba relacionada con la popularidad de la canción, así que dividimos el nivel de popularidad en deciles y graficamos su duración. No es posible concluir que la duración esté relacionada con el nivel de popularidad. Lo que sí se confirmó es que para todas las canciones (inlcuyendo las más populares), la duración promedio suele estar por debajo de los 4 minutos.

Clustering de canciones

Se quiso explorar si las canciones del dataset podía agruparse en clusters, que correspondiesen a los géneros musicales. Dado que hay variables numéricas y binarias, se utiliza un clustering jerárquico, usando el método “agnes”.

Para ello, primero separamos las canciones que poseen una categoría musical única en un sample que resultó con 675 observaciones.

GÉNEROS DETECTADOS
Casos
country 9
Dance/Electronic 41
hip hop 120
latin 15
metal 9
pop 411
R&B 13
rock 57

Basados en la data del sample se procedió a eliminar variables que pudieran tener una alta correlación para depurar el modelo (ver abajo). Y se establecieron los lineamientos de la clusterización (Ward).

Método de clusterización
Método AC Factor
average 0.8560431
single 0.7729511
complete 0.9062127
ward 0.9685047
weighted 0.8724310

Usando el método de Ward, procedemos a definir los clusters. Para ello tratamos de establecer el k óptimo, mediante el método “gap_stat”. El resultado obtenido fue k=8, como se muestra más abajo, y generamos los clusters. Se debe reconocer que otros métodos sugerían números inferiores de clusters, pero elegimos este con la esperanza de que los grupos coincidirían con la categorización de canciones por género.

##        
## cluster country Dance/Electronic hip hop latin metal pop R&B rock
##       1       1               10       6     3     3  77   2   20
##       2       6               13       8     6     0 138   5   16
##       3       0                6      29     0     2  39   1    2
##       4       0                4       1     0     0   2   0    3
##       5       0                0      52     2     0  23   1    2
##       6       1                5       0     3     2  75   3   14
##       7       1                0       1     0     2  47   0    0
##       8       0                3      23     1     0  10   1    0

Sin embargo, como se ve en la tabla los clusters obtenidos no corresponden a la categorías que se establecieron en el dataset como géneros. Evidentemente, el algoritmo y las personas que clasificaron la data siguen estándares distintos.