¿Analytics en la industria musical?
By Pamela Ruiz
22/01/2021

En los últimos años se ha hecho popular analizar datos para poder aprender y comprender el comportamiento de individuos en una población, por lo que poder observar las características y tendencias de elecciones entre los individuos se ha convertido en algo vital para las compañías. Por ejemplo, actualmente se evalúa y aprende de los gustos cinematográficos de los usuarios para poder recomendar una película, en otras palabras este análisis que se realiza para un recomendador no solo nos dice las tendencias de las películas más populares sino que se convierte en dinero para la industria cinematográfica al poder conocer las preferencias que los espectadores tienen acerca de una filmación pueden complacer de una manera más sencilla a la mayoría del público así como la empresa que renta el catálogo de películas gana conociendo las preferencias de su público manteniendo un servicio continuo.

Pero, ¿Será posible que un análisis de este estilo nos ayude a entender la industria musical?, ¿Será posible que podamos aprender sobre el comportamiento del público para tener mayores probabilidades de éxito en la industria musical?. Los datos son una fuente de información poderosa y analizandolos dejaremos que nos cuenten la historia del comportamiento del público radio-escucha.

Para analizar la industria musical haremos uso de un conjunto de datos que provee Spotify , quien se encarga de recolectar información sobre las canciones que se encuentran en su repertorio donde brinda servicio. Se almacenan los nombres de las canciones así como el nombre del artista que la interpreta, la duración de cada canción, la popularidad en la escala del 1 al 100 calculada por el número de reproducciones, entre otras características que se explican más a detalle en la siguiente tabla.

Característica Descripción
acousticness Nivel se sonidos acusticos (0-1)
danceability Ritmo para bailar (0-1)
energy Intensidad (energetica) (0-1)
instrumentalness Nivel se sonidos instrumentales (0-1)
Key Tonos musicales
liveness Audiencia en la grabación
loudness Volumen general de la pista
mode Modalidad (mayoor, menor)
speechiness Si contiene letra la canción
tempo Pulsaciones por minuto
time_signature Tiempos por compás
valence Positividad de la canción (0-1)

Ahora que conocemos que miden cada una de nuestras variables a estudiar, dejaremos que nos hablen estadísticamente sobre las canciones.

Número de registros 130,663
Número de artistas 34,621
Número de títulos diferentes 108,890

Aprendiendo de las canciones

Las 10 canciones más populares

Las canciones mas populares
Artista Canción Popularitad
1 Daddy Yankee Con Calma 100
2 Post Malone Wow. 98
3 Jonas Brothers Sucker 98
4 Billie Eilish bad guy 98
5 Post Malone Sunflower - Spider-Man: Into the Spider-Verse 98
6 Ariana Grande break up with your girlfriend, i’m bored 97
7 Ariana Grande 7 rings 96
8 Sam Smith Dancing With A Stranger (with Normani) 96
9 Halsey Without Me 96
10 Marshmello Happier 96
11 Ava Max Sweet but Psycho 96
12 Lady Gaga Shallow 96
13 Pedro Capó Calma - Remix 96

10 canciones de las menos populares

Las canciones mas populares
Artista Canción Popularitad
1 YG BAND DRUM (feat. A$AP Rocky) 0
2 Chris Cooq Lactose 0
3 Chris Cooq Same - Original mix 0
4 Curbo Debauchery - Original mix 0
5 Bingo Play Grandma - Original mix 0
6 G Herbo Bon appétit 0
7 34 Feet Among - Original mix 0
8 Chris Cooq Hazard - Original mix 0
9 Jarka Strummer - Original mix 0
10 Big Koola Big Racks - Original mix 0
11 Scatox Rulet - Original mix 0
12 Jupitar Head - Original mix 0

Notemos que dentro de las 10 peliculas menos populares existen 3 canciones de Chris Cooq, por lo que nos lleva a preguntarnos que hace a una canción menos popular, ¿Será el artísta? Profundicemos un poco en las canciones de Chris Cooq.

Las 7 canciones de Chris Cooq

Las canciones mas populares
Artista Canción Popularitad
1 Chris Cooq Lactose 0
2 Chris Cooq Same - Original mix 0
3 Chris Cooq Hazard - Original mix 0
4 Chris Cooq Samplerup - Original mix 0
5 Chris Cooq Haw Long 0
6 Chris Cooq Huranda 0
7 Chris Cooq Hooq 0

Todas las canciones de Chris Cooq tienen popularidad cero pero debemos considerar que este artista solo tiene 7 canciones por lo que la pregunta que ahora nos interesa resolver es si mientras más canciones tiene el artista sus canciones son más populares.

Los 50 artistas con más canciones

Ahora que conocemos los artistas con más canciones veamos que tal la popularidad que tienen estas canciones.

Las 10 canciones de Johann Sebastian Bach

Las canciones mas populares
Artista Canción Popularitad
1 Johann Sebastian Bach Organ Sonata No. 4, BWV 528: 2. Andante [Adagio] (Transcr. by August Stradal) 64
2 Johann Sebastian Bach Unaccompanied Cello Suite No. 1 in G Major, BWV 1007: I. Prélude 62
3 Johann Sebastian Bach Prelude & Fughetta in G Major, BWV 902: 1. Prelude 58
4 Johann Sebastian Bach Unaccompanied Cello Suite No. 3 in C Major, BWV 1009: V. Bourrées I & II 52
5 Johann Sebastian Bach Bach, JS: Concerto for 2 Pianos in C Minor, BWV 1060: II. Adagio 50
6 Johann Sebastian Bach Unaccompanied Cello Suite No. 1 in G Major, BWV 1007: II. Allemande 47
7 Johann Sebastian Bach The Well-Tempered Clavier: Book 1, BWV 846-869: 1. Prelude in C Major, BWV 846 45
8 Johann Sebastian Bach Unaccompanied Cello Suite No. 1 in G Major, BWV 1007: III. Courante 45
9 Johann Sebastian Bach Bach, JS: Sonata for Violin & Keyboard No. 4 in C Minor, BWV 1017: I. Siciliano. Largo 42
10 Johann Sebastian Bach Unaccompanied Cello Suite No. 2 in D Minor, BWV 1008: III. Courante 42

Johann Sebastian Bach tiene 3621 canciones entre las cuales 422 tienen popularidad igual a creo, es decir, el 12% de sus canciones no son populares, si consideramos las canciones más populares a partir de 75 de popularidad entonces Johann Sebastian Bach no tiene ninguna canción de las más populares pues la canción con mayor puntaje en popularidad es “Organ Sonata No. 4” con popularidad de 64 y en promedio Johann Sebastian Bach tiene una popularidad de 8.88014.

Veamos otro artista con gran cantidad de canciones como Wolfgang Amadeus Mozart.

Las 10 canciones de Wolfgang Amadeus Mozart

Las canciones mas populares
Artista Canción Popularitad
1 Wolfgang Amadeus Mozart ピアノとヴァイオリンのためのソナタ ハ長調 K.403 II. Andante 34
2 Wolfgang Amadeus Mozart ピアノとヴァイオリンのためのソナタ ホ短調 K.304 II.Tempo di menuetto 33
3 Wolfgang Amadeus Mozart Mozart: Symphony No. 41 in C Major, K. 551, “Jupiter”: IV. Allegro 33
4 Wolfgang Amadeus Mozart Mozart: Horn Concerto No. 4 in E-Flat Major, K. 495: III. Rondo (Allegro vivace) 31
5 Wolfgang Amadeus Mozart Mozart: Concerto for Flute & Harp in C Major, K. 299/297c: II. Andantino 31
6 Wolfgang Amadeus Mozart Die Zauberflöte, K. 620: Overture (Live) 30
7 Wolfgang Amadeus Mozart Mozart: Sinfonia concertante in E-Flat Major, K. 364/320d: III. Presto 30
8 Wolfgang Amadeus Mozart Mozart: Le nozze di Figaro, K. 492: Sinfonia 30
9 Wolfgang Amadeus Mozart Symphony No. 41 in C Major, K. 551 “Jupiter”: III. Menuetto. Allegretto (Live) 29
10 Wolfgang Amadeus Mozart Requiem, KV 626: 6f. Lacrimosa (arr. piano) 29

Wolfgang Amadeus Mozart tiene 1744 canciones en Spotify de las cuales 135 tienen popularidad iguala cero, es decir, el 8% de la canciones de Mozart no son populares y su canción más popular tiene una puntuación de 34, en promedio wolf tiene una popularidad de 10.43761.

Por lo que cantidad de canciones no implica calidad ni popularidad de las canciones. A pesar que un artista tenga muchas canciones no significa que tendrán un alto puntaje de popularidad. Ahora que sabemos que no hay una relación entre cantidad-calidad/popularidad, nos preguntamos cómo se relacionan las características musicales de las canciones con su entre sí y quizá más adelante nos interesaría saber cómo se relacionan con la popularidad.

Correlacion entre variables

Existe una correlación negativa entre las variables energía y volumen con los niveles de tonos acústicos en las canciones y a su vez existe una correlación positiva entre la energía y el volumen como se podría esperar pues mientras más volumen tiene la canción más niveles de energía presentan.

Podemos observar que aparentemente la popularidad no tiene correlación, con la variable key, mode, valance. Se realizó la correlación con todas las variables y las de mayor correlación con la popularidad son las siguientes:

Variables con mayor correlación
Variables loudness instrumentalness energy danceability acousticness
1 Popularidad 0,2 -0,2 0,1 0,1 -0,1

Ahora, ¿Qué tipo de canciones se tienen con mayor frecuencia en Spotify? Veamos cuales son las caracteristícas de las canciones en Spotify.

Caracteristicas de las canciones

Podemos observar que existe una gran cantidad (cerca del 23%) de las canciones no tienen nivel de acústico al igual que no tienen audiencia en vivo, por otro lado la mayoría de las canciones tienen niveles altos de volumen. Por lo que el volumen es una característica de un nivel alto.

Para conocer un poco las características de las canciones respecto a la popularidad revisaremos las siguientes variables.

La popularidad según las claves (tonos)

La popularidad según tiempos en el compas

Resulta que la popularidad de las canciones que tienen 4 tiempos en el compás son más populares que las demás, las canciones con los niveles más altos de popularidad tienen 4 tiempos en el compás, podemos pensar que esto tiene que ver con el ritmo de la canción y quizá a las personas les gusta escuchar canciones con más ritmo.

Ahora nos preguntamos si es posible clasificar las canciones de alguna manera y cómo se comportan las características de las canciones en estos grupos seleccionados.

Para realizar los grupos utilizaremos el método de k-medias y clasificaremos en dos grupos de la siguiente manera.

Preprocesando datos

Se procesaron los datos pues es necesario tenerlos escalados y se realizó una modificación a la variable popularidad para poder manejarla en una escala del (0 al 1).

Clusterización de k-means

Se observa que tenemos dos grupos bien separados, recordemos que la clusterización realiza la unión de individuos en este caso canciones que más se parecen entre sí y a su vez intenta que los clusters sean lo más diferentes posibles, por lo que nos interesa saber cuales son las características de las canciones en cada grupo utilizando las medias de estas características nos daremos una idea.

Observando los grupos, se agrupan casi igual en el conjunto de datos que incluyen la popularidad y los que no la incluyen. Pero a pesar de ello K - means nos agrupa con distintas características, sin embargo no hace una buena clusterización respecto a la popularidad.

Vemos que hay dos variables en las cuales las canciones de ambos grupos se parecen mucho, (Liveness y Duration) recordando un poco sobre la descripción de las características la mayoría de las canciones no tenían audiencia en vivo, por lo que es completamente natural que ambos grupos coinciden en este parámetro. Al igual que la duración pues en promedio las canciones duran 212633.1 ms, y son casos especiales cuando tenemos canciones de larga duración por lo que también resulta normal que la media de esta característica coincida en ambos grupos.

Veamos que con el algoritmo se consiguió separar las canciones con altos niveles de acústica y bajos, las canciones con mucha energía y las canciones más “tranquilas”. Si recordamos en la correlación de las variables que elegimos la acústica y la energía tienen correlación negativa, lo cual se puede observar claramente en los grupos pues el grupo de las canciones con altos niveles de acústica tiene bajos niveles de energía y viceversa.

De esta forma al grupo al cual nos referimos con las canciones más tranquilas que contienen bajos niveles de energía y altos niveles de acústica, también cuentan con un nivel de volumen menor, una valencia menor (positivismo de la canción), un ritmo para baile menor, y niveles de música instrumental mayor. Con estas características estamos describiendo un tipo de canción que no bailamos en una reunión, que es tranquila e incluso puede llegar a ser melancólica por lo que para efectos de este análisis les llamaremos el grupo de las baladas.

Por otro lado tenemos otro tipo de canciones con ritmo para bailar en una reunión, volumen alto, energía alta y valencia también alta que para efecto de este análisis llamaremos el grupo de carnaval.

Pero, ¿será que nuestro top de canciones más populares se encuentra en alguno de estos grupos en específico? Pues busquemos el grupo al que se han unido nuestras canciones del top.

Las canciones mas populares en cluster
Artista Canción Popularitad Grupo
1 Daddy Yankee Con Calma 100 2
2 Post Malone Wow. 98 2
3 Jonas Brothers Sucker 98 2
4 Billie Eilish bad guy 98 2
5 Post Malone Sunflower - Spider-Man: Into the Spider-Verse 98 2
6 Ariana Grande break up with your girlfriend, i’m bored 97 2
7 Ariana Grande 7 rings 96 2
8 Sam Smith Dancing With A Stranger (with Normani) 96 2
9 Halsey Without Me 96 2
10 Marshmello Happier 96 2
11 Ava Max Sweet but Psycho 96 2
12 Lady Gaga Shallow 96 2
13 Pedro Capó Calma - Remix 96 2

Todas las canciones del top que hemos conseguido identificar se encuentran en el grupo de Carnaval, por lo que podríamos pensar que las canciones más populares son aquellas canciones movidas que podemos bailar en una reunión con volumen alto y que transmita gran positivismo pero veamos si estadísticamente es correcto realizar esta afirmación.

Verificaremos que tal esta la función de densidad de la popularidad en cada grupo.

Aquí podemos observar que el segundo grupo de las canciones Carnaval estadísticamente tienen mayor popularidad en promedio, mientras la popularidad del grupo de las baladas presentan en promedio menos popularidad, así como también la concentración de las canciones con popularidad cercana a cero es muy grande en el grupo de las baladas. Por lo que ahora podemos confirmar que en promedio el grupo de las canciones carnaval tienen mayor popularidad así como este grupo presenta más canciones de alta popularidad.

Seuguna iteración de k-means

Pero a mayor profundidad, veremos si existe alguna forma de agrupar a las canciones de carnaval y si es posible distinguir entre las canciones de carnaval cuales son las que tienen mayor popularidad.

Y calculamos las medias de sus características.

Y podemos observar que se parecen mucho las características aunque existe un grupo que destaca por tener mayores niveles de energía, entonces nos preguntamos si será posible que la popularidad pueda estar determinada por los niveles de energía. Por lo que observaremos la densidad de estos grupos para ver si esta conjetura es cierta.

Aunque las densidades son parecidas podemos observar que el grupo con mayores niveles de energía tienen en promedio mayor popularidad así como menor número de canciones con popularidad cercana a cero. Podríamos interpretarlo como el grupo de canciones por ejemplo, electrónicas que son parte de las canciones para bailar en una reunión pero tienen mayores niveles de energía que una cumbia

Ahora que conocemos como se comporta la popularidad respecto a las características y agrupaciones realizadas con el algoritmo de K-means, resolvamos la pregunta de a que proporciones de las características de las canciones se consiguen las popularidades de los grupos que hemos designado.

¿A qué se debe la popularidad?

Arbol de clasificación

Utilizaremos el grupo de las baladas para conocer un poco sobre las características de estas variables según su popularidad y del grupo de carnaval utilizaremos las canciones con niveles altos de energía pues pudimos escoger un grupo con “mejor” popularidad.

Grupo baladas

Dentro de las canciones que pertenecen al grupo de las baladas encontraremos que tienen mayor popularidad aquellas que tienen un nivel mayor que 0.25 de volumen y una energía menor a 0.37, pues el 24% de las canciones con popularidad 25 tienen estos niveles de energía y volumen. Pero para ser más exactos debemos considerar que 25 de popularidad en estas canciones es un nivel alto de popularidad ya que en promedio las canciones del grupo balada tienen 18 de popularidad.

Grupo carnaval con energia alta

En el grupo de las canciones con altos niveles de energía, podemos clasificar a las canciones con menores niveles de tonos instrumentales (menor a 0.059) y volumen mayor a 0.13 como las que tienen mayor popularidad. Pues al igual que en el grupo de las baladas la concentración es del 69% de canciones que cuentan con estas características y una popularidad de 31.

¿Y las características de los éxitos músicales?

Ahora, veremos que sucede con las canciones de alta popularidad, consideremos de alta popularidad aquellas que tienen popularidad a partir de 75. Existen 992 canciones que tienen alta popularidad el cual representa el 0.7% de nuestros datos y de las cuales veremos en promedio como son los niveles de las caracteriísticas musicales de estas canciones.

Característica Niveles promedio
acousticness 0.2364855
danceability 0.7059
energy 0.6330
instrumentalness 0.0126277
Key 6.000
liveness 0.16826
loudness -6.160
mode 1
speechiness 0.12637
tempo 123.75
valence 0.4797

El cambio al útilizar analytics

Al conocer la importancia de estudiar los datos para aprender de su comportamiento las empresas han adquirido ventajas competitivas contra las que aún no están listas para analizar datos de los usuarios. Pues si bien podemos observar las grandes empresas que ahora comienzan a ser monopolios como algunas redes sociales que utilizan los datos de sus usuarios para aprender de ellos y satisfacer de mejor manera a los usuarios. Esta estrategia no es única de redes sociales o del ambiente cinematográfico puede ser aplicado a cualquier ámbito que genere datos, que para ser sinceros, en esta década todo negocio genera en distintas proporciones datos para ser analizados.

La industria musical no es la excepción pues hemos podido aprender de los datos estadísticos que Spotify recopiló, hechos como que las canciones tienen una división general en dos grupos a las cuales para términos de este reporte llamamos el grupo de las baladas y el grupo de carnaval, se observó que hay mayor probabilidad de obtener más popularidad si creamos una canción que pertenezca al grupo de carnaval y la razón genérica y aparente respecto a las características musicales de las canciones es que las personas escuchan con mayor frecuencia canciones que pueden bailar, con un volumen alto y sobre todo con niveles altos de energía. Las personas se inclinan por hacer populares este tipo de canciones que son más positivas que una balada melancólica o romántica.

Pero entonces, ¿Aseguramos que si una empresa discográfica graba una canción con niveles altos de energía, tendrá una canción popular? Se debe considerar que existen variables que no se han podido medir con las variables expuestas, pues demográficamente la sociedad puede influir en gran medida a la popularidad de cualquier producto en general, de esta forma como ha sido popular en la última década la aparición de los influencers es posible que esto influya en la popularidad que una canción obtendrá por ejemplo. Pues con el uso de las redes sociales un gran número de personas se ha dedicado a imitar lo que ve en internet y es una variable que sería interesante medir. Si una canción está muy referenciada por personas que influyen en el comportamiento de la población que tanto influirá en la popularidad de la misma evaluando sus características musicales. Es decir, si la influencia puede tener mayor relación con la popularidad de la canción que la calidad con la que se ha realizado.

También aprendimos que tipo de canciones podemos encontrar en Spotify con más frecuencia, por lo que puede ser interesante para la industria experimentar un poco con niveles de las características musicales que menos se han utilizado. Recordemos que cantidad no significa calidad o popularidad, pues se recomienda a la industria poner mayor énfasis en la calidad de las canciones que en la cantidad de canciones a grabar pues como pudimos observar pueden existir cantantes con un repertorio amplio de canciones pero con poca popularidad.

Para concluir es importante destacar que la industria musical puede resultar muy favorecida con el uso de analytics, para encontrar características de las canciones que tienen mayores probabilidades de ser populares o éxitos.