En los últimos años se ha hecho popular analizar datos para poder aprender y comprender el comportamiento de individuos en una población, por lo que poder observar las características y tendencias de elecciones entre los individuos se ha convertido en algo vital para las compañías. Por ejemplo, actualmente se evalúa y aprende de los gustos cinematográficos de los usuarios para poder recomendar una película, en otras palabras este análisis que se realiza para un recomendador no solo nos dice las tendencias de las películas más populares sino que se convierte en dinero para la industria cinematográfica al poder conocer las preferencias que los espectadores tienen acerca de una filmación pueden complacer de una manera más sencilla a la mayoría del público así como la empresa que renta el catálogo de películas gana conociendo las preferencias de su público manteniendo un servicio continuo.
Pero, ¿Será posible que un análisis de este estilo nos ayude a entender la industria musical?, ¿Será posible que podamos aprender sobre el comportamiento del público para tener mayores probabilidades de éxito en la industria musical?. Los datos son una fuente de información poderosa y analizandolos dejaremos que nos cuenten la historia del comportamiento del público radio-escucha.
Para analizar la industria musical haremos uso de un conjunto de datos que provee Spotify , quien se encarga de recolectar información sobre las canciones que se encuentran en su repertorio donde brinda servicio. Se almacenan los nombres de las canciones así como el nombre del artista que la interpreta, la duración de cada canción, la popularidad en la escala del 1 al 100 calculada por el número de reproducciones, entre otras características que se explican más a detalle en la siguiente tabla.
| Característica | Descripción |
|---|---|
| acousticness | Nivel se sonidos acusticos (0-1) |
| danceability | Ritmo para bailar (0-1) |
| energy | Intensidad (energetica) (0-1) |
| instrumentalness | Nivel se sonidos instrumentales (0-1) |
| Key | Tonos musicales |
| liveness | Audiencia en la grabación |
| loudness | Volumen general de la pista |
| mode | Modalidad (mayoor, menor) |
| speechiness | Si contiene letra la canción |
| tempo | Pulsaciones por minuto |
| time_signature | Tiempos por compás |
| valence | Positividad de la canción (0-1) |
Ahora que conocemos que miden cada una de nuestras variables a estudiar, dejaremos que nos hablen estadísticamente sobre las canciones.
| Artista | Canción | Popularitad | |
|---|---|---|---|
| 1 | Daddy Yankee | Con Calma | 100 |
| 2 | Post Malone | Wow. | 98 |
| 3 | Jonas Brothers | Sucker | 98 |
| 4 | Billie Eilish | bad guy | 98 |
| 5 | Post Malone | Sunflower - Spider-Man: Into the Spider-Verse | 98 |
| 6 | Ariana Grande | break up with your girlfriend, i’m bored | 97 |
| 7 | Ariana Grande | 7 rings | 96 |
| 8 | Sam Smith | Dancing With A Stranger (with Normani) | 96 |
| 9 | Halsey | Without Me | 96 |
| 10 | Marshmello | Happier | 96 |
| 11 | Ava Max | Sweet but Psycho | 96 |
| 12 | Lady Gaga | Shallow | 96 |
| 13 | Pedro Capó | Calma - Remix | 96 |
| Artista | Canción | Popularitad | |
|---|---|---|---|
| 1 | YG | BAND DRUM (feat. A$AP Rocky) | 0 |
| 2 | Chris Cooq | Lactose | 0 |
| 3 | Chris Cooq | Same - Original mix | 0 |
| 4 | Curbo | Debauchery - Original mix | 0 |
| 5 | Bingo Play | Grandma - Original mix | 0 |
| 6 | G Herbo | Bon appétit | 0 |
| 7 | 34 Feet | Among - Original mix | 0 |
| 8 | Chris Cooq | Hazard - Original mix | 0 |
| 9 | Jarka | Strummer - Original mix | 0 |
| 10 | Big Koola | Big Racks - Original mix | 0 |
| 11 | Scatox | Rulet - Original mix | 0 |
| 12 | Jupitar | Head - Original mix | 0 |
Notemos que dentro de las 10 peliculas menos populares existen 3 canciones de Chris Cooq, por lo que nos lleva a preguntarnos que hace a una canción menos popular, ¿Será el artísta? Profundicemos un poco en las canciones de Chris Cooq.
| Artista | Canción | Popularitad | |
|---|---|---|---|
| 1 | Chris Cooq | Lactose | 0 |
| 2 | Chris Cooq | Same - Original mix | 0 |
| 3 | Chris Cooq | Hazard - Original mix | 0 |
| 4 | Chris Cooq | Samplerup - Original mix | 0 |
| 5 | Chris Cooq | Haw Long | 0 |
| 6 | Chris Cooq | Huranda | 0 |
| 7 | Chris Cooq | Hooq | 0 |
Todas las canciones de Chris Cooq tienen popularidad cero pero debemos considerar que este artista solo tiene 7 canciones por lo que la pregunta que ahora nos interesa resolver es si mientras más canciones tiene el artista sus canciones son más populares.
Ahora que conocemos los artistas con más canciones veamos que tal la popularidad que tienen estas canciones.
| Artista | Canción | Popularitad | |
|---|---|---|---|
| 1 | Johann Sebastian Bach | Organ Sonata No. 4, BWV 528: 2. Andante [Adagio] (Transcr. by August Stradal) | 64 |
| 2 | Johann Sebastian Bach | Unaccompanied Cello Suite No. 1 in G Major, BWV 1007: I. Prélude | 62 |
| 3 | Johann Sebastian Bach | Prelude & Fughetta in G Major, BWV 902: 1. Prelude | 58 |
| 4 | Johann Sebastian Bach | Unaccompanied Cello Suite No. 3 in C Major, BWV 1009: V. Bourrées I & II | 52 |
| 5 | Johann Sebastian Bach | Bach, JS: Concerto for 2 Pianos in C Minor, BWV 1060: II. Adagio | 50 |
| 6 | Johann Sebastian Bach | Unaccompanied Cello Suite No. 1 in G Major, BWV 1007: II. Allemande | 47 |
| 7 | Johann Sebastian Bach | The Well-Tempered Clavier: Book 1, BWV 846-869: 1. Prelude in C Major, BWV 846 | 45 |
| 8 | Johann Sebastian Bach | Unaccompanied Cello Suite No. 1 in G Major, BWV 1007: III. Courante | 45 |
| 9 | Johann Sebastian Bach | Bach, JS: Sonata for Violin & Keyboard No. 4 in C Minor, BWV 1017: I. Siciliano. Largo | 42 |
| 10 | Johann Sebastian Bach | Unaccompanied Cello Suite No. 2 in D Minor, BWV 1008: III. Courante | 42 |
Johann Sebastian Bach tiene 3621 canciones entre las cuales 422 tienen popularidad igual a creo, es decir, el 12% de sus canciones no son populares, si consideramos las canciones más populares a partir de 75 de popularidad entonces Johann Sebastian Bach no tiene ninguna canción de las más populares pues la canción con mayor puntaje en popularidad es “Organ Sonata No. 4” con popularidad de 64 y en promedio Johann Sebastian Bach tiene una popularidad de 8.88014.
Veamos otro artista con gran cantidad de canciones como Wolfgang Amadeus Mozart.
| Artista | Canción | Popularitad | |
|---|---|---|---|
| 1 | Wolfgang Amadeus Mozart | ピアノã¨ãƒ´ã‚¡ã‚¤ã‚ªãƒªãƒ³ã®ãŸã‚ã®ã‚½ãƒŠã‚¿ ãƒé•·èª¿ K.403 II. Andante | 34 |
| 2 | Wolfgang Amadeus Mozart | ピアノã¨ãƒ´ã‚¡ã‚¤ã‚ªãƒªãƒ³ã®ãŸã‚ã®ã‚½ãƒŠã‚¿ ホçŸèª¿ K.304 II.Tempo di menuetto | 33 |
| 3 | Wolfgang Amadeus Mozart | Mozart: Symphony No. 41 in C Major, K. 551, “Jupiter”: IV. Allegro | 33 |
| 4 | Wolfgang Amadeus Mozart | Mozart: Horn Concerto No. 4 in E-Flat Major, K. 495: III. Rondo (Allegro vivace) | 31 |
| 5 | Wolfgang Amadeus Mozart | Mozart: Concerto for Flute & Harp in C Major, K. 299/297c: II. Andantino | 31 |
| 6 | Wolfgang Amadeus Mozart | Die Zauberflöte, K. 620: Overture (Live) | 30 |
| 7 | Wolfgang Amadeus Mozart | Mozart: Sinfonia concertante in E-Flat Major, K. 364/320d: III. Presto | 30 |
| 8 | Wolfgang Amadeus Mozart | Mozart: Le nozze di Figaro, K. 492: Sinfonia | 30 |
| 9 | Wolfgang Amadeus Mozart | Symphony No. 41 in C Major, K. 551 “Jupiter”: III. Menuetto. Allegretto (Live) | 29 |
| 10 | Wolfgang Amadeus Mozart | Requiem, KV 626: 6f. Lacrimosa (arr. piano) | 29 |
Wolfgang Amadeus Mozart tiene 1744 canciones en Spotify de las cuales 135 tienen popularidad iguala cero, es decir, el 8% de la canciones de Mozart no son populares y su canción más popular tiene una puntuación de 34, en promedio wolf tiene una popularidad de 10.43761.
Por lo que cantidad de canciones no implica calidad ni popularidad de las canciones. A pesar que un artista tenga muchas canciones no significa que tendrán un alto puntaje de popularidad. Ahora que sabemos que no hay una relación entre cantidad-calidad/popularidad, nos preguntamos cómo se relacionan las características musicales de las canciones con su entre sí y quizá más adelante nos interesaría saber cómo se relacionan con la popularidad.
Existe una correlación negativa entre las variables energía y volumen con los niveles de tonos acústicos en las canciones y a su vez existe una correlación positiva entre la energía y el volumen como se podría esperar pues mientras más volumen tiene la canción más niveles de energía presentan.
Podemos observar que aparentemente la popularidad no tiene correlación, con la variable key, mode, valance. Se realizó la correlación con todas las variables y las de mayor correlación con la popularidad son las siguientes:
| Variables | loudness | instrumentalness | energy | danceability | acousticness | |
|---|---|---|---|---|---|---|
| 1 | Popularidad | 0,2 | -0,2 | 0,1 | 0,1 | -0,1 |
Ahora, ¿Qué tipo de canciones se tienen con mayor frecuencia en Spotify? Veamos cuales son las caracteristícas de las canciones en Spotify.
Podemos observar que existe una gran cantidad (cerca del 23%) de las canciones no tienen nivel de acústico al igual que no tienen audiencia en vivo, por otro lado la mayoría de las canciones tienen niveles altos de volumen. Por lo que el volumen es una característica de un nivel alto.
Para conocer un poco las características de las canciones respecto a la popularidad revisaremos las siguientes variables.
Resulta que la popularidad de las canciones que tienen 4 tiempos en el compás son más populares que las demás, las canciones con los niveles más altos de popularidad tienen 4 tiempos en el compás, podemos pensar que esto tiene que ver con el ritmo de la canción y quizá a las personas les gusta escuchar canciones con más ritmo.
Ahora nos preguntamos si es posible clasificar las canciones de alguna manera y cómo se comportan las características de las canciones en estos grupos seleccionados.
Para realizar los grupos utilizaremos el método de k-medias y clasificaremos en dos grupos de la siguiente manera.
Se procesaron los datos pues es necesario tenerlos escalados y se realizó una modificación a la variable popularidad para poder manejarla en una escala del (0 al 1).
Se observa que tenemos dos grupos bien separados, recordemos que la clusterización realiza la unión de individuos en este caso canciones que más se parecen entre sí y a su vez intenta que los clusters sean lo más diferentes posibles, por lo que nos interesa saber cuales son las características de las canciones en cada grupo utilizando las medias de estas características nos daremos una idea.
Observando los grupos, se agrupan casi igual en el conjunto de datos que incluyen la popularidad y los que no la incluyen. Pero a pesar de ello K - means nos agrupa con distintas características, sin embargo no hace una buena clusterización respecto a la popularidad.
Vemos que hay dos variables en las cuales las canciones de ambos grupos se parecen mucho, (Liveness y Duration) recordando un poco sobre la descripción de las características la mayoría de las canciones no tenían audiencia en vivo, por lo que es completamente natural que ambos grupos coinciden en este parámetro. Al igual que la duración pues en promedio las canciones duran 212633.1 ms, y son casos especiales cuando tenemos canciones de larga duración por lo que también resulta normal que la media de esta característica coincida en ambos grupos.
Veamos que con el algoritmo se consiguió separar las canciones con altos niveles de acústica y bajos, las canciones con mucha energía y las canciones más “tranquilas”. Si recordamos en la correlación de las variables que elegimos la acústica y la energía tienen correlación negativa, lo cual se puede observar claramente en los grupos pues el grupo de las canciones con altos niveles de acústica tiene bajos niveles de energía y viceversa.
De esta forma al grupo al cual nos referimos con las canciones más tranquilas que contienen bajos niveles de energía y altos niveles de acústica, también cuentan con un nivel de volumen menor, una valencia menor (positivismo de la canción), un ritmo para baile menor, y niveles de música instrumental mayor. Con estas características estamos describiendo un tipo de canción que no bailamos en una reunión, que es tranquila e incluso puede llegar a ser melancólica por lo que para efectos de este análisis les llamaremos el grupo de las baladas.
Por otro lado tenemos otro tipo de canciones con ritmo para bailar en una reunión, volumen alto, energía alta y valencia también alta que para efecto de este análisis llamaremos el grupo de carnaval.
Pero, ¿será que nuestro top de canciones más populares se encuentra en alguno de estos grupos en específico? Pues busquemos el grupo al que se han unido nuestras canciones del top.
| Artista | Canción | Popularitad | Grupo | |
|---|---|---|---|---|
| 1 | Daddy Yankee | Con Calma | 100 | 2 |
| 2 | Post Malone | Wow. | 98 | 2 |
| 3 | Jonas Brothers | Sucker | 98 | 2 |
| 4 | Billie Eilish | bad guy | 98 | 2 |
| 5 | Post Malone | Sunflower - Spider-Man: Into the Spider-Verse | 98 | 2 |
| 6 | Ariana Grande | break up with your girlfriend, i’m bored | 97 | 2 |
| 7 | Ariana Grande | 7 rings | 96 | 2 |
| 8 | Sam Smith | Dancing With A Stranger (with Normani) | 96 | 2 |
| 9 | Halsey | Without Me | 96 | 2 |
| 10 | Marshmello | Happier | 96 | 2 |
| 11 | Ava Max | Sweet but Psycho | 96 | 2 |
| 12 | Lady Gaga | Shallow | 96 | 2 |
| 13 | Pedro Capó | Calma - Remix | 96 | 2 |
Todas las canciones del top que hemos conseguido identificar se encuentran en el grupo de Carnaval, por lo que podríamos pensar que las canciones más populares son aquellas canciones movidas que podemos bailar en una reunión con volumen alto y que transmita gran positivismo pero veamos si estadísticamente es correcto realizar esta afirmación.
Verificaremos que tal esta la función de densidad de la popularidad en cada grupo.
Aquí podemos observar que el segundo grupo de las canciones Carnaval estadísticamente tienen mayor popularidad en promedio, mientras la popularidad del grupo de las baladas presentan en promedio menos popularidad, así como también la concentración de las canciones con popularidad cercana a cero es muy grande en el grupo de las baladas. Por lo que ahora podemos confirmar que en promedio el grupo de las canciones carnaval tienen mayor popularidad así como este grupo presenta más canciones de alta popularidad.
Pero a mayor profundidad, veremos si existe alguna forma de agrupar a las canciones de carnaval y si es posible distinguir entre las canciones de carnaval cuales son las que tienen mayor popularidad.
Y calculamos las medias de sus características.
Y podemos observar que se parecen mucho las características aunque existe un grupo que destaca por tener mayores niveles de energía, entonces nos preguntamos si será posible que la popularidad pueda estar determinada por los niveles de energía. Por lo que observaremos la densidad de estos grupos para ver si esta conjetura es cierta.
Aunque las densidades son parecidas podemos observar que el grupo con mayores niveles de energía tienen en promedio mayor popularidad así como menor número de canciones con popularidad cercana a cero. Podríamos interpretarlo como el grupo de canciones por ejemplo, electrónicas que son parte de las canciones para bailar en una reunión pero tienen mayores niveles de energía que una cumbia
Ahora que conocemos como se comporta la popularidad respecto a las características y agrupaciones realizadas con el algoritmo de K-means, resolvamos la pregunta de a que proporciones de las características de las canciones se consiguen las popularidades de los grupos que hemos designado.
Utilizaremos el grupo de las baladas para conocer un poco sobre las características de estas variables según su popularidad y del grupo de carnaval utilizaremos las canciones con niveles altos de energía pues pudimos escoger un grupo con “mejor” popularidad.
Dentro de las canciones que pertenecen al grupo de las baladas encontraremos que tienen mayor popularidad aquellas que tienen un nivel mayor que 0.25 de volumen y una energía menor a 0.37, pues el 24% de las canciones con popularidad 25 tienen estos niveles de energía y volumen. Pero para ser más exactos debemos considerar que 25 de popularidad en estas canciones es un nivel alto de popularidad ya que en promedio las canciones del grupo balada tienen 18 de popularidad.
Ahora, veremos que sucede con las canciones de alta popularidad, consideremos de alta popularidad aquellas que tienen popularidad a partir de 75. Existen 992 canciones que tienen alta popularidad el cual representa el 0.7% de nuestros datos y de las cuales veremos en promedio como son los niveles de las caracteriísticas musicales de estas canciones.
| Característica | Niveles promedio |
|---|---|
| acousticness | 0.2364855 |
| danceability | 0.7059 |
| energy | 0.6330 |
| instrumentalness | 0.0126277 |
| Key | 6.000 |
| liveness | 0.16826 |
| loudness | -6.160 |
| mode | 1 |
| speechiness | 0.12637 |
| tempo | 123.75 |
| valence | 0.4797 |
Al conocer la importancia de estudiar los datos para aprender de su comportamiento las empresas han adquirido ventajas competitivas contra las que aún no están listas para analizar datos de los usuarios. Pues si bien podemos observar las grandes empresas que ahora comienzan a ser monopolios como algunas redes sociales que utilizan los datos de sus usuarios para aprender de ellos y satisfacer de mejor manera a los usuarios. Esta estrategia no es única de redes sociales o del ambiente cinematográfico puede ser aplicado a cualquier ámbito que genere datos, que para ser sinceros, en esta década todo negocio genera en distintas proporciones datos para ser analizados.
La industria musical no es la excepción pues hemos podido aprender de los datos estadísticos que Spotify recopiló, hechos como que las canciones tienen una división general en dos grupos a las cuales para términos de este reporte llamamos el grupo de las baladas y el grupo de carnaval, se observó que hay mayor probabilidad de obtener más popularidad si creamos una canción que pertenezca al grupo de carnaval y la razón genérica y aparente respecto a las características musicales de las canciones es que las personas escuchan con mayor frecuencia canciones que pueden bailar, con un volumen alto y sobre todo con niveles altos de energía. Las personas se inclinan por hacer populares este tipo de canciones que son más positivas que una balada melancólica o romántica.
Pero entonces, ¿Aseguramos que si una empresa discográfica graba una canción con niveles altos de energía, tendrá una canción popular? Se debe considerar que existen variables que no se han podido medir con las variables expuestas, pues demográficamente la sociedad puede influir en gran medida a la popularidad de cualquier producto en general, de esta forma como ha sido popular en la última década la aparición de los influencers es posible que esto influya en la popularidad que una canción obtendrá por ejemplo. Pues con el uso de las redes sociales un gran número de personas se ha dedicado a imitar lo que ve en internet y es una variable que sería interesante medir. Si una canción está muy referenciada por personas que influyen en el comportamiento de la población que tanto influirá en la popularidad de la misma evaluando sus características musicales. Es decir, si la influencia puede tener mayor relación con la popularidad de la canción que la calidad con la que se ha realizado.
También aprendimos que tipo de canciones podemos encontrar en Spotify con más frecuencia, por lo que puede ser interesante para la industria experimentar un poco con niveles de las características musicales que menos se han utilizado. Recordemos que cantidad no significa calidad o popularidad, pues se recomienda a la industria poner mayor énfasis en la calidad de las canciones que en la cantidad de canciones a grabar pues como pudimos observar pueden existir cantantes con un repertorio amplio de canciones pero con poca popularidad.
Para concluir es importante destacar que la industria musical puede resultar muy favorecida con el uso de analytics, para encontrar características de las canciones que tienen mayores probabilidades de ser populares o éxitos.