INFORMACIÓN DEL DATASET

Row

Descripción general del conjunto de datos

Este proyecto utiliza un conjunto de datos obtenido a partir de la API oficial de Spotify, el cual recopila información sobre canciones populares y sus características de audio y descriptivas.

El dataset incluye tanto variables cuantitativas (como energía, bailabilidad, tempo, duración) como cualitativas (género, artista, modo, tonalidad).

En total, se analizaron 1686 canciones y 21 variables diferentes.

Estas variables permiten explorar las propiedades musicales desde múltiples dimensiones, como el ritmo, la intensidad sonora, la positividad emocional, y las preferencias por género o artista.

Row

Variables cuantitativas

Nombre de la variable Explicación Tipo
Energy Nivel de energía o intensidad sonora (0–1) Cuantitativa continua
Tempo Velocidad rítmica en BPM Cuantitativa continua
Danceability Grado de bailabilidad (0–1) Cuantitativa continua
Loudness Intensidad sonora promedio (dB) Cuantitativa continua
Liveness Presencia de sonido en vivo (0–1) Cuantitativa continua
Valence Positividad emocional (0–1) Cuantitativa continua
Speechiness Nivel de habla (0–1) Cuantitativa continua
Instrumentalness Probabilidad de ser instrumental (0–1) Cuantitativa continua
Duration_ms Duración de la canción (ms) Cuantitativa continua
Track_Popularity Popularidad de la canción (0–100) Cuantitativa discreta

Row

Variables cualitativas

Nombre de la variable Explicación Tipo
Playlist_Genre Género de la playlist (Pop, Rock, Jazz…) Cualitativa nominal
Playlist_Subgenre Subgénero musical (Indie pop, punk rock…) Cualitativa nominal
Track_Artist Artista o intérprete de la canción Cualitativa nominal
Track_Album_Name Nombre del álbum Cualitativa nominal
Mode Modo musical (0 = menor, 1 = mayor) Cualitativa binaria
Key Tono o clave musical (0–11 -> Do, Re, Mi…) Cualitativa nominal
Playlist_Name Nombre de la playlist Cualitativa nominal
Type Tipo de pista (track, single, remix…) Cualitativa nominal
Track_Album_Release Fecha de lanzamiento del álbum Cualitativa ordinal

ESTADÍSTICAS

Row

Estadísticas descriptivas

     energy           tempo         danceability       playlist_genre
 Min.   :0.0040   Min.   :   929   Min.   :0.0040   pop       :357   
 1st Qu.:0.4965   1st Qu.: 93216   1st Qu.:0.4980   rock      :235   
 Median :0.6615   Median :117016   Median :0.6410   hip-hop   :227   
 Mean   :0.6113   Mean   :107984   Mean   :0.5947   latin     :184   
 3rd Qu.:0.7950   3rd Qu.:131738   3rd Qu.:0.7540   electronic:148   
 Max.   :0.9890   Max.   :209688   Max.   :0.9790   gaming    :100   
                                                    (Other)   :435   
    loudness          liveness         valence      
 Min.   :-43.643   Min.   :0.0010   Min.   :0.0010  
 1st Qu.: -7.614   1st Qu.:0.1170   1st Qu.:0.2780  
 Median : -5.687   Median :0.2090   Median :0.4865  
 Mean   : -6.158   Mean   :0.3495   Mean   :0.4867  
 3rd Qu.: -4.230   3rd Qu.:0.5810   3rd Qu.:0.7060  
 Max.   :  1.295   Max.   :0.9980   Max.   :0.9980  
                                                    
                track_artist  time_signature  speechiness     track_popularity
 Bad Bunny            :  20   Min.   :1.00   Min.   :0.0010   Min.   : 68.00  
 Linkin Park          :  14   1st Qu.:4.00   1st Qu.:0.2223   1st Qu.: 71.00  
 Hozier               :  11   Median :4.00   Median :0.3510   Median : 75.00  
 Sabrina Carpenter    :  11   Mean   :3.95   Mean   :0.3754   Mean   : 75.81  
 Billie Eilish        :  10   3rd Qu.:4.00   3rd Qu.:0.5028   3rd Qu.: 79.00  
 Red Hot Chili Peppers:  10   Max.   :5.00   Max.   :0.9970   Max.   :100.00  
 (Other)              :1610                                                   
             track_album_name           playlist_name  track_album_release_date
 Un Verano Sin Ti    :  16    Throwback Party  : 150   18/10/2024:  17         
 Motion              :   9    Reggaeton Hits   : 101   6/05/2022 :  17         
 YHLQMDLG            :   8    Top Gaming Tracks: 100   15/11/2024:  14         
 CHROMAKOPIA         :   7    Soft Pop Hits    :  98   22/08/2024:  12         
 Hollywood's Bleeding:   7    Rock Classics    :  91   9/08/2024 :  12         
 (Other)             :1638    EDM Hits         :  60   20/09/2024:  11         
 NA's                :   1    (Other)          :1086   (Other)   :1603         
 instrumentalness         mode             key          duration_ms    
 Min.   :  0.00000   Min.   :0.0000   Min.   : 0.000   Min.   : 61673  
 1st Qu.:  0.00000   1st Qu.:0.0000   1st Qu.: 2.000   1st Qu.:176608  
 Median :  0.00047   Median :1.0000   Median : 5.000   Median :211180  
 Mean   :125.19446   Mean   :0.5783   Mean   : 5.338   Mean   :214562  
 3rd Qu.:144.00000   3rd Qu.:1.0000   3rd Qu.: 8.000   3rd Qu.:244993  
 Max.   :995.00000   Max.   :1.0000   Max.   :11.000   Max.   :547107  
                                                                       
  acousticness       playlist_subgenre             type     
 Min.   :1.330e-06   modern   :356     audio_features:1686  
 1st Qu.:1.560e-01   classic  :162                          
 Median :3.025e-01   throwback:150                          
 Mean   :3.726e-01   reggaeton:101                          
 3rd Qu.:5.750e-01   soft     : 98                          
 Max.   :9.950e-01   chill    : 66                          
                     (Other)  :753                          

Row

Análisis descriptivo del conjunto de datos

A partir del análisis descriptivo del conjunto de datos, podemos obtener una visión general de las principales características musicales de las canciones más populares del dataset.

Variables cuantitativas

  • Energy y Danceability poseen valores promedio altos, lo que evidencia que la mayoría de las canciones presentan un ritmo dinámico y un estilo enfocado en el movimiento. Estas variables confirman la preferencia por música enérgica y con potencial de baile.
  • Tempo exhibe una mediana cercana a los 117 BPM, lo que sitúa la mayor parte de las canciones dentro del rango habitual de la música pop. Sin embargo, la amplitud de los valores sugiere la presencia de géneros con tempos más lentos y rápidos, como baladas y electrónica.
  • Loudness presenta un rango amplio de intensidades sonoras, lo que refleja diferentes técnicas de producción. Las mezclas más suaves contrastan con temas de alta compresión y volumen, típicos de géneros modernos.
  • Liveness y Speechiness tienen valores medios bajos, lo que indica predominio de canciones de estudio con poca presencia de elementos hablados o grabaciones en vivo.
  • Valence mantiene un promedio positivo (≈0.49), sugiriendo que las canciones del conjunto tienden a transmitir emociones alegres o agradables.
  • Finalmente, Track Popularity mantiene una media elevada (≈75), lo cual es coherente con el criterio de selección de canciones más reproducidas en la plataforma.

Variables cualitativas

  • Los géneros predominantes son Pop, Rock y Hip-hop, representando más de la mitad del conjunto. Esto pone en evidencia la orientación hacia la música comercial y de amplio alcance.
  • En cuanto a los artistas, se observa una alta concentración en intérpretes reconocidos, mientras que la mayoría de los artistas tienen participaciones esporádicas, lo que muestra la desigualdad típica de popularidad musical.
  • La variable Key indica preferencia por tonalidades mayores, generalmente asociadas con sensaciones positivas, mientras que el Mode reafirma este patrón al registrar predominio del modo mayor sobre el menor.
  • Las fechas de lanzamiento (Track_Album_Release) se concentran en los años recientes, lo que muestra un enfoque en producciones contemporáneas y tendencias actuales del mercado musical.

Tendencias del conjunto

En conjunto, el dataset evidencia una clara tendencia hacia canciones modernas, de energía alta, sonido optimista y producción profesional. Estas características son consistentes con las listas de reproducción más populares de Spotify.

MAT. DE CORRELACIÓN

Row

Matriz de Correlación

Row

Análisis

La matriz de correlación presentada considera las variables cuantitativas energy, danceability, liveness, valence, speechiness y acousticness, todas ellas asociadas a características sonoras y perceptuales de las canciones.

Cada celda representa el coeficiente de correlación de Pearson (r) entre un par de variables, indicando el grado y dirección de su relación lineal.

En este caso, los valores de correlación oscilan entre –0.17 y 0.16, lo que evidencia que no existen relaciones lineales fuertes entre las características analizadas.
La mayoría de los coeficientes se concentran en valores próximos a cero, lo que sugiere independencia relativa entre las propiedades musicales del conjunto de datos.

A continuación se analizan las relaciones más notorias, aunque débiles.

Interpretación de correlaciones destacadas

Par de variables Correlación (r) Interpretación
energy – valence 0.14 Se observa una ligera tendencia a que las canciones con mayor energía sean percibidas como más alegres o positivas.
danceability – valence 0.16 Las canciones más bailables tienden levemente a tener mayor valence, es decir, a transmitir emociones positivas.
energy – acousticness -0.17 Existe una débil relación inversa: las canciones más energéticas suelen ser menos acústicas y más producidas digitalmente.

DIAGRAMAS DE DISPERSIÓN

Row

Energía vs Bailabilidad

Bailabilidad vs Valence

Row

Energía vs Valence

Energía vs Acousticness

Row

Energía vs Bailabilidad

La correlación fue prácticamente nula (r ≈ 0.00). El gráfico muestra una nube de puntos sin patrón definido, con la recta de regresión casi horizontal, lo que indica ausencia total de relación lineal entre ambas variables.

Energía vs Valence

El coeficiente de correlación (r = 0.14) muestra una relación positiva débil. El gráfico refleja una ligera inclinación ascendente, lo que sugiere que a mayor energía puede existir una pequeña tendencia a que las canciones sean más alegres.

Bailabilidad vs Valence

También con una correlación baja (r = 0.16), se observa una tendencia positiva leve: las canciones con mayor bailabilidad tienden a mostrar niveles algo más altos de valence (percepción positiva).

Energía vs Acousticness

La correlación negativa (r = -0.17) indica una tendencia inversa débil: a medida que aumenta la energía, disminuye ligeramente el componente acústico de la canción.

HIST. & CAJAS

5. Análisis gráfico

Histogramas

Row

Diagramas de Cajas

Row

Duración (ms)

El histograma muestra una distribución sesgada a la derecha, concentrando la mayor parte de las canciones entre 1×10⁵ y 3×10⁵ milisegundos, es decir, entre aproximadamente 1,5 y 5 minutos. Esto coincide con la duración promedio habitual de canciones comerciales. Se observan algunos valores muy altos que representan canciones excepcionalmente largas, posiblemente versiones extendidas o grabaciones en vivo.

El diagrama de cajas refuerza esta interpretación, mostrando una caja relativamente compacta y los valores atípicos por encima del rango superior, correspondientes a esas canciones de duración atípica. Por lo que, la duración se mantiene dentro de un rango típico, con pocos casos extremos que alargan la distribución.

Bailabilidad

El histograma de bailabilidad presenta una distribución con forma bimodal leve, concentrando la mayoría de canciones en valores medios y altos (0.6–0.8). Esto sugiere que el conjunto está compuesto principalmente por canciones bailables o rítmicas, lo que concuerda con la naturaleza de los temas populares. También se aprecia un pequeño grupo de canciones con baja bailabilidad, probablemente de géneros más calmados o acústicos.

El diagrama de cajas muestra una mediana cercana a 0.65, indicando una tendencia general hacia niveles altos de bailabilidad. Los valores atípicos inferiores corresponden a canciones con menor ritmo o facilidad para bailar. El conjunto de datos se inclina hacia canciones altamente bailables, con una variabilidad moderada y pocos valores extremos.

Energía

El histograma evidencia una distribución asimétrica hacia la izquierda, concentrando la mayoría de canciones en valores altos (0.6–0.9). Esto refleja que la mayoría de los temas son intensos, dinámicos y con gran presencia sonora, mientras que las canciones suaves o tranquilas son minoría.

El diagrama de cajas confirma esta observación: la mediana se ubica alrededor de 0.75, y los valores atípicos aparecen principalmente en el extremo inferior, representando piezas de baja energía, posiblemente baladas o temas acústicos.Se observa una tendencia clara hacia niveles elevados de energía sonora, característica de producciones modernas enfocadas en mantener un impacto fuerte y constante.

Volumen (dB)

El histograma muestra una distribución concentrada entre -10 y 0 dB, indicando que la mayoría de canciones mantienen una intensidad sonora alta y homogénea. Este comportamiento es típico de la música contemporánea, donde se utiliza compresión dinámica para lograr un volumen más uniforme y potente.

El diagrama de cajas presenta una mediana cercana a -6 dB, con outliers en el extremo inferior que representan canciones con menor intensidad promedio, quizás temas acústicos o grabaciones con menos procesamiento. Los resultados sugieren que las canciones mantienen niveles de volumen altos y consistentes, acordes con los estándares de mezcla y masterización actuales en la industria musical.

TABLA CRUZADA Y BARRAS APILADAS

TABLA CRUZADA

Tabla cruzada: Frecuencia de artistas por género de playlist
Género Artista Frecuencia
ambient Bad Bunny 0
arabic Bad Bunny 0
folk Bad Bunny 0
gaming Bad Bunny 0
hip-hop Bad Bunny 1
latin Bad Bunny 18
metal Bad Bunny 0
pop Bad Bunny 0
punk Bad Bunny 0
r&b Bad Bunny 0
rock Bad Bunny 0
world Bad Bunny 1
ambient Billie Eilish 5
arabic Billie Eilish 0
folk Billie Eilish 0
gaming Billie Eilish 1
hip-hop Billie Eilish 0
latin Billie Eilish 0
metal Billie Eilish 0
pop Billie Eilish 4
punk Billie Eilish 0
r&b Billie Eilish 0
rock Billie Eilish 0
world Billie Eilish 0
ambient Brent Faiyaz 0
arabic Brent Faiyaz 0
folk Brent Faiyaz 0
gaming Brent Faiyaz 0
hip-hop Brent Faiyaz 0
latin Brent Faiyaz 0
metal Brent Faiyaz 0
pop Brent Faiyaz 0
punk Brent Faiyaz 0
r&b Brent Faiyaz 8
rock Brent Faiyaz 0
world Brent Faiyaz 0
ambient Bruno Mars 0
arabic Bruno Mars 0
folk Bruno Mars 0
gaming Bruno Mars 0
hip-hop Bruno Mars 0
latin Bruno Mars 0
metal Bruno Mars 0
pop Bruno Mars 8
punk Bruno Mars 0
r&b Bruno Mars 0
rock Bruno Mars 0
world Bruno Mars 0
ambient Green Day 0
arabic Green Day 0
folk Green Day 0
gaming Green Day 0
hip-hop Green Day 0
latin Green Day 0
metal Green Day 0
pop Green Day 0
punk Green Day 4
r&b Green Day 0
rock Green Day 4
world Green Day 0
ambient Hozier 5
arabic Hozier 0
folk Hozier 1
gaming Hozier 1
hip-hop Hozier 0
latin Hozier 0
metal Hozier 0
pop Hozier 2
punk Hozier 0
r&b Hozier 0
rock Hozier 2
world Hozier 0
ambient Juice WRLD 0
arabic Juice WRLD 5
folk Juice WRLD 0
gaming Juice WRLD 0
hip-hop Juice WRLD 4
latin Juice WRLD 0
metal Juice WRLD 0
pop Juice WRLD 0
punk Juice WRLD 0
r&b Juice WRLD 0
rock Juice WRLD 0
world Juice WRLD 0
ambient Kendrick Lamar 0
arabic Kendrick Lamar 0
folk Kendrick Lamar 0
gaming Kendrick Lamar 2
hip-hop Kendrick Lamar 5
latin Kendrick Lamar 0
metal Kendrick Lamar 0
pop Kendrick Lamar 1
punk Kendrick Lamar 0
r&b Kendrick Lamar 0
rock Kendrick Lamar 0
world Kendrick Lamar 0
ambient Linkin Park 0
arabic Linkin Park 0
folk Linkin Park 0
gaming Linkin Park 0
hip-hop Linkin Park 0
latin Linkin Park 0
metal Linkin Park 0
pop Linkin Park 4
punk Linkin Park 0
r&b Linkin Park 0
rock Linkin Park 10
world Linkin Park 0
ambient Metallica 0
arabic Metallica 0
folk Metallica 0
gaming Metallica 0
hip-hop Metallica 0
latin Metallica 0
metal Metallica 7
pop Metallica 0
punk Metallica 0
r&b Metallica 0
rock Metallica 1
world Metallica 0
ambient My Chemical Romance 0
arabic My Chemical Romance 0
folk My Chemical Romance 0
gaming My Chemical Romance 0
hip-hop My Chemical Romance 0
latin My Chemical Romance 0
metal My Chemical Romance 0
pop My Chemical Romance 0
punk My Chemical Romance 7
r&b My Chemical Romance 0
rock My Chemical Romance 1
world My Chemical Romance 0
ambient Red Hot Chili Peppers 0
arabic Red Hot Chili Peppers 0
folk Red Hot Chili Peppers 0
gaming Red Hot Chili Peppers 0
hip-hop Red Hot Chili Peppers 0
latin Red Hot Chili Peppers 0
metal Red Hot Chili Peppers 0
pop Red Hot Chili Peppers 0
punk Red Hot Chili Peppers 0
r&b Red Hot Chili Peppers 0
rock Red Hot Chili Peppers 10
world Red Hot Chili Peppers 0
ambient Sabrina Carpenter 0
arabic Sabrina Carpenter 0
folk Sabrina Carpenter 0
gaming Sabrina Carpenter 2
hip-hop Sabrina Carpenter 0
latin Sabrina Carpenter 0
metal Sabrina Carpenter 0
pop Sabrina Carpenter 9
punk Sabrina Carpenter 0
r&b Sabrina Carpenter 0
rock Sabrina Carpenter 0
world Sabrina Carpenter 0

Row

BARRAS APILADAS


Género Latin

Es el género donde Bad Bunny tiene la mayor concentración de canciones (18 registros), siendo el artista más representativo del género en todo el dataset. También aparecen pequeñas contribuciones de otros artistas, pero su predominancia es absoluta, lo que refleja la fuerte asociación del género latin con Bad Bunny y su impacto en la música urbana contemporánea.

Género Pop y Hip Hop

El pop presenta una alta diversidad de artistas, pero destacan: Sabrina Carpenter con 9 canciones, Bruno Mars con 8 canciones, Billie Eilish con 4. Esto indica que el pop tiene una distribución más equilibrada entre artistas populares, a diferencia del dominio exclusivo que se observa en el género latin.

Predominan en el Hip hop tres artistas principales: Kendrick Lamar con 5 canciones, Juice WRLD con 4, Bad Bunny con 1. Esto indica que el hip-hop está dominado por artistas contemporáneos, coherente con las tendencias actuales del género.

Género Rock y Metal

El rock es otro de los géneros con mayor número total de canciones, destacando: Red Hot Chili Peppers y Linkin Park, ambos con 10 canciones
, Green Day y Hozier, con entre 2 y 4 registros. Esto sugiere que el rock conserva una fuerte presencia de bandas clásicas, reflejando su vigencia y relevancia dentro del gusto musical general.

En Metal, la frecuencia está concentrada principalmente en Metallica, con 7 canciones, y Linkin Park, con 1. La dominancia de Metallica es coherente con su posición como una de las bandas más emblemáticas del metal, lo que también refuerza la baja diversidad artística dentro de este género en el dataset.

Row

Tabla cruzada

El presente gráfico corresponde al análisis de la relación entre dos variables del conjunto de datos musical. La primera variable, playlist_genre, es de tipo cualitativo y representa el género musical al que pertenece cada playlist (por ejemplo: pop, rock, hip-hop, latin, metal, entre otros). La segunda variable, track_artist, también es cualitativa y describe el nombre del artista asociado a cada canción dentro de dichos géneros. A partir de la combinación de ambas variables se obtiene una tercera variable de naturaleza cuantitativa derivada, que corresponde a la frecuencia de canciones, es decir, el número de registros o apariciones de cada artista en los diferentes géneros de playlist.

Diagrama de barras apiladas

En el diagrama de barras apilada, cada barra representa un género de playlist, mientras que los distintos colores dentro de cada barra identifican a los artistas más frecuentes en dicho género. La altura total de cada barra refleja la cantidad total de canciones incluidas en cada categoría, y las proporciones de color permiten visualizar la participación relativa de cada artista dentro del total de su género.

Resultados generales

Los géneros pop, rock y latin concentran la mayor cantidad total de canciones, siendo los más populares y representativos en el conjunto de datos.

En contraste, géneros como folk, gaming, wolrd y arabic muestran escasa presencia, indicando su menor peso relativo en las playlists analizadas.

En el género latin, sobresale la figura de Bad Bunny como uno de los artistas con mayor frecuencia. Mientras que Sabrina Carpenter y Bruno Mars lideran en el pop

Por otro lado, que en metal destacan agrupaciones como Metallica y en el rock lideran bandas como Linkin Park y Red Hot Chili Peppers

Por su parte, los géneros r&b y hip-hop presentan una alta participación de artistas como Brent Faiyaz, Juice WRLD y Kendrick Lamar, coherente con la popularidad contemporánea de dichos estilos.

CONCLUSIONES

Row

Conclusiones generales del análisis

1. Predominio de canciones con alta energía y bailabilidad
El análisis descriptivo y los gráficos de distribución evidencian que la mayoría de las canciones presentan valores altos de energy y danceability. Esto indica que las producciones actuales priorizan la intensidad rítmica y la facilidad para el movimiento, características típicas del pop, reguetón y hip-hop.

2. Tendencia hacia emociones positivas y tonalidades mayores
Los valores medios de valence y la distribución de los modos musicales muestran que las canciones tienden a transmitir emociones alegres y optimistas. Esto concuerda con la predominancia de escalas mayores y tonalidades brillantes, favoreciendo la percepción positiva de los oyentes en los géneros más populares.

3. Ausencia de correlaciones fuertes entre variables sonoras
La matriz de correlación demuestra que las relaciones lineales entre variables como energy, valence, danceability y acousticness son débiles o inexistentes. Esto sugiere que las dimensiones musicales se comportan de forma independiente, enriqueciendo la diversidad sonora dentro del conjunto de canciones.

4. Diversidad de artistas en el pop y concentración en otros géneros
La tabla cruzada y las barras apiladas revelan un contraste: mientras el pop presenta una amplia variedad de artistas (Sabrina Carpenter, Billie Eilish, Bruno Mars), géneros como latin y metal están dominados casi exclusivamente por Bad Bunny y Metallica. Esto refleja tanto la concentración de fama como la segmentación propia de cada estilo.

5. El dataset refleja la estética y tendencias actuales de Spotify
En conjunto, los resultados muestran una inclinación hacia producciones modernas, con altos niveles de energía, sonido procesado y positividad emocional. Esto evidencia la evolución de la industria musical hacia un enfoque de impacto inmediato y atractivo comercial, características esenciales en las listas de reproducción más populares de Spotify.