Entrega Avance 2 Proyecto - Análisis Musical

(En este documento se encuentra el avance 1 y el avance 2)

Avance del proyecto 1

Conjunto de datos

El conjunto de datos corresponde a canciones obtenidas de la plataforma Spotify, recopiladas mediante su API oficial. Se conforma por las canciones más populares de la plataforma junto con sus características de audio (como tempo, energía, valencia, etc.) y variables descriptivas (como nombre de la canción, artista, álbum, género y fecha de lanzamiento).

La muestra está compuesta por 1686 canciones, y para cada una de ellas se registran 21 variables cuantitativas y cualitativas. Entre las principales se destacan: energy, tempo, danceability, loudness, liveness, valence, track_artist, playlist_genre, speechiness, instrumentalness y duration_ms.

Tipo y descripción de las variables

Las variables incluidas en el dataset presentan diferentes tipos de medición:

Energy (Energía): Cuantitativa continua, escala de razón, valor adimensional entre 0 y 1.
Tempo (Tempo): Cuantitativa continua, escala de razón, unidad en BPM (beats por minuto).
Danceability (Bailabilidad): Cuantitativa continua, escala de razón, valor adimensional (0–1).
Playlist_Genre (Género de playlist): Cualitativa nominal, categoría musical.
Loudness (Intensidad sonora): Cuantitativa continua, escala de intervalo, medida en decibelios (dB).
Liveness (Presencia en vivo): Cuantitativa continua, escala de razón, valor adimensional (0–1).
Valence (Positividad emocional): Cuantitativa continua, escala de razón, valor adimensional (0–1).
Track_Artist (Artista): Cualitativa nominal, texto (nombre del artista).
Speechiness (Nivel de habla): Cuantitativa continua, escala de razón, valor adimensional (0–1).
Duration_ms (Duración): Cuantitativa continua, escala de razón, medida en milisegundos.

Limpieza y preprocesamiento

Se realizó un proceso de depuración de los datos, eliminando valores faltantes, errores de digitación y registros inconsistentes. Este paso garantiza la validez de los resultados obtenidos en los análisis descriptivos y gráficos.

Estadísticas descriptivas

A continuación se presenta un resumen general de las variables cuantitativas del conjunto de datos. Se calcularon medidas de tendencia central (media y mediana), de dispersión (desviación estándar, rango intercuartílico) y de posición (valores mínimos y máximos). Este análisis permite identificar el comportamiento típico de las canciones y la variabilidad presente en el conjunto.

Entre los hallazgos más relevantes:

Duración de las canciones: la mayoría de las pistas tienen una duración estándar entre 2 y 4 minutos, aunque existen valores extremos que amplían el rango.
Bailabilidad y energía: ambas variables presentan promedios altos, reflejando que las canciones populares tienden a ser rítmicas y dinámicas.
Volumen (loudness): presenta gran variabilidad, indicando diferencias en la producción sonora entre pistas.
Liveness, speechiness e instrumentalness: muestran dispersión amplia, lo cual es coherente con la diversidad estilística del repertorio musical.
Tempo: presenta una media elevada, aunque la desviación estándar muestra contrastes entre canciones lentas y rápidas.

En general, los resultados confirman que el dataset se compone de canciones variadas pero con predominio de características que las hacen atractivas para listas populares: alta energía, buena bailabilidad y duraciones similares.

Análisis gráfico

Los gráficos permiten visualizar de manera complementaria las distribuciones y relaciones observadas en los datos:

Histogramas: muestran la distribución de las variables cuantitativas y ayudan a identificar asimetrías.
Diagramas de cajas: permiten visualizar valores atípicos y la dispersión de los datos.
Diagrama de dispersión: facilita el análisis de la relación entre energía y bailabilidad.

A continuación, se presentan los gráficos generados a partir del subconjunto de canciones con alta popularidad:

## `geom_smooth()` using formula = 'y ~ x'

Avance del proyecto 2

1.1 Análisis con dos variables

Matriz de correlación

Se seleccionaron las variables cuantitativas energy, danceability, liveness, valence, speechiness y acousticness del conjunto de datos. A partir de ellas se construyó una matriz de correlación de Pearson para examinar la relación lineal entre cada par de variables.

##       energy danceability     liveness      valence  speechiness acousticness 
##            0            0            0            0            0            0

##                    energy danceability     liveness     valence  speechiness
## energy        1.000000000 -0.001639930 -0.007083141  0.13862880  0.086851593
## danceability -0.001639930  1.000000000  0.022278107  0.15660576 -0.007178235
## liveness     -0.007083141  0.022278107  1.000000000  0.12642688  0.016247844
## valence       0.138628795  0.156605755  0.126426879  1.00000000  0.029894911
## speechiness   0.086851593 -0.007178235  0.016247844  0.02989491  1.000000000
## acousticness -0.165604563 -0.080262894  0.010443020 -0.12437053 -0.012028342
##              acousticness
## energy        -0.16560456
## danceability  -0.08026289
## liveness       0.01044302
## valence       -0.12437053
## speechiness   -0.01202834
## acousticness   1.00000000

Los resultados evidencian que los coeficientes de correlación se encuentran en un rango comprendido entre -0.17 y 0.16, valores que indican correlaciones muy débiles tanto positivas como negativas. Esto sugiere que, en general, las características musicales del dataset no mantienen relaciones lineales fuertes entre sí.

Interpretación de correlaciones destacadas

Las relaciones más notorias (aunque aún débiles) fueron:

Par de variables	Correlación (r)	Interpretación
energy – valence	0.14	Existe una leve tendencia a que las canciones con mayor energía sean percibidas como más positivas o alegres.
danceability – valence	0.16	Las canciones más bailables tienden ligeramente a tener mayor valence (felicidad o positividad).
energy – acousticness	-0.17	Se observa una débil relación inversa: las canciones más energéticas tienden a ser menos acústicas.

Gráficos de dispersión

Se generaron diagramas de dispersión con tendencia lineal ajustada para los pares de variables con correlación más representativa.

Energía vs Bailabilidad

## [1] -0.00163993

## `geom_smooth()` using formula = 'y ~ x'

La correlación fue prácticamente nula (r ≈ 0.00). El gráfico muestra una nube de puntos sin patrón definido, con la recta de regresión casi horizontal, lo que indica ausencia total de relación lineal entre ambas variables.

Energía vs Valence

## [1] 0.1386288

## `geom_smooth()` using formula = 'y ~ x'

El coeficiente de correlación (r = 0.14) muestra una relación positiva débil. El gráfico refleja una ligera inclinación ascendente, lo que sugiere que a mayor energía puede existir una pequeña tendencia a que las canciones sean más alegres.

Bailabilidad vs Valence

## [1] 0.1566058

## `geom_smooth()` using formula = 'y ~ x'

También con una correlación baja (r = 0.16), se observa una tendencia positiva leve: las canciones con mayor bailabilidad tienden a mostrar niveles algo más altos de valence (percepción positiva).

Energía vs Acousticness

## [1] -0.1656046

## `geom_smooth()` using formula = 'y ~ x'

La correlación negativa (r = -0.17) indica una tendencia inversa débil: a medida que aumenta la energía, disminuye ligeramente el componente acústico de la canción.

Modelo lineal simple para variables con mayor correlación

Para la generación del modelo lineal, se escogieron las variables con la correlación más significativa del dataset (valence y energy).

## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.5335 -0.2081  0.0118  0.2109  0.5684 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.39527    0.01716  23.039  < 2e-16 ***
## x            0.14956    0.02604   5.744 1.09e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2629 on 1684 degrees of freedom
## Multiple R-squared:  0.01922,    Adjusted R-squared:  0.01864 
## F-statistic:    33 on 1 and 1684 DF,  p-value: 1.093e-08

Ecuación del modelo:

[ Y = 0.14956X + 0.39527]

Interpretación del modelo:

Intercepto (b = 0.39527): Representa el valor esperado de valence cuando energy = 0, es decir, cuando una canción tiene muy poca energía o intensidad sonora. En promedio, incluso las canciones con baja energía presentan un nivel de positividad cercano al 39.5%.
Pendiente (x = 0.14956): Indica el cambio promedio en valence por cada aumento de una unidad en energy. Esto significa que por cada incremento unitario en la energía, el nivel de positividad aumenta en aproximadamente 0.15 unidades. Por tanto, las canciones más enérgicas tienden a ser ligeramente más alegres o positivas.

En conclusión, aunque la relación entre energía y positividad es débil, el modelo evidencia una asociación lineal positiva que sugiere que la energía contribuye en cierta medida a la percepción emocional de las canciones, aunque no sea el único factor determinante.

1.2 Diagrama de cajas (variable cuantitativa y variable cualitativa)

Diagrama de cajas: Género de Playlist vs Speechiness

El presente diagrama de cajas muestra la relación entre la variable cualitativa Género de Playlist (playlist_genre) y la variable cuantitativa Speechiness, que indica el nivel de presencia de voz hablada en una canción. Es importante recordar que valores altos de speechiness representan canciones con un mayor componente de palabras habladas, mientras que valores bajos corresponden a canciones principalmente cantadas.

En el eje horizontal se ubican los distintos géneros de playlist disponibles en el conjunto de datos (como pop, latin, rock, jazz, r&b, hip-hop, entre otros), y en el eje vertical se muestra la distribución de los valores de speechiness para cada uno de ellos. Cada caja resume la dispersión de los datos dentro de cada grupo, indicando la mediana, los cuartiles y la presencia de posibles valores atípicos.

A partir de la visualización, se observa que la mayoría de los géneros presentan valores bajos de speechiness, lo que sugiere que las canciones incluidas en las playlists son predominantemente melódicas, con poca intervención hablada. Sin embargo, géneros como hip-hop, r&b o algunos estilos urbanos y alternativos tienden a presentar una mayor variabilidad y valores más altos de speechiness, coherente con el hecho de que en dichos géneros es común la presencia de rap o secciones rítmicamente habladas. En contraste, géneros como pop, latin, rock, jazz o metal exhiben una menor dispersión y se concentran en niveles bajos, lo que refleja una estructura musical más vocal o instrumental.

1.3 Tabla cruzada y barras apiladas

El presente gráfico corresponde al análisis de la relación entre dos variables del conjunto de datos musical. La primera variable, playlist_genre, es de tipo cualitativo y representa el género musical al que pertenece cada playlist (por ejemplo: pop, rock, hip-hop, latin, metal, entre otros). La segunda variable, track_artist, también es cualitativa y describe el nombre del artista asociado a cada canción dentro de dichos géneros. A partir de la combinación de ambas variables se obtiene una tercera variable de naturaleza cuantitativa derivada, que corresponde a la frecuencia de canciones, es decir, el número de registros o apariciones de cada artista en los diferentes géneros de playlist.

En el diagrama de barras apiladas, cada barra representa un género de playlist, mientras que los distintos colores dentro de cada barra identifican a los artistas más frecuentes en dicho género. La altura total de cada barra refleja la cantidad total de canciones incluidas en cada categoría, y las proporciones de color permiten visualizar la participación relativa de cada artista dentro del total de su género.

De acuerdo con los resultados, se observa que los géneros pop y rock concentran el mayor número de canciones, lo que evidencia una mayor presencia de estos estilos en las playlists analizadas. En el género latin, sobresale la figura de Bad Bunny como uno de los artistas con mayor frecuencia, mientras que en metal destacan agrupaciones como Metallica y Linkin Park. Por su parte, los géneros r&b y hip-hop presentan una alta participación de artistas como Brent Faiyaz, Juice WRLD y Kendrick Lamar, coherente con la popularidad contemporánea de dichos estilos.

En contraste, géneros como ambient, folk o gaming muestran una menor representación, indicando una presencia más limitada en el conjunto de playlists. En general, el análisis de la tabla cruzada y el diagrama de barras apiladas permite evidenciar cómo ciertos artistas son predominantes en géneros específicos, mientras que otros mantienen una participación más distribuida, revelando patrones de preferencia musical en función del estilo y la popularidad del artista.