Abstrakt

Boosting is eine beliebte Modellierungsmethode, die darin besteht, wiederholt über vorherige Modelle zu laufen, um die Leistun zu verbessern. In diesem Fall weden wir die Leistung des Tree Boosting auf Kaggle https://www.kaggle.com/datasets/rohitgrewal/spotify-youtube-data?resource=download überprüfen.

Wie auf der Datenwebseite beschrieben: ‘This dataset shows how popular songs perform on both Spotify and YouTube. It includes useful details about each song, like its name, artist, how many times it was played on Spotify, how many views it got on YouTube, and several audio features like danceability, energy, loudness, and tempo.’

Die Daten sind nicht real, erweisen sich als inkonsistent und ihre Quelle ist in Kaggle nicht detailliert angegeben. Dennoch ist es ein Datensatz, der nützlich für den Test eines Boosting-Modells ist. DieErgebnisse sollten nich außerhalg des Gelturngsbereichs dieser Daten betrachtet werden.

Die Durchführung einer Lasso linearen Regression liefert ein einfaches Modeel mit einem niedrigen mittleren quadratischen Abweichung (MSE). Nach der Auswahl des besten Lambda für optimale Ergebnisse hilft es, Variablen hearauszunehmen, die für die Vorhersage der gewünschten Output-Variable, Likes, nicht nützlich sind.

Die Verbesserung eines Regressionsbaums, wobei alle Variablen beibehalten werden, die das Modell etwas komplexer mache, führte zu einer Verbesserung von 43% reduzierung des MSE.

In den folgenden Teilen werden wir uns mehr auf die Analyse und die Ergebnisse als auf den Code konzentrieren, daher wird der Code im Dokument nicht gezeigt.

Explorative Datenanalyse

Dies ist die Beschreibung der Hauptmerkmale/Spalten, die im Datensatz verfügbar sind:

Track: Der Name des Liedes
Artist: Die Person oder Band, die das Lied aufgeführt hat
Stream: Total number of times the song was streamed on Spotify
Youtube Views: Gesamtanzahl der Male, die das Lied auf Spotify gestreamt wurde
Danceability: Punktzahl, die zeigt, wir geeignet der Track zum Tanzen ist (0 to 1)
Energy: Punktzahl, die repräsentiert, wie energetisch oder intensiv das Lied ist (0 to 1)
Key: Der Musikalische Schlüssel des Tracks (number from 0 to 11)
Loudness: Die Laustärke des Liedes in Dezibel (dB)
Speechiness: Es wird erzählt, wie viele gesprochene Worte im Stück enthalten sind
Acousticness: Sagt, ob der Track haptsächlich akustisch ist oder nicht
Instrumentalness: Sagt voraus, ob das Lied keine Vocals hat
Liveness: Gibt an, ob das Lied vor einem Live-Publikum aufgenommen wurde
Valence: Misst, wir glücklich oder positiv das Lied klingt
Tempo: Die Geschwindigkeit des Songs in Schlägen pro Minute (BPM)
Duration_ms: Länge der Strecke in Millisekunden
Year: Das Jahr, in dem das Lied veröffentlicht wurde

Korrelationstest zwischen Likes und anderen Parametern

Danceability

Energy

### Loudness

### Speechiness

### Acousticness

Instrumentalness

Liveness

Valence

Tempo

Duration ms

Views

Modelierung. Lineare Regression und Boosting

Ziel

Das Ziel ist es, die Anzahl der Likes vorherzusagen, die ein Sohn basierend auf Parametern wie tone, duration, loudness, danceability, views etc, erhalten kann.

Lineare Regression. Lasso.

Ein Lasso-Regressionsmodell ergibt einen Mittleren Quadratischen Fehler (MSE) 7.1379697^{11} und, wir unten zu sehen ist, fallen 5 der 25 Koeffizienten weg, da sie weniger wichtig sind, um die Anzahl der Likes zu erklären, die ein Lied erhält.

Boosting Regressionsbaum

Das Verbessern eines Regressionsbaums, der über dis Linearität hinausgeht, finde eine andere Gruppe veon Parametererklärungen rür die Zielvariable (Likes), aber auch einen signifikant niedrigeren SME von, 4.0778801^{11}, was 0.5712941 entspricht oder etwa 43% Reduktion im SME mit den folgenden Variablenwerten.

datatable(as.matrix(summary(boost.data)))