I. Cel projektu

Michael Jackson i Madonna przez wielu uważani są za króla i królową popu. Łączy ich wiele - lata, na które przypada szczyt ich kariery, zamiłowanie do ekstrawagancji, sława i bogactwo. Lata świetności – jego i jej – przypadały na przełom lat 80. i 90. Nic dziwnego, że się zaprzyjaźnili – nikt nie rozumiał królowej lepiej niż król. Poznali się przez wspólnego menedżera, Freddy’ego DeManna, po jednym z koncertów Jacksona w Madison Square Garden.

Zamieszczone poniżej zdjęcie, zrobione w 1991 r. do dziś należy do najsłynniejszych kadrów w historii kina i muzyki. Przedstawia ono scenę z gali rozdania Oscarów, w czasie której królowa popu odbierała Oscara za piosenkę Sooner or Later z filmu Dick Tracy w towarzystwie króla, Michaela Jacksona. „Najlepsza randka w życiu” – napisała wiele lat później Madonna.

Randki skończyły się jednak szybko, a niedługo również przyjaźń. Podobno on się obraził, że ona skrytykowała jego styl w wywiadzie telewizyjnym. Choć zerwali kontakt, Madonna nigdy nie zwątpiła w dawnego przyjaciela. Broniła go, gdy w 2019 r. autorzy dokumentu Leaving Neverland oskarżyli Jacksona o molestowanie seksualne chłopców.

Celem projektu jest ocena podobieństwa utworów wykonywanych przez Jacksona i Madonnę, na podstawie przeprowadzonej analizy warstwy muzycznej i tekstowej piosenek. Praca obejmuje następujące elementy:

  • analizę parametrów audio utworów wykonywanych przez Jacksona i Madonę przeprowadzoną na podstawie charakterystyki utworów dostępnych w serwisie muzycznym Spotify,
  • analizę warstwy tekstowej utworów przeprowadzoną na podstawie tekstów publikowanych na stronie tekstowo.pl,
  • analizę sentymentalną piosenek przeprowadzoną z wykorzystaniem chmury obliczeniowej IBM w ramach usługi Natural Language Understanding.

Łącznie analizę objęto 248 piosenek Michaela Jacksona oraz 280 piosenek Madonny. Dobór próby został przeprowadzony na podstawie dostępności danych w serwisie Spotify oraz na stronie tekstowo.pl.

II. Analiza zmiennych ilościowych

1. Średnia, odchylenie standardowe, wsp. zmienności

Podstawą analizy warstwy muzycznej piosenek Jacksona i Madonny były charakterystyki utworów dostępne w serwisie muzycznym Spotify. W serwisie wyróżnia się następujące funkcje audio piosenek:

  • akustyczność - miara ufności od 0,0 do 1,0 określająca, czy ścieżka jest akustyczna. 1.0 oznacza dużą pewność, że utwór jest akustyczny,
  • taneczność - opisuje, jak odpowiedni jest utwór do tańca w oparciu o kombinację elementów muzycznych, w tym tempo, stabilność rytmu, siłę uderzenia i ogólną regularność. Wartość 0.0 jest najmniej taneczna, a 1.0 jest najbardziej taneczna,
  • czas trwania - oznacza czas trwania utworu w milisekundach - na potrzeby opracowanie czas trwania został przeliczony na sekundy,
  • energetyczność - jest miarą od 0,0 do 1,0 i reprezentuje percepcyjną miarę intensywności i aktywności. Zazwyczaj energetyczne utwory są szybkie, głośne i hałaśliwe. Cechy percepcyjne przyczyniające się do tego atrybutu obejmują zakres dynamiczny, postrzeganą głośność, barwę, szybkość początków i ogólną entropię,
  • instrumentalność - przewiduje, czy utwór nie zawiera wokali. Im wartość instrumentalizacji bliższa 1,0, tym większe prawdopodobieństwo, że utwór nie zawiera treści wokalnych. Wartości powyżej 0,5 mają reprezentować ścieżki instrumentalne, ale pewność jest wyższa, gdy wartość zbliża się do 1,0,
  • klucz - w którym grany jest utwór. Klucze kodowane są za pomocą liczby całkowitej zgodnie ze standardową notacją klasy Pitch . Np. 0 = klucz C,
  • żywotność - Wykrywa obecność publiczności w nagraniu. Wyższe wartości żywotności oznaczają zwiększone prawdopodobieństwo, że utwór został wykonany na żywo,
  • głośność - ogólna głośność ścieżki w decybelach (dB). Wartości głośności są uśredniane dla całej ścieżki. Wartości zazwyczaj mieszczą się w zakresie od -60 do 0 db,
  • tryb - wskazuje modalność (durową lub molową) utworu, rodzaj skali, z której pochodzi jego zawartość melodyczna. Major jest reprezentowany przez 1, a minor to 0,
  • mówienie - wykrywa w utworze obecność wypowiadanych słów. Jeśli na nagraniu występuje wyłącznie mowa (np. talk show, audiobook, poezja), tym wartość atrybutu jest bliższa 1.0.Wartości poniżej 0,33 najprawdopodobniej reprezentują muzykę i inne utwory niemowe,
  • tempo - ogólne szacowane tempo utworu w uderzeniach na minutę (BPM),
  • wartościowość - miara od 0,0 do 1,0 opisująca muzyczną pozytywność przekazywaną przez utwór. Utwory o wysokiej wartościowości brzmią bardziej pozytywnie (np. wesołe, wesołe, euforyczne), podczas gdy utwory o niskiej wartościowości brzmią bardziej negatywnie (np. smutne, przygnębione, złości),
  • popularność - popularność chwilowa, określona na podstawie odsłuchań w ostatnim czasie.

Wartości średnie, odchylewnie standardowe oraz współczynniki zmienności dla parametrów ilościowych piosenek Jacksona i Madonny zostały przedstawione w poniższej tabeli.

Tab. 1. Średnie, odchylenie standardowe i współczynniki zmienności parametrów audio piosenek Jacksona i Madonny
danceability energy loudness speechiness acousticness instrumentalness liveness valence tempo duration_ms popularity
meansJackson 0.635 0.641 -8.162 0.069 0.310 0.030 0.190 0.602 117.741 243.565 40.646
sd_Jackson 0.178 0.216 4.086 0.063 0.269 0.124 0.138 0.257 27.253 68.904 18.784
variation_coefficient_Jackson 0.280 0.337 -0.501 0.913 0.868 4.133 0.726 0.427 0.231 0.283 0.462
meansMadonna 0.645 0.607 -8.939 0.062 0.280 0.108 0.166 0.513 119.019 258.832 35.489
sd_Madonna 0.137 0.216 3.891 0.056 0.312 0.239 0.148 0.256 24.078 67.225 16.727
variation_coefficient_Madonna 0.212 0.356 -0.435 0.903 1.114 2.213 0.892 0.499 0.202 0.260 0.471

Biorąc pod uwagę klasyczne miary zmienności obliczone dla charakterystyk utworów, można zauważyć, że ich wyniki są zbliżone do siebie, co pokazuje, że utwory obu wykonawców mają ze sobą dużo wspólnego. Potwierdza to również fakt, że wspomniani wykonawcy w obu przypadkach tworzyli utwory w nurcie pop. Wartości średnie dla takich parametrów jak taneczność, energetyczność, głośność, mówienie, akustyczność czy tempo są porównywalne ze sobą.

Największa zmienność miedzy utworami, wyrażona poprzez współczynnik zmienności obserwowana jest dla takich parametrów jak: instrumentalność, mówienie, akustyczność i żywotność. Dotyczy to zarówno utworów Jacksona jak i Madonny.

Natomiast najmniejsza zmienność parametru spośród wszystkich utworów obu gwiazd występuje dla parametru tempo, taneczność i czas trwania utworu.

2. Zbadanie normalności rozkładu zmiennych

Różne metody statystyczne używane do analizy danych przyjmują założenia dotyczące normalności rozkładu zmiennych. Dotyczy to między innymi badania korelacji, regresji, stosowania testów t i analizy wariancji. Ocena normalności danych jest warunkiem wstępnym wielu testów statystycznych, ponieważ normalność rozkładu jest podstawowym założeniem w testowaniu parametrycznym. Istnieją dwie główne metody oceny normalności: graficzna i numeryczna. Dostępne są różne metody badania normalności danych ciągłych, z których najpopularniejsze to test Shapiro–Wilka, test Kołmogorowa–Smirnowa, skośność, kurtoza, histogram, wykres skrzynkowy, wykres P–P, Q–Q. W niniejszym opracowaniu do badania normalności rozkładu zmiennych ilościowych opisujących parametry audio piosenek wykorzystano test Shapiro-Wilka oraz metodę graficzną polegającą na skonstruowaniu wykresów Q-Q. W przypadku testu Shapiro-Wilka hipoteza zerowa mówi, że dane są pobierane z populacji o rozkładzie normalnym. Kiedy obliczona na podstawie statystyki testowej wielkość p-value jest większe od przyjętego poziomu istotności, brak jest podstaw do odrzucenia hipotezy H0, co wskazuje na normalność rozkładu zmiennych. W sytuacji kiedy wartość p-value jest mniejsza od przyjętego poziomu istotności wówczas H0 jest odrzucana. Jedną z najczęściej używanych metod graficznych oceny normalności rozkładu jest wykres Q-Q (qqplot), czyli wykres kwantyl kwantyl. Technika ta jest bardzo ściśle związana z testem Shapiro-Wilka. Interpretacja wykresu jest następująca: jeżeli punkty leżą blisko prostej i są równomiernie rozłożone po jej jednej i drugiej stronie (np. naprzemiennie), to dane pochodzą z rozkładu normalnego.

Przedstawione w tabeli 2 i 3 oraz na wykresach Q-Q wyniki wskazują na to, że jedynie wskaźnik popularności piosenek Jacksona ma rozkład normalny. W przypadku pozostałych analizowanych zmiennych hipotezę dotyczącą normalności ich rozkładów należy odrzucić, na rzecz hipotezy alternatywnej - zmienne nie mają rozkładów normalnych. Biorąc pod uwagę wyliczone wartości p-value dla zmiennych opisujących parametry piosenek Madonny hipotezę dotyczącą normalności rozkładów należy odrzucić, na rzecz hipotezy alternatywnej - wszystkie z analizowanych zmiennych nie mają rozkładu normalnego.

2.1. Dla utworów Jacksona

Tab. 2. Ocena normalności rozkładu parametrów audio piosenek Jacksona
variable statistic p
acousticness 0.8989306 0.0000000
danceability 0.9670510 0.0000187
duration_ms 0.9695363 0.0000406
energy 0.9563176 0.0000009
instrumentalness 0.2615248 0.0000000
liveness 0.8524272 0.0000000
loudness 0.9294927 0.0000000
popularity 0.9890874 0.0600861
speechiness 0.6286783 0.0000000
tempo 0.9421935 0.0000000
valence 0.9385311 0.0000000
**Rys. 1. Wykresy Q-Q dla parametrów audio piosenek Jacksona**

Rys. 1. Wykresy Q-Q dla parametrów audio piosenek Jacksona

2.2. Dla utworów Madonny

Tab. 3. Ocena normalności rozkładu parametrów audio piosenek Madonny
variable statistic p
acousticness 0.8155442 0.0000000
danceability 0.9766248 0.0001513
duration_ms 0.9661335 0.0000037
energy 0.9648175 0.0000024
instrumentalness 0.5112309 0.0000000
liveness 0.6850060 0.0000000
loudness 0.9383764 0.0000000
popularity 0.9758557 0.0001126
speechiness 0.5891748 0.0000000
tempo 0.9818255 0.0012459
valence 0.9677011 0.0000062
**Rys. 2. Wykresy Q-Q dla parametrów audio piosenek Madonny**

Rys. 2. Wykresy Q-Q dla parametrów audio piosenek Madonny

III. Analiza rozkładu zmiennych

Ze względu na brak normalności rozkładu większości z analizowanych zmiennych ilościowych do zbadania równości median wykorzystano Test U Manna-Whitneya. Test ten służy do weryfikacji hipotezy o nieistotności różnic pomiędzy medianami badanej zmiennej w dwóch populacjach. Test ten jest odpowiednikiem klasycznego testu t-Studenta dla prób niepowiązanych. Miarą tendencji centralnej dla tego testu jest nie średnia jak w przypadków testów t, a mediana.Hipoteza zerowa zakłada, iż próby pochodzą z jednej populacji, wobec hipotezy alternatywnej mówiącej o tym, iż próby pochodzą z różnych populacji.

Przeprowadzone obliczenia wskazują na to, że w przypadku zmiennych: taneczność, energetyczność, mówienie, tempo brak jest podstaw do odrzucenia H0. Zmienne te zostały wyróżnione w tab. 1. kolorem szarym. W przypadku pozostałych zmiennych H0 należało odrzucić, co wskazuje na różność median. W takiej sytuacji test powtórzono przyjmując jednostronną hipotezę alternatywną. Wyniki przeprowadzonych obliczeń wskazują na to, że wartości zmiennych głoścność, akustyczność, żywotność, wartościowość i popularność są wyższe w przypadku utworów Jacksona (kolor niebieski zmiennych w tab. 1.). Natomiast w przypadku zmiennych instrumentalność i długość utworu wartości dla piosenek Madonny są wyższe niż utworów Jacksona (kolor czerwony zmiennych w tab. 1).

Wykresy gęstości dla wszystkich parametrów ilościowych zostały przedstawione na rys. 3. W p. 2 niniejszego rozdziału przedstawiono natomiast wykresy pudełkowe przedstawiające rozkład poszczególnych zmiennych. W przypadku zmiennej klucz, która jest zmienną nominalną (jedynie kodowaną za pomocą cyfr) porównanie przedstawiono za pomocą wykresu udziałów utworów wykonywanych w danym kluczu. Linia czerwona oznacza jednakowy udział utworów w danym kluczu u obu wykonawców. Punkty leżące powyżej linii oznaczają wyższy udział w utworach Madonny, zaś poniżej u Jacksona. U obu wykonawców najczęściej utwory grane są w kluczu 7 (G), zaś najrzadziej w kluczu 3 (D#).

1. Wykresy gęstości dla wszystkich parametrów ilościowych

**Rys. 3. Krzywe gęstości dla wszystkich parametrów ilościowych**

Rys. 3. Krzywe gęstości dla wszystkich parametrów ilościowych

Biorąc pod uwagę, krzywe gęstości dla wszystkich parametrów ilościowych z rys. 3 w większości przypadków występuje gęstość jednomodalna, prawo lub lewo skośna. Dla większości parametrów można również zaobserwować zbliżone wykresy gęstości dla obu wykonawców - różnice występują w maksimach lokalnych. Jedynie w przypadku parametru popularność krzywe zbliżone są do rozkładu normalnego. Natomiast krzywe gęstości dla parametru wartościowość w największym stopniu różnią się od siebie.

Porównując jednak bezpośrednio krzywe gęstości pomiędzy Madonną, a Michaelem Jacksonem, można zaobserwować, iż utwory Madonny nieznacznie przeważa piosenki Jacksona pod względem taneczności i tempa, natomiast dla pozostałych parametrów wyższe wartości dla punktów maksimum występują w piosenkach Jacksoan.

2. Porównanie poszczególnych zmiennych

Porównując przedstawione poniżej wykresy pudełkowe przedstawiające rozkład poszczególnych zmiennych, można zauważyć, że w większości przypadków wartości centralne, czyli mediany występują na zbliżonych wartościach dla obu artystów. Przedziały międzykwartylowe również są na podobnych poziomach. Zaobserwować można także występowanie wartości odstających, które mogą zaburzać interpretację wyników. Podobnie jak w punkcie 1. w przypadku porównań gęstości, tak i tutaj zmienna wartościowość najbardziej różny rozkład u obu artystów.

2.1. Taneczność

**Rys. 4. Rozkład tanecznosci w pisenkach Jackona i Madonny**

Rys. 4. Rozkład tanecznosci w pisenkach Jackona i Madonny

2.2. Energetyczność

**Rys. 5. Rozkład energetyczności w pisenkach Jackona i Madonny**

Rys. 5. Rozkład energetyczności w pisenkach Jackona i Madonny

2.3. Klucze

**Rys. 6. Udział utworów granych w kluczach wśród pisenek Jackona i Madonny**

Rys. 6. Udział utworów granych w kluczach wśród pisenek Jackona i Madonny

2.4. Głośność

**Rys. 7. Rozkład głośności w pisenkach Jackona i Madonny**

Rys. 7. Rozkład głośności w pisenkach Jackona i Madonny

2.5. Mówienie

**Rys. 8. Rozkład mówienia w pisenkach Jackona i Madonny**

Rys. 8. Rozkład mówienia w pisenkach Jackona i Madonny

2.6. Akustyczność

**Rys. 9. Rozkład akustyczności w pisenkach Jackona i Madonny**

Rys. 9. Rozkład akustyczności w pisenkach Jackona i Madonny

2.7. Instrumentalność

**Rys. 10. Rozkład instrumentalności w pisenkach Jackona i Madonny**

Rys. 10. Rozkład instrumentalności w pisenkach Jackona i Madonny

2.8. Żywotność

**Rys. 11. Rozkład żywotności w pisenkach Jackona i Madonny**

Rys. 11. Rozkład żywotności w pisenkach Jackona i Madonny

2.9. Wartościowość

**Rys. 12. Rozkład wartościowości w pisenkach Jackona i Madonny**

Rys. 12. Rozkład wartościowości w pisenkach Jackona i Madonny

2.10. Tempo

**Rys. 13. Rozkład tempa w pisenkach Jackona i Madonny**

Rys. 13. Rozkład tempa w pisenkach Jackona i Madonny

2.11. Popularność

**Rys. 14. Rozkład popularności piosenek Jackona i Madonny**

Rys. 14. Rozkład popularności piosenek Jackona i Madonny

3. Rozkład zmiennych po wyeliminowaniu obserwacji odstających

Analiza powyższych wykresów pudełkowych wskazuje na dużą liczbę obserwacji odstających w przypadku niektórych zmiennych. Z tego też wzgledu przeprowadzono ponowne obliczenia rozkładów - eliminując obserwacje odstające. Wyniki w postaci wykresów pudełkowych zostały zamieszczone na poniższym rysunku. W przypadku zmiennych mówienie, instrumentalność oraz żywotność (tylko u Madonny) ze względu na ich rozkład silnie skoncentrowany wokół jednych wartości w rozkładzie pozostały obserwacje odstające.

**Rys. 15. Rozkład zmiennych po wyeliminowaniu obseracji odstających**

Rys. 15. Rozkład zmiennych po wyeliminowaniu obseracji odstających

Po wyeliminowaniu wartości odstających, można nadal stwierdzić, że w większości parametrów wartości mediany, jak i przedziały międzykwartylowe występują na zbliżonych wartościach u obu analizowanych artystów. Jedynie po wyeliminowaniu wartości odstających z parametru popularność dla utworów Madonny mediana, jak i rozproszenie uległy zmianie i różnią się od wartości charakteryzujących piosenki Michela Jacksona.

IV. Analiza zależności między zmiennymi ilościowymi

Ze względu na brak normalności rozkładu zmiennych do określenia siły zależności między zmiennymi wykorzystano współczynniki korelacji rang Spearmana oraz Współczynniki korelacji Kendalla. Wyniki obliczeń w postaci graficznej macierzy korelacji zostały przedstawione poniżej. Analiza prezentowanych obliczeń wskazuje na to, że zarówno w przypadku utworów Madonny, jak i Jacksona obserwuje się (obliczoną na podstawie korelacji rang Spearmana) dużą dodatnią zależność między zmiennymi energetyczność a głośność, co wskazuje na to, iż bardziej energetyczne utwory są również bardziej głośne. Wynika to wprost ze sposobu określania energetyczności, jako parametru zależnego od szybkości, głośności i poziomu hałasu w utworze. Z tego też względu na przykład death metal ma wysoką energię, podczas gdy preludium Bacha znajduje się nisko na skali. Największą ujemną zależność wykazują natomiast zmienne energetyczność i akustyczność. Oznacza to, że bardziej akustyczne utwory odznaczają się mniejszą energicznością. Podobną zależność jak w przypadku korelacji rang Spearmana dla parametrów audio w piosenkach Jacksona wskazuje korelacja Kendalla. Statystyka będąca jedną z miar monotonicznej zależności dwóch zmiennych losowych również wykazała, że największa zależność występuje dla parametrów energetyczność i głośność. Potwierdza to, że wraz ze wzrostem energetyczności wzrasta głośność utworu

Graficzny rozkład akustyczności i głośności w stosunku do energetyczności dla utworów Jacksona i Madonny przedstawiono na rys. 18-19 i rys. 22-23.

1. Korelacja dla cech utworów Jacksona

Współczynniki korelacji rang Spearmana

**Rys. 16. Współczynniki korelacji rang Spearmana dla parametrów audio w piosenkach Jacksona**

Rys. 16. Współczynniki korelacji rang Spearmana dla parametrów audio w piosenkach Jacksona

Współczynniki korelacji Kendalla

**Rys. 17. Współczynniki korelacji Kendalla dla parametrów audio w piosenkach Jacksona**

Rys. 17. Współczynniki korelacji Kendalla dla parametrów audio w piosenkach Jacksona

Zależność między energią a głośnością oraz enargią a akustycznością
**Rys. 18. Zależność między energetycznością a głośnością w piosenkach Jacksona**

Rys. 18. Zależność między energetycznością a głośnością w piosenkach Jacksona

**Rys. 19. Zależność między energetycznością a akustycznością w piosenkach Jacksona**

Rys. 19. Zależność między energetycznością a akustycznością w piosenkach Jacksona

2. Korelacja dla cech utworów Madonny

Współczynniki korelacji rang Spearmana

**Rys. 20. Współczynniki korelacji rang Spearmana dla parametrów audio w piosenkach Madonny**

Rys. 20. Współczynniki korelacji rang Spearmana dla parametrów audio w piosenkach Madonny

Współczynniki korelacji Kendalla

**Rys. 21. Współczynniki korelacji rang Kendalla dla parametrów audio w piosenkach Madonny**

Rys. 21. Współczynniki korelacji rang Kendalla dla parametrów audio w piosenkach Madonny

Zależność między energią a głośnością oraz energią a akustycznością
**Rys. 22. Zależność między energetycznością a głośnością w piosenkach Madonny**

Rys. 22. Zależność między energetycznością a głośnością w piosenkach Madonny

**Rys. 23. Zależność między energetycznością a akustycznością w piosenkach Madonny**

Rys. 23. Zależność między energetycznością a akustycznością w piosenkach Madonny

V. Analiza cech audio na poziomie albumów

Analizowane 248 piosenek Jacksona pochodziło łącznie z 86 albumów, wśród których znaleźć można single, składanki zawierające piosenki wykonywane także przez innych artystów, albumy rocznicowe, oraz powtórne wydania wcześniejszych albumów, czyli tzw. remaking. W celu oceny zróżnicowania warstwy muzycznej poszczególnych albumów do analizy wybrano te albumy, z których pochodziło co najmniej 9 piosenek (łącznie 7 albumów) Analizowane 280 piosenek Madonny pochodziło łącznie ze 119 albumów. Do oceny zróżnicowania na poziomie albumów wybrano te, z których pochodziło co najmniej 10 piosenek (łącznie 9 albumów). Na rys. 24 oraz rys. 25 przedstawiono krzywe gęstości dla analizowanych wcześniej zmiennych ilościowych w zależności od albumu z którego pochodziły piosenki. Natomiast w p. 1.2. oraz 2.2. w postaci tabelarycznej przedstawiono średnie wartości zmiennych dla poszczególnych albumów.

1. Albumy Jacksona

1.1. Krzywe gęstości

**Rys. 24. Krzywe gęstości dla wszystkich parametrów ilościowych w zależności od albumu Jacksona**

Rys. 24. Krzywe gęstości dla wszystkich parametrów ilościowych w zależności od albumu Jacksona

Biorąc pod uwagę wykresy krzywej gęstości na podstawie parametrów ilościowych cech audio, można zauważyć duże zróżnicowanie warstwy muzycznej poszczególnych albumów:

  • najmniejsza akustyczność występuje w albumie Dangerous,
  • największa taneczność występuje w albumach Bad 25th Anniversary i Off the Wall,
  • najkrótszy czas utworów cechuje album Forever Michael,
  • największą energetyczność charakteryzują się albumy Bad 25th Anniversary i Dangerous,
  • najbardziej głośnym jest album Michael,
  • największą popularność cieszą się piosenki z albumów Off the Wall i Dangerous,
  • największą pozytywność albumu (parametr valence) odznaczają się piosenki albumu Off the Wall.

1.2. Średnie w zależności od albumu

1.2.1. Taneczność
Tab. 4. Średnia taneczność albumów Jacksona
album.name mean(danceability)
Bad 25th Anniversary 0.8016875
Off the Wall 0.7730000
Dangerous 0.7421538
HIStory - PAST, PRESENT AND FUTURE - BOOK I 0.6823846
Invincible 0.6796429
Michael 0.6664444
Forever, Michael 0.5414444
1.2.2. Energetyczność
Tab. 5. Średnia energetyczność albumów Jacksona
album.name mean(energy)
Dangerous 0.7436154
Bad 25th Anniversary 0.7368750
Michael 0.6696667
Invincible 0.6455000
HIStory - PAST, PRESENT AND FUTURE - BOOK I 0.6443077
Forever, Michael 0.6311111
Off the Wall 0.5806800
1.2.3. Akustyczność
Tab. 6. Średnia akustyczność albumów Jacksona
album.name mean(acousticness)
HIStory - PAST, PRESENT AND FUTURE - BOOK I 0.3240769
Off the Wall 0.3081000
Forever, Michael 0.2970111
Bad 25th Anniversary 0.2846236
Invincible 0.2800857
Dangerous 0.2215231
Michael 0.1906856
1.2.4. Wartościowość
Tab. 7. Średnia wartościowość piosenek z albumów Jacksona
album.name mean(valence)
Off the Wall 0.7777000
Forever, Michael 0.6278889
Bad 25th Anniversary 0.6056250
Michael 0.5832222
Dangerous 0.5338462
HIStory - PAST, PRESENT AND FUTURE - BOOK I 0.5155846
Invincible 0.4793643
1.2.5. Popularność
Tab. 8. Średnia popularność albumów Jacksona
album.name mean(popularity)
Off the Wall 60.50000
Dangerous 57.92308
HIStory - PAST, PRESENT AND FUTURE - BOOK I 53.07692
Bad 25th Anniversary 53.00000
Invincible 46.42857
Michael 44.33333
Forever, Michael 26.44444

W przypadku policzonych średnich dla parametrów cech audio zróżnicowanie warstwy muzycznej poszczególnych albumów wygląda podobnie jak w przypadku wcześniej analizowanych krzywych gęstości:

  • największą średnią taneczność wykazuje album Bad 25th Anniversary - 0.8,
  • największą średnią energetyczność album Dangerous - 0.74,
  • największą średnią akustyczność album HIStory - PAST, PRESENT AND FUTURE - BOOK I
  • największą średnią wartościowość (pozytywność) piosenek z albumów Jacksona cechuje album Off the Wall,
  • największa średnia dla parametru popularność również jak w przypadku krzywej gęstości przypada dla albumu Off the Wall.

2. Albumy Madonny

2.1. Krzywe gęstości

**Rys. 25. Krzywe gęstości dla wszystkich parametrów ilościowych w zależności od albumu Madonny**

Rys. 25. Krzywe gęstości dla wszystkich parametrów ilościowych w zależności od albumu Madonny

Biorąc pod uwagę wykresy krzywej gęstości na podstawie parametrów ilościowych cech audio, podobnie jak w przypadku albumów Jacksona, tak samo można zauważyć duże zróżnicowanie warstwy muzycznej w przypadku poszczególnych albumów Madonny:

  • największa akustyczność występuje w albumie Evita,
  • największa taneczność występuje w piosenkach z albumu Hard Candy i American Life,
  • najkrótszy czas utworów cechuje album Evita,
  • największą energetycznością charakteryzują się piosenki z albumu Celebration i Hard Candy,
  • największą głośnością odznaczają się utwory z albumu Celebration,
  • najbardziej popularne są pisenki wydane na albumie Celebration i Ray of Light,
  • największa pozytywność albumu (parametr valence) opisujący muzyczną pozytywność przekazywaną przez utwór to album Hard Candy.

2.2. Średnie w zależności od albumu

2.2.1. Taneczność
Tab. 9. Średnia taneczność albumów Madonny
album.name mean(danceability)
Hard Candy 0.7836667
American Life 0.6986364
Rebel Heart (Deluxe) 0.6847778
MDNA (Deluxe Version) 0.6726154
Erotica (PA Version) 0.6685000
Celebration (double disc version) 0.6647500
I’m Breathless 0.6182000
Ray of Light 0.5674545
Evita: The Complete Motion Picture Music Soundtrack 0.4885000
2.2.2. Energetyczność
Tab. 10. Średnia energetyczność albumów Madonny
album.name mean(energy)
Celebration (double disc version) 0.7944167
Hard Candy 0.7588333
MDNA (Deluxe Version) 0.6688462
Erotica (PA Version) 0.6232500
Rebel Heart (Deluxe) 0.6202222
Ray of Light 0.5799091
American Life 0.5064545
I’m Breathless 0.4530000
Evita: The Complete Motion Picture Music Soundtrack 0.4029500
2.2.3. Akustyczność
Tab. 11. Średnia akustyczność albumów Madonny
album.name mean(acousticness)
Evita: The Complete Motion Picture Music Soundtrack 0.7188000
I’m Breathless 0.5515900
Ray of Light 0.3463364
American Life 0.1770693
Rebel Heart (Deluxe) 0.1550372
Celebration (double disc version) 0.1045200
MDNA (Deluxe Version) 0.0934824
Hard Candy 0.0786542
Erotica (PA Version) 0.0644404
2.2.4. Wartościowość
Tab. 12. Średnia wartościowość piosenek z albumów Madonny
album.name mean(valence)
Hard Candy 0.7056667
Celebration (double disc version) 0.6406667
MDNA (Deluxe Version) 0.4920769
American Life 0.4911818
I’m Breathless 0.4789000
Erotica (PA Version) 0.4737167
Rebel Heart (Deluxe) 0.3957889
Evita: The Complete Motion Picture Music Soundtrack 0.3657250
Ray of Light 0.2996364
2.2.5. Popularność
Tab. 13. Średnia popularność albumów Madonny
album.name mean(popularity)
Celebration (double disc version) 58.00000
Ray of Light 48.45455
American Life 42.00000
Rebel Heart (Deluxe) 38.00000
Erotica (PA Version) 36.16667
I’m Breathless 32.40000
Evita: The Complete Motion Picture Music Soundtrack 32.20000
Hard Candy 28.00000
MDNA (Deluxe Version) 26.30769

Biorąc pod uwagę albumy Madonny, w przypadku średnich dla parametrów cech audio zróżnicowanie warstwy muzycznej poszczególnych albumów odzwierciedlają poniższe stwierdzenia:

  • największą średnią taneczność wykazuje album Hard Candy - 0.78,
  • największą średnią energetyczność album Celebration (double disc version) - 0.79,
  • największą średnią akustyczność album Evita - 0.72,
  • największą średnią wartościowość (pozytywność) piosenek z albumów Madonny cechuje album Hard Candy - 0.71,
  • największa średnia dla parametru popularność również jak w przypadku krzywej gęstości przypada dla albumu Celebration (double disc version) – 58.

VI. Tokenizacja

Podstawą analizy tekstu, będącej celem 2 części projektu jest podział tekstu na tokeny. W wyniku przeprowadzonej tokenizacji uzyskano strukturę “jednego tokena w wierszu”. W celu eksploracji tekstu token przechowywany w każdym wierszu jest najczęściej pojedynczym słowem, ale może również być także n-gramem, zdaniem lub akapitem. Na początkowym etapie analizy dokonano podziału tekstu na pojedyncze wyrazy. W kolejnym etapie przygotowania tekstu do analizy dokonano usunięcia(poprawy) wyrazów zawierających błędy. W tekstach piosenek często występują wyrazy nie mające żadnego znaczenia, używane jedynie dla zachowania rytmu śpiewanego tekstu (np. ua, ha-ha, itp.). W celu wyodrębnienia błędów wykorzystano Hunspell - popularne narzędzie do sprawdzania pisowni i analizatora morfologicznego. W przypadku błędnie zapisanych wyrazów narzędzie Hunspell wykorzystano do zasugerowania ewentualnych poprawnych słów. Na tej podstawie zastąpiono błędnie napisane słowa sugerowanymi poprawnymi. Zarówno w przypadku Jacksona, jak i Madonny najczęstsze błędy w zapisie tekstu polegały na skróceniu końcówki -ing do -in. Tego typu skrócona forma charakterystyczna jest dla slangu oraz tekstów śpiewanych. Ponadto w przypadku tekstów Madonny wskazywane błędy wynikały z pojawienia się w tekstach wyrażeń zapożyczonych z języka hiszpańskiego. Następny etap przygotowania tekstu do analizy polegał na zastąpieniu wielu form tego samego wyrazu jedną. Na przykład love, loves, loving, loved są różnymi formami tego samego wyrazu love. Na tym etapie oryginalne słowa z piosenek zastąpiono ich rdzeniami. Aby uzyskać lepszą wydajność, zapisano sugerowane rdzenie poszczególnych wyrazów do pliku i ręcznie sprawdzono, czy proponowany rdzeń jest podstawową formą danego wyrazu, czy też nie. Ostatni etap związany z przygotowaniem tekstu do analizy polegał na usunięciu stopwords, czyli wyrazów, które nie są nośnikiem żadnej informacji, a których częstotliwość występowania jest zazwyczaj największa. Przykładowymi stopwords mogą być zaimki, przyimki, partykuły. Listę stopwords dostępną w bibliotece R, pochodzącą z trzech słowników, uzupełniono własną - stworzoną na podstawie wyrazów zidentyfikowanych w trakcie pierwszego etapu. Poniższe rysunki przedstawiają najczęściej występujące w tekstach piosenek Jacksona i Madonny wyrazy - w postaci chmury słów. Poniżej na wykresie przedstawiono najczęściej występujące słowa w danych albumach artystów. W przypadku Madonny jedynym często spotykanym wyrazem występującym w różnych albumach jest love. Natomiast w przypadku albumów Jacksona co najmniej w dwóch albumach często spotykanymi wyrazami są stop, body, beat, hold.

1. Piosenki Jacksona

**Rys. 26. Chmura słów dla tekstów piosenek Jacksona**

Rys. 26. Chmura słów dla tekstów piosenek Jacksona

Powyższy rysunek przedstawia najczęściej występujące w tekstach piosenek Jacksona wyrazy - w postaci chmury słów. Większa czcionka oznacza większą częstość lub większy udział w analizowanej strukturze. Słowo love występuje najczęściej w utworach artysty. Kolejne słowa według częstości występowania we wszystkich piosenkach to baby, girl i time.

**Rys. 27. Częste wyrazy występujące w tekstach piosenek Jacksona**

Rys. 27. Częste wyrazy występujące w tekstach piosenek Jacksona

Powyższy rysunek przedstawia najczęściej występujące wyrazy w tekstach piosenek Jacksona według albumów, gdzie warunkiem koniecznym było wystąpienie wyrazu co najmniej 50 razy w albumie.

Słowo love jest bezsprzecznie najczęściej występującym wyrazem w większości albumów. Natomiast biorąc pod uwagę kolejne wyrazy to:

  • słowo bad dominuje w albumie Into the Groove,
  • słowo stop w albumach Off the Wall i Live at the Forum,
  • słowo body w albumach The Nat King Cole Story I Moving Vialation,
  • słowo beat w albumach Thriller i Joy for Christmas,
  • słowo hold w albumach Michael i Destiny.

2. Piosenki Madonny

**Rys. 28. Chmura słów dla tekstów piosenek Madonny**

Rys. 28. Chmura słów dla tekstów piosenek Madonny

Najczęściej występujące słowa w tekstach piosenek Madonny to również słowo love. Kolejne słowa według częstości występowania we wszystkich piosenkach to baby, feel, time i gonna. Jak można zauważyć 3 z 5 pierwszych najczęściej występujących słów pokrywają się z najczęściej występującymi słowami z piosnek Jacksona.

**Rys. 29.Częste wyrazy występujące w tekstach piosenek Madonny**

Rys. 29.Częste wyrazy występujące w tekstach piosenek Madonny

Analizując najczęściej występujące wyrazy w tekstach piosenek Madonny według albumów, gdzie warunkiem koniecznym było wystąpienie wyrazu co najmniej 50 razy w albumie, można stwierdzić, iż:

  • słowo love jest bezsprzecznie najczęściej występującym wyrazem w większości albumów,
  • natomiast biorąc pod uwagę kolejne wyrazy można zauważyć duże zróżnicowanie - tylko jedno słowo jest wiodące w danym albumie:
  • słowo alive dominuje w albumie Madame X (Deluxe),
  • słowo wake w albumie Madame X Music from the Theater Xperience (Live),
  • słowo bang w albumie MDNA,
  • słowo dance w albumie Dancefloor Destroyers 2,
  • słowo gonna w Rebel Heart (Deluxe).

VII. Różnorodność leksykalna

Rozkład długość wyrazów w teksie jest parametrem zależnym od wielu czynników. Przeprowadzone badania wskazują na to, iż w przypadku analizy wielu tekstów pisanych przez tego samego autora rozkład długości użytych wyrazów jest bardzo do siebie podobny. Innym parametrem decydującym o rozkładzie długości wyrazów w tekście jest język w jakim został on napisany. Przykładowo w angielskich tekstach średnia długość wyrazów wynosi 5,1, zaś w rosyjskich - 5,28. Teksty utworów wykonywanych przez Jacksona i Madonnę zostały napisane przez wielu autorów. Pomimo tego rozkład długości użytych wyrazów u obu artystów jest do siebie podobny. Cechą charakterystyczną tekstów piosenek jest stosowanie dużej liczby krótkich wyrazów - łatwych do zaśpiewania. Z tego też względu największy udział mają wyrazy 2-4 literowe, których udział w tekstach oryginalnych u obu artystów wynosi ok. 75%. Prezentowane w tej części projektu wyniki dotyczą analizy tekstu pierwotnego, a więc zawierającego stopwords, wyrazy z błędami oraz wyrazy spoza słownika, gdyż w takiej postaci był on śpiewany przez wykonawców. Na wykresie wyrazy o zerowej długości przedstawiają udział liczb, które pojawiły się w tekscie, a które zostały zapisane w postaci samych cyfr.

1. Długość słów w piosenkach Jacksona i Madonny

Rys. 30. Udział wyrazów w zależności od ich długości w tekstach Jacksona i Madonny

2. Wpływ paramerów piosenki na różnorodność leksykalną

Różnorodność leksykalna to kolejna kluczowa cecha językowa, która może być przedmiotem analizy tekstu. Jak sama nazwa wskazuje, „różnorodność leksykalna” jest miarą tego, ile różnych słów leksykalnych występuje w tekście.Jest to wskaźnik stopnia złożoności tekstu lub umiejętności użytkownika języka. Istnieje klika sposobów pomiaru różnorodności. Jedną z pierwszych miar opracowanych w celu pomiaru różnorodności leksykalnej był wskaźnik type-token ratio (TTR), czyli liczba typów (unikalnych tokenów) podzielona przez łączną ich liczbę. TTR jest bardzo intuicyjnym wskaźnikiem, ale wrażliwym na długość tekstu, co uniemożliwia porównanie z wykorzystaniem TTR próbek o różnych długościach. W rzeczywistości, im więcej tokenów zawiera tekst, tym więcej powtórzeń już istniejących typów, co powoduje, że TTR skutecznie zmniejsza się wraz ze wzrostem długości tekstu. Innym podejściem zastosowanym przez badaczy w celu zminimalizowania wpływu długości próbki jest linearyzacja. Koncepcyjnie podejście to opiera się na założeniu, że krzywa TTR może być stosunkowo dobrze dopasowana przez krzywą logarytmiczną. Podejście to wykorzystywane jest przy obliczaniu wskaźnika Maas, który jest liczony na podstawie różnicy logarytmów z typów tokenów i ich ogólnej liczby. Zastosowanie w obliczeniach logarytmowania powoduje, iż wskaźnik ten jest mniej wrażliwy na długość wypowiedzi. W celu oceny wpływu wybranych parametrów utworów (energetyczność, akustyczność, czas trwania, data wydania albumu) na różnorodność leksykalną tekstów, w ramach każdej zmiennej dokonano podziału utworów na 4 grupy, oznaczone jako A, B, C i D. Każdorazowo grupa D obejmuje utwory o najniższych wartościach danej cechy, zaś grupa A - najwyższych. W przypadku roku wydania w grupie A znalazły się utwory najmłodsze, zaś w grupie D - najstarsze. Zależność statystyczna między liczbą tokenów (ntoken) oraz wskaźnikiem TTR a daną cechą utworu została określona na podstawie współczynników korelacji rang Spearmana oraz Kendall. Przedstawione w p. 1 i 2 wyniki wskazują na niewielką zależność różnorodności leksykalnej od cech utworu. Dodatkowym parametrem wyznaczonym w przypadku określania różnorodności leksykalnej od długości piosenki jest średnia liczba tokenów na 1 sekundę utworu. Pod tym względem utwory Jacksona odznaczają się wyższymi wartościami.

2.1. Piosenki Jacksona

2.1.1. Wpływ energetyczności
**Rys. 31. Wpływ energetyczności na różnorodność leksykalną tekstów piosenek Jacksona**

Rys. 31. Wpływ energetyczności na różnorodność leksykalną tekstów piosenek Jacksona

Współczynnik korelacji Spermana dla zależności między energetycznoscią a liczbą tokenów wyniósł 0.1825586 (p-value wynosi 0.004067), natomiast dla zależności między energetycznością a wskaźnikiem TTR -0.1561435 (p-value wynosi 0.0142223).

Współczynnik korelacji Kendalla dla zależności między energetycznością a liczbą tokenów wyniósł 0.1210106 (p-value wynosi 0.0047982), natomiast dla zależności między energetycznością a wskaźnikiem TTR -0.1070212 (p-value wynosi 0.0125539)

2.1.2. Wpływ akustyczności
**Rys. 32. Wpływ akustyczności na różnorodność leksykalną tekstów piosenek Jacksona**

Rys. 32. Wpływ akustyczności na różnorodność leksykalną tekstów piosenek Jacksona

Współczynnik korelacji Spermana dla zależności między akustycznością a liczbą tokenów wyniósł -0.0855383 (p-value wynosi 0.1811459), natomiast dla zależności między akustycznością a wskaźnikiem TTR 0.081416 (p-value wynosi 0.2031708).

Współczynnik korelacji Kendalla dla zależności między akustycznością a liczbą tokenów wyniósł -0.0582974 (p-value wynosi 0.1741569), natomiast dla zależności między akustycznością a wskaźnikiem TTR 0.0534658 (p-value wynosi 0.2122839)

2.1.3. Wpływ długości utworu
**Rys. 33. Wpływ długości utworu na różnorodność leksykalną tekstów piosenek Jacksona**

Rys. 33. Wpływ długości utworu na różnorodność leksykalną tekstów piosenek Jacksona

Współczynnik korelacji Spermana dla zależności między czasem trwania a liczbą tokenów wyniósł 0.2043472 (p-value wynosi 0.0012694), natomiast dla zależności między czasem trwania a wskaźnikiem TTR -0.1597813 (p-value wynosi 0.0120919).

Współczynnik korelacji Kendalla dla zależności między czasem trwania a liczbą tokenów wyniósł 0.1353639 (p-value wynosi 0.0016376), natomiast dla zależności między czasem trwania a wskaźnikiem TTR -0.102857 (p-value wynosi 0.0166321)

**Rys. 34. Liczba tokenów na sekundę trwania piosenek Jacksona**

Rys. 34. Liczba tokenów na sekundę trwania piosenek Jacksona

2.1.4. Wpływ roku wydania albumu
**Rys. 35. Wpływ roku wydania albumu na różnorodność leksykalną tekstów piosenek Jacksona**

Rys. 35. Wpływ roku wydania albumu na różnorodność leksykalną tekstów piosenek Jacksona

**Rys. 36. Wpływ roku wydania albumu na liczbę tokenóW w tekstach piosenek Jacksona**

Rys. 36. Wpływ roku wydania albumu na liczbę tokenóW w tekstach piosenek Jacksona

Współczynnik korelacji Spermana dla zależności między rokiem wydania albumu a liczbą tokenów wyniósł 0.1966674 (p-value wynosi 0.0019403), natomiast dla zależności między rokiem wydania a wskaźnikiem TTR -0.1787134 (p-value wynosi 0.0049326).

Współczynnik korelacji Kendalla dla zależności między rokiem wydania albumu a liczbą tokenów wyniósł 0.1341623 (p-value wynosi 0.0020613), natomiast dla zależności między rokiem wydania a wskaźnikiem TTR -0.1225773 (p-value wynosi 0.0048418)

2.2. Piosenki Madonny

2.2.1. Wpływ energetyczności
**Rys. 37. Wpływ energetyczności na różnorodność leksykalną tekstów piosenek Madonny**

Rys. 37. Wpływ energetyczności na różnorodność leksykalną tekstów piosenek Madonny

Współczynnik korelacji Spermana dla zależności między energetycznością a liczbą tokenów wyniósł 0.3655922 (p-value wynosi 2.7915271^{-10}), natomiast dla zależności między energetycznością a wskaźnikiem TTR -0.3871397 (p-value wynosi 1.9108185^{-11}).

Współczynnik korelacji Kendalla dla zależności między energetycznoscią a liczbą tokenów wyniósł 0.2489834 (p-value wynosi 5.7229302^{-10}), natomiast dla zależności między energetycznością a wskaźnikiem TTR -0.2638242 (p-value wynosi 4.8602204^{-11})

2.2.2. Wpływ akustyczności
**Rys. 38. Wpływ akustyczności na różnorodność leksykalną tekstów piosenek Madonny**

Rys. 38. Wpływ akustyczności na różnorodność leksykalną tekstów piosenek Madonny

Współczynnik korelacji Spermana dla zależności między akustycznością a liczbą tokenów wyniósł -0.2256759 (p-value wynosi 1.3973562^{-4}), natomiast dla zależności między akustycznością a wskaźnikiem TTR 0.3693642 (p-value wynosi 1.770592^{-10}).

Współczynnik korelacji Kendalla dla zależności między akustycznością a liczbą tokenów wyniósł -0.1456448 (p-value wynosi 2.8632432^{-4}), natomiast dla zależności między akustycznością a wskaźnikiem TTR 0.2538256 (p-value wynosi 2.4638856^{-10})

2.2.3. Wpływ długości utworu
**Rys. 39. Wpływ długości utworów na różnorodność leksykalną tekstów piosenek Madonny**

Rys. 39. Wpływ długości utworów na różnorodność leksykalną tekstów piosenek Madonny

Współczynnik korelacji Spermana dla zależności między długością utworu a liczbą tokenów wyniósł 0.2505671 (p-value wynosi 2.2164007^{-5}), natomiast dla zależności między długością utworu a wskaźnikiem TTR -0.1981008 (p-value wynosi 8.5876493^{-4}).

Współczynnik korelacji Kendalla dla zależności między długością utworu a liczbą tokenów wyniósł 0.1687058 (p-value wynosi 2.763239^{-5}), natomiast dla zależności między długością utworu a wskaźnikiem TTR -0.1336145 (p-value wynosi 8.8692525^{-4})

**Rys. 40. Liczba tokenów na sekundę trwania piosenek Madonny**

Rys. 40. Liczba tokenów na sekundę trwania piosenek Madonny

2.2.4. Wpływ roku wydania albumu
**Rys. 41. Wpływ roku wydania albumu na różnorodność leksykalną tekstów piosenek Madonny**

Rys. 41. Wpływ roku wydania albumu na różnorodność leksykalną tekstów piosenek Madonny

**Rys. 42. Wpływ roku wydania albumu na liczbę tokenów tekstów piosenek Madonny**

Rys. 42. Wpływ roku wydania albumu na liczbę tokenów tekstów piosenek Madonny

Współczynnik korelacji Spermana dla zależności między rokiem wydania albumu a liczbą tokenów wyniósł 0.054952 (p-value wynosi 0.3596138), natomiast dla zależności między rokiem wydania a wskaźnikiem TTR -0.1308694 (p-value wynosi 0.028561).

Współczynnik korelacji Kendalla dla zależności między rokiem wydania a liczbą tokenów wyniósł 0.0350425 (p-value wynosi 0.3918774), natomiast dla zależności między rokiem wydania a wskaźnikiem TTR -0.0840102 (p-value wynosi 0.0398662)

3. Statystyki wyrazów

Na poniższych wykresach przedstawiono najczęściej występujące wyrazy w tekstach piosenek śpiewanych przez Jacksona i Madonnę. W zestawieniu razem najczęściej występujących wyrazów w tekstach piosenek Madonny i Jacksona, gdzie warunkiem koniecznym było wystąpienie wyrazu co najmniej 150 razy, najczęściej występującym słowem jest love. Kolejne słowa według częstości występowania to baby, time, girl, gonna i feel. Jak można zauważyć te same słowa wystąpiły w zestawieniach indywidualnych dla każdego z artystów z osobna.

**Rys. 43. Najczęsciej występujace wyrazy w tekstach piosenek Jacksona i Madonny - zestawienie wspólne**

Rys. 43. Najczęsciej występujace wyrazy w tekstach piosenek Jacksona i Madonny - zestawienie wspólne

**Rys. 44. Top 20 najczęsciej występujących wyrazów w tekstach piosenek Jacksona i Madonny**

Rys. 44. Top 20 najczęsciej występujących wyrazów w tekstach piosenek Jacksona i Madonny

4. Częstotliwość wyrazów

Biorąc pod uwagę liczbę słowo love pojawia się częściej w piosenkach wykonywanych przez Madonnę. Ze względu jednak na to, że analiza obejmuje większą liczbę utworów tej artystki określono częstotliwość użycia poszczególnych wyrazów w stosunku do całości tekstów. Wyniki obliczeń przedstawiono na poniższym wykresie. Słowa znajdujące się blisko linii przerywanej mają podobną częstotliwość w obu zestawach tekstów - dotyczy to m.in love, którego użycie jest częstsze w przypadku piosenek Jacksona. Słowa, które są daleko od linii, to słowa, które występują częściej w jednym zestawie tekstów niż w innym. Przykładowo wyraz shake pojawia się częściej w piosenkach Jacksona , a party - u Madonny. Ilościowo zależność miedzy częstotliwością wyrazów została określona na podstawie współczynników korelacji rang Spearman’a i Kendall’a. Przedstawione wyniki wskazują, iż brak jest podstaw do odrzucenia hipotezy o braku zależności zmiennych. Zależność ta jest jednak umiarkowana.

Rys. 45. Częstotliwość wyrazów w tekstach piosenke Jacksona i Madonny

Współczynnik korelacji Spermana dla zależności między częstotliwością występowania słowa w piosence Jacksoana a częstotliwością występowania tego samego wyrazu w tekstach Madonny wynosi 0.5176463 (p-value wynosi 4.1320784^{-25}). Współczynnik korelacji Kendalla dla tej samej zależności wyniósł 0.372366 (p-value wynosi 4.3120681^{-24}).

5. Częstotliwość terminów i odwrotna częstotliwość dokumentu (tf-idf)

Głównym pytaniem w eksploracji tekstu i przetwarzaniu języka naturalnego jest to, jak określić ilościowo, o czym jest dokument. Czy można to zrobić, patrząc na słowa, które składają się na tekst? Jedną z miar tego, jak ważne może być słowo, jest częstotliwość jego występowania (tf). W poprzednich punktach tego rozdziału określono jak często słowo występuje w piosenkach. W dokumencie są jednak słowa, które pojawiają się wiele razy, ale mogą nie być ważne. Ponadto wiele częstych słów spotkać można zarówno w piosenkach Jacksona, jak i Madonny. Innym podejściem do określenia ważności słowa, od liczenia częstości jego występowania, jest przyjrzenie się odwrotnej częstotliwości dokumentu (idf), która zmniejsza wagę często używanych słów a zwiększa tych, które nie są często używane w zbiorze dokumentów. Można to połączyć z częstotliwością terminu, aby obliczyć tf-idf terminu (dwie wielkości pomnożone razem), częstotliwość terminu skorygowana o to, jak rzadko jest on używany. Statystyka tf-idf ma na celu zmierzenie, jak ważne jest słowo w danym dokumencie, będącym częścią zbioru wielu dokumentów. W przypadku kiedy dany wyraz pojawia się we wszystkich analizowanych zbiorach jego wartość mierzona za pomocą tf-idf jest równa 0.

Rys. 46. Częstotliwość terminów i odwrotna częstotliwość dokumentu (tf-idf) w tekstach piosenek Jacksona i Madonny

Biorąc pod uwagę wartości tf-idf – metodę obliczania wagi słów w oparciu o liczbę ich wystąpień statystyka wyrazów kształtuje się następująco: dla piosenek Micheala Jacksona charakterystyczne wyrazy to: ease, mighty, force i matte. Natomiast dla piosenek Madonny są nimi: bang, bitch, anymore i stupid.

VIII. Wpływ parametrów na rozkład słów

W tej części projektu przedstawiono najczęściej występujące słowa w piosenkach w zależności od cech takich jak: populraność, energetyczność, akustyczność, rok wydania albumu na którym znajduje się dany utwór. Podobnie jak wcześniej w ramach każdej z cech wskazano 4 grupy utworów: A, B, C, D. Grupa A obejmuje utwory o największych wartościach danej cechy (w przypadku roku wydania - albumy najmłodsze), natomiast grupa D - utwory o najmniejszych wartościach danej cechy (albumy najstarsze). Ze względu na różną liczbę piosenek sklasyfikowanych w danej grupie (a co za tym idzie ze względu na różną całkowitą liczbę wyrazów w ich tekstach) rozkład wyrazów został przedstawiony za pomocą częstotliwości występowania w ogólnej liczbie słów z piosenek danej grupy.

1. Piosenki Jacksona

1.1. Słowa w zależności od popularności

**Rys. 47. Słowa w zależności od kategorii popularnosci piosenek Jacksona**

Rys. 47. Słowa w zależności od kategorii popularnosci piosenek Jacksona

W przypadku rozkładu słów w oparciu o popularność danego utworu najczęściej występujące słowa to stop, beat i love. Co ciekawe słowo love znalazło się dopiero na trzeciej pozycji w grupie A, czyli najbardziej popularnych utworów. W kolejnych grupach najczęściej występującym słowem jest słowo love. Kolejność następnych wyrazów również się nie zmienia - na kolejnych miejscach znajdują się słowa baby, girl i stop.

1.2. Słowa w zależności od energetyczności

**Rys. 48. Słowa w zależności od kategorii energetyczności piosenek Jacksona**

Rys. 48. Słowa w zależności od kategorii energetyczności piosenek Jacksona

W przypadku rozkładu słów w oparciu o energetyczność danego utworu najczęściej występujące słowa w piosenkach Jacksona to love i baby. Słowa te występują na pierwszych pozycjach w kolejnych grupach od A do D. Warto zauważyć, że w przypadku kategorii D (utworów o najmniejszej energetyczności) słowo love pojawia się najczęściej (pond 8%), a wraz ze wzrostem energetyczności piosenek częstotliwość love jest coraz mniejsza (nieco ponad 5% w przypadku utworów najbardziej energetycznych)

1.3. Słowa w zależności od akustyczności

**Rys. 49. Słowa w zależności od kategorii akustyczności piosenek Jacksona**

Rys. 49. Słowa w zależności od kategorii akustyczności piosenek Jacksona

W przypadku rozkładu słów w oparciu o akustyczność danego utworu najczęściej występujące słowa to love, body i beat (kategoria A), love, wonna i baby (kategoria B), oraz love, baby i girl (kategoria C i D). We wszystkich kategoriach akustycznosci najcześciej występujacym słowem jest więc love. Wraz ze wzrostem akustyczności częstotliwość użycia tego słowa rośnie

1.4. Słowa w zależności od roku wydania albumu

**Rys. 50. Słowa w zależności od roku wydania albumu Jacksona**

Rys. 50. Słowa w zależności od roku wydania albumu Jacksona

W przypadku rozkładu słów w oparciu o rok wydania albumu, najczęściej występującymi słowami w albumach najstarszych, czyli wydanych w początkowym okresie kariery Jacksona, są love, baby i girl. W kolejnych latach, aż do najmłodszych albumów (kategoria A) słowo love wraz ze słowem baby również występują najczęściej.

2. Piosenki Madonny

2.1. Słowa w zależności od popularności

**Rys. 51. Słowa w zależności od kategorii popularnosci piosenek Madonny**

Rys. 51. Słowa w zależności od kategorii popularnosci piosenek Madonny

W przypadku rozkładu słów w oparciu o popularność danego utworu najczęściej występujące słowa, w grupie utworów najbardziej popularnych (kategoria A) to erotic, material i slow. Co ciekawe słowo love - podobnie, jak w przypadku najbardziej popularnych utworów Jacksona znalazło się na dalszej pozycji. W kolejnych grupach (od B do D), słowo love znajduje się już na pierwszej pozycji, natomiast na kolejnych pozycjach znajdują się słowa baby, gonna, feel i time oraz wild.

2.2. Słowa w zależności od energetyczności

**Rys. 52. Słowa w zależności od kategorii energetyczności piosenek Madonny**

Rys. 52. Słowa w zależności od kategorii energetyczności piosenek Madonny

W przypadku rozkładu słów w oparciu o energetyczność danego utworu najczęściej występujące słowa w najbardziej energetycznych piosenkach Madonny to love, gonna i baby. W kolejnych zaś grupach od B do D najczęściej występującymi słowami w utworach są love oraz słowa time, baby i feel. Widoczny jest także bardzo duży udział słowa love w piosenkach należących do kategorii C - ponad 10%. Kolejne w tej kategorii słowo według częstotliwościowi występowania - feel ma udział poniżej 2,5%.

2.3. Słowa w zależności od akustyczności

**Rys. 53. Słowa w zależności od kategorii akustyczności Madonny**

Rys. 53. Słowa w zależności od kategorii akustyczności Madonny

W przypadku rozkładu słów w oparciu o akustyczność danego utworu ponownie najczęściej występującym słowem jest love. Na kolejnych miejscahc znajdują się słowa: feel i erotic (kategoria A), gonna i baby (kategoria B), alive i time (kategoria C) oraz gonna i feel (kategoria D). Podobnie jak w przypadku piosenke Jacksona częstotliowść użycia słowa love w utworach najbardziej aktustycznych jest największa (prawie 9% w tekstach piosenek z kategorii A, przy 5-6% udziale w pozostałych kategoriach). Wynika to z faktu, iż piosenki o dużej akustyczności są utworami spokojnymi, mniej energetycznymi, często balladami opowiadającymi o miłości.

2.4. Słowa w zależności od roku wydania albumu

**Rys. 54. Słowa w zależności od od roku wydania albumu Madonny**

Rys. 54. Słowa w zależności od od roku wydania albumu Madonny

W przypadku rozkładu słów w oparciu o rok wydania albumu, najczęściej występującymi słowami w albumach najstarszych, czyli wydanych w pierwszych latach kariery Madonny, są si, ven, day i conmigo. Wskazuje to na duże powiązanie pierwszych piosenek z językiem hiszpańskim. W kolejnych latach najczęściej wsypującymi słowami są love, baby, gonna i feel. Warto zwrócić uwagę, że w drugim okresie kariery Madonny częstotliwość użycia słowa love była większa niż w kolejnych latach (piosenki z kategorii A i B).

IX. Analiza tekstów w albumach

Zgonie ze sformułowanym przez amerykańskiego lingwistę George’a Kingsleya Zipfa prawem przy pewnym zbiorze wyrażeń języka naturalnego częstotliwość każdego słowa jest odwrotnie proporcjonalna do jego pozycji w tabeli częstości. Tak więc najczęstsze słowo będzie występować w przybliżeniu dwa razy częściej niż drugie najczęstsze słowo, trzy razy częściej niż trzecie najczęstsze słowo itd. Tak więc zgodnie z prawem Zipfa częstotliwość pojawiania się słowa jest odwrotnie proporcjonalna do jego rangi. Porównanie rozkładu Zipfa obliczonego dla korpusu języka z rozkładem dla danego tekstu pozwala na ocenę stylu autora i jego zrozumiałość przez przeciętnego czytelnika. Czym bardziej rozkład dla analizowanego tekstu jest zgodny z rozkładem ogólnym dla języka, w którym go napisano, tym jest on bardziej zrozumiały dla większości osób posługujących się na co dzień tym językiem Aby sprawdzić, czy założenia prawa są spełnione w analizowanych zbiorach tekstów obejmujących teksty piosenek wchodzących w skład albumów wykonawców sporządzono wykres powstały poprzez wykreślenie rangi na osi x i częstotliwości wyrazu na osi y na skalach logarytmicznych. Wykreślana w ten sposób, odwrotnie proporcjonalna zależność będzie miała stałe, ujemne nachylenie.

W drugiej części tego rozdziału zaprezentowano wartości wskaźnika tf-idf obliczonego dla zbiorów tekstów znajdujących się na poszczególnych albumach. Wysokie wskaźniki tf-idf pozwalają na zidentyfikowanie charakterystycznych dla danego albumu wyrazów, które nie pojawiają się wśród tekstów piosenek umieszczonych na innych albumach.

1. Piosenki Jacksona

1.1. Częstotliwość słów a ich ranking

Rys. 55. Częstotliwość słów tekstów piosenek Jacksona a ich ranking

Analiza zaprezentowanych wykresów wskazuje że zarówno w przypadku albumów Jacksona, jak i Madonny zależności są do siebie podobne i że związek między rangą a częstotliwością ma nachylenie ujemne. Nie jest ono jednak do końca stałe. Odchylenia, które występują na wysokim poziomie rang, nie są rzadkością w przypadku wielu rodzajów języka: korpus językowy często zawiera mniej rzadkich słów niż przewiduje to jedno prawo potęgowe. Bardziej nietypowe są odchylenia na niższych poziomach. Obaj wykonawcy w tekstach swych piosenek używają mniejszego odsetka najpopularniejszych słów niż w przypadku wielu zbiorów językowych napisanych w jezyku angielskim.

1.2. Tf-idf w poszczególnych albumach Jacksona

**Rys. 56. Częstotliwość terminów i odwrotna częstotliwość dla albumów Jacksona**

Rys. 56. Częstotliwość terminów i odwrotna częstotliwość dla albumów Jacksona

Biorąc pod uwagę metodę tf-idf można stwierdzić, iż charakterystycznymi dla poszczególnych albumów Jacksona są następujące słowa:

  • dla albumu Bad 25th Anniversary sha, hotel i liberian,
  • dla albumu Dangerous: invincible, white i jam,
  • dla albumu Forever, Michael: lady, doctor i paradise,
  • dla albumu HIStory - PAST, PRESENT AND FUTURE - BOOK I: sneddon, tom i lose,
  • dla albumu Invincible: watts, monster i gangsta,
  • dla albumu Michael: news, akon i keeping,
  • dla albumu Off the Wall: force, stop i shake.

2. Piosenki Madonny

2.1. Częstotliwość słów a ich ranking

Rys. 57. Częstotliwość słów tekstów piosenek Madonny a ich ranking

2.2. Tf-idf w poszczególnych albumach Madonny

**Rys. 58. Częstotliwość terminów i odwrotna częstotliwość dla albumów Madonny**

Rys. 58. Częstotliwość terminów i odwrotna częstotliwość dla albumów Madonny

Biorąc pod uwagę metodę tf-idf można stwierdzić, iż charakterystycznymi dla poszczególnych albumów Madonny są następujące słowa:

  • dla albumu American Life: hollywood, american i religious,
  • dla albumu Celebration: material, bang i voce,
  • dla albumu Erotica: fever, thief i sweeter,
  • dla albumu Complete Motion Picture Music: rollin, peron i che,
  • dla albumu Hard Candy: beep, justin i sticky,
  • dla albumu I’m Breathless: vogue, panky i hanky,
  • dla albumu MDNA (Deluxe Version): sinner, bang i addicted,
  • dla albumu Ray of Light: traveling, substitute i swim,
  • dla albumu Rebel Heart (Deluxe): taste, water i holy.

X. Bigramy i trigramy

Przeprowadzona do tej pory analiza koncentrowała się na słowach jako indywidualnych jednostkach. Jednak wiele interesujących analiz tekstowych opiera się na relacjach między słowami, sprawdzając, które słowa następują po sobie lub które mają tendencję do współwystępowania w tych samych dokumentach. W wyniku przeprowadzenia tokenizacji można uzyskać sekwencje kolejnych słów - zwanych n-gramami. Wiedząc, jak często po słowie X następuje słowo Y, można m.in zbudować model relacji między nimi. Tego typu analiza powoduje, iż zamiast dzielić teksty piosenek na pojedyncze słowa, można podzielić je na grupy, np. dwa słowa, trzy słowa lub więcej. W ten sposób możliwe jest uchwycenie pewnych informacje, których nie można odzwierciedlić w pojedynczych słowach. Metoda, która dzieli słowa na grupy, jest ogólnie nazywana analizą „n-gramową”. W przypadku dwóch słów jest to analiza 2-gramowa lub bigramowa, a przy trzech nazywa się to analizą 3-gramową lub trigramową.

1. Piosenki Jacksona

W tej części projektu w postaci tabeli oraz chmury słów przedstawiono najczęściej występujące w piosenkach Jacksona bigramy -czyli wyrażenia składające się z dwóch następujących po sobie. Aby lepiej poznać kontekst słowa love które jest najczęściej występującym słowem zarówno w tekstach Jacksona, jak i Madonny w tabeli 15 przedstawiono 10 wyrazów najczęściej występujących bezpośrednio po love, natomiast w tabeli 16 - 10 najczęstszych wyrazów poprzedzających love w tekstach Jacksona. W drugiej części tego rozdziału projektu - w podobnym układzie zaprezentowano wyniki analizy bigramów w tekstach piosenek Madonny.

1.1. Bigramy w tekstach Jacksona

Tab. 14. Bigramy w tekstach piosenek Jacksona
word1 word2 n
stop til 76
blue gangsta 50
mighty body 48
body language 46
honey love 45
dirty diana 44
cry cry 36
baby baby 32
heartbreak hotel 28
real real 28
**Rys. 59. Chmura słów dla bigramów tekstów piosenek Jacksona**

Rys. 59. Chmura słów dla bigramów tekstów piosenek Jacksona

Najczęstsze bigramy w tekstach Jacksona to stop til, blue gangsta (blue gangster- potoczne określenie osoby, która ma negatywne doświadczenia w związkach i związane z tym problemy z zaufaniem drugiej osobie w miłości), mighty body oraz body language, występujące ponad 45 razy. Pierwszy bigram zawierający słowo miłość honey love pojawia się na piątym miejscu pod względem częstości. Częstymi bigramami są także powtórzenia tych samych słów, jak cry, cry czy baby, baby.

1.2. Bigramy z “love” u Jacksona

Tab. 15. 10 wyrazów najczęściej występujacych po love w piosenkach Jacksona
word2 n
dance 20
girl 15
love 15
sugar 12
billie 10
baby 8
honey 8
power 8
farewell 7
begin 6
sweeter 6
Tab. 16. 10 wyrazów najczęściej poprzedzajacych love w piosenkach Jacksona
word1 n
honey 45
makin 16
love 15
real 14
stop 14
baby 12
candy 12
sugar 12
stay 8
sweet 8

Wyrazy najczęściej występujące po słowie love u Jacksona to dance, girl oraz love.

Słowo love zdecydowanie najczęściej bo aż 45 razy poprzedza wyraz honey. Większość z najczęstszych bigramów z słowem love ma zabarwienie pozytywne

2. Piosenki Madonny

1.1. Bigramy w tekstach Madonny

Tab. 17. Bigramy w tekstach piosenek Madonny
word1 word2 n
love love 128
bang bang 42
erotic erotic 38
tao gostoso 38
wild dance 34
tick tock 31
forbidden love 30
bye bye 28
ho water 27
human nature 25
**Rys. 60. Chmura słów dla bigramów tekstów piosenek Madonny**

Rys. 60. Chmura słów dla bigramów tekstów piosenek Madonny

W tekstach Madonny najczęstsze bigramy zawierają powtórzenia tych samych słów, szczególnie słowa love. Wśród częstych bigramów pojawia się tão gosto - hiszpański odpowiednik angielskiego so good, co wskazuje na pojawiające się u Madonny wtrącenia do anglojęzycznych piosenek zwrotów latynoskich.

1.2. Bigramy z “love” u Madonny

Tab. 18. 10 wyrazów najczęściej występujacych po love w piosenkach Madonny
word2 n
love 128
hurt 16
parade 12
spent 12
gonna 11
anymore 10
forbidden 10
song 10
burning 6
inside 5
Tab. 19. 10 wyrazów najczęściej poprzedzajacych love w piosenkach Madonny
word1 n
love 128
forbidden 30
true 24
feel 12
future 8
hurt 8
gonna 6
guilt 6
real 5
sin 5

Słowa najczęściej występujące przed lub po słowie love mają u Madonny w porównaniu do tekstów Jacksona zabarwienie nieco bardziej negatywne, np. hurt, forbidden czy guilt.

3. Trigramy

W niektórych analizach ważne może być określenie najczęstrzych trygramamów, które są sekwencjami 3 kolejnych słów. Przedstawione poniżej wyniki analizy trigramów wskazują na to, że w najczęstszych trigramach u obojga artystów podobnie jak w bigramach, często pojawiają się powtórzenia tych samych słów lub fraz. Wynika to z faktu, iż zwroty tego typu często pojawiają się w refrenach piosenek - stąd też ich największa czestotliwość spośród wszytskich trigramów.

Trigramy w piosenkach Jacksona
Tab. 20. Najczęstrze trigramy w piosenkach Jacksona
word1 word2 word3 n
mighty mighty body 26
body mighty body 22
bad bad real 18
bad real real 18
body language shake 18
cry cry cry 18
mighty body shake 18
real real bad 18
baby baby baby 12
can’t stop lovin 12
candy love sugar 12
dawn makin love 12
love sugar love 12
stop til break 12
won’t stop til 12

Trigramy w piosenkach Madonny

Tab. 21. Najczęstrze trigramy w piosenkach Madonny
word1 word2 word3 n
love love love 96
rollin rollin rollin 23
bang bang shot 21
body erotic erotic 19
beep beep gotta 16
starlight star bright 16
wild dance wild 15
dance wild dance 14
tick tock tick 14
tock tick tock 14
candy perfume girl 13
wanna die happy 13
baby true love 12
infinity infinity infinity 12
peace peace peace 12
stay stay darlin 12

4. Analiza sieci dla bigramów

Za pomocą n-gramów możliwe jest połączenie ze sobą słowów na wykresie, tworząc wykres sieciowy. To kolejny sposób na wizualizację 2 gramów i relacji między słowam. Konstrukcja sieci możliwa jest dzieki wysteępowaniu trzech zmiennych:

  • from: węzeł, z którego pochodzi krawędź - jest nim pierwszy wyraz tworzący bigram,
  • to: węzeł, do którego zmierza krawędź- jest nim drugi wyraz z bigramu,
  • waga: wartość liczbowa powiązana z każdą krawędzią - wynika z częstości występowania bigramu.

Do wygenerowania sieci użyto zestawu danych z rozdzielonymi słowami po usunięciu stopwords. Dla lepszej prezentacji wybrano pary słów, które mają co najmniej 10 wystąpień. Wygenerowana dla piosenek Jackosna sieć składa się z 64 węzłów (słów) i 57 połączeń. Sieć utworzona na podstawie bigramów z tekstów Madonny składa się natomiast z 82 węzłów i 63 połączeń. Średnia liczba stopni wierzchołka dla sieci Jacksona jest równa 1.78, natomiast w przypadku Madonny jest ona równa 1.54. Gęstość sieci Jacksona liczona z pętlami wynosi 0.0139, natomiast liczona bez pętli 0.0141. W przypadku sieci Madonny wartości te wynoszą odpowiednio 0.00936 i 0.00948. W przypadku sieci Jacksona aktorami z największą liczbą powiązań są: love (6 stopni - 5 “in”, 1, “out” ), reala (6 stopni - 2 “in”, 4 “out”), stop (5 stopni - 0 “in”, 5 “out”), bad (4 stopnie - 2 “in”, 2 “out”). W sieci stworzonej na podstawie bigramów występujących w piosenkach Madonny aktorami z największą liczbą powiązań są: love (9 stopini - 4 “in”, 5 “out”), dance (5 stopni - 2 “in”, 3 “out”).

4.1. Sieć dla bigramów Jacksona

**Rys. 61. Sieć powiązań utworzona na podstawie bigramów z tekstówpiosenek Jacksona**

Rys. 61. Sieć powiązań utworzona na podstawie bigramów z tekstówpiosenek Jacksona

4.2. Sieć dla bigramów Madonny

**Rys. 62. Sieć powiązań utworzona na podstawie bigramów z tekstów piosenek Madonny**

Rys. 62. Sieć powiązań utworzona na podstawie bigramów z tekstów piosenek Madonny

XI. Analiza współwystępowania

1. Współwystępowanie słowa “love” z innymi wybranymi słowami

Przeprowadzona do tej pory analiza koncentrowała koncentrowała się bądź na pojedynczych słowach piosenek, bądź na sekwencjach słów występujących po sobie - czyli bigramów lub trigramów. Kolejnym etapem analizy jest konkordancja. W analizie tekstu konkordancja odnosi się do wyodrębniania słów z danego tekstu lub tekstów. Zwykle konkordancje są wyświetlane w postaci słowa kluczowego w kontekście (KWIC), gdzie wyszukiwane hasło jest wyświetlane z pewnym poprzedzającym i następującym kontekstem. Tego typu podejście jest pomocne przy sprawdzaniu, w jaki sposób analizowany termin jest używany w danych, przy sprawdzaniu, jak często wyraz występuje w tekście lub zbiorze tekstów, przy wydobywaniu przykładów, a także stanowi podstawową procedurę i często pierwszy krok w bardziej wyrafinowanej analizie danych językowych. Ze względu na to, iż zarówno w piosenkach Jacksoona, jak i Madonny najczęściej występującym słowem jest love do analizy współwystępowania wybrano właśnie to słowo. Jako słowa występujące w kontekście przyjęto 3 wyrazy występujące bezpośrednio przed i po love - nie wliczając do tej grupy stopwords. Poniżej przedstawiono częstotliwość występowania wybranych słów w kontekście słowa love. Wyniki obliczeń współwystępowania w kontekście słowa love z innymi często występującymi słowami z piosenek (baby, girl, honey, real, goodbye, stop, forbidden, hurt, cry) została zaprezentowana w postaci wykresu sieciowego. U obojga artystów love najczęściej współwystępuje ze słowem baby: u Jacksona 28 razy a u Madonny aż 35 razy. Ponadto u Jacksona słowo love częściej niż u Madonny pojawia się w kontekście słów real i stop. Natomiast u Madonny, w przeciwieństwie do piosenek Jacksona love nie pojawia się ze w kontekście słowa sweet.

1.1. W piosenkach Jacksona

## [1] "Liczba słów <love> w kontekście słowa <baby>"
## [1] 28
## [1] "Liczba słów <love> w kontekście słowa <sweet>"
## [1] 12
## [1] "Liczba słów <love> w kontekście słowa <stop>"
## [1] 14
## [1] "Liczba słów <love> w kontekście słowa <real>"
## [1] 26
**Rys. 63. Sieć powiązań współwystępowania słowa love z innymi wybranymi słowami z tekstów piosenek Jacksona**

Rys. 63. Sieć powiązań współwystępowania słowa love z innymi wybranymi słowami z tekstów piosenek Jacksona

1.2. W piosenkach Madonny

## [1] "Liczba słów <love> w kontekście słowa <baby>"
## [1] 35
## [1] "Liczba słów <love> w kontekście słowa <sweet>"
## [1] 0
## [1] "Liczba słów <love> w kontekście słowa <stop>"
## [1] 7
## [1] "Liczba słów <love> w kontekście słowa <real>"
## [1] 15
**Rys. 64. Sieć powiązań współwystępowania słowa love z innymi wybranymi słowami z tekstów piosenek Madonny**

Rys. 64. Sieć powiązań współwystępowania słowa love z innymi wybranymi słowami z tekstów piosenek Madonny

2. Korelacja par słów - obliczenia Fi kwadrat

Tokenizacja według n-gramów to przydatny sposób na eksplorację par sąsiednich słów. Interesująca może być jednak analiza słów, które mają tendencję do współwystępowania w obrębie poszczególnych tekstów piosenek, nawet jeśli nie występują obok siebie. Jednym ze sposobów przeprowadzenia tego typu analizy jest określenie współczynnika korelacji między słowami, która wskazuje, jak często dane dwa słowa pojawiają się razem, w stosunku do tego, jak często pojawiają się osobno. W szczególności do tego celu może być wykorzystany współczynnik phi - wspólna miara korelacji binarnej. Celem obliczenia współczynnika phi jest wskazanie tego, o ile bardziej prawdopodobne jest, że zarówno słowa X, jak i Y pojawią się razem lub żadne z nich się nie pojawi, niż to, że jedno pojawia się bez drugiego. Przedstawia to poniższa tabela

Ma słowo Y Brak słowa Y Całkowity
Ma słowo X n11 n10 n1.
Brak słowa X n01 n00 n0.
Całkowity n.1 n.0 n

W odniesieniu do tej tabeli współczynnik phi może zostać obliczony jako: \[ \phi = \frac{n11 n00 - n10n01}{\sqrt{n1. n0.n.0n.1}} \] Tabela 22 i 23 przedstawia pary słów o największych współczynników korelacji dla piosenek Jacksona i Madonny. W piosenkach Jacksona najwyższy współczynnik korelacji (>0.5) maja zwroty: mighty language, dirty diana i dance floor. Natomiast u Madonny najwyższą korelacje (0.7) ma zwrot tao gostoso (ang. so good).

Zamieszczone poniżej tabeli wykresy przedstawiają wyniki analizy współwystępowania opartej o współczynniki korelacji dla czterech najczęściej występujących w tekstach wyrazów baby, girl, love, time. Slowa skorelowane z tymi czterema najczęściej występującymi w tekstach wyrazami są w większości inne u obu artystów.

Ostatnim etapem przeprowadzonej analizy współwystępowania była konstrukcja sieci, pozwalającej na wizualizację ogólnego wzorca korelacji. W przeciwieństwie do sieci skonstruowanej na podstawie bigramów, relacje tutaj są symetryczne, a nie kierunkowe (nie ma strzałek). Tworząc sieć powiązań między wyrazami uwzględniono jedynie te powiązania dla których współczynnik korelacji jest większy od 0,25. Średnia liczba stopni wierzchołka dla sieci Jacksona jest równa 1.43, natomiast w przypadku Madonny jest ona równa 1.42. Gęstość sieci Jacksona liczona z pętlami wynosi 0.0408, natomiast liczona bez pętli 0.042. W przypadku sieci Madonny wartości te wynoszą odpowiednio 0.0368 i 0.0378. W przypadku sieci Jacksona aktorami z największą liczbą powiązań są: dance (5 stopni), rhytm (3 stopnie), rock (3 stopnie). W sieci stworzonej dla piosenek Madonny aktorami z największą liczbą powiązań są: erotic (3 stopnie), bang (3 stopnie), music (3 stopnie), dance (3 stopnie), party (3 stopnie).

2.1. W piosenkach Jacksona

Tab. 22. Współczynniki korealacji dla słów z piosenek Jacksona
item1 item2 correlation
language mighty 0.7041909
mighty language 0.7041909
diana dirty 0.5713748
dirty diana 0.5713748
floor dance 0.5332528
dance floor 0.5332528
body move 0.5043151
move body 0.5043151
ease diana 0.4917012
diana ease 0.4917012
verse chorus 0.4544318
chorus verse 0.4544318
rhythm floor 0.4447832
floor rhythm 0.4447832
children people 0.4443334
people children 0.4443334
**Rys. 65. Słowa piosenek Jacksona najsilniej skorelowane z *baby, girl, love, time* **

Rys. 65. Słowa piosenek Jacksona najsilniej skorelowane z baby, girl, love, time

**Rys. 66. Sieć słów utworzona na podstawie współczynników korealacji słów w piosenkach Jacksoan**

Rys. 66. Sieć słów utworzona na podstawie współczynników korealacji słów w piosenkach Jacksoan

2.1. W piosenkach Madonny

Tab. 23. Współczynniki korealacji dla słów z piosenek Madonny
item1 item2 correlation
gostoso tao 0.7057912
tao gostoso 0.7057912
erotic wild 0.4399585
wild erotic 0.4399585
girl boy 0.3946201
boy girl 0.3946201
erotic pain 0.3756621
pain erotic 0.3756621
music dance 0.3756354
dance music 0.3756354
body music 0.3613720
music body 0.3613720
game play 0.3584118
play game 0.3584118
bang bitch 0.3401710
bitch bang 0.3401710
**Rys. 67. Słowa piosenek Madonny najsilniej skorelowane z *baby, girl, love, time* **

Rys. 67. Słowa piosenek Madonny najsilniej skorelowane z baby, girl, love, time

**Rys. 68. Sieć słów utworzona na podstawie współczynników korealacji słów w piosenkach Madonny**

Rys. 68. Sieć słów utworzona na podstawie współczynników korealacji słów w piosenkach Madonny

XII. Reguły asocjacji

Analiza bigramów i korelacja par mówią o tym, jak pary słów są ze sobą powiązane. Analiza może jednak również dotyczyć tego, jak więcej niż jedno słowo jest powiązane z innymi słowami. Można to zbadać za pomocą metody zwanej Analiza koszyków rynkowych MBA, w której można zidentyfikować reguły asocjacji. W tym celu należy przekonwertować dane tekstowe do formatu danych transakcyjnych. Przed konwersją danych usunięte zostały bardzo rzadkie terminy, w wyniku czego pozostało w sumie 376 słów w zbiorze Jacksona i 370 w zbiorze Madonny. Rzadkość obu macierzy wyniosła 94%. Podstawowe informacje o macierzy transakcji dla piosenek Jacksona to:

  • łączna liczba itemsów (unikalnych słów) wynosi 376 pozycji,
  • najczęściej wśród transakcji pojawiają się następujące itemsy (słowa): love (w 167 transakcjach), baby (111), time (110) i girl (97),
  • średnio w transakcjach (piosenkach) występują 22 itemsów (unikalnych wyrazów), zaś mediana wynosi 21.

W przypadku macierzy piosenek Madonny charakterystyka macierzy transakcji przedstawia się następująco:

  • łączna liczba itemsów jest równa 370,
  • najczęściej pojawiającymi się słowami są: love (w 166 transakcjach), time (w 101), feel (w 94) i heart (w 86),
  • średnio w jednej transakcji występuje 22 itemsów, zaś mediana jest równa 21.

W sposób graficzny występowanie itemsów w poszczególnych pierwszych 100 transakcjach zostało przedstawione na rys. 69 i rys. 70. Na poniższych wykresach w postaci kwadratu oznaczono, występowanie w danej transakcji(tekście piosenki) słowa (itemsu).

**Rys. 69. Występowanie itemsów (wyrazów) w 100 pierwszych transakcjach - tekstach piosenek Jacksona**

Rys. 69. Występowanie itemsów (wyrazów) w 100 pierwszych transakcjach - tekstach piosenek Jacksona

**Rys. 70. Występowanie itemsów (wyrazów) w 100 pierwszych transakcjach - tekstach piosenek Madonny**

Rys. 70. Występowanie itemsów (wyrazów) w 100 pierwszych transakcjach - tekstach piosenek Madonny

1. Reguły asocjacji w tekstach Jacksona

Poszukując reguł asocjacji w analizowanych danych transakcyjnych należy określić minimalne parametry, jakie muszą one spełniać. Do tych parametrów należą: wsparcie reguły (support), czyli odsetek transakcji zawierających analizowaną regułę w całym zbiorze oraz poziom ufności (confidence), czyli odsetek transakcji zawierających analizowaną regułę w zbiorze tych, które spełniają poprzednik danej reguły. Dla analizowanych danych przyjęto następujące minimalne poziomy:

  • poziom wsparcia (support) = 0,05,
  • poziom ufności (confidence) = 0,60,
  • długości = 2.

Dla tak określonych kryteriów w zbiorze danych transakcyjnych obejmujących teksty piosenek Jacksoan 529 reguł. Poniżej przedstawiono miary (s - support, c - confidence) dla wybranych reguł zawierajacych słowo love:

  • {feel, baby, time} => {love} s: 0.07755102 c: 0.8636364,
  • {girl, baby, heart} => {love} s: 0.10204082 c: 0.9259259,
  • {baby, time, world} => {love} s: 0.08163265 c: 0.9523810,
  • {girl, world} => {love} s: 0.12244898 c: 1.0000000,
  • {eye, time} => {love} s: 0.11020408 c: 0.9310345,
  • {kiss} => {love} s: 0.09387755 c: 1.0000000,
  • {cry} => {love} s: 0.17142857 c: 0.7241379.

Rozkład reguł ze względu na ich poziom wsparcia i ufności został przedstawiony na rys. 71. Rysunek 72 przedstawia w postaci grafu 15 reguł asocjacji wedlug najwyższego poziomu confidence. Centralnym punktem na wykresie, czyli wyrazem wspólnym dla większości z tych reguł jest love.Parametr lift (przyrost) określa, czy fakt wystąpienia jednego itemu (slowa) wpływa na zwiększenie prawdopodobieństwa wystąpienia drugiego w ramach jednej transakcji (tekstu piosenki).

Rys. 71. Wykres punktowy dla reguł asocjacji w piosenkach Jacksona- min. support = 0,05, min confidence = 0,6

Rys. 72. Graf dla reguł asocjacji w piosenkach Jacksona- według największego poziomu confidence

2. Reguły asocjacji w tekstach Madonny

Przyjmując te same wartości minimalne dla parametrów opisujących jakość reguł asocjacji, w przypadku danych transakcyjnych obejmujących teksty piosenek Madonny zaledwie 124 reguły. Poniżej przedstawiono miary dla wybranych reguł:

  • {gonna, time, feel} => {love} s: 0.05535055 c: 0.7894737,
  • {gonna, heart} => {love} s: 0.07011070 c: 0.9047619,
  • {heart, start} => {love} s: 0.05904059 c: 0.9411765,
  • {heart, baby} => {love} s: 0.08856089 c: 0.8571429,
  • {heart, feel} => {love} s: 0.10332103 c: 0.8750000,
  • {feel} => {love} s: 0.23616236 c: 0.6808511,
  • {heart} => {love} s: 0.23985240 c: 0.7558140.

Rozkład reguł ze względu na ich poziom wsparcia i ufności został przedstawiony na rys. 73, natomiast na rys. 74 w postaci grafu zilustrowano 15 reguł asocjacji według największego poziomu confidence. Centralnym punktem na wykresie, czyli wyrazem wspólnym dla większości z tych reguł jest love.

Rys. 73. Wykres punktowy dla reguł asocjacji w piosenkach Madonny- min. support = 0,05, min confidence = 0,6

Rys. 74. Graf dla reguł asocjacji w piosenkach Jacksona- według największego poziomu confidence

XIII. Grupowanie słów na podstawie częstotliwości ich występowania

We wcześniejszych etapach pracy celem analizy były dwa lub trzy następujące po sobie słowa (analiza za pomocą ngramów), skojarzenia dowolnych dwóch słów (analiza korelacji) oraz reguły asocjacji dla relacji między słowami. W tej części opracowania zostaną przedstawione wyniki analizy dotyczące tego w jaki sposób słowa łączą się w grupę. Podstawą tego typu analiz jest pomiar bliskość słów. Jednym ze sposobów mierzenia odległości jest określenie częstotliwości każdego słowa dla wszystkich tekstów piosenek. W efekcie uzyskiwana jest macierz danych ze słowami w kolumnach i częstotliwością w wierszach, będąca podstawą obliczeń odległości pary słów. Otrzymana w ten sposób macierz dla piosenek Jacksona ma wymiar 245 X 618 z czego jedynie 6029 rekordów ma wartość różną od 0, a 96% ma wartość 0. W przypadku piosenek Madonny utworzona macierz ma wymiar 271 x 796. Odsetek pozycji zawierającej 0 wynosi 97%. Jedynie 7309 elementów macierzy ma wartości nie-zerowe. Z tego też względu w dalszej analizie skupiono się jedynie na często używanych słowach. W szczególności usunięto słowa, które mają co najmniej rzadkość 0,8, co oznacza, że dla 80% tekstów piosenek słowa te nie zostały użyte. W efekcie w przypadku tekstów Jacksona analiza dotyczy 15 najczęściej występujących słów, zaś dla tekstów Madonny - 11. Rzadkość utworzonych w ten sposób macierzy wynosi 67% (dla Jacksona) i 69% (dla Madonny). Grupowanie słów zostało przeprowadzone za pomocą hierarchicznej analizy skupień wykorzystując do pomiaru odległości odległość euklidesową. Na kolejnych etapach łączenia odległość między skupieniami została obliczona na podstawie metody najdalszych sąsiadów. Wyniki analizy w postaci dendrogramów zostały przedstawione poniżej.

Inną metodą grupowania jest metoda k-średnich. Reprezentuje ona grupę algorytmów niehierarchicznych. Główną różnicą pomiędzy niehierarchicznymi i hierarchicznymi algorytmami jest konieczność wcześniejszego podania liczby skupień. Do określenia najlepszej liczby skupień można zastosować wiele metod. W niniejszej analizie wykorzystano metodę opartą o wariancję. Dla każdej podanej liczby skupień obliczono, ile wariancji danych można wyjaśnić grupowaniem. Procent wyjaśnienia zazwyczaj będzie się zwiększać wraz z liczbą klastrów. Jednak w pewnym momencie wzrost zwalnia - punkt ten wybierany jest jako optymalna liczba skupień. Z rys. 76 wynika, że właściwa liczba skupień w przypadku piosenek Jacksona wynosi 4, zaś dla utworów Madonny 2 (rys. 79). Wizualizacja w przestrzeni dwuwymiarowej wydzielonych skupień została przedstawiona na rys. 77 (dla Jacksona) i rys. 80 (dla Madonny).

Porównując wyniki grupowania słów piosenek obojga artystów, z zastosowanie obu metod, można stwierdzić ze słowo love w obu przypadkach tworzy osobna jednoelementowa grupę. Natomiast wyrazy należące do ostatniej najbardziej licznej grupy są bardzo podobne u Jacksona i Madonny np. w obu grupach występują: baby, heart, feel, time, world i day.

1. W piosenkach Jacksona

**Rys. 75. Dendrogram dla słów w piosenkach Jacksona**

Rys. 75. Dendrogram dla słów w piosenkach Jacksona

**Rys. 76. Procent wyjaśnionej wariancji w zależności od liczby skupień - piosenki Jacksoana**

Rys. 76. Procent wyjaśnionej wariancji w zależności od liczby skupień - piosenki Jacksoana

**Rys. 77. Grupowanie słów występujacych w piosenkach Jacksona - metoda k-średnich**

Rys. 77. Grupowanie słów występujacych w piosenkach Jacksona - metoda k-średnich

2. W piosenkach Madonny

**Rys. 78. Dendrogram dla słów w piosenkach Madonny**

Rys. 78. Dendrogram dla słów w piosenkach Madonny

**Rys. 79. Procent wyjaśnionej wariancji w zależności od liczby skupień - piosenki Madonny**

Rys. 79. Procent wyjaśnionej wariancji w zależności od liczby skupień - piosenki Madonny

**Rys. 80. Grupowanie słów występujacych w piosenkach Madonny - metoda k-średnich**

Rys. 80. Grupowanie słów występujacych w piosenkach Madonny - metoda k-średnich

XIV. Analiza tematów

W tej części projektu zostaną przedstawione wyniki analizy tematów. Została ona przeprowadzona z wykorzystaniem dwóch metod: utajonej alokacji Dirichleta (LDA)oraz modelowania tematycznego strukturalnego (STM)

1. Ukryta alokacja Dirichleta (LDA)

Utajona alokacja Dirichleta (LDA) jest szczególnie popularną metodą dopasowywania modelu tematycznego. Traktuje każdy dokument jako mieszankę tematów, a każdy temat jako mieszankę słów. Dzięki temu dokumenty „nakładają się” na siebie pod względem treści, a nie są dzielone na odrębne grupy w sposób, który odzwierciedla typowe użycie języka naturalnego. LDA kieruje się on dwiema podstawowymi zasadami:

  • każdy dokument to mieszanka tematów występujących w określonych proporcjach. Na przykład w modelu dwutematycznym można powiedzieć: „Dokument 1 to w 90% temat A i 10% temat B, podczas gdy Dokument 2 to w 30% temat A i 70% temat B”,
  • każdy temat to mieszanka słów.

Modelowanie tematów polega więc na wyszukiwaniu podobnych tematów w różnych dokumentach i grupowaniu razem różnych słów, tak aby każdy temat składał się ze słów o podobnym znaczeniu. W matematycznym ujęciu LDA jest modelem probabilistycznym, który przypisuje słowu wynik probabilistyczny najbardziej prawdopodobnego tematu, do którego potencjalnie może on należeć.

Podstawą analizy jest DTM (document term matrix), czyli macierz zawierająca terminy i dokumenty jako wymiary. W dalszej kolejności należny wskazać liczbę tematów jakie mają być wyszczególnione w ramach analizowanej biblioteki. Do oceny najlepszej liczby tematów na jakie można podzielić teksty piosenek Jacksona i Madonny wykorzystano wskaźniki koherencji. Wskazuje on, czy słowa z tego samego tematu mają sens, gdy są ze sobą połączone. Tym samym daje możliwość oceny jakości tworzonych tematów. Wyższy wynik dla określonej liczby k, oznacza to, że dla każdego tematu będzie więcej powiązanych słów razem i temat będzie miał większy sens. Istnieje kilka różnych typów wyniku koherencji, z których dwa najpopularniejsze to c_v i u_mass. C_v jest dokładniejszy, podczas gdy u_mass jest szybszy. W tej części analizy jako wskaźnik oceny koherencji wybrano c_v, który waha się od 0 do 1, gdzie 1 to doskonale spójne tematy. Wyniki obliczeń wskaźników koherencji dla k od 1 do 30 zostały przedstawione w postaci graficznej na rys. 81 i rys. 83. Na tej podstawie zarówno dla zbioru tekstów Jacksona, jak i Madonny jako najlepszą liczbę tematów wybrano 29. Zgodnie z założeniami LDA, każdy temat składa się z wielu słów. Prawdopodobieństwo występowania konkretnego słowa w danym temacie określane jest jako \(\beta\) Na rys. 82 i rys. 84 przedstawiono najbardziej prawdopodobne słowa występujące w danych tematach wyodrębnionych z tekstów piosenek Jacksona i Madonny. Analiza tych słów wskazuje na to, że niektóre z związane są z kilkoma tematami, innym może być jednak kontekst ich użycia. Oprócz szacowania każdego tematu jako mieszanki słów, LDA modeluje również każdy dokument jako mieszankę tematów. Możliwe jest przy tym określenie prawdopodobieństwa przypisana każdego dokumentu do określonego tematu, zwane jako \(\gamma\). Piosenki o najwyższych wartościach prawdopodobieństwa \(\gamma\) zostały zamieszczone w tab. 24 i tab. 25.

1.1. Piosenki Jacksona

**Rys. 81. Wskaźnik koherencji w zależności od liczby tematów - piosenki Jacksona**

Rys. 81. Wskaźnik koherencji w zależności od liczby tematów - piosenki Jacksona

**Rys. 82. Najbardziej prawdopodobne słowa zwiażane z poszczególnymi tematami piosenek Jaksona**

Rys. 82. Najbardziej prawdopodobne słowa zwiażane z poszczególnymi tematami piosenek Jaksona

Tab. 24. Pioseki Jacksona o największym prawdopodobieństwie przypisania do tematu
document topic gamma
smile 20 0.9973512
la-la means i love you 10 0.9967121
whatzupwitu 4 0.9966053
that’s how love is 25 0.9965681
love is here & now you’re gone 21 0.9962611
you rock my world 12 0.9961929
this is it 26 0.9959728
heartbreak hotel 1 0.9956963
love’s gone bad 1 0.9956058
different kind of lady 17 0.9955433
push me away 4 0.9953790
you were there 14 0.9953790
you can cry on my shoulder 9 0.9953099
wait 6 0.9951652
didn’t mean to hurt you 11 0.9951652

1.2. Piosenki Madonny

**Rys. 83. Wskaźnik koherencji w zależności od liczby tematów - piosenki Madonny**

Rys. 83. Wskaźnik koherencji w zależności od liczby tematów - piosenki Madonny

**Rys. 84. Najbardziej prawdopodobne słowa zwiażane z poszczególnymi tematami piosenek Madonny**

Rys. 84. Najbardziej prawdopodobne słowa zwiażane z poszczególnymi tematami piosenek Madonny

Tab. 25. Pioseki Madonny o największym prawdopodobieństwie przypisania do tematu
document topic gamma
4 minutes (feat, justin timberlake & timbaland) 21 0.9961520
american life 25 0.9956911
beat goes on (feat, kanye west) 23 0.9966840
candy shop 13 0.9973299
come alive 9 0.9960462
crazy 22 0.9964813
faz gostoso (feat, anitta) 14 0.9972795
future 3 0.9954885
girl gone wild (offer nissim remix) 28 0.9956586
god control 26 0.9969314
holy water 28 0.9960732
human nature 9 0.9955921
it’s so cool 12 0.9965238
living for love 24 0.9957857
medellin feat, maluma 3 0.9959631
possesive love 10 0.9966647
the lady’s got potential 27 0.9962764
true blue 24 0.9959912
what the woman feels 1 0.9955921
wild dancing 28 0.9960462

2. Modelowanie tematyczne strukturalne

Strukturalny model tematyczny (STM) to forma modelowania tematów pozwalająca włączyć metadane do modelu i odkryć, w jaki sposób różne dokumenty mogą mówić o tym samym podstawowym temacie przy użyciu różnych słów. Zgodnie z założeniami LDA:

  • tematy w dokumencie są od siebie niezależne - oznacza to, że wiedza, iż dokument 1 ma temat 1, nie daje żadnej informacji, czy dokument 1 ma także tematy 2, 3 itd,
  • rozkład słów w ramach tematu (tj. treści tematu) jest stacjonarny, co oznacza, że temat 1 dla dokumentu 1 używa identycznych słów jak temat 1 dla dokumentu 2, 3 itd,
  • tematy można modelować w całości na podstawie tekstu dokumentu, nie bierze się pod uwagę żadnych innych informacji (autor, data, źródło).

Powyższe ograniczenia nie dotyczą STM, które pozwala między innymi na korelacje między tematami. Podobnie jednak jak w przypadku LDA podstawą obliczeń jest wstępne określenie liczby tematów w zbiorze tekstów. Nie istnieje jedna metoda wskazująca, jaka jest optymalna ich liczba. Można wziąć pod uwagę dwa kryteria, aby zdecydować o liczbie tematów K, które powinny zostać wygenerowane:

  • dopasowanie statystyczne,
  • interpretowalność tematów.

Należy zauważyć, że statystyczne dopasowanie i interpretacja tematów nie zawsze idą w parze. Opierając się na tych kryteriach, można dojść do różnych rozwiązań dotyczących tego, ile tematów wydaje się „dobrym” wyborem. Na przykład badania pokazują, że modele z dobrym dopasowaniem statystycznym są często trudne do interpretacji dla ludzi i niekoniecznie zawierają istotne tematy.

Wybór optymalnej liczby tematów w tekstach piosenek oparto na trzech kryteriach: spójności semantycznej, wyłączności tematów i resztach:

  • spójność semantyczna: informuje o tym, jak spójne są tematy, tj. jak często cechy opisujące temat współwystępują i w związku z tym tematy wydają się być wewnętrznie spójne,
  • Wyłączność: informuje o tym, jak ekskluzywne są tematy, tj. jak bardzo różnią się od siebie, a zatem tematy wydają się opisywać różne rzeczy,
  • reszty to różnice między obserwowanymi a przewidywanymi wartościami danych. Reszta 0 oznacza, że temat idealnie przybliża treść artykułu, więc im niższa reszt, tym lepiej.

Wynik obliczeń, (przyjmując za k wartości ze zbioru {4,6,8,10,15,20,25,30}) dotyczących wyboru najlepszej liczby tematów zostały przedstawione na rys. 85 (dla Jacksoan) i rys. 87 (dla Madonny). Analizując wykresy można stwierdzić, że spójność tematów maleje, wraz ze wzrostem liczby tematów. Z kolei wyłączność tematów wzrasta wraz ze wzrostem liczby tematów. Najniższy poziom reszt występuje natomiast dla k = 10 lub 15. Biorąc pod uwagę powyższe obliczenia jako liczbę tematów w modelu STM dla tekstów Jackosona przyjęto k = 15, zaś dla Madonny k = 20. Na rys. 86 i rys. 89 przedstawiono natomiast najbardziej prawdopodobne słowa występujące w poszczególnych tematach. Podobnie jak w przypadku analizy LDA zaobserwować można występowanie tych samych wyrazów w różnych tematach. Rozkład prawdopodobieństw dokumentów dla każdego tematu wskazuje jednak, że dla prawie każdego tematu można wskazać teksty o dużym prawdopodobieństwie przynależności. Oznacza to, że przy zastosowanym podziale uniknięto wyodrębnienia tematów, które byłyby jedynie tłem dla innych głównych tematów.

2.1. Piosenki Jacksona

**Rys. 85. Wskaźniki oceny podziału tekstów Jacksona na liczbę tematów**

Rys. 85. Wskaźniki oceny podziału tekstów Jacksona na liczbę tematów

**Rys. 86. Lista najbardziej prawdopodobnych słów dla poszczególnych tematów piosenek Jacksona**

Rys. 86. Lista najbardziej prawdopodobnych słów dla poszczególnych tematów piosenek Jacksona

2.2. Piosenki Madonna

**Rys. 87. Wskaźniki oceny podziału tekstów Madonny na liczbę tematów**

Rys. 87. Wskaźniki oceny podziału tekstów Madonny na liczbę tematów

**Rys. 88. Lista najbardziej prawdopodobnych słów dla poszczególnych tematów piosenek Madonny**

Rys. 88. Lista najbardziej prawdopodobnych słów dla poszczególnych tematów piosenek Madonny

XV. Analiza sentymentu

1. Ogólna ocena sentymentu

Jednym ze sposobów analizy sentymentu tekstu jest potraktowanie tekstu jako kombinacji jego poszczególnych słów, a wymiar sentymentalny całego tekstu jako sumy treści tonacji poszczególnych jego słów. Istnieje wiele metod i słowników służących do oceny opinii lub emocji w tekście. W niniejszej analizie wykorzystano trzy z nich:

Wszystkie trzy z tych leksykonów oparte są na unigramach. TZawierają one wiele angielskich wyrazów, którym przypisuje się punkty za pozytywne/negatywne uczucia, a także prawdopodobnie emocje, takie jak radość, złość, smutek i tak dalej. Leksykon NRC dzieli słowa na klasy pozytywne, negatywne, złość, oczekiwanie, wstręt, strach, radość, smutek, zaskoczenie i zaufanie. Leksykon bing kategoryzuje słowa w sposób binarny na kategorie pozytywne i negatywne. Leksykon AFINN przypisuje słowa z wynikiem od -5 do 5, przy czym wyniki ujemne wskazują na sentyment negatywny, a wyniki pozytywne wskazują na sentyment pozytywny. Podejście oparte na założeniu, iż ogólna ocena sentymentu całego tekstu wynika z sumy wartości sentymentu przypisywanej do poszczególnych jego wyrazów może budzić zastrzeżenia, wynikające z faktu, że rozmiar fragmentu tekstu, który używany jest do dodawania wyników sentymentu unigramu, może mieć wpływ na wyniki analizy. Tekst o rozmiarze wielu akapitów może często mieć pozytywne i negatywne nastroje uśrednione do około zera, podczas gdy tekst o rozmiarze zdania lub akapitu wskazać może różnorodność nastrojów w danym tekście. W niniejszym opracowaniu jako podstawową jednostkę do analizy sentymentu przyjęto cały tekst poszczególnych piosenek. W tab. 26 i tab. 27 przedstawiono - obliczone na podstawie słownika AFINN (uwzględnia wyrazy pozytywne i negatywne,którym przypisywane są wartości od -5 do 5) - najbardziej pozytywne i negatywne piosenki Jacksona, natomiast w tab. 28 i tab. 29 Madonny. Najbardziej negatywną piosenką Jacksona jest piosenka Bad. Wysoka negatywna ocena tego utworu wynika przede wszystkim z wielokrotnie powtarzanego (16 razy) w refrenie słowa Bad, którego wartość negatywna według słownika AFINN wynosi -3. Z podobnego powodu wynika wysoka pozytywna wartość utworu Madonny, It’s so cool w którym w każdym refrenie powtarzany jest cztery razy zwrot: We need love (love, love, love, love, love). Zarówno w przypadku utworów Jackosona (rys. 89), jaki i Madonny (rys. 92) najwięcej piosenek ma wartość sentymentu bliską 0.

1.1. Piosenki Jacksona

Tab. 26. Najbardziej pozytywne piosenki Jacksona według słownika AFIN
title popularity sentiment
stranger in moscow 59 193
beautiful girl 11 114
honey love 15 114
slave 2 the rythm (feat. justin bieber) 54 114
ease on down the road 47 98
wait 28 98
who is looking for a lover 27 97
heaven knows i love you girl 19 79
jump for joy 22 77
fly away 41 71
Tab. 27. Najbardziej negatywne piosenki Jacksona według słownika AFIN
title popularity sentiment
bad 29 -266
2 bad 47 -197
maria (you were the only one) 39 -63
it is scary 32 -59
whatzupwitu 33 -50
dirty diana 65 -41
privacy 41 -41
the young folks 15 -41
leave me alone 60 -32
don’t stop ’til you get enough 77 -25
maybe tomorrow 33 -25
that’s how love is 13 -25
**Rys. 89. Ocena sentymentu piosenek Jacksona według słownika *AFINN* **

Rys. 89. Ocena sentymentu piosenek Jacksona według słownika AFINN

Porównanie analizy sentymentu przeprowadzonej na podstawie różnych bibliotek

Ocena sentymentu zależy nie tylko od sposobu podziału tekstu na fragmenty, które podlegają oceny, ale także od wybranego słownika, na podstawie którego dokonywana jest ocena. Wymienione w p. 1 słowniki różnią się nie tylko sposobem oceny sentymentu, ale przede wszystkim liczbą słów, które zostały w nich uwzględnione. Przykładowo w słowniku AFINN uwzględniono prawie 2.500 słów, podczas gdy w słownik bing wymienia ich ponad 6.700. Z tego też względu w pracy dokonano porównania oceny sentymentu sporządzonej na podstawie wszystkich trzech wykorzystywanych słowników. Wyniki w postaci graficznej przedstawiono na rys. 90 i 91 (dla piosenek Jacksona) oraz rys. 93 i 94 (dla utworów Madonny). W zależności od porównywanych ze sobą bibliotek współczynnik korelacji rang Spearmana wyniósł od 0,69 do 0,76 (dla piosenek Jacksona) oraz od 0,67 do 0,70 (dla piosenek Madonny). Trzy różne leksykony do obliczania sentymentu dają wyniki, które są różne w sensie bezwzględnym, ale mają podobne rozkłady. Podobne spadki i szczyty nastrojów obserwujemy w mniej więcej tych samych miejscach, ale wartości bezwzględne znacznie się różnią. Leksykon AFINN podaje największe wartości bezwzględne, z wysokimi wartościami dodatnimi. Leksykon Bing et al. ma niższe wartości bezwzględne i wydaje się oznaczać większe bloki ciągłego tekstu pozytywnego lub negatywnego.

**Rys. 90. Porównanie oceny sentymentu piosenek Jacksona według  3 słowników**

Rys. 90. Porównanie oceny sentymentu piosenek Jacksona według 3 słowników

**Rys. 91. Współczynniki korealcji rang Spearman'a dla oceny piosenek Jacksona według 3 bibliotek**

Rys. 91. Współczynniki korealcji rang Spearman’a dla oceny piosenek Jacksona według 3 bibliotek

1.2. Piosenki Madonny

Tab. 28. Najbardziej pozytywne piosenki Madonny według słownika AFIN
title popularity sentiment
it’s so cool 11 371
true blue 63 158
come alive 43 124
holiday 63 117
forbidden love (bedtime stories) 49 105
dress you up 53 100
to love you 2 90
heaven 44 88
justify my love 51 86
stay 35 82

Tab. 29. Najbardziej negatywne piosenki Madonny według słownika AFIN
title popularity sentiment
gang bang 32 -160
bitch i’m madonna (feat. nicki minaj) 30 -142
human nature 47 -72
thief of hearts 35 -66
crazy 64 -65
give it 2 me 45 -62
unapologetic bitch 42 -52
best friend 20 -48
get stupid 8 -42
trust no bitch 3 -40
**Rys. 92. Ocena sentymentu piosenek Madonny według słownika *AFINN* **

Rys. 92. Ocena sentymentu piosenek Madonny według słownika AFINN

Porównanie analizy sentymentu przeprowadzonej na podstawie różnych bibliotek

**Rys. 93. Porównanie oceny sentymentu piosenek Madonny według  3 słowników**

Rys. 93. Porównanie oceny sentymentu piosenek Madonny według 3 słowników

**Rys. 94. Współczynniki korealcji rang Spearman'a dla oceny piosenek Madonny według 3 bibliotek**

Rys. 94. Współczynniki korealcji rang Spearman’a dla oceny piosenek Madonny według 3 bibliotek

2. Ocena sentymentu poszczególnych albumóW

Analiza sentymentu poszczególnych piosenek Jackosona i Madonny umożliwia dokonania oceny sentymentu poszczególnych albumów. Wartość te stanowi sumę ocen uzyskanych przez utwory wydane na danym albumie. Wyniki obliczeń przedstawiono na rys. 95 i rys. 96. Przedstawione wyniki wskazują na to, że w przypadku albumów Jacksona wszystkie z nich mają wyraźny wydźwięk pozytywny. Natomiast albumy Madonny odznaczają się większym zróżnicowaniem oceny sentymentu. Wśród 9 analizowanych albumów ocena jednego (MDNA) jest ujemna, a dwa pozostała mają wartość sentymentu bliską 0. Ponadto zauważyć można iż albumy Madonny mają niższe wartości sentymentu w porównaniu z albumami Jacksona.

2.1. Albumy Jacksona

**Rys. 95. Ocena sentymentu dla albumów Jacksona**

Rys. 95. Ocena sentymentu dla albumów Jacksona

2.2. Albumy Madonny

**Rys. 96. Ocena sentymentu dla albumów Madonny**

Rys. 96. Ocena sentymentu dla albumów Madonny

3. Analiza emocji

Leksykony AFINN i Bing są dość ograniczone jeśli chodzi o bardziej szczegółową ocenę nastroju tekstu. Dostarczają bowie one jedynie binarnego sentymentu - poszczególne wyrazy klasyfikowane są albo jako pozytywne, albo jako negatywne. Z kolei leksykon nrc pozwala na podzielenie słów na osiem dodatkowych kategorii emocjonalnych: radość, oczekiwanie, zaufanie, zaskoczenie, smutek, złość, wstręt i strach. W tej części użyto wizualizacji w postaci wykresu radarowego, aby zobaczyć, jak teksty Jacksona i Madonny zebrane według albumów układają się nawzajem pod względem tych ośmiu emocji. Skala przedstawia procent słów w korpusie połączonych z nrc, które należą do określonej kategorii emocjonalnej. Słowa mogą należeć do więcej niż jednej kategorii, ale ponieważ jest to uwzględnione w zbiorze danych, suma wartości procentowych jednego albumu wynosi 100. Te profile nastrojów wyraźnie pokazują, że w przypadku wszystkich albumów Jacksona dominującym nastrojem jest radość. Potwierdza to tym samym wniosek ze wcześniejszej analizy, wskazujący, iż wszystkie analizowane albumy tego wykonawcy mają wydźwięk pozytywny. Pod względem oceny emocjonalnej bardziej zróżnicowane są natomiast albumy Madonny, wśród których Hard candy i Evita ma wysoki odsetek słów związanych z oczekiwaniem, natomiast MDNA ze gniewem, smutkiem i strachem.

3.1. Albumy Jacksona

Rys. 97. Wykres radarowy oceny emocji albumów Jacksoana według biblioteki nrc

3.2. Albumy Madonny

Rys. 98. Wykres radarowy oceny emocji albumów Madonny według biblioteki nrc

4. Najczęstsze słowa pozytywne i negatywne

W tej części projektu w postaci wykresu oraz chmury słów przedstawione zostały najczęstsze pozytywne i negatywne słowa występujące w piosenkach Jacksoana i Madonny. Do analizy wykorzystano słownik bing. Następnie - na podstawie występujących w tekstach piosenek wyrazów pozytywnych i negatywnych określono ich udział w stosunku do całości wyrazów z danego tekstu (po wyeliminowaniu stopwords). Otrzymano w ten sposób wskaźnik udziałów słów pozytywnych/negatywnych w piosence.

Zarówno w piosenkach Jacksona jak i Madonny zdecydowanie najczęstsze pozytywne słowo to love. Do najczęstszych słów zakwalifikowanych jako negatywne u Jacksona należą bad, cry, shake i lose, a u Madonny fall, hard, cry i wild. W tej klasyfikacji widać słabość metody określania sentymentu wypowiedzi na podstawie pojedynczych słów, gdyż w zależności od kontekstu słowa te mogą być też nacechowane pozytywnie. Z dalszej analizy wynika, ze album Jacksona o największym udziale słów negatywnych to 2Bad, a stosunkowo najwięcej słów pozytywnych występuje w albumie Beautiful girl. U Madonny jako najbardziej negatywnie nacechowane analiza wskazała albumy Pretender i Burning up. Najwięcej słów pozytywnych zawiera natomiast album It’s so cool.

4.1. Piosenki Jacksona

**Rys. 99. Najczęstrze pozytywne i negatywne słowa występujace w piosenkach Jacksona**

Rys. 99. Najczęstrze pozytywne i negatywne słowa występujace w piosenkach Jacksona

**Rys. 100. Chmura słów pozytywnych i nagatywnych w piosenkach Jacksona**

Rys. 100. Chmura słów pozytywnych i nagatywnych w piosenkach Jacksona

Tab. 30. Albumy Jacksona o największym udziale słów negatywnych
title negativewords words ratio
2 bad 73 112 0.6517857
breaking news 32 60 0.5333333
rock with you 32 60 0.5333333
bad 90 190 0.4736842
privacy 54 120 0.4500000
i am a loser 35 84 0.4166667
you are not alone 35 84 0.4166667
maybe tomorrow 17 42 0.4047619
al capone 20 55 0.3636364
jam 29 82 0.3536585
Tab. 31. Albumy Jacksona o największym udziale słów pozytywnych
title positivewords words ratio
beautiful girl 38 47 0.8085106
love is here & now you're gone 28 57 0.4912281
trouble 28 57 0.4912281
heaven knows i love you girl 29 60 0.4833333
greatest show on earth 15 32 0.4687500
i can only give you love 25 54 0.4629630
much too soon 25 54 0.4629630
who is looking for a lover 38 87 0.4367816
happy 23 54 0.4259259
speed demon 23 54 0.4259259

4.2. Piosenki Madonny

**Rys. 101. Najczęstrze pozytywne i negatywne słowa występujace w piosenkach Madonny**

Rys. 101. Najczęstrze pozytywne i negatywne słowa występujace w piosenkach Madonny

**Rys. 102. Chmura słów pozytywnych i nagatywnych w piosenkach Madonny**

Rys. 102. Chmura słów pozytywnych i nagatywnych w piosenkach Madonny

Tab. 32. Albumy Madonny o największym udziale słów negatywnych
title negativewords words ratio
pretender 50 91 0.5494505
burning up 44 91 0.4835165
oh father 11 26 0.4230769
guilty by assocation 6 15 0.4000000
beautiful scars 17 44 0.3863636
i’m so stupid 16 42 0.3809524
bitch i’m madonna (feat. nicki minaj) 47 126 0.3730159
best friend 33 89 0.3707865
fever 44 119 0.3697479
love tried to welcome me 26 72 0.3611111
Tab. 33. Albumy Madonny o największym udziale słów pozytywnych
title positivewords words ratio
it’s so cool 125 165 0.7575758
survival 29 51 0.5686275
to love you 29 52 0.5576923
i feel love 19 36 0.5277778
angel 25 52 0.4807692
beautiful scars 20 44 0.4545455
future lovers 32 72 0.4444444
amazing 15 34 0.4411765
heaven 43 99 0.4343434
nobody’s perfect 18 42 0.4285714

XVI. Analiza sentymentu - bigramy

Podstawą dotychczas przeprowadzonej analizy sentymentu był pojedyncze wyrazy występuje w tekście. Podejście takie nie uwzględnia kontekstu pojawiających się w wypowiedzi słów, wynikającego choćby z faktu zaprzeczenia jakiemuś twierdzeniu, które samo w sobie jest pozytywne. Z tego też powodu niektóre algorytmy analizy sentymentu wykraczają poza unigramy (tj. pojedyncze słowa), aby spróbować zrozumieć sentyment zdania jako całości. Jednym z najprostszych rozwiązań jest rozwiązanie uwzględniające zmianę ogólnej oceny wyrazu w wyniku jego zaprzeczenia. W tekstach często pojawiają się słowa zaprzeczenia, które mogą nadać pojedynczemu słowu przeciwne znaczenie. Na przykład „dobry” jest ogólnie pozytywnym słowem, ale „nie-dobry” jest negatywny. Z tego też względu należy zmienić kierunek sentymentu dla tych wyrazów, które poprzedzone są słowami negatywnymi. Poniżej przedstawiono listę słów zidentyfikowanych jako zaprzeczenia: “no”, “not”, “never”, “dont”, “don’t”, “cannot”, “can’t”, “won’t”, “wouldn’t”, “shouldn’t”, “aren’t”, “isn’t”, “wasn’t”, “weren’t”, “haven’t”, “hasn’t”, “hadn’t”, “doesn’t”, “didn’t”, “mightn’t”, “mustn’t”. Wykonując analizę sentymentu na bigramach, można sprawdzić, jak często słowa związane z sentymentem są poprzedzone słowem „nie” lub innymi słowami przeczącymi. W tab. 34 i tab. 35 przedstawiono bigramy, które w największym stopniu przyczyniają się do zmiany oceny tekstu. Wkład poszczególnego bigramu w zmianę oceny sentymentu wynika z częstości jego występowania oraz wartości pozytywnej, bądź negatywnej, jaka jest przypisana wyrazowi głównemu w słowniku AFINN. Przykładowo dla tekstów Jacksona największy wkład w korektę wartości sentymentu ma bigram don’t stop, występujący łącznie 134 razy. Ze względu na to, że wyraz stop ma przypisaną w słowniku AFINN wartość -1, korekta dla tego bigramu wyniosła łącznie +134, co oznacza, że o tyle zwiększona została ogółem ocena sentymentu wszystkich piosenek Jacksona. Na rys. 103 i rys. 105 przedstawiono zanegowane słowa, które miały największy wpływ na zmianę wartości sentymentu, zarówno w kierunku pozytywnym, jak i negatywnym. W przypadku tekstów Jacksona w największym stopniu do obniżenia ogólnej oceny sentymentu przyczyniło się zanegowanie wyrazu help, zaś do zwiększenia oceny sentymentu - negacja stop. W przypadku Madonny zwiększenie oceny sentymentu poprzez uwzględnienie bigramów w największym stopniu wynikało także z negacji stop. Natomiast do obniżenie oceny sentymentu w największym stopniu wynikało z negacji want. Na rys. 104 i rys. 106 przedstawiono porównanie oceny sentymentu przeprowadzonej na podstawie pojedynczych wyrazów (oś X) i bigramów (oś Y). Zaobserwować możne, że jedynie w pojedynczych przypadkach dokonana korekta - wynikająca z zaprzeczeń - spowodowała zmianę oceny tekstu piosenki. Położenie większości punktów zbliżone jest do linii czerwonej, poprowadzonej pod kątem 45 oznaczającej brak zmiany oceny.

1. Zaprzeczenia w bigramach

1.1. Piosenki Jacksona

Tab. 34. Bigramy z tekstów Jacksona, których wkład w korektę oceny sentymentu jest największy
word1 word2 value n contribution
don’t stop -1 134 134
can’t help 2 20 -40
can’t win 4 10 -40
no no -1 33 33
wouldn’t help 2 16 -32
no damn -4 7 28
don’t want 1 23 -23
don’t care 2 11 -22
can’t fake -3 6 18
no good 3 6 -18
**Rys. 103. Słowa poprzedzone negacją, które miały największy wpływ na zmianę wartości sentymentu - piosenki Jacksona**

Rys. 103. Słowa poprzedzone negacją, które miały największy wpływ na zmianę wartości sentymentu - piosenki Jacksona

Rys. 104. Porównanie oceny sentymentu dla pojedyńczych wyrazów (oś X) i bigramów z zaprzeczeniem (oś Y)- piosenki Jacksona

1.2. Piosenki Madonny

Tab. 35. Bigramy z tekstów Madonny, których wkład w korektę oceny sentymentu jest największy
word1 word2 value n contribution
don’t want 1 55 -55
not happy 3 15 -45
no bitch -5 9 45
not like 2 20 -40
don’t care 2 19 -38
not sorry -1 36 36
not afraid -2 16 32
don’t stop -1 28 28
no regret -2 14 28
wasn’t lost -3 9 27
**Rys. 105. Słowa poprzedzone negacją, które miały największy wpływ na zmianę wartości sentymentu - piosenki Madonny**

Rys. 105. Słowa poprzedzone negacją, które miały największy wpływ na zmianę wartości sentymentu - piosenki Madonny

Rys. 106. Porównanie oceny sentymentu dla pojedyńczych wyrazów (oś X) i bigramów z zaprzeczeniem(oś Y)- piosenki Madonny

2. Powtarzanie tych samych słów w bigramach

Przeprowadzona wcześniej ocena sentymentu bazująca na występowaniu pojedynczych słów będących nośnikiem emocji pozytywnych, bądź negatywnych wskazała, że wielokrotne powtarzanie tego samego wyrazu w tekście może znacznie przyczynić się do jego oceny sentymentalnej. Dotyczy to przede wszystkim tych tekstów, w których słowa pozytywne/negatywne występują w refrenach i są powtarzane dla utrzymania melodii. Z tego też względu w tej części pracy dokonano korekty oceny sentymentu polegającej na nieuwzględnianiu w ocenie tych słów, które stanowią powtórzenie wcześniej występującego słowa. Wyniki w postaci wykresów zostały przedstawione na rys. 107 i rys. 108. Widać wyraźnie, że zarówno w przypadku najbardziej negatywnego utworu Jacksona, jak i najbardziej pozytywnego tekstu Madonny ich wartości sentymentu znacznie zmieniły się po zastosowaniu opisanej poprawki.

2.1. Piosenki Jacksona

Rys. 107. Porównanie oceny sentymentu dla pojedyńczych wyrazów (oś X) i bigramów z powtórzeniem wyrazu (oś Y)- piosenki Jacksona

2.2. Piosenki Madonny

Rys. 108. Porównanie oceny sentymentu dla pojedyńczych wyrazów (oś X) i bigramów z powtórzeniem wyrazu (oś Y)- piosenki Madonny

XVII. Analiza sentymentu na podstawie Natural Language Understanding IBM

Dotychczas przeprowadzona analiza sentymentu ograniczona była do oceny tekstu jedynie na podstawie występowania określonych wyrazów (ewentualnie par wyrazów), którym przypisano wartości pozytywne i negatywne. Ocena końcowa była jedynie prostą sumą wartości przypisywanych wyrazom - bez uwzględnienia kontekstu zdania. Przedstawione w poprzedniej części wyniki wskazują, iż uwzględnienie w ocenie zaprzeczeń nie zmienia w sposób znaczący oceny całego tekstu. Z tego też względu do oceny sentymentu analizowanych piosenek wykorzystano chmurę obliczeniową IBM Watson Natural Language Understanding. Jest to rozwiązanie do przetwarzania języka naturalnego, które udostępnia takie funkcje, jak dostosowane spostrzeżenia, ekstrakcja metadanych, analiza tekstu, kategoryzacja danych, identyfikacja koncepcji wysokiego poziomu i analiza sentymentu. NLU wykorzystuje głębokie uczenie do wydobywania różnego typu informacji z tekstu, w tym m.in analizy sentymentu oraz nasycenia emocjonalnego. Wynikiem końcowym analizy sentymentu jest sentiment score - wyskalowany wskaźnik sentymentu przyjmujący wartości od -1 (dla tekstów negatywnych) do +1 (dla tekstów pozytywnych). Dodatkowo w wyniku przeprowadzanych analiz określany jest procent wskazujący jaka część tekstu ma wydzwięk emocjonalny: związany ze smutkiem, radością, strachem, wstrętem bądź złością. Na poniższym wykresie przedstawiono krzywe gęstości dla oceny sentymentu NLU tekstów piosenek Jacksoana i Madonny. Wynika z nich, podobnie jak w przypadku wcześniejszych analiz, iż piosenki Jacksoana są bardziej pozytywne. Najwięcej z nich według oceny sentymentu NLU uzyskała wynik 0,4, podczas gdy w przypadku piosenek Madonny najwięcej z nich otrzymało ocenę -0,4.

**Rys. 109. Ocena sentymentu piosenek Madonny i Jacksona według IBM Natural Language Understending**

Rys. 109. Ocena sentymentu piosenek Madonny i Jacksona według IBM Natural Language Understending

1. Ocena sentymentu piosenek na podstawie IBM

W tej części projektu przedstawiono porównanie oceny sentymentu dokonanej z wykorzystaniem chmury obliczeniowej IBM (sentiment scor) z oceną sentymentu z wykorzystaniem słowników R. Wyniki porównania zostały przedstawione w postaci graficznej macierzy korelacji rang Spearmana. Wynika z niej, iż w przypadku oceny utworów Jacksona istnieje niska zależność między ocenami - wartość współczynnika korelacji wynosi ~0,3. Natomiast w przypadku tekstów piosenek Madonny współczynnik korelacji między oceną IBM a oceną z wykorzystaniem słowników R wynosi prawie 0,5. Potwierdzeniem niskiej zależności między sposobami oceny sentymentu są dane zamieszczone w tab. 36-37 i tab. 38-39 przedstawiające najbardziej pozytywne i negatywne piosenki Jacksoana i Madonny według oceny IBM. Porównując te tabele z tab. 25-28 przedstawiającymi tego samego typu oceny na podstawie słownika AFIN można stwierdzić, iż w przypadku Jacksona tylko w 2 przypadkach prezentowane tytuły pokrywają się ze sobą. Oznacza to, ze w pierwszych 10 najbardziej pozytywnych i negatywnych piosenek według oceny IBM znalazły się po 2 utwory z pierwszych dziesiątek wydzielonych na podstawie słownika R. Jeszcze gorzej wygląda w przypadku tekstów Madonny, gdzie w pierwszej 10 najbardziej pozytywnych i negatywnych piosenek według oceny IBM znalazło się tylko po 1 utworze z list ustalonych na podstawie R.

1.1. Piosenki Jacksona

Tab. 36. Najbardziej pozytywne piosenki Jacksona według IBM NLU
title sentiment.score
trouble 0.6758435
wondering who 0.6748983
people make the world go round 0.6731048
burn this disco out 0.6702949
a place with no name 0.6668899
love is here & now you're gone 0.6535887
hold my hand 0.6493060
song groove (aka abortion papers) 0.6399755
just a little bit of you 0.6255710
that’s how love is 0.6189254
Tab. 37. Najbardziej negatywne piosenki Jacksona według IBM NLU
title sentiment.score
maria (you were the only one) -0.7022047
it’s great to be here -0.6927197
la-la means i love you -0.6879202
billie jean -0.6872829
heartbreaker -0.6827286
workin’ day and night -0.6686503
didn’t mean to hurt you -0.6596743
on the line -0.6547040
things i do for you -0.6546351
lisa it’s your birthday -0.6512638
**Rys. 110. Współczynniki korealcji rang Spearman'a dla oceny piosenek Jacksona według 3 bibliotek R i IBM Natural Language Understending**

Rys. 110. Współczynniki korealcji rang Spearman’a dla oceny piosenek Jacksona według 3 bibliotek R i IBM Natural Language Understending

1.2. Piosenki Madonny

Tab. 38. Najbardziej pozytywne piosenki Madonny według IBM NLU
title sentiment.score
i don’t search i find 0.7125387
justify my love 0.6640775
can’t stop 0.6519306
i feel love 0.6399553
lucky star 0.6394122
superstar 0.6389184
future lovers 0.6316927
dear jessie 0.6299942
stay 0.6180772
forbidden love 0.5678935
Tab. 39. Najbardziej negatywne piosenki Madonny według IBM NLU
title sentiment.score
heartbeat -0.7329772
faz gostoso (feat. anitta) -0.6985287
human nature -0.6701005
a new argentina -0.6584293
cry baby -0.6583743
partido feminista -0.6488338
some girls -0.6361425
oh what a circus -0.6341235
ghosttown -0.6326155
hung up -0.6285508
**Rys. 111. Współczynniki korealcji rang Spearman'a dla oceny piosenek Madonny według 3 bibliotek R i IBM Natural Language Understending**

Rys. 111. Współczynniki korealcji rang Spearman’a dla oceny piosenek Madonny według 3 bibliotek R i IBM Natural Language Understending

2. Słowa w zależności od emocji w piosenkach

Chmura obliczeniowa IBM, poza określeniem ogólnego nastroju tekstu (ocenianego na podstawie sentiment score) pozwala również na określenie jego ładunku emocjonalnego. Ocena emocji prezentowana jest w postaci udziału w tekście następujących typów emocji: smutku, radości, strachu, wstrętu i złością. W przypadku analizowanych tekstów piosenek dominującymi emocjami były: radość i smutek. Dla tych dwóch typów emocji wskazano najczęściej występujące w tekstach piosenek wyrazy. Wyniki analizy zostały zaprezentowane na rys. 112 (dla Jacksona) i rys. 113 (dla Madonny). Prezentowane wyniki wskazują, iż w przypadku utworów Jackosona wiele z wyrazów, które znalazły się w tekstach, których głównym nastrojem była radość znalazły się także jako główne w tekstach z dominującym nastrojem smutku. Do tego typu słów zalicza się m.in love, baby, girl, stop. Pewnym zaskoczeniem może być to, iż w grupie najczęściej występujących słów w piosenkach radosnych znalazło się słowo bad, które jednocześnie nie występuje w grupie najczęstszych słów w piosenkach smutnych. Podobnie także w przypadku tekstów Madonny zaobserwować można, iż wiele z najczęściej niewstępujących wyrazów w tekstach radosnych występuje często w tekstach smutnych. Zarówno bowiem w przypadku Madonny, jak i Jacksona prezentowane na wykresach słowa należą do grupy najczęściej następujących słów w tekstach ogółem. Potwierdza to tym samym, iż analiza sentymentu i ocena emocjonalnego tekstu - oparta tylko i wyłącznie na pojedynczych wyrazach - obarczona jest błędem wynikającym z nieuwzględniania kontekstu całego zdania. Słowo love, baby, girl mogą równie często występować w tekstach radosnych, jak i pozytywnych - a ocena, czy dana wypowiedź jest pozytywna, czy też negatywna będzie zależała od tego jakie inne słowa pojawia się w wypowiedzi.

2.1. Piosenki Jacksona

**Rys. 112. Najczęsciej występujące słowa w piosenkach Jacksona ocenianych przez IBM Natural Language Understending jako radosne i smutne**

Rys. 112. Najczęsciej występujące słowa w piosenkach Jacksona ocenianych przez IBM Natural Language Understending jako radosne i smutne

2.2. Piosenki Madonny

**Rys. 113. najczęsciej występujące słowa w piosenkach Madonny ocenianych przez IBM Natural Language Understending jako radosne i smutne**

Rys. 113. najczęsciej występujące słowa w piosenkach Madonny ocenianych przez IBM Natural Language Understending jako radosne i smutne

XVIII. Wnioski

Przeprowadzona analiza podobieństwa warstwy muzycznej i tekstowej piosenek Jacksona i Madonny pozwala na sformułowanie następujących wniosków:

  • na poziomie warstwy muzycznej piosenki Jacksona odznaczają się większą głośnością, akustycznością, żywotnością, wartościowością. Natomiast w piosenkach Madonny większa jest instrumentalność i długość ich trwania,
  • według chwilowego rankingu popularności Spotify piosenki Jacksona są bardziej popularne,
  • u obu wykonawców obserwuje się dużą dodatnią zależność między zmiennymi energetyczność a głośność oraz dużą ujemną zależność między energetycznością i akustycznością,
  • zaobserwować można duże zróżnicowanie warstwy muzycznej poszczególnych albumów obu piosenkarzy,
  • najczęściej występujący wyraz w tekstach piosenek obu wykonawców to love. Zaobserwować również można duże podobieństwo w liście najbardziej popularnych słów z piosenek Jacksona i Madonny,
  • rozkład długości użytych wyrazów u obu artystów jest do siebie podobny, a zależność między wskaźnikami różnorodności leksykalnej a parametrami audio piosenek są małe,
  • w najbardziej popularnych piosenkach Jacksona i Madonny najczęściej występującym słowem nie jest love,
  • wraz ze wzrostem energetyczności piosenek częstotliwość love jest coraz mniejsza, natomiast wraz ze wzrostem akustyczności - rośnie,
  • zarówno w przypadku albumów Jacksona, jak i Madonny zależności między rangą a częstotliwością słów ma nachylenie ujemne. Nie jest ono jednak do końca stałe i wykazuje niewielkie odchylenia od rozkładu zgodnego z prawem Zipfa,
  • przeprowadzona na podstawie bigramów analiza słów najczęściej występujących przed lub po słowie love wskazuje na to, iż u Madonny w porównaniu Jacksona słowa te mają zabarwienie nieco bardziej negatywne,
  • inny wydzwięk słowa love w tekstach Madonny potwierdza również analiza kontekstowa - u Madonny, w przeciwieństwie do piosenek Jacksona love nie pojawia się ze w kontekście słowa sweet. Pojawia się ono natomiast w kontekście słowa forbidden, z którym love nie współwystępuje w tekstach Jacksona,
  • zarówno w przypadku tekstów Jacksona, jak i Madonny analiza trigramów nie przynosi wielu informacji - w większości są to bowiem powtarzane w refrenach te same wyrazy, bądź zwroty,
  • na duże znaczenie słowa love w twórczości obu artystów wskazuje analiza sieci sporządzonej na podstawie bigramów, w której love jest wierzchołkiem o największej liczbie stopni,
  • teksty piosenek Madonny są mniej do siebie podobne, w porównaniu z tekstami Jacksona - znaleźć w nich można dużo mniej reguł asocjacji, a poziom ufności żadnej z nich nie wyniósł 1.0,
  • konstrukcja reguł asocjacji potwierdza dużą częstość użycia słowa love - prawie wszystkie reguły z 15 reguł o największej ufności zawierało to słowo,
  • porównując wyniki grupowania słów piosenek obojga artystów, można stwierdzić ze słowo love w obu przypadkach tworzy osobną jednoelementową grupę. Natomiast wyrazy należące do ostatniej najbardziej licznej grupy są bardzo podobne u Jacksona i Madonny,
  • na podstawie analizy tematów z zastosowaniem metody LDA i STM zaobserwować można występowanie tych samych wyrazów w różnych tematach. Rozkład prawdopodobieństw dokumentów dla każdego tematu wskazuje jednak, że dla prawie każdego można wskazać teksty o dużym prawdopodobieństwie przynależności,
  • analiza sentymentu wskazuje na to, że najwięcej utworów Jacksona i Madonny ma wydźwięk neutralny, a ich ogólna ocena przeprowadzona na podstawie słownika AFINN jest bliska 0,
  • ogólna ocena nastroju tekstów piosenek nie zależy od zastosowanej biblioteki - W zależności od porównywanych ze sobą bibliotek współczynnik korelacji rang Spearmana wyniósł od 0,69 do 0,76 (dla piosenek Jacksona) oraz od 0,67 do 0,70 (dla piosenek Madonny),
  • w przypadku wszystkich albumów Jacksona dominującym nastrojem jest radość. Potwierdza to tym samym wniosek ze wcześniejszej analizy, wskazujący, iż wszystkie analizowane albumy tego wykonawcy mają wydźwięk pozytywny. Pod względem oceny emocjonalnej bardziej zróżnicowane są natomiast albumy Madonny, wśród których Hard candy i Evita ma wysoki odsetek słów związanych z oczekiwaniem, natomiast MDNA ze gniewem, smutkiem i strachem,
  • zarówno w piosenkach Jacksona jak i Madonny zdecydowanie najczęstsze pozytywne słowo to love,
  • rozszerzenie analizy sentymentu na bigramy - uwzględniając występowanie zaprzeczeń - nie spowodowało dużych zmian w ogólnej ocenie nastroju tekstów piosenek. Natomiast zarówno w przypadku najbardziej negatywnego utworu Jacksona, jak i najbardziej pozytywnego tekstu Madonny ich wartości sentymentu znacznie zmieniły się po uwzględnieniu korekty wynikajacej z występowania w ramach bigramów tych samych wyrazów pozytywnych bądź negatywnych,
  • ocena nastroju tekstu przeprowadzona na podstawie pojedynczych wyrazów znacznie różni się od oceny przeprowadzonej na podstawie całego tekstu z wykorzystaniem chmury obliczeniowej i sztucznej inteligencji - w przypadku oceny utworów Jacksona zależność między ocenami, wyrażona przez współczynnik korelacji wynosi ~0,3. Natomiast w przypadku tekstów piosenek Madonny wynosi on prawie 0,5,
  • duże różnice w ocenie wynikają z faktu, iż pojedynczy wyraz nie może być podstawą oceny nastroju całego tekstu. Wiele z wyrazów, które znalazły się w tekstach, których głównym nastrojem była radość znalazły się także jako główne w tekstach z dominującym nastrojem smutku. Do tego typu słów zalicza się m.in love, baby, girl, stop.

Reasumując można stwierdzić, iż pod względem muzycznym obaj artyści nieznacznie różnią się. Ich teksty są jednak do siebie podobne - przede wszystkim, jak wiele innych piosenek - są o miłości. Sposób opisu tej miłości jest jednak nieco inny u Jacksona, niż u Madonny - dla której miłość to nie tylko baby i sweet, ale także hurt, forbidden i erotic.