Analiza porównawcza warstwy muzycznej i tekstowej piosenek Michaela Jacksona i Madonny

I. Cel projektu

Michael Jackson i Madonna przez wielu uważani są za króla i królową popu. Łączy ich wiele - lata, na które przypada szczyt ich kariery, zamiłowanie do ekstrawagancji, sława i bogactwo. Lata świetności – jego i jej – przypadały na przełom lat 80. i 90. Nic dziwnego, że się zaprzyjaźnili – nikt nie rozumiał królowej lepiej niż król. Poznali się przez wspólnego menedżera, Freddy’ego DeManna, po jednym z koncertów Jacksona w Madison Square Garden.

Zamieszczone poniżej zdjęcie, zrobione w 1991 r. do dziś należy do najsłynniejszych kadrów w historii kina i muzyki. Przedstawia ono scenę z gali rozdania Oscarów, w czasie której królowa popu odbierała Oscara za piosenkę Sooner or Later z filmu Dick Tracy w towarzystwie króla, Michaela Jacksona. „Najlepsza randka w życiu” – napisała wiele lat później Madonna.

Randki skończyły się jednak szybko, a niedługo również przyjaźń. Podobno on się obraził, że ona skrytykowała jego styl w wywiadzie telewizyjnym. Choć zerwali kontakt, Madonna nigdy nie zwątpiła w dawnego przyjaciela. Broniła go, gdy w 2019 r. autorzy dokumentu Leaving Neverland oskarżyli Jacksona o molestowanie seksualne chłopców.

Celem projektu jest ocena podobieństwa utworów wykonywanych przez Jacksona i Madonnę, na podstawie przeprowadzonej analizy warstwy muzycznej i tekstowej piosenek. Praca obejmuje następujące elementy:

analizę parametrów audio utworów wykonywanych przez Jacksona i Madonę przeprowadzoną na podstawie charakterystyki utworów dostępnych w serwisie muzycznym Spotify,
analizę warstwy tekstowej utworów przeprowadzoną na podstawie tekstów publikowanych na stronie tekstowo.pl,
analizę sentymentalną piosenek przeprowadzoną z wykorzystaniem chmury obliczeniowej IBM w ramach usługi Natural Language Understanding.

Łącznie analizę objęto 248 piosenek Michaela Jacksona oraz 280 piosenek Madonny. Dobór próby został przeprowadzony na podstawie dostępności danych w serwisie Spotify oraz na stronie tekstowo.pl.

II. Analiza zmiennych ilościowych

1. Średnia, odchylenie standardowe, wsp. zmienności

Podstawą analizy warstwy muzycznej piosenek Jacksona i Madonny były charakterystyki utworów dostępne w serwisie muzycznym Spotify. W serwisie wyróżnia się następujące funkcje audio piosenek:

akustyczność - miara ufności od 0,0 do 1,0 określająca, czy ścieżka jest akustyczna. 1.0 oznacza dużą pewność, że utwór jest akustyczny,
taneczność - opisuje, jak odpowiedni jest utwór do tańca w oparciu o kombinację elementów muzycznych, w tym tempo, stabilność rytmu, siłę uderzenia i ogólną regularność. Wartość 0.0 jest najmniej taneczna, a 1.0 jest najbardziej taneczna,
czas trwania - oznacza czas trwania utworu w milisekundach - na potrzeby opracowanie czas trwania został przeliczony na sekundy,
energetyczność - jest miarą od 0,0 do 1,0 i reprezentuje percepcyjną miarę intensywności i aktywności. Zazwyczaj energetyczne utwory są szybkie, głośne i hałaśliwe. Cechy percepcyjne przyczyniające się do tego atrybutu obejmują zakres dynamiczny, postrzeganą głośność, barwę, szybkość początków i ogólną entropię,
instrumentalność - przewiduje, czy utwór nie zawiera wokali. Im wartość instrumentalizacji bliższa 1,0, tym większe prawdopodobieństwo, że utwór nie zawiera treści wokalnych. Wartości powyżej 0,5 mają reprezentować ścieżki instrumentalne, ale pewność jest wyższa, gdy wartość zbliża się do 1,0,
klucz - w którym grany jest utwór. Klucze kodowane są za pomocą liczby całkowitej zgodnie ze standardową notacją klasy Pitch . Np. 0 = klucz C,
żywotność - Wykrywa obecność publiczności w nagraniu. Wyższe wartości żywotności oznaczają zwiększone prawdopodobieństwo, że utwór został wykonany na żywo,
głośność - ogólna głośność ścieżki w decybelach (dB). Wartości głośności są uśredniane dla całej ścieżki. Wartości zazwyczaj mieszczą się w zakresie od -60 do 0 db,
tryb - wskazuje modalność (durową lub molową) utworu, rodzaj skali, z której pochodzi jego zawartość melodyczna. Major jest reprezentowany przez 1, a minor to 0,
mówienie - wykrywa w utworze obecność wypowiadanych słów. Jeśli na nagraniu występuje wyłącznie mowa (np. talk show, audiobook, poezja), tym wartość atrybutu jest bliższa 1.0.Wartości poniżej 0,33 najprawdopodobniej reprezentują muzykę i inne utwory niemowe,
tempo - ogólne szacowane tempo utworu w uderzeniach na minutę (BPM),
wartościowość - miara od 0,0 do 1,0 opisująca muzyczną pozytywność przekazywaną przez utwór. Utwory o wysokiej wartościowości brzmią bardziej pozytywnie (np. wesołe, wesołe, euforyczne), podczas gdy utwory o niskiej wartościowości brzmią bardziej negatywnie (np. smutne, przygnębione, złości),
popularność - popularność chwilowa, określona na podstawie odsłuchań w ostatnim czasie.

Wartości średnie, odchylewnie standardowe oraz współczynniki zmienności dla parametrów ilościowych piosenek Jacksona i Madonny zostały przedstawione w poniższej tabeli.

**Tab. 1. Średnie, odchylenie standardowe i współczynniki zmienności parametrów audio piosenek Jacksona i Madonny**
	danceability	energy	loudness	speechiness	acousticness	instrumentalness	liveness	valence	tempo	duration_ms	popularity
meansJackson	0.635	0.641	-8.162	0.069	0.310	0.030	0.190	0.602	117.741	243.565	40.646
sd_Jackson	0.178	0.216	4.086	0.063	0.269	0.124	0.138	0.257	27.253	68.904	18.784
variation_coefficient_Jackson	0.280	0.337	-0.501	0.913	0.868	4.133	0.726	0.427	0.231	0.283	0.462
meansMadonna	0.645	0.607	-8.939	0.062	0.280	0.108	0.166	0.513	119.019	258.832	35.489
sd_Madonna	0.137	0.216	3.891	0.056	0.312	0.239	0.148	0.256	24.078	67.225	16.727
variation_coefficient_Madonna	0.212	0.356	-0.435	0.903	1.114	2.213	0.892	0.499	0.202	0.260	0.471

Biorąc pod uwagę klasyczne miary zmienności obliczone dla charakterystyk utworów, można zauważyć, że ich wyniki są zbliżone do siebie, co pokazuje, że utwory obu wykonawców mają ze sobą dużo wspólnego. Potwierdza to również fakt, że wspomniani wykonawcy w obu przypadkach tworzyli utwory w nurcie pop. Wartości średnie dla takich parametrów jak taneczność, energetyczność, głośność, mówienie, akustyczność czy tempo są porównywalne ze sobą.

Największa zmienność miedzy utworami, wyrażona poprzez współczynnik zmienności obserwowana jest dla takich parametrów jak: instrumentalność, mówienie, akustyczność i żywotność. Dotyczy to zarówno utworów Jacksona jak i Madonny.

Natomiast najmniejsza zmienność parametru spośród wszystkich utworów obu gwiazd występuje dla parametru tempo, taneczność i czas trwania utworu.

2. Zbadanie normalności rozkładu zmiennych

Różne metody statystyczne używane do analizy danych przyjmują założenia dotyczące normalności rozkładu zmiennych. Dotyczy to między innymi badania korelacji, regresji, stosowania testów t i analizy wariancji. Ocena normalności danych jest warunkiem wstępnym wielu testów statystycznych, ponieważ normalność rozkładu jest podstawowym założeniem w testowaniu parametrycznym. Istnieją dwie główne metody oceny normalności: graficzna i numeryczna. Dostępne są różne metody badania normalności danych ciągłych, z których najpopularniejsze to test Shapiro–Wilka, test Kołmogorowa–Smirnowa, skośność, kurtoza, histogram, wykres skrzynkowy, wykres P–P, Q–Q. W niniejszym opracowaniu do badania normalności rozkładu zmiennych ilościowych opisujących parametry audio piosenek wykorzystano test Shapiro-Wilka oraz metodę graficzną polegającą na skonstruowaniu wykresów Q-Q. W przypadku testu Shapiro-Wilka hipoteza zerowa mówi, że dane są pobierane z populacji o rozkładzie normalnym. Kiedy obliczona na podstawie statystyki testowej wielkość p-value jest większe od przyjętego poziomu istotności, brak jest podstaw do odrzucenia hipotezy H0, co wskazuje na normalność rozkładu zmiennych. W sytuacji kiedy wartość p-value jest mniejsza od przyjętego poziomu istotności wówczas H0 jest odrzucana. Jedną z najczęściej używanych metod graficznych oceny normalności rozkładu jest wykres Q-Q (qqplot), czyli wykres kwantyl kwantyl. Technika ta jest bardzo ściśle związana z testem Shapiro-Wilka. Interpretacja wykresu jest następująca: jeżeli punkty leżą blisko prostej i są równomiernie rozłożone po jej jednej i drugiej stronie (np. naprzemiennie), to dane pochodzą z rozkładu normalnego.

Przedstawione w tabeli 2 i 3 oraz na wykresach Q-Q wyniki wskazują na to, że jedynie wskaźnik popularności piosenek Jacksona ma rozkład normalny. W przypadku pozostałych analizowanych zmiennych hipotezę dotyczącą normalności ich rozkładów należy odrzucić, na rzecz hipotezy alternatywnej - zmienne nie mają rozkładów normalnych. Biorąc pod uwagę wyliczone wartości p-value dla zmiennych opisujących parametry piosenek Madonny hipotezę dotyczącą normalności rozkładów należy odrzucić, na rzecz hipotezy alternatywnej - wszystkie z analizowanych zmiennych nie mają rozkładu normalnego.

2.1. Dla utworów Jacksona

**Tab. 2. Ocena normalności rozkładu parametrów audio piosenek Jacksona**
variable	statistic	p
acousticness	0.8989306	0.0000000
danceability	0.9670510	0.0000187
duration_ms	0.9695363	0.0000406
energy	0.9563176	0.0000009
instrumentalness	0.2615248	0.0000000
liveness	0.8524272	0.0000000
loudness	0.9294927	0.0000000
popularity	0.9890874	0.0600861
speechiness	0.6286783	0.0000000
tempo	0.9421935	0.0000000
valence	0.9385311	0.0000000

Rys. 1. Wykresy Q-Q dla parametrów audio piosenek Jacksona

2.2. Dla utworów Madonny

**Tab. 3. Ocena normalności rozkładu parametrów audio piosenek Madonny**
variable	statistic	p
acousticness	0.8155442	0.0000000
danceability	0.9766248	0.0001513
duration_ms	0.9661335	0.0000037
energy	0.9648175	0.0000024
instrumentalness	0.5112309	0.0000000
liveness	0.6850060	0.0000000
loudness	0.9383764	0.0000000
popularity	0.9758557	0.0001126
speechiness	0.5891748	0.0000000
tempo	0.9818255	0.0012459
valence	0.9677011	0.0000062

Rys. 2. Wykresy Q-Q dla parametrów audio piosenek Madonny

III. Analiza rozkładu zmiennych

Ze względu na brak normalności rozkładu większości z analizowanych zmiennych ilościowych do zbadania równości median wykorzystano Test U Manna-Whitneya. Test ten służy do weryfikacji hipotezy o nieistotności różnic pomiędzy medianami badanej zmiennej w dwóch populacjach. Test ten jest odpowiednikiem klasycznego testu t-Studenta dla prób niepowiązanych. Miarą tendencji centralnej dla tego testu jest nie średnia jak w przypadków testów t, a mediana.Hipoteza zerowa zakłada, iż próby pochodzą z jednej populacji, wobec hipotezy alternatywnej mówiącej o tym, iż próby pochodzą z różnych populacji.

Przeprowadzone obliczenia wskazują na to, że w przypadku zmiennych: taneczność, energetyczność, mówienie, tempo brak jest podstaw do odrzucenia H0. Zmienne te zostały wyróżnione w tab. 1. kolorem szarym. W przypadku pozostałych zmiennych H0 należało odrzucić, co wskazuje na różność median. W takiej sytuacji test powtórzono przyjmując jednostronną hipotezę alternatywną. Wyniki przeprowadzonych obliczeń wskazują na to, że wartości zmiennych głoścność, akustyczność, żywotność, wartościowość i popularność są wyższe w przypadku utworów Jacksona (kolor niebieski zmiennych w tab. 1.). Natomiast w przypadku zmiennych instrumentalność i długość utworu wartości dla piosenek Madonny są wyższe niż utworów Jacksona (kolor czerwony zmiennych w tab. 1).

Wykresy gęstości dla wszystkich parametrów ilościowych zostały przedstawione na rys. 3. W p. 2 niniejszego rozdziału przedstawiono natomiast wykresy pudełkowe przedstawiające rozkład poszczególnych zmiennych. W przypadku zmiennej klucz, która jest zmienną nominalną (jedynie kodowaną za pomocą cyfr) porównanie przedstawiono za pomocą wykresu udziałów utworów wykonywanych w danym kluczu. Linia czerwona oznacza jednakowy udział utworów w danym kluczu u obu wykonawców. Punkty leżące powyżej linii oznaczają wyższy udział w utworach Madonny, zaś poniżej u Jacksona. U obu wykonawców najczęściej utwory grane są w kluczu 7 (G), zaś najrzadziej w kluczu 3 (D#).

1. Wykresy gęstości dla wszystkich parametrów ilościowych

Rys. 3. Krzywe gęstości dla wszystkich parametrów ilościowych

Biorąc pod uwagę, krzywe gęstości dla wszystkich parametrów ilościowych z rys. 3 w większości przypadków występuje gęstość jednomodalna, prawo lub lewo skośna. Dla większości parametrów można również zaobserwować zbliżone wykresy gęstości dla obu wykonawców - różnice występują w maksimach lokalnych. Jedynie w przypadku parametru popularność krzywe zbliżone są do rozkładu normalnego. Natomiast krzywe gęstości dla parametru wartościowość w największym stopniu różnią się od siebie.

Porównując jednak bezpośrednio krzywe gęstości pomiędzy Madonną, a Michaelem Jacksonem, można zaobserwować, iż utwory Madonny nieznacznie przeważa piosenki Jacksona pod względem taneczności i tempa, natomiast dla pozostałych parametrów wyższe wartości dla punktów maksimum występują w piosenkach Jacksoan.

2. Porównanie poszczególnych zmiennych

Porównując przedstawione poniżej wykresy pudełkowe przedstawiające rozkład poszczególnych zmiennych, można zauważyć, że w większości przypadków wartości centralne, czyli mediany występują na zbliżonych wartościach dla obu artystów. Przedziały międzykwartylowe również są na podobnych poziomach. Zaobserwować można także występowanie wartości odstających, które mogą zaburzać interpretację wyników. Podobnie jak w punkcie 1. w przypadku porównań gęstości, tak i tutaj zmienna wartościowość najbardziej różny rozkład u obu artystów.

2.1. Taneczność

Rys. 4. Rozkład tanecznosci w pisenkach Jackona i Madonny

2.2. Energetyczność

Rys. 5. Rozkład energetyczności w pisenkach Jackona i Madonny

2.3. Klucze

Rys. 6. Udział utworów granych w kluczach wśród pisenek Jackona i Madonny

2.4. Głośność

Rys. 7. Rozkład głośności w pisenkach Jackona i Madonny

2.5. Mówienie

Rys. 8. Rozkład mówienia w pisenkach Jackona i Madonny

2.6. Akustyczność

Rys. 9. Rozkład akustyczności w pisenkach Jackona i Madonny

2.7. Instrumentalność

Rys. 10. Rozkład instrumentalności w pisenkach Jackona i Madonny

2.8. Żywotność

Rys. 11. Rozkład żywotności w pisenkach Jackona i Madonny

2.9. Wartościowość

Rys. 12. Rozkład wartościowości w pisenkach Jackona i Madonny

2.10. Tempo

Rys. 13. Rozkład tempa w pisenkach Jackona i Madonny

2.11. Popularność

Rys. 14. Rozkład popularności piosenek Jackona i Madonny

3. Rozkład zmiennych po wyeliminowaniu obserwacji odstających

Analiza powyższych wykresów pudełkowych wskazuje na dużą liczbę obserwacji odstających w przypadku niektórych zmiennych. Z tego też wzgledu przeprowadzono ponowne obliczenia rozkładów - eliminując obserwacje odstające. Wyniki w postaci wykresów pudełkowych zostały zamieszczone na poniższym rysunku. W przypadku zmiennych mówienie, instrumentalność oraz żywotność (tylko u Madonny) ze względu na ich rozkład silnie skoncentrowany wokół jednych wartości w rozkładzie pozostały obserwacje odstające.

Rys. 15. Rozkład zmiennych po wyeliminowaniu obseracji odstających

Po wyeliminowaniu wartości odstających, można nadal stwierdzić, że w większości parametrów wartości mediany, jak i przedziały międzykwartylowe występują na zbliżonych wartościach u obu analizowanych artystów. Jedynie po wyeliminowaniu wartości odstających z parametru popularność dla utworów Madonny mediana, jak i rozproszenie uległy zmianie i różnią się od wartości charakteryzujących piosenki Michela Jacksona.

IV. Analiza zależności między zmiennymi ilościowymi

Ze względu na brak normalności rozkładu zmiennych do określenia siły zależności między zmiennymi wykorzystano współczynniki korelacji rang Spearmana oraz Współczynniki korelacji Kendalla. Wyniki obliczeń w postaci graficznej macierzy korelacji zostały przedstawione poniżej. Analiza prezentowanych obliczeń wskazuje na to, że zarówno w przypadku utworów Madonny, jak i Jacksona obserwuje się (obliczoną na podstawie korelacji rang Spearmana) dużą dodatnią zależność między zmiennymi energetyczność a głośność, co wskazuje na to, iż bardziej energetyczne utwory są również bardziej głośne. Wynika to wprost ze sposobu określania energetyczności, jako parametru zależnego od szybkości, głośności i poziomu hałasu w utworze. Z tego też względu na przykład death metal ma wysoką energię, podczas gdy preludium Bacha znajduje się nisko na skali. Największą ujemną zależność wykazują natomiast zmienne energetyczność i akustyczność. Oznacza to, że bardziej akustyczne utwory odznaczają się mniejszą energicznością. Podobną zależność jak w przypadku korelacji rang Spearmana dla parametrów audio w piosenkach Jacksona wskazuje korelacja Kendalla. Statystyka będąca jedną z miar monotonicznej zależności dwóch zmiennych losowych również wykazała, że największa zależność występuje dla parametrów energetyczność i głośność. Potwierdza to, że wraz ze wzrostem energetyczności wzrasta głośność utworu

Graficzny rozkład akustyczności i głośności w stosunku do energetyczności dla utworów Jacksona i Madonny przedstawiono na rys. 18-19 i rys. 22-23.

1. Korelacja dla cech utworów Jacksona

Współczynniki korelacji rang Spearmana

Rys. 16. Współczynniki korelacji rang Spearmana dla parametrów audio w piosenkach Jacksona

Współczynniki korelacji Kendalla

Rys. 17. Współczynniki korelacji Kendalla dla parametrów audio w piosenkach Jacksona

Zależność między energią a głośnością oraz enargią a akustycznością

Rys. 18. Zależność między energetycznością a głośnością w piosenkach Jacksona

Rys. 19. Zależność między energetycznością a akustycznością w piosenkach Jacksona

2. Korelacja dla cech utworów Madonny

Współczynniki korelacji rang Spearmana

Rys. 20. Współczynniki korelacji rang Spearmana dla parametrów audio w piosenkach Madonny

Współczynniki korelacji Kendalla

Rys. 21. Współczynniki korelacji rang Kendalla dla parametrów audio w piosenkach Madonny

Zależność między energią a głośnością oraz energią a akustycznością

Rys. 22. Zależność między energetycznością a głośnością w piosenkach Madonny

Rys. 23. Zależność między energetycznością a akustycznością w piosenkach Madonny

V. Analiza cech audio na poziomie albumów

Analizowane 248 piosenek Jacksona pochodziło łącznie z 86 albumów, wśród których znaleźć można single, składanki zawierające piosenki wykonywane także przez innych artystów, albumy rocznicowe, oraz powtórne wydania wcześniejszych albumów, czyli tzw. remaking. W celu oceny zróżnicowania warstwy muzycznej poszczególnych albumów do analizy wybrano te albumy, z których pochodziło co najmniej 9 piosenek (łącznie 7 albumów) Analizowane 280 piosenek Madonny pochodziło łącznie ze 119 albumów. Do oceny zróżnicowania na poziomie albumów wybrano te, z których pochodziło co najmniej 10 piosenek (łącznie 9 albumów). Na rys. 24 oraz rys. 25 przedstawiono krzywe gęstości dla analizowanych wcześniej zmiennych ilościowych w zależności od albumu z którego pochodziły piosenki. Natomiast w p. 1.2. oraz 2.2. w postaci tabelarycznej przedstawiono średnie wartości zmiennych dla poszczególnych albumów.

1. Albumy Jacksona

1.1. Krzywe gęstości

Rys. 24. Krzywe gęstości dla wszystkich parametrów ilościowych w zależności od albumu Jacksona

Biorąc pod uwagę wykresy krzywej gęstości na podstawie parametrów ilościowych cech audio, można zauważyć duże zróżnicowanie warstwy muzycznej poszczególnych albumów:

najmniejsza akustyczność występuje w albumie Dangerous,
największa taneczność występuje w albumach Bad 25th Anniversary i Off the Wall,
najkrótszy czas utworów cechuje album Forever Michael,
największą energetyczność charakteryzują się albumy Bad 25th Anniversary i Dangerous,
najbardziej głośnym jest album Michael,
największą popularność cieszą się piosenki z albumów Off the Wall i Dangerous,
największą pozytywność albumu (parametr valence) odznaczają się piosenki albumu Off the Wall.

1.2. Średnie w zależności od albumu

1.2.1. Taneczność

**Tab. 4. Średnia taneczność albumów Jacksona**
album.name	mean(danceability)
Bad 25th Anniversary	0.8016875
Off the Wall	0.7730000
Dangerous	0.7421538
HIStory - PAST, PRESENT AND FUTURE - BOOK I	0.6823846
Invincible	0.6796429
Michael	0.6664444
Forever, Michael	0.5414444

1.2.2. Energetyczność

**Tab. 5. Średnia energetyczność albumów Jacksona**
album.name	mean(energy)
Dangerous	0.7436154
Bad 25th Anniversary	0.7368750
Michael	0.6696667
Invincible	0.6455000
HIStory - PAST, PRESENT AND FUTURE - BOOK I	0.6443077
Forever, Michael	0.6311111
Off the Wall	0.5806800

1.2.3. Akustyczność

**Tab. 6. Średnia akustyczność albumów Jacksona**
album.name	mean(acousticness)
HIStory - PAST, PRESENT AND FUTURE - BOOK I	0.3240769
Off the Wall	0.3081000
Forever, Michael	0.2970111
Bad 25th Anniversary	0.2846236
Invincible	0.2800857
Dangerous	0.2215231
Michael	0.1906856

1.2.4. Wartościowość

**Tab. 7. Średnia wartościowość piosenek z albumów Jacksona**
album.name	mean(valence)
Off the Wall	0.7777000
Forever, Michael	0.6278889
Bad 25th Anniversary	0.6056250
Michael	0.5832222
Dangerous	0.5338462
HIStory - PAST, PRESENT AND FUTURE - BOOK I	0.5155846
Invincible	0.4793643

1.2.5. Popularność

**Tab. 8. Średnia popularność albumów Jacksona**
album.name	mean(popularity)
Off the Wall	60.50000
Dangerous	57.92308
HIStory - PAST, PRESENT AND FUTURE - BOOK I	53.07692
Bad 25th Anniversary	53.00000
Invincible	46.42857
Michael	44.33333
Forever, Michael	26.44444

W przypadku policzonych średnich dla parametrów cech audio zróżnicowanie warstwy muzycznej poszczególnych albumów wygląda podobnie jak w przypadku wcześniej analizowanych krzywych gęstości:

największą średnią taneczność wykazuje album Bad 25th Anniversary - 0.8,
największą średnią energetyczność album Dangerous - 0.74,
największą średnią akustyczność album HIStory - PAST, PRESENT AND FUTURE - BOOK I
największą średnią wartościowość (pozytywność) piosenek z albumów Jacksona cechuje album Off the Wall,
największa średnia dla parametru popularność również jak w przypadku krzywej gęstości przypada dla albumu Off the Wall.

2. Albumy Madonny

2.1. Krzywe gęstości

Rys. 25. Krzywe gęstości dla wszystkich parametrów ilościowych w zależności od albumu Madonny

Biorąc pod uwagę wykresy krzywej gęstości na podstawie parametrów ilościowych cech audio, podobnie jak w przypadku albumów Jacksona, tak samo można zauważyć duże zróżnicowanie warstwy muzycznej w przypadku poszczególnych albumów Madonny:

największa akustyczność występuje w albumie Evita,
największa taneczność występuje w piosenkach z albumu Hard Candy i American Life,
najkrótszy czas utworów cechuje album Evita,
największą energetycznością charakteryzują się piosenki z albumu Celebration i Hard Candy,
największą głośnością odznaczają się utwory z albumu Celebration,
najbardziej popularne są pisenki wydane na albumie Celebration i Ray of Light,
największa pozytywność albumu (parametr valence) opisujący muzyczną pozytywność przekazywaną przez utwór to album Hard Candy.

2.2. Średnie w zależności od albumu

2.2.1. Taneczność

**Tab. 9. Średnia taneczność albumów Madonny**
album.name	mean(danceability)
Hard Candy	0.7836667
American Life	0.6986364
Rebel Heart (Deluxe)	0.6847778
MDNA (Deluxe Version)	0.6726154
Erotica (PA Version)	0.6685000
Celebration (double disc version)	0.6647500
I’m Breathless	0.6182000
Ray of Light	0.5674545
Evita: The Complete Motion Picture Music Soundtrack	0.4885000

2.2.2. Energetyczność

**Tab. 10. Średnia energetyczność albumów Madonny**
album.name	mean(energy)
Celebration (double disc version)	0.7944167
Hard Candy	0.7588333
MDNA (Deluxe Version)	0.6688462
Erotica (PA Version)	0.6232500
Rebel Heart (Deluxe)	0.6202222
Ray of Light	0.5799091
American Life	0.5064545
I’m Breathless	0.4530000
Evita: The Complete Motion Picture Music Soundtrack	0.4029500

2.2.3. Akustyczność

**Tab. 11. Średnia akustyczność albumów Madonny**
album.name	mean(acousticness)
Evita: The Complete Motion Picture Music Soundtrack	0.7188000
I’m Breathless	0.5515900
Ray of Light	0.3463364
American Life	0.1770693
Rebel Heart (Deluxe)	0.1550372
Celebration (double disc version)	0.1045200
MDNA (Deluxe Version)	0.0934824
Hard Candy	0.0786542
Erotica (PA Version)	0.0644404

2.2.4. Wartościowość

**Tab. 12. Średnia wartościowość piosenek z albumów Madonny**
album.name	mean(valence)
Hard Candy	0.7056667
Celebration (double disc version)	0.6406667
MDNA (Deluxe Version)	0.4920769
American Life	0.4911818
I’m Breathless	0.4789000
Erotica (PA Version)	0.4737167
Rebel Heart (Deluxe)	0.3957889
Evita: The Complete Motion Picture Music Soundtrack	0.3657250
Ray of Light	0.2996364

2.2.5. Popularność

**Tab. 13. Średnia popularność albumów Madonny**
album.name	mean(popularity)
Celebration (double disc version)	58.00000
Ray of Light	48.45455
American Life	42.00000
Rebel Heart (Deluxe)	38.00000
Erotica (PA Version)	36.16667
I’m Breathless	32.40000
Evita: The Complete Motion Picture Music Soundtrack	32.20000
Hard Candy	28.00000
MDNA (Deluxe Version)	26.30769

Biorąc pod uwagę albumy Madonny, w przypadku średnich dla parametrów cech audio zróżnicowanie warstwy muzycznej poszczególnych albumów odzwierciedlają poniższe stwierdzenia:

największą średnią taneczność wykazuje album Hard Candy - 0.78,
największą średnią energetyczność album Celebration (double disc version) - 0.79,
największą średnią akustyczność album Evita - 0.72,
największą średnią wartościowość (pozytywność) piosenek z albumów Madonny cechuje album Hard Candy - 0.71,
największa średnia dla parametru popularność również jak w przypadku krzywej gęstości przypada dla albumu Celebration (double disc version) – 58.

VI. Tokenizacja

Podstawą analizy tekstu, będącej celem 2 części projektu jest podział tekstu na tokeny. W wyniku przeprowadzonej tokenizacji uzyskano strukturę “jednego tokena w wierszu”. W celu eksploracji tekstu token przechowywany w każdym wierszu jest najczęściej pojedynczym słowem, ale może również być także n-gramem, zdaniem lub akapitem. Na początkowym etapie analizy dokonano podziału tekstu na pojedyncze wyrazy. W kolejnym etapie przygotowania tekstu do analizy dokonano usunięcia(poprawy) wyrazów zawierających błędy. W tekstach piosenek często występują wyrazy nie mające żadnego znaczenia, używane jedynie dla zachowania rytmu śpiewanego tekstu (np. ua, ha-ha, itp.). W celu wyodrębnienia błędów wykorzystano Hunspell - popularne narzędzie do sprawdzania pisowni i analizatora morfologicznego. W przypadku błędnie zapisanych wyrazów narzędzie Hunspell wykorzystano do zasugerowania ewentualnych poprawnych słów. Na tej podstawie zastąpiono błędnie napisane słowa sugerowanymi poprawnymi. Zarówno w przypadku Jacksona, jak i Madonny najczęstsze błędy w zapisie tekstu polegały na skróceniu końcówki -ing do -in. Tego typu skrócona forma charakterystyczna jest dla slangu oraz tekstów śpiewanych. Ponadto w przypadku tekstów Madonny wskazywane błędy wynikały z pojawienia się w tekstach wyrażeń zapożyczonych z języka hiszpańskiego. Następny etap przygotowania tekstu do analizy polegał na zastąpieniu wielu form tego samego wyrazu jedną. Na przykład love, loves, loving, loved są różnymi formami tego samego wyrazu love. Na tym etapie oryginalne słowa z piosenek zastąpiono ich rdzeniami. Aby uzyskać lepszą wydajność, zapisano sugerowane rdzenie poszczególnych wyrazów do pliku i ręcznie sprawdzono, czy proponowany rdzeń jest podstawową formą danego wyrazu, czy też nie. Ostatni etap związany z przygotowaniem tekstu do analizy polegał na usunięciu stopwords, czyli wyrazów, które nie są nośnikiem żadnej informacji, a których częstotliwość występowania jest zazwyczaj największa. Przykładowymi stopwords mogą być zaimki, przyimki, partykuły. Listę stopwords dostępną w bibliotece R, pochodzącą z trzech słowników, uzupełniono własną - stworzoną na podstawie wyrazów zidentyfikowanych w trakcie pierwszego etapu. Poniższe rysunki przedstawiają najczęściej występujące w tekstach piosenek Jacksona i Madonny wyrazy - w postaci chmury słów. Poniżej na wykresie przedstawiono najczęściej występujące słowa w danych albumach artystów. W przypadku Madonny jedynym często spotykanym wyrazem występującym w różnych albumach jest love. Natomiast w przypadku albumów Jacksona co najmniej w dwóch albumach często spotykanymi wyrazami są stop, body, beat, hold.

1. Piosenki Jacksona

Rys. 26. Chmura słów dla tekstów piosenek Jacksona

Powyższy rysunek przedstawia najczęściej występujące w tekstach piosenek Jacksona wyrazy - w postaci chmury słów. Większa czcionka oznacza większą częstość lub większy udział w analizowanej strukturze. Słowo love występuje najczęściej w utworach artysty. Kolejne słowa według częstości występowania we wszystkich piosenkach to baby, girl i time.

Rys. 27. Częste wyrazy występujące w tekstach piosenek Jacksona

Powyższy rysunek przedstawia najczęściej występujące wyrazy w tekstach piosenek Jacksona według albumów, gdzie warunkiem koniecznym było wystąpienie wyrazu co najmniej 50 razy w albumie.

Słowo love jest bezsprzecznie najczęściej występującym wyrazem w większości albumów. Natomiast biorąc pod uwagę kolejne wyrazy to:

słowo bad dominuje w albumie Into the Groove,
słowo stop w albumach Off the Wall i Live at the Forum,
słowo body w albumach The Nat King Cole Story I Moving Vialation,
słowo beat w albumach Thriller i Joy for Christmas,
słowo hold w albumach Michael i Destiny.

2. Piosenki Madonny

Rys. 28. Chmura słów dla tekstów piosenek Madonny

Najczęściej występujące słowa w tekstach piosenek Madonny to również słowo love. Kolejne słowa według częstości występowania we wszystkich piosenkach to baby, feel, time i gonna. Jak można zauważyć 3 z 5 pierwszych najczęściej występujących słów pokrywają się z najczęściej występującymi słowami z piosnek Jacksona.

Rys. 29.Częste wyrazy występujące w tekstach piosenek Madonny

Analizując najczęściej występujące wyrazy w tekstach piosenek Madonny według albumów, gdzie warunkiem koniecznym było wystąpienie wyrazu co najmniej 50 razy w albumie, można stwierdzić, iż:

słowo love jest bezsprzecznie najczęściej występującym wyrazem w większości albumów,
natomiast biorąc pod uwagę kolejne wyrazy można zauważyć duże zróżnicowanie - tylko jedno słowo jest wiodące w danym albumie:
słowo alive dominuje w albumie Madame X (Deluxe),
słowo wake w albumie Madame X Music from the Theater Xperience (Live),
słowo bang w albumie MDNA,
słowo dance w albumie Dancefloor Destroyers 2,
słowo gonna w Rebel Heart (Deluxe).

VII. Różnorodność leksykalna

Rozkład długość wyrazów w teksie jest parametrem zależnym od wielu czynników. Przeprowadzone badania wskazują na to, iż w przypadku analizy wielu tekstów pisanych przez tego samego autora rozkład długości użytych wyrazów jest bardzo do siebie podobny. Innym parametrem decydującym o rozkładzie długości wyrazów w tekście jest język w jakim został on napisany. Przykładowo w angielskich tekstach średnia długość wyrazów wynosi 5,1, zaś w rosyjskich - 5,28. Teksty utworów wykonywanych przez Jacksona i Madonnę zostały napisane przez wielu autorów. Pomimo tego rozkład długości użytych wyrazów u obu artystów jest do siebie podobny. Cechą charakterystyczną tekstów piosenek jest stosowanie dużej liczby krótkich wyrazów - łatwych do zaśpiewania. Z tego też względu największy udział mają wyrazy 2-4 literowe, których udział w tekstach oryginalnych u obu artystów wynosi ok. 75%. Prezentowane w tej części projektu wyniki dotyczą analizy tekstu pierwotnego, a więc zawierającego stopwords, wyrazy z błędami oraz wyrazy spoza słownika, gdyż w takiej postaci był on śpiewany przez wykonawców. Na wykresie wyrazy o zerowej długości przedstawiają udział liczb, które pojawiły się w tekscie, a które zostały zapisane w postaci samych cyfr.

1. Długość słów w piosenkach Jacksona i Madonny

Rys. 30. Udział wyrazów w zależności od ich długości w tekstach Jacksona i Madonny

2. Wpływ paramerów piosenki na różnorodność leksykalną

Różnorodność leksykalna to kolejna kluczowa cecha językowa, która może być przedmiotem analizy tekstu. Jak sama nazwa wskazuje, „różnorodność leksykalna” jest miarą tego, ile różnych słów leksykalnych występuje w tekście.Jest to wskaźnik stopnia złożoności tekstu lub umiejętności użytkownika języka. Istnieje klika sposobów pomiaru różnorodności. Jedną z pierwszych miar opracowanych w celu pomiaru różnorodności leksykalnej był wskaźnik type-token ratio (TTR), czyli liczba typów (unikalnych tokenów) podzielona przez łączną ich liczbę. TTR jest bardzo intuicyjnym wskaźnikiem, ale wrażliwym na długość tekstu, co uniemożliwia porównanie z wykorzystaniem TTR próbek o różnych długościach. W rzeczywistości, im więcej tokenów zawiera tekst, tym więcej powtórzeń już istniejących typów, co powoduje, że TTR skutecznie zmniejsza się wraz ze wzrostem długości tekstu. Innym podejściem zastosowanym przez badaczy w celu zminimalizowania wpływu długości próbki jest linearyzacja. Koncepcyjnie podejście to opiera się na założeniu, że krzywa TTR może być stosunkowo dobrze dopasowana przez krzywą logarytmiczną. Podejście to wykorzystywane jest przy obliczaniu wskaźnika Maas, który jest liczony na podstawie różnicy logarytmów z typów tokenów i ich ogólnej liczby. Zastosowanie w obliczeniach logarytmowania powoduje, iż wskaźnik ten jest mniej wrażliwy na długość wypowiedzi. W celu oceny wpływu wybranych parametrów utworów (energetyczność, akustyczność, czas trwania, data wydania albumu) na różnorodność leksykalną tekstów, w ramach każdej zmiennej dokonano podziału utworów na 4 grupy, oznaczone jako A, B, C i D. Każdorazowo grupa D obejmuje utwory o najniższych wartościach danej cechy, zaś grupa A - najwyższych. W przypadku roku wydania w grupie A znalazły się utwory najmłodsze, zaś w grupie D - najstarsze. Zależność statystyczna między liczbą tokenów (ntoken) oraz wskaźnikiem TTR a daną cechą utworu została określona na podstawie współczynników korelacji rang Spearmana oraz Kendall. Przedstawione w p. 1 i 2 wyniki wskazują na niewielką zależność różnorodności leksykalnej od cech utworu. Dodatkowym parametrem wyznaczonym w przypadku określania różnorodności leksykalnej od długości piosenki jest średnia liczba tokenów na 1 sekundę utworu. Pod tym względem utwory Jacksona odznaczają się wyższymi wartościami.

2.1. Piosenki Jacksona

2.1.1. Wpływ energetyczności

Rys. 31. Wpływ energetyczności na różnorodność leksykalną tekstów piosenek Jacksona

Współczynnik korelacji Spermana dla zależności między energetycznoscią a liczbą tokenów wyniósł 0.1825586 (p-value wynosi 0.004067), natomiast dla zależności między energetycznością a wskaźnikiem TTR -0.1561435 (p-value wynosi 0.0142223).

Współczynnik korelacji Kendalla dla zależności między energetycznością a liczbą tokenów wyniósł 0.1210106 (p-value wynosi 0.0047982), natomiast dla zależności między energetycznością a wskaźnikiem TTR -0.1070212 (p-value wynosi 0.0125539)

2.1.2. Wpływ akustyczności

Rys. 32. Wpływ akustyczności na różnorodność leksykalną tekstów piosenek Jacksona

Współczynnik korelacji Spermana dla zależności między akustycznością a liczbą tokenów wyniósł -0.0855383 (p-value wynosi 0.1811459), natomiast dla zależności między akustycznością a wskaźnikiem TTR 0.081416 (p-value wynosi 0.2031708).

Współczynnik korelacji Kendalla dla zależności między akustycznością a liczbą tokenów wyniósł -0.0582974 (p-value wynosi 0.1741569), natomiast dla zależności między akustycznością a wskaźnikiem TTR 0.0534658 (p-value wynosi 0.2122839)

2.1.3. Wpływ długości utworu

Rys. 33. Wpływ długości utworu na różnorodność leksykalną tekstów piosenek Jacksona

Współczynnik korelacji Spermana dla zależności między czasem trwania a liczbą tokenów wyniósł 0.2043472 (p-value wynosi 0.0012694), natomiast dla zależności między czasem trwania a wskaźnikiem TTR -0.1597813 (p-value wynosi 0.0120919).

Współczynnik korelacji Kendalla dla zależności między czasem trwania a liczbą tokenów wyniósł 0.1353639 (p-value wynosi 0.0016376), natomiast dla zależności między czasem trwania a wskaźnikiem TTR -0.102857 (p-value wynosi 0.0166321)

Rys. 34. Liczba tokenów na sekundę trwania piosenek Jacksona

2.1.4. Wpływ roku wydania albumu

Rys. 35. Wpływ roku wydania albumu na różnorodność leksykalną tekstów piosenek Jacksona

Rys. 36. Wpływ roku wydania albumu na liczbę tokenóW w tekstach piosenek Jacksona

Współczynnik korelacji Spermana dla zależności między rokiem wydania albumu a liczbą tokenów wyniósł 0.1966674 (p-value wynosi 0.0019403), natomiast dla zależności między rokiem wydania a wskaźnikiem TTR -0.1787134 (p-value wynosi 0.0049326).

Współczynnik korelacji Kendalla dla zależności między rokiem wydania albumu a liczbą tokenów wyniósł 0.1341623 (p-value wynosi 0.0020613), natomiast dla zależności między rokiem wydania a wskaźnikiem TTR -0.1225773 (p-value wynosi 0.0048418)

2.2. Piosenki Madonny

2.2.1. Wpływ energetyczności

Rys. 37. Wpływ energetyczności na różnorodność leksykalną tekstów piosenek Madonny

Współczynnik korelacji Spermana dla zależności między energetycznością a liczbą tokenów wyniósł 0.3655922 (p-value wynosi 2.7915271^{-10}), natomiast dla zależności między energetycznością a wskaźnikiem TTR -0.3871397 (p-value wynosi 1.9108185^{-11}).

Współczynnik korelacji Kendalla dla zależności między energetycznoscią a liczbą tokenów wyniósł 0.2489834 (p-value wynosi 5.7229302^{-10}), natomiast dla zależności między energetycznością a wskaźnikiem TTR -0.2638242 (p-value wynosi 4.8602204^{-11})

2.2.2. Wpływ akustyczności

Rys. 38. Wpływ akustyczności na różnorodność leksykalną tekstów piosenek Madonny

Współczynnik korelacji Spermana dla zależności między akustycznością a liczbą tokenów wyniósł -0.2256759 (p-value wynosi 1.3973562^{-4}), natomiast dla zależności między akustycznością a wskaźnikiem TTR 0.3693642 (p-value wynosi 1.770592^{-10}).

Współczynnik korelacji Kendalla dla zależności między akustycznością a liczbą tokenów wyniósł -0.1456448 (p-value wynosi 2.8632432^{-4}), natomiast dla zależności między akustycznością a wskaźnikiem TTR 0.2538256 (p-value wynosi 2.4638856^{-10})

2.2.3. Wpływ długości utworu

Rys. 39. Wpływ długości utworów na różnorodność leksykalną tekstów piosenek Madonny

Współczynnik korelacji Spermana dla zależności między długością utworu a liczbą tokenów wyniósł 0.2505671 (p-value wynosi 2.2164007^{-5}), natomiast dla zależności między długością utworu a wskaźnikiem TTR -0.1981008 (p-value wynosi 8.5876493^{-4}).

Współczynnik korelacji Kendalla dla zależności między długością utworu a liczbą tokenów wyniósł 0.1687058 (p-value wynosi 2.763239^{-5}), natomiast dla zależności między długością utworu a wskaźnikiem TTR -0.1336145 (p-value wynosi 8.8692525^{-4})

Rys. 40. Liczba tokenów na sekundę trwania piosenek Madonny

2.2.4. Wpływ roku wydania albumu

Rys. 41. Wpływ roku wydania albumu na różnorodność leksykalną tekstów piosenek Madonny

Rys. 42. Wpływ roku wydania albumu na liczbę tokenów tekstów piosenek Madonny

Współczynnik korelacji Spermana dla zależności między rokiem wydania albumu a liczbą tokenów wyniósł 0.054952 (p-value wynosi 0.3596138), natomiast dla zależności między rokiem wydania a wskaźnikiem TTR -0.1308694 (p-value wynosi 0.028561).

Współczynnik korelacji Kendalla dla zależności między rokiem wydania a liczbą tokenów wyniósł 0.0350425 (p-value wynosi 0.3918774), natomiast dla zależności między rokiem wydania a wskaźnikiem TTR -0.0840102 (p-value wynosi 0.0398662)

3. Statystyki wyrazów

Na poniższych wykresach przedstawiono najczęściej występujące wyrazy w tekstach piosenek śpiewanych przez Jacksona i Madonnę. W zestawieniu razem najczęściej występujących wyrazów w tekstach piosenek Madonny i Jacksona, gdzie warunkiem koniecznym było wystąpienie wyrazu co najmniej 150 razy, najczęściej występującym słowem jest love. Kolejne słowa według częstości występowania to baby, time, girl, gonna i feel. Jak można zauważyć te same słowa wystąpiły w zestawieniach indywidualnych dla każdego z artystów z osobna.

Rys. 43. Najczęsciej występujace wyrazy w tekstach piosenek Jacksona i Madonny - zestawienie wspólne

Rys. 44. Top 20 najczęsciej występujących wyrazów w tekstach piosenek Jacksona i Madonny

4. Częstotliwość wyrazów

Biorąc pod uwagę liczbę słowo love pojawia się częściej w piosenkach wykonywanych przez Madonnę. Ze względu jednak na to, że analiza obejmuje większą liczbę utworów tej artystki określono częstotliwość użycia poszczególnych wyrazów w stosunku do całości tekstów. Wyniki obliczeń przedstawiono na poniższym wykresie. Słowa znajdujące się blisko linii przerywanej mają podobną częstotliwość w obu zestawach tekstów - dotyczy to m.in love, którego użycie jest częstsze w przypadku piosenek Jacksona. Słowa, które są daleko od linii, to słowa, które występują częściej w jednym zestawie tekstów niż w innym. Przykładowo wyraz shake pojawia się częściej w piosenkach Jacksona , a party - u Madonny. Ilościowo zależność miedzy częstotliwością wyrazów została określona na podstawie współczynników korelacji rang Spearman’a i Kendall’a. Przedstawione wyniki wskazują, iż brak jest podstaw do odrzucenia hipotezy o braku zależności zmiennych. Zależność ta jest jednak umiarkowana.

Rys. 45. Częstotliwość wyrazów w tekstach piosenke Jacksona i Madonny

Współczynnik korelacji Spermana dla zależności między częstotliwością występowania słowa w piosence Jacksoana a częstotliwością występowania tego samego wyrazu w tekstach Madonny wynosi 0.5176463 (p-value wynosi 4.1320784^{-25}). Współczynnik korelacji Kendalla dla tej samej zależności wyniósł 0.372366 (p-value wynosi 4.3120681^{-24}).

5. Częstotliwość terminów i odwrotna częstotliwość dokumentu (tf-idf)

Głównym pytaniem w eksploracji tekstu i przetwarzaniu języka naturalnego jest to, jak określić ilościowo, o czym jest dokument. Czy można to zrobić, patrząc na słowa, które składają się na tekst? Jedną z miar tego, jak ważne może być słowo, jest częstotliwość jego występowania (tf). W poprzednich punktach tego rozdziału określono jak często słowo występuje w piosenkach. W dokumencie są jednak słowa, które pojawiają się wiele razy, ale mogą nie być ważne. Ponadto wiele częstych słów spotkać można zarówno w piosenkach Jacksona, jak i Madonny. Innym podejściem do określenia ważności słowa, od liczenia częstości jego występowania, jest przyjrzenie się odwrotnej częstotliwości dokumentu (idf), która zmniejsza wagę często używanych słów a zwiększa tych, które nie są często używane w zbiorze dokumentów. Można to połączyć z częstotliwością terminu, aby obliczyć tf-idf terminu (dwie wielkości pomnożone razem), częstotliwość terminu skorygowana o to, jak rzadko jest on używany. Statystyka tf-idf ma na celu zmierzenie, jak ważne jest słowo w danym dokumencie, będącym częścią zbioru wielu dokumentów. W przypadku kiedy dany wyraz pojawia się we wszystkich analizowanych zbiorach jego wartość mierzona za pomocą tf-idf jest równa 0.

Rys. 46. Częstotliwość terminów i odwrotna częstotliwość dokumentu (tf-idf) w tekstach piosenek Jacksona i Madonny

Biorąc pod uwagę wartości tf-idf – metodę obliczania wagi słów w oparciu o liczbę ich wystąpień statystyka wyrazów kształtuje się następująco: dla piosenek Micheala Jacksona charakterystyczne wyrazy to: ease, mighty, force i matte. Natomiast dla piosenek Madonny są nimi: bang, bitch, anymore i stupid.

VIII. Wpływ parametrów na rozkład słów

W tej części projektu przedstawiono najczęściej występujące słowa w piosenkach w zależności od cech takich jak: populraność, energetyczność, akustyczność, rok wydania albumu na którym znajduje się dany utwór. Podobnie jak wcześniej w ramach każdej z cech wskazano 4 grupy utworów: A, B, C, D. Grupa A obejmuje utwory o największych wartościach danej cechy (w przypadku roku wydania - albumy najmłodsze), natomiast grupa D - utwory o najmniejszych wartościach danej cechy (albumy najstarsze). Ze względu na różną liczbę piosenek sklasyfikowanych w danej grupie (a co za tym idzie ze względu na różną całkowitą liczbę wyrazów w ich tekstach) rozkład wyrazów został przedstawiony za pomocą częstotliwości występowania w ogólnej liczbie słów z piosenek danej grupy.

1. Piosenki Jacksona

1.1. Słowa w zależności od popularności

Rys. 47. Słowa w zależności od kategorii popularnosci piosenek Jacksona

W przypadku rozkładu słów w oparciu o popularność danego utworu najczęściej występujące słowa to stop, beat i love. Co ciekawe słowo love znalazło się dopiero na trzeciej pozycji w grupie A, czyli najbardziej popularnych utworów. W kolejnych grupach najczęściej występującym słowem jest słowo love. Kolejność następnych wyrazów również się nie zmienia - na kolejnych miejscach znajdują się słowa baby, girl i stop.

1.2. Słowa w zależności od energetyczności

Rys. 48. Słowa w zależności od kategorii energetyczności piosenek Jacksona

W przypadku rozkładu słów w oparciu o energetyczność danego utworu najczęściej występujące słowa w piosenkach Jacksona to love i baby. Słowa te występują na pierwszych pozycjach w kolejnych grupach od A do D. Warto zauważyć, że w przypadku kategorii D (utworów o najmniejszej energetyczności) słowo love pojawia się najczęściej (pond 8%), a wraz ze wzrostem energetyczności piosenek częstotliwość love jest coraz mniejsza (nieco ponad 5% w przypadku utworów najbardziej energetycznych)

1.3. Słowa w zależności od akustyczności

Rys. 49. Słowa w zależności od kategorii akustyczności piosenek Jacksona

W przypadku rozkładu słów w oparciu o akustyczność danego utworu najczęściej występujące słowa to love, body i beat (kategoria A), love, wonna i baby (kategoria B), oraz love, baby i girl (kategoria C i D). We wszystkich kategoriach akustycznosci najcześciej występujacym słowem jest więc love. Wraz ze wzrostem akustyczności częstotliwość użycia tego słowa rośnie

1.4. Słowa w zależności od roku wydania albumu

Rys. 50. Słowa w zależności od roku wydania albumu Jacksona

W przypadku rozkładu słów w oparciu o rok wydania albumu, najczęściej występującymi słowami w albumach najstarszych, czyli wydanych w początkowym okresie kariery Jacksona, są love, baby i girl. W kolejnych latach, aż do najmłodszych albumów (kategoria A) słowo love wraz ze słowem baby również występują najczęściej.

2. Piosenki Madonny

2.1. Słowa w zależności od popularności

Rys. 51. Słowa w zależności od kategorii popularnosci piosenek Madonny

W przypadku rozkładu słów w oparciu o popularność danego utworu najczęściej występujące słowa, w grupie utworów najbardziej popularnych (kategoria A) to erotic, material i slow. Co ciekawe słowo love - podobnie, jak w przypadku najbardziej popularnych utworów Jacksona znalazło się na dalszej pozycji. W kolejnych grupach (od B do D), słowo love znajduje się już na pierwszej pozycji, natomiast na kolejnych pozycjach znajdują się słowa baby, gonna, feel i time oraz wild.

2.2. Słowa w zależności od energetyczności

Rys. 52. Słowa w zależności od kategorii energetyczności piosenek Madonny

W przypadku rozkładu słów w oparciu o energetyczność danego utworu najczęściej występujące słowa w najbardziej energetycznych piosenkach Madonny to love, gonna i baby. W kolejnych zaś grupach od B do D najczęściej występującymi słowami w utworach są love oraz słowa time, baby i feel. Widoczny jest także bardzo duży udział słowa love w piosenkach należących do kategorii C - ponad 10%. Kolejne w tej kategorii słowo według częstotliwościowi występowania - feel ma udział poniżej 2,5%.

2.3. Słowa w zależności od akustyczności

Rys. 53. Słowa w zależności od kategorii akustyczności Madonny

W przypadku rozkładu słów w oparciu o akustyczność danego utworu ponownie najczęściej występującym słowem jest love. Na kolejnych miejscahc znajdują się słowa: feel i erotic (kategoria A), gonna i baby (kategoria B), alive i time (kategoria C) oraz gonna i feel (kategoria D). Podobnie jak w przypadku piosenke Jacksona częstotliowść użycia słowa love w utworach najbardziej aktustycznych jest największa (prawie 9% w tekstach piosenek z kategorii A, przy 5-6% udziale w pozostałych kategoriach). Wynika to z faktu, iż piosenki o dużej akustyczności są utworami spokojnymi, mniej energetycznymi, często balladami opowiadającymi o miłości.

2.4. Słowa w zależności od roku wydania albumu

Rys. 54. Słowa w zależności od od roku wydania albumu Madonny

W przypadku rozkładu słów w oparciu o rok wydania albumu, najczęściej występującymi słowami w albumach najstarszych, czyli wydanych w pierwszych latach kariery Madonny, są si, ven, day i conmigo. Wskazuje to na duże powiązanie pierwszych piosenek z językiem hiszpańskim. W kolejnych latach najczęściej wsypującymi słowami są love, baby, gonna i feel. Warto zwrócić uwagę, że w drugim okresie kariery Madonny częstotliwość użycia słowa love była większa niż w kolejnych latach (piosenki z kategorii A i B).

IX. Analiza tekstów w albumach

Zgonie ze sformułowanym przez amerykańskiego lingwistę George’a Kingsleya Zipfa prawem przy pewnym zbiorze wyrażeń języka naturalnego częstotliwość każdego słowa jest odwrotnie proporcjonalna do jego pozycji w tabeli częstości. Tak więc najczęstsze słowo będzie występować w przybliżeniu dwa razy częściej niż drugie najczęstsze słowo, trzy razy częściej niż trzecie najczęstsze słowo itd. Tak więc zgodnie z prawem Zipfa częstotliwość pojawiania się słowa jest odwrotnie proporcjonalna do jego rangi. Porównanie rozkładu Zipfa obliczonego dla korpusu języka z rozkładem dla danego tekstu pozwala na ocenę stylu autora i jego zrozumiałość przez przeciętnego czytelnika. Czym bardziej rozkład dla analizowanego tekstu jest zgodny z rozkładem ogólnym dla języka, w którym go napisano, tym jest on bardziej zrozumiały dla większości osób posługujących się na co dzień tym językiem Aby sprawdzić, czy założenia prawa są spełnione w analizowanych zbiorach tekstów obejmujących teksty piosenek wchodzących w skład albumów wykonawców sporządzono wykres powstały poprzez wykreślenie rangi na osi x i częstotliwości wyrazu na osi y na skalach logarytmicznych. Wykreślana w ten sposób, odwrotnie proporcjonalna zależność będzie miała stałe, ujemne nachylenie.

W drugiej części tego rozdziału zaprezentowano wartości wskaźnika tf-idf obliczonego dla zbiorów tekstów znajdujących się na poszczególnych albumach. Wysokie wskaźniki tf-idf pozwalają na zidentyfikowanie charakterystycznych dla danego albumu wyrazów, które nie pojawiają się wśród tekstów piosenek umieszczonych na innych albumach.

1. Piosenki Jacksona

1.1. Częstotliwość słów a ich ranking

Rys. 55. Częstotliwość słów tekstów piosenek Jacksona a ich ranking

Analiza zaprezentowanych wykresów wskazuje że zarówno w przypadku albumów Jacksona, jak i Madonny zależności są do siebie podobne i że związek między rangą a częstotliwością ma nachylenie ujemne. Nie jest ono jednak do końca stałe. Odchylenia, które występują na wysokim poziomie rang, nie są rzadkością w przypadku wielu rodzajów języka: korpus językowy często zawiera mniej rzadkich słów niż przewiduje to jedno prawo potęgowe. Bardziej nietypowe są odchylenia na niższych poziomach. Obaj wykonawcy w tekstach swych piosenek używają mniejszego odsetka najpopularniejszych słów niż w przypadku wielu zbiorów językowych napisanych w jezyku angielskim.

1.2. Tf-idf w poszczególnych albumach Jacksona

Rys. 56. Częstotliwość terminów i odwrotna częstotliwość dla albumów Jacksona

Biorąc pod uwagę metodę tf-idf można stwierdzić, iż charakterystycznymi dla poszczególnych albumów Jacksona są następujące słowa:

dla albumu Bad 25th Anniversary sha, hotel i liberian,
dla albumu Dangerous: invincible, white i jam,
dla albumu Forever, Michael: lady, doctor i paradise,
dla albumu HIStory - PAST, PRESENT AND FUTURE - BOOK I: sneddon, tom i lose,
dla albumu Invincible: watts, monster i gangsta,
dla albumu Michael: news, akon i keeping,
dla albumu Off the Wall: force, stop i shake.

2. Piosenki Madonny

2.1. Częstotliwość słów a ich ranking

Rys. 57. Częstotliwość słów tekstów piosenek Madonny a ich ranking

2.2. Tf-idf w poszczególnych albumach Madonny

Rys. 58. Częstotliwość terminów i odwrotna częstotliwość dla albumów Madonny

Biorąc pod uwagę metodę tf-idf można stwierdzić, iż charakterystycznymi dla poszczególnych albumów Madonny są następujące słowa:

dla albumu American Life: hollywood, american i religious,
dla albumu Celebration: material, bang i voce,
dla albumu Erotica: fever, thief i sweeter,
dla albumu Complete Motion Picture Music: rollin, peron i che,
dla albumu Hard Candy: beep, justin i sticky,
dla albumu I’m Breathless: vogue, panky i hanky,
dla albumu MDNA (Deluxe Version): sinner, bang i addicted,
dla albumu Ray of Light: traveling, substitute i swim,
dla albumu Rebel Heart (Deluxe): taste, water i holy.

X. Bigramy i trigramy

Przeprowadzona do tej pory analiza koncentrowała się na słowach jako indywidualnych jednostkach. Jednak wiele interesujących analiz tekstowych opiera się na relacjach między słowami, sprawdzając, które słowa następują po sobie lub które mają tendencję do współwystępowania w tych samych dokumentach. W wyniku przeprowadzenia tokenizacji można uzyskać sekwencje kolejnych słów - zwanych n-gramami. Wiedząc, jak często po słowie X następuje słowo Y, można m.in zbudować model relacji między nimi. Tego typu analiza powoduje, iż zamiast dzielić teksty piosenek na pojedyncze słowa, można podzielić je na grupy, np. dwa słowa, trzy słowa lub więcej. W ten sposób możliwe jest uchwycenie pewnych informacje, których nie można odzwierciedlić w pojedynczych słowach. Metoda, która dzieli słowa na grupy, jest ogólnie nazywana analizą „n-gramową”. W przypadku dwóch słów jest to analiza 2-gramowa lub bigramowa, a przy trzech nazywa się to analizą 3-gramową lub trigramową.

1. Piosenki Jacksona

W tej części projektu w postaci tabeli oraz chmury słów przedstawiono najczęściej występujące w piosenkach Jacksona bigramy -czyli wyrażenia składające się z dwóch następujących po sobie. Aby lepiej poznać kontekst słowa love które jest najczęściej występującym słowem zarówno w tekstach Jacksona, jak i Madonny w tabeli 15 przedstawiono 10 wyrazów najczęściej występujących bezpośrednio po love, natomiast w tabeli 16 - 10 najczęstszych wyrazów poprzedzających love w tekstach Jacksona. W drugiej części tego rozdziału projektu - w podobnym układzie zaprezentowano wyniki analizy bigramów w tekstach piosenek Madonny.

1.1. Bigramy w tekstach Jacksona

**Tab. 14. Bigramy w tekstach piosenek Jacksona**
word1	word2	n
stop	til	76
blue	gangsta	50
mighty	body	48
body	language	46
honey	love	45
dirty	diana	44
cry	cry	36
baby	baby	32
heartbreak	hotel	28
real	real	28

Rys. 59. Chmura słów dla bigramów tekstów piosenek Jacksona

Najczęstsze bigramy w tekstach Jacksona to stop til, blue gangsta (blue gangster- potoczne określenie osoby, która ma negatywne doświadczenia w związkach i związane z tym problemy z zaufaniem drugiej osobie w miłości), mighty body oraz body language, występujące ponad 45 razy. Pierwszy bigram zawierający słowo miłość honey love pojawia się na piątym miejscu pod względem częstości. Częstymi bigramami są także powtórzenia tych samych słów, jak cry, cry czy baby, baby.

1.2. Bigramy z “love” u Jacksona

**Tab. 15. 10 wyrazów najczęściej występujacych po *love* w piosenkach Jacksona**
word2	n
dance	20
girl	15
love	15
sugar	12
billie	10
baby	8
honey	8
power	8
farewell	7
begin	6
sweeter	6

**Tab. 16. 10 wyrazów najczęściej poprzedzajacych *love* w piosenkach Jacksona**
word1	n
honey	45
makin	16
love	15
real	14
stop	14
baby	12
candy	12
sugar	12
stay	8
sweet	8

Wyrazy najczęściej występujące po słowie love u Jacksona to dance, girl oraz love.

Słowo love zdecydowanie najczęściej bo aż 45 razy poprzedza wyraz honey. Większość z najczęstszych bigramów z słowem love ma zabarwienie pozytywne

2. Piosenki Madonny

1.1. Bigramy w tekstach Madonny

**Tab. 17. Bigramy w tekstach piosenek Madonny**
word1	word2	n
love	love	128
bang	bang	42
erotic	erotic	38
tao	gostoso	38
wild	dance	34
tick	tock	31
forbidden	love	30
bye	bye	28
ho	water	27
human	nature	25

Rys. 60. Chmura słów dla bigramów tekstów piosenek Madonny

W tekstach Madonny najczęstsze bigramy zawierają powtórzenia tych samych słów, szczególnie słowa love. Wśród częstych bigramów pojawia się tão gosto - hiszpański odpowiednik angielskiego so good, co wskazuje na pojawiające się u Madonny wtrącenia do anglojęzycznych piosenek zwrotów latynoskich.

1.2. Bigramy z “love” u Madonny

**Tab. 18. 10 wyrazów najczęściej występujacych po *love* w piosenkach Madonny**
word2	n
love	128
hurt	16
parade	12
spent	12
gonna	11
anymore	10
forbidden	10
song	10
burning	6
inside	5

**Tab. 19. 10 wyrazów najczęściej poprzedzajacych *love* w piosenkach Madonny**
word1	n
love	128
forbidden	30
true	24
feel	12
future	8
hurt	8
gonna	6
guilt	6
real	5
sin	5

Słowa najczęściej występujące przed lub po słowie love mają u Madonny w porównaniu do tekstów Jacksona zabarwienie nieco bardziej negatywne, np. hurt, forbidden czy guilt.

3. Trigramy

W niektórych analizach ważne może być określenie najczęstrzych trygramamów, które są sekwencjami 3 kolejnych słów. Przedstawione poniżej wyniki analizy trigramów wskazują na to, że w najczęstszych trigramach u obojga artystów podobnie jak w bigramach, często pojawiają się powtórzenia tych samych słów lub fraz. Wynika to z faktu, iż zwroty tego typu często pojawiają się w refrenach piosenek - stąd też ich największa czestotliwość spośród wszytskich trigramów.

Trigramy w piosenkach Jacksona

**Tab. 20. Najczęstrze trigramy w piosenkach Jacksona**
word1	word2	word3	n
mighty	mighty	body	26
body	mighty	body	22
bad	bad	real	18
bad	real	real	18
body	language	shake	18
cry	cry	cry	18
mighty	body	shake	18
real	real	bad	18
baby	baby	baby	12
can’t	stop	lovin	12
candy	love	sugar	12
dawn	makin	love	12
love	sugar	love	12
stop	til	break	12
won’t	stop	til	12

Trigramy w piosenkach Madonny

**Tab. 21. Najczęstrze trigramy w piosenkach Madonny**
word1	word2	word3	n
love	love	love	96
rollin	rollin	rollin	23
bang	bang	shot	21
body	erotic	erotic	19
beep	beep	gotta	16
starlight	star	bright	16
wild	dance	wild	15
dance	wild	dance	14
tick	tock	tick	14
tock	tick	tock	14
candy	perfume	girl	13
wanna	die	happy	13
baby	true	love	12
infinity	infinity	infinity	12
peace	peace	peace	12
stay	stay	darlin	12

4. Analiza sieci dla bigramów

Za pomocą n-gramów możliwe jest połączenie ze sobą słowów na wykresie, tworząc wykres sieciowy. To kolejny sposób na wizualizację 2 gramów i relacji między słowam. Konstrukcja sieci możliwa jest dzieki wysteępowaniu trzech zmiennych:

from: węzeł, z którego pochodzi krawędź - jest nim pierwszy wyraz tworzący bigram,
to: węzeł, do którego zmierza krawędź- jest nim drugi wyraz z bigramu,
waga: wartość liczbowa powiązana z każdą krawędzią - wynika z częstości występowania bigramu.

Do wygenerowania sieci użyto zestawu danych z rozdzielonymi słowami po usunięciu stopwords. Dla lepszej prezentacji wybrano pary słów, które mają co najmniej 10 wystąpień. Wygenerowana dla piosenek Jackosna sieć składa się z 64 węzłów (słów) i 57 połączeń. Sieć utworzona na podstawie bigramów z tekstów Madonny składa się natomiast z 82 węzłów i 63 połączeń. Średnia liczba stopni wierzchołka dla sieci Jacksona jest równa 1.78, natomiast w przypadku Madonny jest ona równa 1.54. Gęstość sieci Jacksona liczona z pętlami wynosi 0.0139, natomiast liczona bez pętli 0.0141. W przypadku sieci Madonny wartości te wynoszą odpowiednio 0.00936 i 0.00948. W przypadku sieci Jacksona aktorami z największą liczbą powiązań są: love (6 stopni - 5 “in”, 1, “out” ), reala (6 stopni - 2 “in”, 4 “out”), stop (5 stopni - 0 “in”, 5 “out”), bad (4 stopnie - 2 “in”, 2 “out”). W sieci stworzonej na podstawie bigramów występujących w piosenkach Madonny aktorami z największą liczbą powiązań są: love (9 stopini - 4 “in”, 5 “out”), dance (5 stopni - 2 “in”, 3 “out”).

4.1. Sieć dla bigramów Jacksona

Rys. 61. Sieć powiązań utworzona na podstawie bigramów z tekstówpiosenek Jacksona

4.2. Sieć dla bigramów Madonny

Rys. 62. Sieć powiązań utworzona na podstawie bigramów z tekstów piosenek Madonny

XI. Analiza współwystępowania

1. Współwystępowanie słowa “love” z innymi wybranymi słowami

Przeprowadzona do tej pory analiza koncentrowała koncentrowała się bądź na pojedynczych słowach piosenek, bądź na sekwencjach słów występujących po sobie - czyli bigramów lub trigramów. Kolejnym etapem analizy jest konkordancja. W analizie tekstu konkordancja odnosi się do wyodrębniania słów z danego tekstu lub tekstów. Zwykle konkordancje są wyświetlane w postaci słowa kluczowego w kontekście (KWIC), gdzie wyszukiwane hasło jest wyświetlane z pewnym poprzedzającym i następującym kontekstem. Tego typu podejście jest pomocne przy sprawdzaniu, w jaki sposób analizowany termin jest używany w danych, przy sprawdzaniu, jak często wyraz występuje w tekście lub zbiorze tekstów, przy wydobywaniu przykładów, a także stanowi podstawową procedurę i często pierwszy krok w bardziej wyrafinowanej analizie danych językowych. Ze względu na to, iż zarówno w piosenkach Jacksoona, jak i Madonny najczęściej występującym słowem jest love do analizy współwystępowania wybrano właśnie to słowo. Jako słowa występujące w kontekście przyjęto 3 wyrazy występujące bezpośrednio przed i po love - nie wliczając do tej grupy stopwords. Poniżej przedstawiono częstotliwość występowania wybranych słów w kontekście słowa love. Wyniki obliczeń współwystępowania w kontekście słowa love z innymi często występującymi słowami z piosenek (baby, girl, honey, real, goodbye, stop, forbidden, hurt, cry) została zaprezentowana w postaci wykresu sieciowego. U obojga artystów love najczęściej współwystępuje ze słowem baby: u Jacksona 28 razy a u Madonny aż 35 razy. Ponadto u Jacksona słowo love częściej niż u Madonny pojawia się w kontekście słów real i stop. Natomiast u Madonny, w przeciwieństwie do piosenek Jacksona love nie pojawia się ze w kontekście słowa sweet.

1.1. W piosenkach Jacksona

## [1] "Liczba słów <love> w kontekście słowa <baby>"

## [1] 28

## [1] "Liczba słów <love> w kontekście słowa <sweet>"

## [1] 12

## [1] "Liczba słów <love> w kontekście słowa <stop>"

## [1] 14

## [1] "Liczba słów <love> w kontekście słowa <real>"

## [1] 26

Rys. 63. Sieć powiązań współwystępowania słowa love z innymi wybranymi słowami z tekstów piosenek Jacksona

1.2. W piosenkach Madonny

## [1] "Liczba słów <love> w kontekście słowa <baby>"

## [1] 35

## [1] "Liczba słów <love> w kontekście słowa <sweet>"

## [1] 0

## [1] "Liczba słów <love> w kontekście słowa <stop>"

## [1] 7

## [1] "Liczba słów <love> w kontekście słowa <real>"

## [1] 15

Rys. 64. Sieć powiązań współwystępowania słowa love z innymi wybranymi słowami z tekstów piosenek Madonny

2. Korelacja par słów - obliczenia Fi kwadrat

Tokenizacja według n-gramów to przydatny sposób na eksplorację par sąsiednich słów. Interesująca może być jednak analiza słów, które mają tendencję do współwystępowania w obrębie poszczególnych tekstów piosenek, nawet jeśli nie występują obok siebie. Jednym ze sposobów przeprowadzenia tego typu analizy jest określenie współczynnika korelacji między słowami, która wskazuje, jak często dane dwa słowa pojawiają się razem, w stosunku do tego, jak często pojawiają się osobno. W szczególności do tego celu może być wykorzystany współczynnik phi - wspólna miara korelacji binarnej. Celem obliczenia współczynnika phi jest wskazanie tego, o ile bardziej prawdopodobne jest, że zarówno słowa X, jak i Y pojawią się razem lub żadne z nich się nie pojawi, niż to, że jedno pojawia się bez drugiego. Przedstawia to poniższa tabela

	Ma słowo Y	Brak słowa Y	Całkowity
Ma słowo X	n11	n10	n1.
Brak słowa X	n01	n00	n0.
Całkowity	n.1	n.0	n

W odniesieniu do tej tabeli współczynnik phi może zostać obliczony jako: \[ \phi = \frac{n11 n00 - n10n01}{\sqrt{n1. n0.n.0n.1}} \] Tabela 22 i 23 przedstawia pary słów o największych współczynników korelacji dla piosenek Jacksona i Madonny. W piosenkach Jacksona najwyższy współczynnik korelacji (>0.5) maja zwroty: mighty language, dirty diana i dance floor. Natomiast u Madonny najwyższą korelacje (0.7) ma zwrot tao gostoso (ang. so good).

Zamieszczone poniżej tabeli wykresy przedstawiają wyniki analizy współwystępowania opartej o współczynniki korelacji dla czterech najczęściej występujących w tekstach wyrazów baby, girl, love, time. Slowa skorelowane z tymi czterema najczęściej występującymi w tekstach wyrazami są w większości inne u obu artystów.

Ostatnim etapem przeprowadzonej analizy współwystępowania była konstrukcja sieci, pozwalającej na wizualizację ogólnego wzorca korelacji. W przeciwieństwie do sieci skonstruowanej na podstawie bigramów, relacje tutaj są symetryczne, a nie kierunkowe (nie ma strzałek). Tworząc sieć powiązań między wyrazami uwzględniono jedynie te powiązania dla których współczynnik korelacji jest większy od 0,25. Średnia liczba stopni wierzchołka dla sieci Jacksona jest równa 1.43, natomiast w przypadku Madonny jest ona równa 1.42. Gęstość sieci Jacksona liczona z pętlami wynosi 0.0408, natomiast liczona bez pętli 0.042. W przypadku sieci Madonny wartości te wynoszą odpowiednio 0.0368 i 0.0378. W przypadku sieci Jacksona aktorami z największą liczbą powiązań są: dance (5 stopni), rhytm (3 stopnie), rock (3 stopnie). W sieci stworzonej dla piosenek Madonny aktorami z największą liczbą powiązań są: erotic (3 stopnie), bang (3 stopnie), music (3 stopnie), dance (3 stopnie), party (3 stopnie).

2.1. W piosenkach Jacksona

**Tab. 22. Współczynniki korealacji dla słów z piosenek Jacksona**
item1	item2	correlation
language	mighty	0.7041909
mighty	language	0.7041909
diana	dirty	0.5713748
dirty	diana	0.5713748
floor	dance	0.5332528
dance	floor	0.5332528
body	move	0.5043151
move	body	0.5043151
ease	diana	0.4917012
diana	ease	0.4917012
verse	chorus	0.4544318
chorus	verse	0.4544318
rhythm	floor	0.4447832
floor	rhythm	0.4447832
children	people	0.4443334
people	children	0.4443334

Rys. 65. Słowa piosenek Jacksona najsilniej skorelowane z baby, girl, love, time

Rys. 66. Sieć słów utworzona na podstawie współczynników korealacji słów w piosenkach Jacksoan

2.1. W piosenkach Madonny

**Tab. 23. Współczynniki korealacji dla słów z piosenek Madonny**
item1	item2	correlation
gostoso	tao	0.7057912
tao	gostoso	0.7057912
erotic	wild	0.4399585
wild	erotic	0.4399585
girl	boy	0.3946201
boy	girl	0.3946201
erotic	pain	0.3756621
pain	erotic	0.3756621
music	dance	0.3756354
dance	music	0.3756354
body	music	0.3613720
music	body	0.3613720
game	play	0.3584118
play	game	0.3584118
bang	bitch	0.3401710
bitch	bang	0.3401710

Rys. 67. Słowa piosenek Madonny najsilniej skorelowane z baby, girl, love, time

Rys. 68. Sieć słów utworzona na podstawie współczynników korealacji słów w piosenkach Madonny

XII. Reguły asocjacji

Analiza bigramów i korelacja par mówią o tym, jak pary słów są ze sobą powiązane. Analiza może jednak również dotyczyć tego, jak więcej niż jedno słowo jest powiązane z innymi słowami. Można to zbadać za pomocą metody zwanej Analiza koszyków rynkowych MBA, w której można zidentyfikować reguły asocjacji. W tym celu należy przekonwertować dane tekstowe do formatu danych transakcyjnych. Przed konwersją danych usunięte zostały bardzo rzadkie terminy, w wyniku czego pozostało w sumie 376 słów w zbiorze Jacksona i 370 w zbiorze Madonny. Rzadkość obu macierzy wyniosła 94%. Podstawowe informacje o macierzy transakcji dla piosenek Jacksona to:

łączna liczba itemsów (unikalnych słów) wynosi 376 pozycji,
najczęściej wśród transakcji pojawiają się następujące itemsy (słowa): love (w 167 transakcjach), baby (111), time (110) i girl (97),
średnio w transakcjach (piosenkach) występują 22 itemsów (unikalnych wyrazów), zaś mediana wynosi 21.

W przypadku macierzy piosenek Madonny charakterystyka macierzy transakcji przedstawia się następująco:

łączna liczba itemsów jest równa 370,
najczęściej pojawiającymi się słowami są: love (w 166 transakcjach), time (w 101), feel (w 94) i heart (w 86),
średnio w jednej transakcji występuje 22 itemsów, zaś mediana jest równa 21.

W sposób graficzny występowanie itemsów w poszczególnych pierwszych 100 transakcjach zostało przedstawione na rys. 69 i rys. 70. Na poniższych wykresach w postaci kwadratu oznaczono, występowanie w danej transakcji(tekście piosenki) słowa (itemsu).

Rys. 69. Występowanie itemsów (wyrazów) w 100 pierwszych transakcjach - tekstach piosenek Jacksona

Rys. 70. Występowanie itemsów (wyrazów) w 100 pierwszych transakcjach - tekstach piosenek Madonny

1. Reguły asocjacji w tekstach Jacksona

Poszukując reguł asocjacji w analizowanych danych transakcyjnych należy określić minimalne parametry, jakie muszą one spełniać. Do tych parametrów należą: wsparcie reguły (support), czyli odsetek transakcji zawierających analizowaną regułę w całym zbiorze oraz poziom ufności (confidence), czyli odsetek transakcji zawierających analizowaną regułę w zbiorze tych, które spełniają poprzednik danej reguły. Dla analizowanych danych przyjęto następujące minimalne poziomy:

poziom wsparcia (support) = 0,05,
poziom ufności (confidence) = 0,60,
długości = 2.

Dla tak określonych kryteriów w zbiorze danych transakcyjnych obejmujących teksty piosenek Jacksoan 529 reguł. Poniżej przedstawiono miary (s - support, c - confidence) dla wybranych reguł zawierajacych słowo love:

{feel, baby, time} => {love} s: 0.07755102 c: 0.8636364,
{girl, baby, heart} => {love} s: 0.10204082 c: 0.9259259,
{baby, time, world} => {love} s: 0.08163265 c: 0.9523810,
{girl, world} => {love} s: 0.12244898 c: 1.0000000,
{eye, time} => {love} s: 0.11020408 c: 0.9310345,
{kiss} => {love} s: 0.09387755 c: 1.0000000,
{cry} => {love} s: 0.17142857 c: 0.7241379.

Rozkład reguł ze względu na ich poziom wsparcia i ufności został przedstawiony na rys. 71. Rysunek 72 przedstawia w postaci grafu 15 reguł asocjacji wedlug najwyższego poziomu confidence. Centralnym punktem na wykresie, czyli wyrazem wspólnym dla większości z tych reguł jest love.Parametr lift (przyrost) określa, czy fakt wystąpienia jednego itemu (slowa) wpływa na zwiększenie prawdopodobieństwa wystąpienia drugiego w ramach jednej transakcji (tekstu piosenki).

Rys. 71. Wykres punktowy dla reguł asocjacji w piosenkach Jacksona- min. support = 0,05, min confidence = 0,6

Rys. 72. Graf dla reguł asocjacji w piosenkach Jacksona- według największego poziomu confidence

2. Reguły asocjacji w tekstach Madonny

Przyjmując te same wartości minimalne dla parametrów opisujących jakość reguł asocjacji, w przypadku danych transakcyjnych obejmujących teksty piosenek Madonny zaledwie 124 reguły. Poniżej przedstawiono miary dla wybranych reguł:

{gonna, time, feel} => {love} s: 0.05535055 c: 0.7894737,
{gonna, heart} => {love} s: 0.07011070 c: 0.9047619,
{heart, start} => {love} s: 0.05904059 c: 0.9411765,
{heart, baby} => {love} s: 0.08856089 c: 0.8571429,
{heart, feel} => {love} s: 0.10332103 c: 0.8750000,
{feel} => {love} s: 0.23616236 c: 0.6808511,
{heart} => {love} s: 0.23985240 c: 0.7558140.

Rozkład reguł ze względu na ich poziom wsparcia i ufności został przedstawiony na rys. 73, natomiast na rys. 74 w postaci grafu zilustrowano 15 reguł asocjacji według największego poziomu confidence. Centralnym punktem na wykresie, czyli wyrazem wspólnym dla większości z tych reguł jest love.

Rys. 73. Wykres punktowy dla reguł asocjacji w piosenkach Madonny- min. support = 0,05, min confidence = 0,6

Rys. 74. Graf dla reguł asocjacji w piosenkach Jacksona- według największego poziomu confidence

XIII. Grupowanie słów na podstawie częstotliwości ich występowania

We wcześniejszych etapach pracy celem analizy były dwa lub trzy następujące po sobie słowa (analiza za pomocą ngramów), skojarzenia dowolnych dwóch słów (analiza korelacji) oraz reguły asocjacji dla relacji między słowami. W tej części opracowania zostaną przedstawione wyniki analizy dotyczące tego w jaki sposób słowa łączą się w grupę. Podstawą tego typu analiz jest pomiar bliskość słów. Jednym ze sposobów mierzenia odległości jest określenie częstotliwości każdego słowa dla wszystkich tekstów piosenek. W efekcie uzyskiwana jest macierz danych ze słowami w kolumnach i częstotliwością w wierszach, będąca podstawą obliczeń odległości pary słów. Otrzymana w ten sposób macierz dla piosenek Jacksona ma wymiar 245 X 618 z czego jedynie 6029 rekordów ma wartość różną od 0, a 96% ma wartość 0. W przypadku piosenek Madonny utworzona macierz ma wymiar 271 x 796. Odsetek pozycji zawierającej 0 wynosi 97%. Jedynie 7309 elementów macierzy ma wartości nie-zerowe. Z tego też względu w dalszej analizie skupiono się jedynie na często używanych słowach. W szczególności usunięto słowa, które mają co najmniej rzadkość 0,8, co oznacza, że dla 80% tekstów piosenek słowa te nie zostały użyte. W efekcie w przypadku tekstów Jacksona analiza dotyczy 15 najczęściej występujących słów, zaś dla tekstów Madonny - 11. Rzadkość utworzonych w ten sposób macierzy wynosi 67% (dla Jacksona) i 69% (dla Madonny). Grupowanie słów zostało przeprowadzone za pomocą hierarchicznej analizy skupień wykorzystując do pomiaru odległości odległość euklidesową. Na kolejnych etapach łączenia odległość między skupieniami została obliczona na podstawie metody najdalszych sąsiadów. Wyniki analizy w postaci dendrogramów zostały przedstawione poniżej.

Inną metodą grupowania jest metoda k-średnich. Reprezentuje ona grupę algorytmów niehierarchicznych. Główną różnicą pomiędzy niehierarchicznymi i hierarchicznymi algorytmami jest konieczność wcześniejszego podania liczby skupień. Do określenia najlepszej liczby skupień można zastosować wiele metod. W niniejszej analizie wykorzystano metodę opartą o wariancję. Dla każdej podanej liczby skupień obliczono, ile wariancji danych można wyjaśnić grupowaniem. Procent wyjaśnienia zazwyczaj będzie się zwiększać wraz z liczbą klastrów. Jednak w pewnym momencie wzrost zwalnia - punkt ten wybierany jest jako optymalna liczba skupień. Z rys. 76 wynika, że właściwa liczba skupień w przypadku piosenek Jacksona wynosi 4, zaś dla utworów Madonny 2 (rys. 79). Wizualizacja w przestrzeni dwuwymiarowej wydzielonych skupień została przedstawiona na rys. 77 (dla Jacksona) i rys. 80 (dla Madonny).

Porównując wyniki grupowania słów piosenek obojga artystów, z zastosowanie obu metod, można stwierdzić ze słowo love w obu przypadkach tworzy osobna jednoelementowa grupę. Natomiast wyrazy należące do ostatniej najbardziej licznej grupy są bardzo podobne u Jacksona i Madonny np. w obu grupach występują: baby, heart, feel, time, world i day.

1. W piosenkach Jacksona

Rys. 75. Dendrogram dla słów w piosenkach Jacksona

Rys. 76. Procent wyjaśnionej wariancji w zależności od liczby skupień - piosenki Jacksoana

Rys. 77. Grupowanie słów występujacych w piosenkach Jacksona - metoda k-średnich

2. W piosenkach Madonny

Rys. 78. Dendrogram dla słów w piosenkach Madonny

Rys. 79. Procent wyjaśnionej wariancji w zależności od liczby skupień - piosenki Madonny

Rys. 80. Grupowanie słów występujacych w piosenkach Madonny - metoda k-średnich

XIV. Analiza tematów

W tej części projektu zostaną przedstawione wyniki analizy tematów. Została ona przeprowadzona z wykorzystaniem dwóch metod: utajonej alokacji Dirichleta (LDA)oraz modelowania tematycznego strukturalnego (STM)

1. Ukryta alokacja Dirichleta (LDA)

Utajona alokacja Dirichleta (LDA) jest szczególnie popularną metodą dopasowywania modelu tematycznego. Traktuje każdy dokument jako mieszankę tematów, a każdy temat jako mieszankę słów. Dzięki temu dokumenty „nakładają się” na siebie pod względem treści, a nie są dzielone na odrębne grupy w sposób, który odzwierciedla typowe użycie języka naturalnego. LDA kieruje się on dwiema podstawowymi zasadami:

każdy dokument to mieszanka tematów występujących w określonych proporcjach. Na przykład w modelu dwutematycznym można powiedzieć: „Dokument 1 to w 90% temat A i 10% temat B, podczas gdy Dokument 2 to w 30% temat A i 70% temat B”,
każdy temat to mieszanka słów.

Modelowanie tematów polega więc na wyszukiwaniu podobnych tematów w różnych dokumentach i grupowaniu razem różnych słów, tak aby każdy temat składał się ze słów o podobnym znaczeniu. W matematycznym ujęciu LDA jest modelem probabilistycznym, który przypisuje słowu wynik probabilistyczny najbardziej prawdopodobnego tematu, do którego potencjalnie może on należeć.

Podstawą analizy jest DTM (document term matrix), czyli macierz zawierająca terminy i dokumenty jako wymiary. W dalszej kolejności należny wskazać liczbę tematów jakie mają być wyszczególnione w ramach analizowanej biblioteki. Do oceny najlepszej liczby tematów na jakie można podzielić teksty piosenek Jacksona i Madonny wykorzystano wskaźniki koherencji. Wskazuje on, czy słowa z tego samego tematu mają sens, gdy są ze sobą połączone. Tym samym daje możliwość oceny jakości tworzonych tematów. Wyższy wynik dla określonej liczby k, oznacza to, że dla każdego tematu będzie więcej powiązanych słów razem i temat będzie miał większy sens. Istnieje kilka różnych typów wyniku koherencji, z których dwa najpopularniejsze to c_v i u_mass. C_v jest dokładniejszy, podczas gdy u_mass jest szybszy. W tej części analizy jako wskaźnik oceny koherencji wybrano c_v, który waha się od 0 do 1, gdzie 1 to doskonale spójne tematy. Wyniki obliczeń wskaźników koherencji dla k od 1 do 30 zostały przedstawione w postaci graficznej na rys. 81 i rys. 83. Na tej podstawie zarówno dla zbioru tekstów Jacksona, jak i Madonny jako najlepszą liczbę tematów wybrano 29. Zgodnie z założeniami LDA, każdy temat składa się z wielu słów. Prawdopodobieństwo występowania konkretnego słowa w danym temacie określane jest jako \(\beta\) Na rys. 82 i rys. 84 przedstawiono najbardziej prawdopodobne słowa występujące w danych tematach wyodrębnionych z tekstów piosenek Jacksona i Madonny. Analiza tych słów wskazuje na to, że niektóre z związane są z kilkoma tematami, innym może być jednak kontekst ich użycia. Oprócz szacowania każdego tematu jako mieszanki słów, LDA modeluje również każdy dokument jako mieszankę tematów. Możliwe jest przy tym określenie prawdopodobieństwa przypisana każdego dokumentu do określonego tematu, zwane jako \(\gamma\). Piosenki o najwyższych wartościach prawdopodobieństwa \(\gamma\) zostały zamieszczone w tab. 24 i tab. 25.

1.1. Piosenki Jacksona

Rys. 81. Wskaźnik koherencji w zależności od liczby tematów - piosenki Jacksona

Rys. 82. Najbardziej prawdopodobne słowa zwiażane z poszczególnymi tematami piosenek Jaksona

**Tab. 24. Pioseki Jacksona o największym prawdopodobieństwie przypisania do tematu**
document	topic	gamma
smile	20	0.9973512
la-la means i love you	10	0.9967121
whatzupwitu	4	0.9966053
that’s how love is	25	0.9965681
love is here & now you’re gone	21	0.9962611
you rock my world	12	0.9961929
this is it	26	0.9959728
heartbreak hotel	1	0.9956963
love’s gone bad	1	0.9956058
different kind of lady	17	0.9955433
push me away	4	0.9953790
you were there	14	0.9953790
you can cry on my shoulder	9	0.9953099
wait	6	0.9951652
didn’t mean to hurt you	11	0.9951652

1.2. Piosenki Madonny

Rys. 83. Wskaźnik koherencji w zależności od liczby tematów - piosenki Madonny

Rys. 84. Najbardziej prawdopodobne słowa zwiażane z poszczególnymi tematami piosenek Madonny

**Tab. 25. Pioseki Madonny o największym prawdopodobieństwie przypisania do tematu**
document	topic	gamma
4 minutes (feat, justin timberlake & timbaland)	21	0.9961520
american life	25	0.9956911
beat goes on (feat, kanye west)	23	0.9966840
candy shop	13	0.9973299
come alive	9	0.9960462
crazy	22	0.9964813
faz gostoso (feat, anitta)	14	0.9972795
future	3	0.9954885
girl gone wild (offer nissim remix)	28	0.9956586
god control	26	0.9969314
holy water	28	0.9960732
human nature	9	0.9955921
it’s so cool	12	0.9965238
living for love	24	0.9957857
medellin feat, maluma	3	0.9959631
possesive love	10	0.9966647
the lady’s got potential	27	0.9962764
true blue	24	0.9959912
what the woman feels	1	0.9955921
wild dancing	28	0.9960462

2. Modelowanie tematyczne strukturalne

Strukturalny model tematyczny (STM) to forma modelowania tematów pozwalająca włączyć metadane do modelu i odkryć, w jaki sposób różne dokumenty mogą mówić o tym samym podstawowym temacie przy użyciu różnych słów. Zgodnie z założeniami LDA:

tematy w dokumencie są od siebie niezależne - oznacza to, że wiedza, iż dokument 1 ma temat 1, nie daje żadnej informacji, czy dokument 1 ma także tematy 2, 3 itd,
rozkład słów w ramach tematu (tj. treści tematu) jest stacjonarny, co oznacza, że temat 1 dla dokumentu 1 używa identycznych słów jak temat 1 dla dokumentu 2, 3 itd,
tematy można modelować w całości na podstawie tekstu dokumentu, nie bierze się pod uwagę żadnych innych informacji (autor, data, źródło).

Powyższe ograniczenia nie dotyczą STM, które pozwala między innymi na korelacje między tematami. Podobnie jednak jak w przypadku LDA podstawą obliczeń jest wstępne określenie liczby tematów w zbiorze tekstów. Nie istnieje jedna metoda wskazująca, jaka jest optymalna ich liczba. Można wziąć pod uwagę dwa kryteria, aby zdecydować o liczbie tematów K, które powinny zostać wygenerowane:

dopasowanie statystyczne,
interpretowalność tematów.

Należy zauważyć, że statystyczne dopasowanie i interpretacja tematów nie zawsze idą w parze. Opierając się na tych kryteriach, można dojść do różnych rozwiązań dotyczących tego, ile tematów wydaje się „dobrym” wyborem. Na przykład badania pokazują, że modele z dobrym dopasowaniem statystycznym są często trudne do interpretacji dla ludzi i niekoniecznie zawierają istotne tematy.

Wybór optymalnej liczby tematów w tekstach piosenek oparto na trzech kryteriach: spójności semantycznej, wyłączności tematów i resztach:

spójność semantyczna: informuje o tym, jak spójne są tematy, tj. jak często cechy opisujące temat współwystępują i w związku z tym tematy wydają się być wewnętrznie spójne,
Wyłączność: informuje o tym, jak ekskluzywne są tematy, tj. jak bardzo różnią się od siebie, a zatem tematy wydają się opisywać różne rzeczy,
reszty to różnice między obserwowanymi a przewidywanymi wartościami danych. Reszta 0 oznacza, że temat idealnie przybliża treść artykułu, więc im niższa reszt, tym lepiej.

Wynik obliczeń, (przyjmując za k wartości ze zbioru {4,6,8,10,15,20,25,30}) dotyczących wyboru najlepszej liczby tematów zostały przedstawione na rys. 85 (dla Jacksoan) i rys. 87 (dla Madonny). Analizując wykresy można stwierdzić, że spójność tematów maleje, wraz ze wzrostem liczby tematów. Z kolei wyłączność tematów wzrasta wraz ze wzrostem liczby tematów. Najniższy poziom reszt występuje natomiast dla k = 10 lub 15. Biorąc pod uwagę powyższe obliczenia jako liczbę tematów w modelu STM dla tekstów Jackosona przyjęto k = 15, zaś dla Madonny k = 20. Na rys. 86 i rys. 89 przedstawiono natomiast najbardziej prawdopodobne słowa występujące w poszczególnych tematach. Podobnie jak w przypadku analizy LDA zaobserwować można występowanie tych samych wyrazów w różnych tematach. Rozkład prawdopodobieństw dokumentów dla każdego tematu wskazuje jednak, że dla prawie każdego tematu można wskazać teksty o dużym prawdopodobieństwie przynależności. Oznacza to, że przy zastosowanym podziale uniknięto wyodrębnienia tematów, które byłyby jedynie tłem dla innych głównych tematów.

2.1. Piosenki Jacksona

Rys. 85. Wskaźniki oceny podziału tekstów Jacksona na liczbę tematów

Rys. 86. Lista najbardziej prawdopodobnych słów dla poszczególnych tematów piosenek Jacksona

2.2. Piosenki Madonna

Rys. 87. Wskaźniki oceny podziału tekstów Madonny na liczbę tematów

Rys. 88. Lista najbardziej prawdopodobnych słów dla poszczególnych tematów piosenek Madonny

XV. Analiza sentymentu

1. Ogólna ocena sentymentu

Jednym ze sposobów analizy sentymentu tekstu jest potraktowanie tekstu jako kombinacji jego poszczególnych słów, a wymiar sentymentalny całego tekstu jako sumy treści tonacji poszczególnych jego słów. Istnieje wiele metod i słowników służących do oceny opinii lub emocji w tekście. W niniejszej analizie wykorzystano trzy z nich:

AFINN - opracowany przez Finna Årupa Nielsena,
bing od Bing Liu i współpracowników,
NRC pochodzacy od Saifa Mohammada i Petera Turneya.

Wszystkie trzy z tych leksykonów oparte są na unigramach. TZawierają one wiele angielskich wyrazów, którym przypisuje się punkty za pozytywne/negatywne uczucia, a także prawdopodobnie emocje, takie jak radość, złość, smutek i tak dalej. Leksykon NRC dzieli słowa na klasy pozytywne, negatywne, złość, oczekiwanie, wstręt, strach, radość, smutek, zaskoczenie i zaufanie. Leksykon bing kategoryzuje słowa w sposób binarny na kategorie pozytywne i negatywne. Leksykon AFINN przypisuje słowa z wynikiem od -5 do 5, przy czym wyniki ujemne wskazują na sentyment negatywny, a wyniki pozytywne wskazują na sentyment pozytywny. Podejście oparte na założeniu, iż ogólna ocena sentymentu całego tekstu wynika z sumy wartości sentymentu przypisywanej do poszczególnych jego wyrazów może budzić zastrzeżenia, wynikające z faktu, że rozmiar fragmentu tekstu, który używany jest do dodawania wyników sentymentu unigramu, może mieć wpływ na wyniki analizy. Tekst o rozmiarze wielu akapitów może często mieć pozytywne i negatywne nastroje uśrednione do około zera, podczas gdy tekst o rozmiarze zdania lub akapitu wskazać może różnorodność nastrojów w danym tekście. W niniejszym opracowaniu jako podstawową jednostkę do analizy sentymentu przyjęto cały tekst poszczególnych piosenek. W tab. 26 i tab. 27 przedstawiono - obliczone na podstawie słownika AFINN (uwzględnia wyrazy pozytywne i negatywne,którym przypisywane są wartości od -5 do 5) - najbardziej pozytywne i negatywne piosenki Jacksona, natomiast w tab. 28 i tab. 29 Madonny. Najbardziej negatywną piosenką Jacksona jest piosenka Bad. Wysoka negatywna ocena tego utworu wynika przede wszystkim z wielokrotnie powtarzanego (16 razy) w refrenie słowa Bad, którego wartość negatywna według słownika AFINN wynosi -3. Z podobnego powodu wynika wysoka pozytywna wartość utworu Madonny, It’s so cool w którym w każdym refrenie powtarzany jest cztery razy zwrot: We need love (love, love, love, love, love). Zarówno w przypadku utworów Jackosona (rys. 89), jaki i Madonny (rys. 92) najwięcej piosenek ma wartość sentymentu bliską 0.

1.1. Piosenki Jacksona

Tab. 26. Najbardziej pozytywne piosenki Jacksona według słownika *AFIN*
title	popularity	sentiment
stranger in moscow	59	193
beautiful girl	11	114
honey love	15	114
slave 2 the rythm (feat. justin bieber)	54	114
ease on down the road	47	98
wait	28	98
who is looking for a lover	27	97
heaven knows i love you girl	19	79
jump for joy	22	77
fly away	41	71

Tab. 27. Najbardziej negatywne piosenki Jacksona według słownika *AFIN*
title	popularity	sentiment
bad	29	-266
2 bad	47	-197
maria (you were the only one)	39	-63
it is scary	32	-59
whatzupwitu	33	-50
dirty diana	65	-41
privacy	41	-41
the young folks	15	-41
leave me alone	60	-32
don’t stop ’til you get enough	77	-25
maybe tomorrow	33	-25
that’s how love is	13	-25

Rys. 89. Ocena sentymentu piosenek Jacksona według słownika AFINN

Porównanie analizy sentymentu przeprowadzonej na podstawie różnych bibliotek

Ocena sentymentu zależy nie tylko od sposobu podziału tekstu na fragmenty, które podlegają oceny, ale także od wybranego słownika, na podstawie którego dokonywana jest ocena. Wymienione w p. 1 słowniki różnią się nie tylko sposobem oceny sentymentu, ale przede wszystkim liczbą słów, które zostały w nich uwzględnione. Przykładowo w słowniku AFINN uwzględniono prawie 2.500 słów, podczas gdy w słownik bing wymienia ich ponad 6.700. Z tego też względu w pracy dokonano porównania oceny sentymentu sporządzonej na podstawie wszystkich trzech wykorzystywanych słowników. Wyniki w postaci graficznej przedstawiono na rys. 90 i 91 (dla piosenek Jacksona) oraz rys. 93 i 94 (dla utworów Madonny). W zależności od porównywanych ze sobą bibliotek współczynnik korelacji rang Spearmana wyniósł od 0,69 do 0,76 (dla piosenek Jacksona) oraz od 0,67 do 0,70 (dla piosenek Madonny). Trzy różne leksykony do obliczania sentymentu dają wyniki, które są różne w sensie bezwzględnym, ale mają podobne rozkłady. Podobne spadki i szczyty nastrojów obserwujemy w mniej więcej tych samych miejscach, ale wartości bezwzględne znacznie się różnią. Leksykon AFINN podaje największe wartości bezwzględne, z wysokimi wartościami dodatnimi. Leksykon Bing et al. ma niższe wartości bezwzględne i wydaje się oznaczać większe bloki ciągłego tekstu pozytywnego lub negatywnego.

Rys. 90. Porównanie oceny sentymentu piosenek Jacksona według 3 słowników

Rys. 91. Współczynniki korealcji rang Spearman’a dla oceny piosenek Jacksona według 3 bibliotek

1.2. Piosenki Madonny

Tab. 28. Najbardziej pozytywne piosenki Madonny według słownika *AFIN*
title	popularity	sentiment
it’s so cool	11	371
true blue	63	158
come alive	43	124
holiday	63	117
forbidden love (bedtime stories)	49	105
dress you up	53	100
to love you	2	90
heaven	44	88
justify my love	51	86
stay	35	82

Tab. 29. Najbardziej negatywne piosenki Madonny według słownika *AFIN*
title	popularity	sentiment
gang bang	32	-160
bitch i’m madonna (feat. nicki minaj)	30	-142
human nature	47	-72
thief of hearts	35	-66
crazy	64	-65
give it 2 me	45	-62
unapologetic bitch	42	-52
best friend	20	-48
get stupid	8	-42
trust no bitch	3	-40

Rys. 92. Ocena sentymentu piosenek Madonny według słownika AFINN

Porównanie analizy sentymentu przeprowadzonej na podstawie różnych bibliotek

Rys. 93. Porównanie oceny sentymentu piosenek Madonny według 3 słowników

Rys. 94. Współczynniki korealcji rang Spearman’a dla oceny piosenek Madonny według 3 bibliotek

2. Ocena sentymentu poszczególnych albumóW

Analiza sentymentu poszczególnych piosenek Jackosona i Madonny umożliwia dokonania oceny sentymentu poszczególnych albumów. Wartość te stanowi sumę ocen uzyskanych przez utwory wydane na danym albumie. Wyniki obliczeń przedstawiono na rys. 95 i rys. 96. Przedstawione wyniki wskazują na to, że w przypadku albumów Jacksona wszystkie z nich mają wyraźny wydźwięk pozytywny. Natomiast albumy Madonny odznaczają się większym zróżnicowaniem oceny sentymentu. Wśród 9 analizowanych albumów ocena jednego (MDNA) jest ujemna, a dwa pozostała mają wartość sentymentu bliską 0. Ponadto zauważyć można iż albumy Madonny mają niższe wartości sentymentu w porównaniu z albumami Jacksona.

2.1. Albumy Jacksona

Rys. 95. Ocena sentymentu dla albumów Jacksona

2.2. Albumy Madonny

Rys. 96. Ocena sentymentu dla albumów Madonny

3. Analiza emocji

Leksykony AFINN i Bing są dość ograniczone jeśli chodzi o bardziej szczegółową ocenę nastroju tekstu. Dostarczają bowie one jedynie binarnego sentymentu - poszczególne wyrazy klasyfikowane są albo jako pozytywne, albo jako negatywne. Z kolei leksykon nrc pozwala na podzielenie słów na osiem dodatkowych kategorii emocjonalnych: radość, oczekiwanie, zaufanie, zaskoczenie, smutek, złość, wstręt i strach. W tej części użyto wizualizacji w postaci wykresu radarowego, aby zobaczyć, jak teksty Jacksona i Madonny zebrane według albumów układają się nawzajem pod względem tych ośmiu emocji. Skala przedstawia procent słów w korpusie połączonych z nrc, które należą do określonej kategorii emocjonalnej. Słowa mogą należeć do więcej niż jednej kategorii, ale ponieważ jest to uwzględnione w zbiorze danych, suma wartości procentowych jednego albumu wynosi 100. Te profile nastrojów wyraźnie pokazują, że w przypadku wszystkich albumów Jacksona dominującym nastrojem jest radość. Potwierdza to tym samym wniosek ze wcześniejszej analizy, wskazujący, iż wszystkie analizowane albumy tego wykonawcy mają wydźwięk pozytywny. Pod względem oceny emocjonalnej bardziej zróżnicowane są natomiast albumy Madonny, wśród których Hard candy i Evita ma wysoki odsetek słów związanych z oczekiwaniem, natomiast MDNA ze gniewem, smutkiem i strachem.

3.1. Albumy Jacksona

Rys. 97. Wykres radarowy oceny emocji albumów Jacksoana według biblioteki nrc

3.2. Albumy Madonny

Rys. 98. Wykres radarowy oceny emocji albumów Madonny według biblioteki nrc

4. Najczęstsze słowa pozytywne i negatywne

W tej części projektu w postaci wykresu oraz chmury słów przedstawione zostały najczęstsze pozytywne i negatywne słowa występujące w piosenkach Jacksoana i Madonny. Do analizy wykorzystano słownik bing. Następnie - na podstawie występujących w tekstach piosenek wyrazów pozytywnych i negatywnych określono ich udział w stosunku do całości wyrazów z danego tekstu (po wyeliminowaniu stopwords). Otrzymano w ten sposób wskaźnik udziałów słów pozytywnych/negatywnych w piosence.

Zarówno w piosenkach Jacksona jak i Madonny zdecydowanie najczęstsze pozytywne słowo to love. Do najczęstszych słów zakwalifikowanych jako negatywne u Jacksona należą bad, cry, shake i lose, a u Madonny fall, hard, cry i wild. W tej klasyfikacji widać słabość metody określania sentymentu wypowiedzi na podstawie pojedynczych słów, gdyż w zależności od kontekstu słowa te mogą być też nacechowane pozytywnie. Z dalszej analizy wynika, ze album Jacksona o największym udziale słów negatywnych to 2Bad, a stosunkowo najwięcej słów pozytywnych występuje w albumie Beautiful girl. U Madonny jako najbardziej negatywnie nacechowane analiza wskazała albumy Pretender i Burning up. Najwięcej słów pozytywnych zawiera natomiast album It’s so cool.

4.1. Piosenki Jacksona

Rys. 99. Najczęstrze pozytywne i negatywne słowa występujace w piosenkach Jacksona

Rys. 100. Chmura słów pozytywnych i nagatywnych w piosenkach Jacksona

**Tab. 30. Albumy Jacksona o największym udziale słów negatywnych**
title	negativewords	words	ratio
2 bad	73	112	0.6517857
breaking news	32	60	0.5333333
rock with you	32	60	0.5333333
bad	90	190	0.4736842
privacy	54	120	0.4500000
i am a loser	35	84	0.4166667
you are not alone	35	84	0.4166667
maybe tomorrow	17	42	0.4047619
al capone	20	55	0.3636364
jam	29	82	0.3536585

**Tab. 31. Albumy Jacksona o największym udziale słów pozytywnych**
title	positivewords	words	ratio
beautiful girl	38	47	0.8085106
love is here & now you're gone	28	57	0.4912281
trouble	28	57	0.4912281
heaven knows i love you girl	29	60	0.4833333
greatest show on earth	15	32	0.4687500
i can only give you love	25	54	0.4629630
much too soon	25	54	0.4629630
who is looking for a lover	38	87	0.4367816
happy	23	54	0.4259259
speed demon	23	54	0.4259259

4.2. Piosenki Madonny

Rys. 101. Najczęstrze pozytywne i negatywne słowa występujace w piosenkach Madonny

Rys. 102. Chmura słów pozytywnych i nagatywnych w piosenkach Madonny

**Tab. 32. Albumy Madonny o największym udziale słów negatywnych**
title	negativewords	words	ratio
pretender	50	91	0.5494505
burning up	44	91	0.4835165
oh father	11	26	0.4230769
guilty by assocation	6	15	0.4000000
beautiful scars	17	44	0.3863636
i’m so stupid	16	42	0.3809524
bitch i’m madonna (feat. nicki minaj)	47	126	0.3730159
best friend	33	89	0.3707865
fever	44	119	0.3697479
love tried to welcome me	26	72	0.3611111

**Tab. 33. Albumy Madonny o największym udziale słów pozytywnych**
title	positivewords	words	ratio
it’s so cool	125	165	0.7575758
survival	29	51	0.5686275
to love you	29	52	0.5576923
i feel love	19	36	0.5277778
angel	25	52	0.4807692
beautiful scars	20	44	0.4545455
future lovers	32	72	0.4444444
amazing	15	34	0.4411765
heaven	43	99	0.4343434
nobody’s perfect	18	42	0.4285714

XVI. Analiza sentymentu - bigramy

Podstawą dotychczas przeprowadzonej analizy sentymentu był pojedyncze wyrazy występuje w tekście. Podejście takie nie uwzględnia kontekstu pojawiających się w wypowiedzi słów, wynikającego choćby z faktu zaprzeczenia jakiemuś twierdzeniu, które samo w sobie jest pozytywne. Z tego też powodu niektóre algorytmy analizy sentymentu wykraczają poza unigramy (tj. pojedyncze słowa), aby spróbować zrozumieć sentyment zdania jako całości. Jednym z najprostszych rozwiązań jest rozwiązanie uwzględniające zmianę ogólnej oceny wyrazu w wyniku jego zaprzeczenia. W tekstach często pojawiają się słowa zaprzeczenia, które mogą nadać pojedynczemu słowu przeciwne znaczenie. Na przykład „dobry” jest ogólnie pozytywnym słowem, ale „nie-dobry” jest negatywny. Z tego też względu należy zmienić kierunek sentymentu dla tych wyrazów, które poprzedzone są słowami negatywnymi. Poniżej przedstawiono listę słów zidentyfikowanych jako zaprzeczenia: “no”, “not”, “never”, “dont”, “don’t”, “cannot”, “can’t”, “won’t”, “wouldn’t”, “shouldn’t”, “aren’t”, “isn’t”, “wasn’t”, “weren’t”, “haven’t”, “hasn’t”, “hadn’t”, “doesn’t”, “didn’t”, “mightn’t”, “mustn’t”. Wykonując analizę sentymentu na bigramach, można sprawdzić, jak często słowa związane z sentymentem są poprzedzone słowem „nie” lub innymi słowami przeczącymi. W tab. 34 i tab. 35 przedstawiono bigramy, które w największym stopniu przyczyniają się do zmiany oceny tekstu. Wkład poszczególnego bigramu w zmianę oceny sentymentu wynika z częstości jego występowania oraz wartości pozytywnej, bądź negatywnej, jaka jest przypisana wyrazowi głównemu w słowniku AFINN. Przykładowo dla tekstów Jacksona największy wkład w korektę wartości sentymentu ma bigram don’t stop, występujący łącznie 134 razy. Ze względu na to, że wyraz stop ma przypisaną w słowniku AFINN wartość -1, korekta dla tego bigramu wyniosła łącznie +134, co oznacza, że o tyle zwiększona została ogółem ocena sentymentu wszystkich piosenek Jacksona. Na rys. 103 i rys. 105 przedstawiono zanegowane słowa, które miały największy wpływ na zmianę wartości sentymentu, zarówno w kierunku pozytywnym, jak i negatywnym. W przypadku tekstów Jacksona w największym stopniu do obniżenia ogólnej oceny sentymentu przyczyniło się zanegowanie wyrazu help, zaś do zwiększenia oceny sentymentu - negacja stop. W przypadku Madonny zwiększenie oceny sentymentu poprzez uwzględnienie bigramów w największym stopniu wynikało także z negacji stop. Natomiast do obniżenie oceny sentymentu w największym stopniu wynikało z negacji want. Na rys. 104 i rys. 106 przedstawiono porównanie oceny sentymentu przeprowadzonej na podstawie pojedynczych wyrazów (oś X) i bigramów (oś Y). Zaobserwować możne, że jedynie w pojedynczych przypadkach dokonana korekta - wynikająca z zaprzeczeń - spowodowała zmianę oceny tekstu piosenki. Położenie większości punktów zbliżone jest do linii czerwonej, poprowadzonej pod kątem 45 oznaczającej brak zmiany oceny.

1. Zaprzeczenia w bigramach

1.1. Piosenki Jacksona

**Tab. 34. Bigramy z tekstów Jacksona, których wkład w korektę oceny sentymentu jest największy**
word1	word2	value	n	contribution
don’t	stop	-1	134	134
can’t	help	2	20	-40
can’t	win	4	10	-40
no	no	-1	33	33
wouldn’t	help	2	16	-32
no	damn	-4	7	28
don’t	want	1	23	-23
don’t	care	2	11	-22
can’t	fake	-3	6	18
no	good	3	6	-18

Rys. 103. Słowa poprzedzone negacją, które miały największy wpływ na zmianę wartości sentymentu - piosenki Jacksona

Rys. 104. Porównanie oceny sentymentu dla pojedyńczych wyrazów (oś X) i bigramów z zaprzeczeniem (oś Y)- piosenki Jacksona

1.2. Piosenki Madonny

**Tab. 35. Bigramy z tekstów Madonny, których wkład w korektę oceny sentymentu jest największy**
word1	word2	value	n	contribution
don’t	want	1	55	-55
not	happy	3	15	-45
no	bitch	-5	9	45
not	like	2	20	-40
don’t	care	2	19	-38
not	sorry	-1	36	36
not	afraid	-2	16	32
don’t	stop	-1	28	28
no	regret	-2	14	28
wasn’t	lost	-3	9	27

Rys. 105. Słowa poprzedzone negacją, które miały największy wpływ na zmianę wartości sentymentu - piosenki Madonny

Rys. 106. Porównanie oceny sentymentu dla pojedyńczych wyrazów (oś X) i bigramów z zaprzeczeniem(oś Y)- piosenki Madonny

2. Powtarzanie tych samych słów w bigramach

Przeprowadzona wcześniej ocena sentymentu bazująca na występowaniu pojedynczych słów będących nośnikiem emocji pozytywnych, bądź negatywnych wskazała, że wielokrotne powtarzanie tego samego wyrazu w tekście może znacznie przyczynić się do jego oceny sentymentalnej. Dotyczy to przede wszystkim tych tekstów, w których słowa pozytywne/negatywne występują w refrenach i są powtarzane dla utrzymania melodii. Z tego też względu w tej części pracy dokonano korekty oceny sentymentu polegającej na nieuwzględnianiu w ocenie tych słów, które stanowią powtórzenie wcześniej występującego słowa. Wyniki w postaci wykresów zostały przedstawione na rys. 107 i rys. 108. Widać wyraźnie, że zarówno w przypadku najbardziej negatywnego utworu Jacksona, jak i najbardziej pozytywnego tekstu Madonny ich wartości sentymentu znacznie zmieniły się po zastosowaniu opisanej poprawki.

2.1. Piosenki Jacksona

Rys. 107. Porównanie oceny sentymentu dla pojedyńczych wyrazów (oś X) i bigramów z powtórzeniem wyrazu (oś Y)- piosenki Jacksona

2.2. Piosenki Madonny

Rys. 108. Porównanie oceny sentymentu dla pojedyńczych wyrazów (oś X) i bigramów z powtórzeniem wyrazu (oś Y)- piosenki Madonny

XVII. Analiza sentymentu na podstawie Natural Language Understanding IBM

Dotychczas przeprowadzona analiza sentymentu ograniczona była do oceny tekstu jedynie na podstawie występowania określonych wyrazów (ewentualnie par wyrazów), którym przypisano wartości pozytywne i negatywne. Ocena końcowa była jedynie prostą sumą wartości przypisywanych wyrazom - bez uwzględnienia kontekstu zdania. Przedstawione w poprzedniej części wyniki wskazują, iż uwzględnienie w ocenie zaprzeczeń nie zmienia w sposób znaczący oceny całego tekstu. Z tego też względu do oceny sentymentu analizowanych piosenek wykorzystano chmurę obliczeniową IBM Watson Natural Language Understanding. Jest to rozwiązanie do przetwarzania języka naturalnego, które udostępnia takie funkcje, jak dostosowane spostrzeżenia, ekstrakcja metadanych, analiza tekstu, kategoryzacja danych, identyfikacja koncepcji wysokiego poziomu i analiza sentymentu. NLU wykorzystuje głębokie uczenie do wydobywania różnego typu informacji z tekstu, w tym m.in analizy sentymentu oraz nasycenia emocjonalnego. Wynikiem końcowym analizy sentymentu jest sentiment score - wyskalowany wskaźnik sentymentu przyjmujący wartości od -1 (dla tekstów negatywnych) do +1 (dla tekstów pozytywnych). Dodatkowo w wyniku przeprowadzanych analiz określany jest procent wskazujący jaka część tekstu ma wydzwięk emocjonalny: związany ze smutkiem, radością, strachem, wstrętem bądź złością. Na poniższym wykresie przedstawiono krzywe gęstości dla oceny sentymentu NLU tekstów piosenek Jacksoana i Madonny. Wynika z nich, podobnie jak w przypadku wcześniejszych analiz, iż piosenki Jacksoana są bardziej pozytywne. Najwięcej z nich według oceny sentymentu NLU uzyskała wynik 0,4, podczas gdy w przypadku piosenek Madonny najwięcej z nich otrzymało ocenę -0,4.

Rys. 109. Ocena sentymentu piosenek Madonny i Jacksona według IBM Natural Language Understending

1. Ocena sentymentu piosenek na podstawie IBM

W tej części projektu przedstawiono porównanie oceny sentymentu dokonanej z wykorzystaniem chmury obliczeniowej IBM (sentiment scor) z oceną sentymentu z wykorzystaniem słowników R. Wyniki porównania zostały przedstawione w postaci graficznej macierzy korelacji rang Spearmana. Wynika z niej, iż w przypadku oceny utworów Jacksona istnieje niska zależność między ocenami - wartość współczynnika korelacji wynosi ~0,3. Natomiast w przypadku tekstów piosenek Madonny współczynnik korelacji między oceną IBM a oceną z wykorzystaniem słowników R wynosi prawie 0,5. Potwierdzeniem niskiej zależności między sposobami oceny sentymentu są dane zamieszczone w tab. 36-37 i tab. 38-39 przedstawiające najbardziej pozytywne i negatywne piosenki Jacksoana i Madonny według oceny IBM. Porównując te tabele z tab. 25-28 przedstawiającymi tego samego typu oceny na podstawie słownika AFIN można stwierdzić, iż w przypadku Jacksona tylko w 2 przypadkach prezentowane tytuły pokrywają się ze sobą. Oznacza to, ze w pierwszych 10 najbardziej pozytywnych i negatywnych piosenek według oceny IBM znalazły się po 2 utwory z pierwszych dziesiątek wydzielonych na podstawie słownika R. Jeszcze gorzej wygląda w przypadku tekstów Madonny, gdzie w pierwszej 10 najbardziej pozytywnych i negatywnych piosenek według oceny IBM znalazło się tylko po 1 utworze z list ustalonych na podstawie R.

1.1. Piosenki Jacksona

**Tab. 36. Najbardziej pozytywne piosenki Jacksona według IBM NLU**
title	sentiment.score
trouble	0.6758435
wondering who	0.6748983
people make the world go round	0.6731048
burn this disco out	0.6702949
a place with no name	0.6668899
love is here & now you're gone	0.6535887
hold my hand	0.6493060
song groove (aka abortion papers)	0.6399755
just a little bit of you	0.6255710
that’s how love is	0.6189254

**Tab. 37. Najbardziej negatywne piosenki Jacksona według IBM NLU**
title	sentiment.score
maria (you were the only one)	-0.7022047
it’s great to be here	-0.6927197
la-la means i love you	-0.6879202
billie jean	-0.6872829
heartbreaker	-0.6827286
workin’ day and night	-0.6686503
didn’t mean to hurt you	-0.6596743
on the line	-0.6547040
things i do for you	-0.6546351
lisa it’s your birthday	-0.6512638

Rys. 110. Współczynniki korealcji rang Spearman’a dla oceny piosenek Jacksona według 3 bibliotek R i IBM Natural Language Understending

1.2. Piosenki Madonny

**Tab. 38. Najbardziej pozytywne piosenki Madonny według IBM NLU**
title	sentiment.score
i don’t search i find	0.7125387
justify my love	0.6640775
can’t stop	0.6519306
i feel love	0.6399553
lucky star	0.6394122
superstar	0.6389184
future lovers	0.6316927
dear jessie	0.6299942
stay	0.6180772
forbidden love	0.5678935

**Tab. 39. Najbardziej negatywne piosenki Madonny według IBM NLU**
title	sentiment.score
heartbeat	-0.7329772
faz gostoso (feat. anitta)	-0.6985287
human nature	-0.6701005
a new argentina	-0.6584293
cry baby	-0.6583743
partido feminista	-0.6488338
some girls	-0.6361425
oh what a circus	-0.6341235
ghosttown	-0.6326155
hung up	-0.6285508

Rys. 111. Współczynniki korealcji rang Spearman’a dla oceny piosenek Madonny według 3 bibliotek R i IBM Natural Language Understending

2. Słowa w zależności od emocji w piosenkach

Chmura obliczeniowa IBM, poza określeniem ogólnego nastroju tekstu (ocenianego na podstawie sentiment score) pozwala również na określenie jego ładunku emocjonalnego. Ocena emocji prezentowana jest w postaci udziału w tekście następujących typów emocji: smutku, radości, strachu, wstrętu i złością. W przypadku analizowanych tekstów piosenek dominującymi emocjami były: radość i smutek. Dla tych dwóch typów emocji wskazano najczęściej występujące w tekstach piosenek wyrazy. Wyniki analizy zostały zaprezentowane na rys. 112 (dla Jacksona) i rys. 113 (dla Madonny). Prezentowane wyniki wskazują, iż w przypadku utworów Jackosona wiele z wyrazów, które znalazły się w tekstach, których głównym nastrojem była radość znalazły się także jako główne w tekstach z dominującym nastrojem smutku. Do tego typu słów zalicza się m.in love, baby, girl, stop. Pewnym zaskoczeniem może być to, iż w grupie najczęściej występujących słów w piosenkach radosnych znalazło się słowo bad, które jednocześnie nie występuje w grupie najczęstszych słów w piosenkach smutnych. Podobnie także w przypadku tekstów Madonny zaobserwować można, iż wiele z najczęściej niewstępujących wyrazów w tekstach radosnych występuje często w tekstach smutnych. Zarówno bowiem w przypadku Madonny, jak i Jacksona prezentowane na wykresach słowa należą do grupy najczęściej następujących słów w tekstach ogółem. Potwierdza to tym samym, iż analiza sentymentu i ocena emocjonalnego tekstu - oparta tylko i wyłącznie na pojedynczych wyrazach - obarczona jest błędem wynikającym z nieuwzględniania kontekstu całego zdania. Słowo love, baby, girl mogą równie często występować w tekstach radosnych, jak i pozytywnych - a ocena, czy dana wypowiedź jest pozytywna, czy też negatywna będzie zależała od tego jakie inne słowa pojawia się w wypowiedzi.

2.1. Piosenki Jacksona

Rys. 112. Najczęsciej występujące słowa w piosenkach Jacksona ocenianych przez IBM Natural Language Understending jako radosne i smutne

2.2. Piosenki Madonny

Rys. 113. najczęsciej występujące słowa w piosenkach Madonny ocenianych przez IBM Natural Language Understending jako radosne i smutne

XVIII. Wnioski

Przeprowadzona analiza podobieństwa warstwy muzycznej i tekstowej piosenek Jacksona i Madonny pozwala na sformułowanie następujących wniosków:

na poziomie warstwy muzycznej piosenki Jacksona odznaczają się większą głośnością, akustycznością, żywotnością, wartościowością. Natomiast w piosenkach Madonny większa jest instrumentalność i długość ich trwania,
według chwilowego rankingu popularności Spotify piosenki Jacksona są bardziej popularne,
u obu wykonawców obserwuje się dużą dodatnią zależność między zmiennymi energetyczność a głośność oraz dużą ujemną zależność między energetycznością i akustycznością,
zaobserwować można duże zróżnicowanie warstwy muzycznej poszczególnych albumów obu piosenkarzy,
najczęściej występujący wyraz w tekstach piosenek obu wykonawców to love. Zaobserwować również można duże podobieństwo w liście najbardziej popularnych słów z piosenek Jacksona i Madonny,
rozkład długości użytych wyrazów u obu artystów jest do siebie podobny, a zależność między wskaźnikami różnorodności leksykalnej a parametrami audio piosenek są małe,
w najbardziej popularnych piosenkach Jacksona i Madonny najczęściej występującym słowem nie jest love,
wraz ze wzrostem energetyczności piosenek częstotliwość love jest coraz mniejsza, natomiast wraz ze wzrostem akustyczności - rośnie,
zarówno w przypadku albumów Jacksona, jak i Madonny zależności między rangą a częstotliwością słów ma nachylenie ujemne. Nie jest ono jednak do końca stałe i wykazuje niewielkie odchylenia od rozkładu zgodnego z prawem Zipfa,
przeprowadzona na podstawie bigramów analiza słów najczęściej występujących przed lub po słowie love wskazuje na to, iż u Madonny w porównaniu Jacksona słowa te mają zabarwienie nieco bardziej negatywne,
inny wydzwięk słowa love w tekstach Madonny potwierdza również analiza kontekstowa - u Madonny, w przeciwieństwie do piosenek Jacksona love nie pojawia się ze w kontekście słowa sweet. Pojawia się ono natomiast w kontekście słowa forbidden, z którym love nie współwystępuje w tekstach Jacksona,
zarówno w przypadku tekstów Jacksona, jak i Madonny analiza trigramów nie przynosi wielu informacji - w większości są to bowiem powtarzane w refrenach te same wyrazy, bądź zwroty,
na duże znaczenie słowa love w twórczości obu artystów wskazuje analiza sieci sporządzonej na podstawie bigramów, w której love jest wierzchołkiem o największej liczbie stopni,
teksty piosenek Madonny są mniej do siebie podobne, w porównaniu z tekstami Jacksona - znaleźć w nich można dużo mniej reguł asocjacji, a poziom ufności żadnej z nich nie wyniósł 1.0,
konstrukcja reguł asocjacji potwierdza dużą częstość użycia słowa love - prawie wszystkie reguły z 15 reguł o największej ufności zawierało to słowo,
porównując wyniki grupowania słów piosenek obojga artystów, można stwierdzić ze słowo love w obu przypadkach tworzy osobną jednoelementową grupę. Natomiast wyrazy należące do ostatniej najbardziej licznej grupy są bardzo podobne u Jacksona i Madonny,
na podstawie analizy tematów z zastosowaniem metody LDA i STM zaobserwować można występowanie tych samych wyrazów w różnych tematach. Rozkład prawdopodobieństw dokumentów dla każdego tematu wskazuje jednak, że dla prawie każdego można wskazać teksty o dużym prawdopodobieństwie przynależności,
analiza sentymentu wskazuje na to, że najwięcej utworów Jacksona i Madonny ma wydźwięk neutralny, a ich ogólna ocena przeprowadzona na podstawie słownika AFINN jest bliska 0,
ogólna ocena nastroju tekstów piosenek nie zależy od zastosowanej biblioteki - W zależności od porównywanych ze sobą bibliotek współczynnik korelacji rang Spearmana wyniósł od 0,69 do 0,76 (dla piosenek Jacksona) oraz od 0,67 do 0,70 (dla piosenek Madonny),
w przypadku wszystkich albumów Jacksona dominującym nastrojem jest radość. Potwierdza to tym samym wniosek ze wcześniejszej analizy, wskazujący, iż wszystkie analizowane albumy tego wykonawcy mają wydźwięk pozytywny. Pod względem oceny emocjonalnej bardziej zróżnicowane są natomiast albumy Madonny, wśród których Hard candy i Evita ma wysoki odsetek słów związanych z oczekiwaniem, natomiast MDNA ze gniewem, smutkiem i strachem,
zarówno w piosenkach Jacksona jak i Madonny zdecydowanie najczęstsze pozytywne słowo to love,
rozszerzenie analizy sentymentu na bigramy - uwzględniając występowanie zaprzeczeń - nie spowodowało dużych zmian w ogólnej ocenie nastroju tekstów piosenek. Natomiast zarówno w przypadku najbardziej negatywnego utworu Jacksona, jak i najbardziej pozytywnego tekstu Madonny ich wartości sentymentu znacznie zmieniły się po uwzględnieniu korekty wynikajacej z występowania w ramach bigramów tych samych wyrazów pozytywnych bądź negatywnych,
ocena nastroju tekstu przeprowadzona na podstawie pojedynczych wyrazów znacznie różni się od oceny przeprowadzonej na podstawie całego tekstu z wykorzystaniem chmury obliczeniowej i sztucznej inteligencji - w przypadku oceny utworów Jacksona zależność między ocenami, wyrażona przez współczynnik korelacji wynosi ~0,3. Natomiast w przypadku tekstów piosenek Madonny wynosi on prawie 0,5,
duże różnice w ocenie wynikają z faktu, iż pojedynczy wyraz nie może być podstawą oceny nastroju całego tekstu. Wiele z wyrazów, które znalazły się w tekstach, których głównym nastrojem była radość znalazły się także jako główne w tekstach z dominującym nastrojem smutku. Do tego typu słów zalicza się m.in love, baby, girl, stop.

Reasumując można stwierdzić, iż pod względem muzycznym obaj artyści nieznacznie różnią się. Ich teksty są jednak do siebie podobne - przede wszystkim, jak wiele innych piosenek - są o miłości. Sposób opisu tej miłości jest jednak nieco inny u Jacksona, niż u Madonny - dla której miłość to nie tylko baby i sweet, ale także hurt, forbidden i erotic.

Analiza porównawcza warstwy muzycznej i tekstowej piosenek Michaela Jacksona i Madonny

Magdalena Osińska, Marcin Bukowski, Michał Makowski

24 czerwiec 2022

I. Cel projektu

II. Analiza zmiennych ilościowych

1. Średnia, odchylenie standardowe, wsp. zmienności

2. Zbadanie normalności rozkładu zmiennych

2.1. Dla utworów Jacksona

2.2. Dla utworów Madonny

III. Analiza rozkładu zmiennych

1. Wykresy gęstości dla wszystkich parametrów ilościowych

2. Porównanie poszczególnych zmiennych

2.1. Taneczność

2.2. Energetyczność

2.3. Klucze

2.4. Głośność

2.5. Mówienie

2.6. Akustyczność

2.7. Instrumentalność

2.8. Żywotność

2.9. Wartościowość

2.10. Tempo

2.11. Popularność

3. Rozkład zmiennych po wyeliminowaniu obserwacji odstających

IV. Analiza zależności między zmiennymi ilościowymi

1. Korelacja dla cech utworów Jacksona

2. Korelacja dla cech utworów Madonny

V. Analiza cech audio na poziomie albumów

1. Albumy Jacksona

1.1. Krzywe gęstości

1.2. Średnie w zależności od albumu

1.2.1. Taneczność

1.2.2. Energetyczność

1.2.3. Akustyczność

1.2.4. Wartościowość

1.2.5. Popularność

2. Albumy Madonny

2.1. Krzywe gęstości

2.2. Średnie w zależności od albumu

2.2.1. Taneczność

2.2.2. Energetyczność

2.2.3. Akustyczność

2.2.4. Wartościowość

2.2.5. Popularność

VI. Tokenizacja

1. Piosenki Jacksona

2. Piosenki Madonny

VII. Różnorodność leksykalna

1. Długość słów w piosenkach Jacksona i Madonny

2. Wpływ paramerów piosenki na różnorodność leksykalną

2.1. Piosenki Jacksona

2.1.1. Wpływ energetyczności

2.1.2. Wpływ akustyczności

2.1.3. Wpływ długości utworu

2.1.4. Wpływ roku wydania albumu

2.2. Piosenki Madonny

2.2.1. Wpływ energetyczności

2.2.2. Wpływ akustyczności

2.2.3. Wpływ długości utworu

2.2.4. Wpływ roku wydania albumu

3. Statystyki wyrazów

4. Częstotliwość wyrazów

5. Częstotliwość terminów i odwrotna częstotliwość dokumentu (tf-idf)

VIII. Wpływ parametrów na rozkład słów

1. Piosenki Jacksona

1.1. Słowa w zależności od popularności

1.2. Słowa w zależności od energetyczności

1.3. Słowa w zależności od akustyczności

1.4. Słowa w zależności od roku wydania albumu

2. Piosenki Madonny

2.1. Słowa w zależności od popularności

2.2. Słowa w zależności od energetyczności

2.3. Słowa w zależności od akustyczności

2.4. Słowa w zależności od roku wydania albumu

IX. Analiza tekstów w albumach

1. Piosenki Jacksona

1.1. Częstotliwość słów a ich ranking

1.2. Tf-idf w poszczególnych albumach Jacksona

2. Piosenki Madonny

2.1. Częstotliwość słów a ich ranking