Michael Jackson i Madonna przez wielu uważani są za króla i królową popu. Łączy ich wiele - lata, na które przypada szczyt ich kariery, zamiłowanie do ekstrawagancji, sława i bogactwo. Lata świetności – jego i jej – przypadały na przełom lat 80. i 90. Nic dziwnego, że się zaprzyjaźnili – nikt nie rozumiał królowej lepiej niż król. Poznali się przez wspólnego menedżera, Freddy’ego DeManna, po jednym z koncertów Jacksona w Madison Square Garden.
Zamieszczone poniżej zdjęcie, zrobione w 1991 r. do dziś należy do najsłynniejszych kadrów w historii kina i muzyki. Przedstawia ono scenę z gali rozdania Oscarów, w czasie której królowa popu odbierała Oscara za piosenkę Sooner or Later z filmu Dick Tracy w towarzystwie króla, Michaela Jacksona. „Najlepsza randka w życiu” – napisała wiele lat później Madonna.
Randki skończyły się jednak szybko, a niedługo również przyjaźń. Podobno on się obraził, że ona skrytykowała jego styl w wywiadzie telewizyjnym. Choć zerwali kontakt, Madonna nigdy nie zwątpiła w dawnego przyjaciela. Broniła go, gdy w 2019 r. autorzy dokumentu Leaving Neverland oskarżyli Jacksona o molestowanie seksualne chłopców.
Celem projektu jest ocena podobieństwa utworów wykonywanych przez Jacksona i Madonnę, na podstawie przeprowadzonej analizy warstwy muzycznej i tekstowej piosenek. Praca obejmuje następujące elementy:
Łącznie analizę objęto 248 piosenek Michaela Jacksona oraz 280 piosenek Madonny. Dobór próby został przeprowadzony na podstawie dostępności danych w serwisie Spotify oraz na stronie tekstowo.pl.
Podstawą analizy warstwy muzycznej piosenek Jacksona i Madonny były charakterystyki utworów dostępne w serwisie muzycznym Spotify. W serwisie wyróżnia się następujące funkcje audio piosenek:
Wartości średnie, odchylewnie standardowe oraz współczynniki zmienności dla parametrów ilościowych piosenek Jacksona i Madonny zostały przedstawione w poniższej tabeli.
| danceability | energy | loudness | speechiness | acousticness | instrumentalness | liveness | valence | tempo | duration_ms | popularity | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| meansJackson | 0.635 | 0.641 | -8.162 | 0.069 | 0.310 | 0.030 | 0.190 | 0.602 | 117.741 | 243.565 | 40.646 |
| sd_Jackson | 0.178 | 0.216 | 4.086 | 0.063 | 0.269 | 0.124 | 0.138 | 0.257 | 27.253 | 68.904 | 18.784 |
| variation_coefficient_Jackson | 0.280 | 0.337 | -0.501 | 0.913 | 0.868 | 4.133 | 0.726 | 0.427 | 0.231 | 0.283 | 0.462 |
| meansMadonna | 0.645 | 0.607 | -8.939 | 0.062 | 0.280 | 0.108 | 0.166 | 0.513 | 119.019 | 258.832 | 35.489 |
| sd_Madonna | 0.137 | 0.216 | 3.891 | 0.056 | 0.312 | 0.239 | 0.148 | 0.256 | 24.078 | 67.225 | 16.727 |
| variation_coefficient_Madonna | 0.212 | 0.356 | -0.435 | 0.903 | 1.114 | 2.213 | 0.892 | 0.499 | 0.202 | 0.260 | 0.471 |
Biorąc pod uwagę klasyczne miary zmienności obliczone dla charakterystyk utworów, można zauważyć, że ich wyniki są zbliżone do siebie, co pokazuje, że utwory obu wykonawców mają ze sobą dużo wspólnego. Potwierdza to również fakt, że wspomniani wykonawcy w obu przypadkach tworzyli utwory w nurcie pop. Wartości średnie dla takich parametrów jak taneczność, energetyczność, głośność, mówienie, akustyczność czy tempo są porównywalne ze sobą.
Największa zmienność miedzy utworami, wyrażona poprzez współczynnik zmienności obserwowana jest dla takich parametrów jak: instrumentalność, mówienie, akustyczność i żywotność. Dotyczy to zarówno utworów Jacksona jak i Madonny.
Natomiast najmniejsza zmienność parametru spośród wszystkich utworów obu gwiazd występuje dla parametru tempo, taneczność i czas trwania utworu.
Różne metody statystyczne używane do analizy danych przyjmują założenia dotyczące normalności rozkładu zmiennych. Dotyczy to między innymi badania korelacji, regresji, stosowania testów t i analizy wariancji. Ocena normalności danych jest warunkiem wstępnym wielu testów statystycznych, ponieważ normalność rozkładu jest podstawowym założeniem w testowaniu parametrycznym. Istnieją dwie główne metody oceny normalności: graficzna i numeryczna. Dostępne są różne metody badania normalności danych ciągłych, z których najpopularniejsze to test Shapiro–Wilka, test Kołmogorowa–Smirnowa, skośność, kurtoza, histogram, wykres skrzynkowy, wykres P–P, Q–Q. W niniejszym opracowaniu do badania normalności rozkładu zmiennych ilościowych opisujących parametry audio piosenek wykorzystano test Shapiro-Wilka oraz metodę graficzną polegającą na skonstruowaniu wykresów Q-Q. W przypadku testu Shapiro-Wilka hipoteza zerowa mówi, że dane są pobierane z populacji o rozkładzie normalnym. Kiedy obliczona na podstawie statystyki testowej wielkość p-value jest większe od przyjętego poziomu istotności, brak jest podstaw do odrzucenia hipotezy H0, co wskazuje na normalność rozkładu zmiennych. W sytuacji kiedy wartość p-value jest mniejsza od przyjętego poziomu istotności wówczas H0 jest odrzucana. Jedną z najczęściej używanych metod graficznych oceny normalności rozkładu jest wykres Q-Q (qqplot), czyli wykres kwantyl kwantyl. Technika ta jest bardzo ściśle związana z testem Shapiro-Wilka. Interpretacja wykresu jest następująca: jeżeli punkty leżą blisko prostej i są równomiernie rozłożone po jej jednej i drugiej stronie (np. naprzemiennie), to dane pochodzą z rozkładu normalnego.
Przedstawione w tabeli 2 i 3 oraz na wykresach Q-Q wyniki wskazują na to, że jedynie wskaźnik popularności piosenek Jacksona ma rozkład normalny. W przypadku pozostałych analizowanych zmiennych hipotezę dotyczącą normalności ich rozkładów należy odrzucić, na rzecz hipotezy alternatywnej - zmienne nie mają rozkładów normalnych. Biorąc pod uwagę wyliczone wartości p-value dla zmiennych opisujących parametry piosenek Madonny hipotezę dotyczącą normalności rozkładów należy odrzucić, na rzecz hipotezy alternatywnej - wszystkie z analizowanych zmiennych nie mają rozkładu normalnego.
| variable | statistic | p |
|---|---|---|
| acousticness | 0.8989306 | 0.0000000 |
| danceability | 0.9670510 | 0.0000187 |
| duration_ms | 0.9695363 | 0.0000406 |
| energy | 0.9563176 | 0.0000009 |
| instrumentalness | 0.2615248 | 0.0000000 |
| liveness | 0.8524272 | 0.0000000 |
| loudness | 0.9294927 | 0.0000000 |
| popularity | 0.9890874 | 0.0600861 |
| speechiness | 0.6286783 | 0.0000000 |
| tempo | 0.9421935 | 0.0000000 |
| valence | 0.9385311 | 0.0000000 |
Rys. 1. Wykresy Q-Q dla parametrów audio piosenek Jacksona
| variable | statistic | p |
|---|---|---|
| acousticness | 0.8155442 | 0.0000000 |
| danceability | 0.9766248 | 0.0001513 |
| duration_ms | 0.9661335 | 0.0000037 |
| energy | 0.9648175 | 0.0000024 |
| instrumentalness | 0.5112309 | 0.0000000 |
| liveness | 0.6850060 | 0.0000000 |
| loudness | 0.9383764 | 0.0000000 |
| popularity | 0.9758557 | 0.0001126 |
| speechiness | 0.5891748 | 0.0000000 |
| tempo | 0.9818255 | 0.0012459 |
| valence | 0.9677011 | 0.0000062 |
Rys. 2. Wykresy Q-Q dla parametrów audio piosenek Madonny
Ze względu na brak normalności rozkładu większości z analizowanych zmiennych ilościowych do zbadania równości median wykorzystano Test U Manna-Whitneya. Test ten służy do weryfikacji hipotezy o nieistotności różnic pomiędzy medianami badanej zmiennej w dwóch populacjach. Test ten jest odpowiednikiem klasycznego testu t-Studenta dla prób niepowiązanych. Miarą tendencji centralnej dla tego testu jest nie średnia jak w przypadków testów t, a mediana.Hipoteza zerowa zakłada, iż próby pochodzą z jednej populacji, wobec hipotezy alternatywnej mówiącej o tym, iż próby pochodzą z różnych populacji.
Przeprowadzone obliczenia wskazują na to, że w przypadku zmiennych: taneczność, energetyczność, mówienie, tempo brak jest podstaw do odrzucenia H0. Zmienne te zostały wyróżnione w tab. 1. kolorem szarym. W przypadku pozostałych zmiennych H0 należało odrzucić, co wskazuje na różność median. W takiej sytuacji test powtórzono przyjmując jednostronną hipotezę alternatywną. Wyniki przeprowadzonych obliczeń wskazują na to, że wartości zmiennych głoścność, akustyczność, żywotność, wartościowość i popularność są wyższe w przypadku utworów Jacksona (kolor niebieski zmiennych w tab. 1.). Natomiast w przypadku zmiennych instrumentalność i długość utworu wartości dla piosenek Madonny są wyższe niż utworów Jacksona (kolor czerwony zmiennych w tab. 1).
Wykresy gęstości dla wszystkich parametrów ilościowych zostały przedstawione na rys. 3. W p. 2 niniejszego rozdziału przedstawiono natomiast wykresy pudełkowe przedstawiające rozkład poszczególnych zmiennych. W przypadku zmiennej klucz, która jest zmienną nominalną (jedynie kodowaną za pomocą cyfr) porównanie przedstawiono za pomocą wykresu udziałów utworów wykonywanych w danym kluczu. Linia czerwona oznacza jednakowy udział utworów w danym kluczu u obu wykonawców. Punkty leżące powyżej linii oznaczają wyższy udział w utworach Madonny, zaś poniżej u Jacksona. U obu wykonawców najczęściej utwory grane są w kluczu 7 (G), zaś najrzadziej w kluczu 3 (D#).
Rys. 3. Krzywe gęstości dla wszystkich parametrów ilościowych
Biorąc pod uwagę, krzywe gęstości dla wszystkich parametrów ilościowych z rys. 3 w większości przypadków występuje gęstość jednomodalna, prawo lub lewo skośna. Dla większości parametrów można również zaobserwować zbliżone wykresy gęstości dla obu wykonawców - różnice występują w maksimach lokalnych. Jedynie w przypadku parametru popularność krzywe zbliżone są do rozkładu normalnego. Natomiast krzywe gęstości dla parametru wartościowość w największym stopniu różnią się od siebie.
Porównując jednak bezpośrednio krzywe gęstości pomiędzy Madonną, a Michaelem Jacksonem, można zaobserwować, iż utwory Madonny nieznacznie przeważa piosenki Jacksona pod względem taneczności i tempa, natomiast dla pozostałych parametrów wyższe wartości dla punktów maksimum występują w piosenkach Jacksoan.
Porównując przedstawione poniżej wykresy pudełkowe przedstawiające rozkład poszczególnych zmiennych, można zauważyć, że w większości przypadków wartości centralne, czyli mediany występują na zbliżonych wartościach dla obu artystów. Przedziały międzykwartylowe również są na podobnych poziomach. Zaobserwować można także występowanie wartości odstających, które mogą zaburzać interpretację wyników. Podobnie jak w punkcie 1. w przypadku porównań gęstości, tak i tutaj zmienna wartościowość najbardziej różny rozkład u obu artystów.
Rys. 4. Rozkład tanecznosci w pisenkach Jackona i Madonny
Rys. 5. Rozkład energetyczności w pisenkach Jackona i Madonny
Rys. 6. Udział utworów granych w kluczach wśród pisenek Jackona i Madonny
Rys. 7. Rozkład głośności w pisenkach Jackona i Madonny
Rys. 8. Rozkład mówienia w pisenkach Jackona i Madonny
Rys. 9. Rozkład akustyczności w pisenkach Jackona i Madonny
Rys. 10. Rozkład instrumentalności w pisenkach Jackona i Madonny
Rys. 11. Rozkład żywotności w pisenkach Jackona i Madonny
Rys. 12. Rozkład wartościowości w pisenkach Jackona i Madonny
Rys. 13. Rozkład tempa w pisenkach Jackona i Madonny
Rys. 14. Rozkład popularności piosenek Jackona i Madonny
Analiza powyższych wykresów pudełkowych wskazuje na dużą liczbę obserwacji odstających w przypadku niektórych zmiennych. Z tego też wzgledu przeprowadzono ponowne obliczenia rozkładów - eliminując obserwacje odstające. Wyniki w postaci wykresów pudełkowych zostały zamieszczone na poniższym rysunku. W przypadku zmiennych mówienie, instrumentalność oraz żywotność (tylko u Madonny) ze względu na ich rozkład silnie skoncentrowany wokół jednych wartości w rozkładzie pozostały obserwacje odstające.
Rys. 15. Rozkład zmiennych po wyeliminowaniu obseracji odstających
Po wyeliminowaniu wartości odstających, można nadal stwierdzić, że w większości parametrów wartości mediany, jak i przedziały międzykwartylowe występują na zbliżonych wartościach u obu analizowanych artystów. Jedynie po wyeliminowaniu wartości odstających z parametru popularność dla utworów Madonny mediana, jak i rozproszenie uległy zmianie i różnią się od wartości charakteryzujących piosenki Michela Jacksona.
Ze względu na brak normalności rozkładu zmiennych do określenia siły zależności między zmiennymi wykorzystano współczynniki korelacji rang Spearmana oraz Współczynniki korelacji Kendalla. Wyniki obliczeń w postaci graficznej macierzy korelacji zostały przedstawione poniżej. Analiza prezentowanych obliczeń wskazuje na to, że zarówno w przypadku utworów Madonny, jak i Jacksona obserwuje się (obliczoną na podstawie korelacji rang Spearmana) dużą dodatnią zależność między zmiennymi energetyczność a głośność, co wskazuje na to, iż bardziej energetyczne utwory są również bardziej głośne. Wynika to wprost ze sposobu określania energetyczności, jako parametru zależnego od szybkości, głośności i poziomu hałasu w utworze. Z tego też względu na przykład death metal ma wysoką energię, podczas gdy preludium Bacha znajduje się nisko na skali. Największą ujemną zależność wykazują natomiast zmienne energetyczność i akustyczność. Oznacza to, że bardziej akustyczne utwory odznaczają się mniejszą energicznością. Podobną zależność jak w przypadku korelacji rang Spearmana dla parametrów audio w piosenkach Jacksona wskazuje korelacja Kendalla. Statystyka będąca jedną z miar monotonicznej zależności dwóch zmiennych losowych również wykazała, że największa zależność występuje dla parametrów energetyczność i głośność. Potwierdza to, że wraz ze wzrostem energetyczności wzrasta głośność utworu
Graficzny rozkład akustyczności i głośności w stosunku do energetyczności dla utworów Jacksona i Madonny przedstawiono na rys. 18-19 i rys. 22-23.
Współczynniki korelacji rang Spearmana
Rys. 16. Współczynniki korelacji rang Spearmana dla parametrów audio w piosenkach Jacksona
Współczynniki korelacji Kendalla
Rys. 17. Współczynniki korelacji Kendalla dla parametrów audio w piosenkach Jacksona
Rys. 18. Zależność między energetycznością a głośnością w piosenkach Jacksona
Rys. 19. Zależność między energetycznością a akustycznością w piosenkach Jacksona
Współczynniki korelacji rang Spearmana
Rys. 20. Współczynniki korelacji rang Spearmana dla parametrów audio w piosenkach Madonny
Współczynniki korelacji Kendalla
Rys. 21. Współczynniki korelacji rang Kendalla dla parametrów audio w piosenkach Madonny
Rys. 22. Zależność między energetycznością a głośnością w piosenkach Madonny
Rys. 23. Zależność między energetycznością a akustycznością w piosenkach Madonny
Analizowane 248 piosenek Jacksona pochodziło łącznie z 86 albumów, wśród których znaleźć można single, składanki zawierające piosenki wykonywane także przez innych artystów, albumy rocznicowe, oraz powtórne wydania wcześniejszych albumów, czyli tzw. remaking. W celu oceny zróżnicowania warstwy muzycznej poszczególnych albumów do analizy wybrano te albumy, z których pochodziło co najmniej 9 piosenek (łącznie 7 albumów) Analizowane 280 piosenek Madonny pochodziło łącznie ze 119 albumów. Do oceny zróżnicowania na poziomie albumów wybrano te, z których pochodziło co najmniej 10 piosenek (łącznie 9 albumów). Na rys. 24 oraz rys. 25 przedstawiono krzywe gęstości dla analizowanych wcześniej zmiennych ilościowych w zależności od albumu z którego pochodziły piosenki. Natomiast w p. 1.2. oraz 2.2. w postaci tabelarycznej przedstawiono średnie wartości zmiennych dla poszczególnych albumów.
Rys. 24. Krzywe gęstości dla wszystkich parametrów ilościowych w zależności od albumu Jacksona
Biorąc pod uwagę wykresy krzywej gęstości na podstawie parametrów ilościowych cech audio, można zauważyć duże zróżnicowanie warstwy muzycznej poszczególnych albumów:
| album.name | mean(danceability) |
|---|---|
| Bad 25th Anniversary | 0.8016875 |
| Off the Wall | 0.7730000 |
| Dangerous | 0.7421538 |
| HIStory - PAST, PRESENT AND FUTURE - BOOK I | 0.6823846 |
| Invincible | 0.6796429 |
| Michael | 0.6664444 |
| Forever, Michael | 0.5414444 |
| album.name | mean(energy) |
|---|---|
| Dangerous | 0.7436154 |
| Bad 25th Anniversary | 0.7368750 |
| Michael | 0.6696667 |
| Invincible | 0.6455000 |
| HIStory - PAST, PRESENT AND FUTURE - BOOK I | 0.6443077 |
| Forever, Michael | 0.6311111 |
| Off the Wall | 0.5806800 |
| album.name | mean(acousticness) |
|---|---|
| HIStory - PAST, PRESENT AND FUTURE - BOOK I | 0.3240769 |
| Off the Wall | 0.3081000 |
| Forever, Michael | 0.2970111 |
| Bad 25th Anniversary | 0.2846236 |
| Invincible | 0.2800857 |
| Dangerous | 0.2215231 |
| Michael | 0.1906856 |
| album.name | mean(valence) |
|---|---|
| Off the Wall | 0.7777000 |
| Forever, Michael | 0.6278889 |
| Bad 25th Anniversary | 0.6056250 |
| Michael | 0.5832222 |
| Dangerous | 0.5338462 |
| HIStory - PAST, PRESENT AND FUTURE - BOOK I | 0.5155846 |
| Invincible | 0.4793643 |
| album.name | mean(popularity) |
|---|---|
| Off the Wall | 60.50000 |
| Dangerous | 57.92308 |
| HIStory - PAST, PRESENT AND FUTURE - BOOK I | 53.07692 |
| Bad 25th Anniversary | 53.00000 |
| Invincible | 46.42857 |
| Michael | 44.33333 |
| Forever, Michael | 26.44444 |
W przypadku policzonych średnich dla parametrów cech audio zróżnicowanie warstwy muzycznej poszczególnych albumów wygląda podobnie jak w przypadku wcześniej analizowanych krzywych gęstości:
Rys. 25. Krzywe gęstości dla wszystkich parametrów ilościowych w zależności od albumu Madonny
Biorąc pod uwagę wykresy krzywej gęstości na podstawie parametrów ilościowych cech audio, podobnie jak w przypadku albumów Jacksona, tak samo można zauważyć duże zróżnicowanie warstwy muzycznej w przypadku poszczególnych albumów Madonny:
| album.name | mean(danceability) |
|---|---|
| Hard Candy | 0.7836667 |
| American Life | 0.6986364 |
| Rebel Heart (Deluxe) | 0.6847778 |
| MDNA (Deluxe Version) | 0.6726154 |
| Erotica (PA Version) | 0.6685000 |
| Celebration (double disc version) | 0.6647500 |
| I’m Breathless | 0.6182000 |
| Ray of Light | 0.5674545 |
| Evita: The Complete Motion Picture Music Soundtrack | 0.4885000 |
| album.name | mean(energy) |
|---|---|
| Celebration (double disc version) | 0.7944167 |
| Hard Candy | 0.7588333 |
| MDNA (Deluxe Version) | 0.6688462 |
| Erotica (PA Version) | 0.6232500 |
| Rebel Heart (Deluxe) | 0.6202222 |
| Ray of Light | 0.5799091 |
| American Life | 0.5064545 |
| I’m Breathless | 0.4530000 |
| Evita: The Complete Motion Picture Music Soundtrack | 0.4029500 |
| album.name | mean(acousticness) |
|---|---|
| Evita: The Complete Motion Picture Music Soundtrack | 0.7188000 |
| I’m Breathless | 0.5515900 |
| Ray of Light | 0.3463364 |
| American Life | 0.1770693 |
| Rebel Heart (Deluxe) | 0.1550372 |
| Celebration (double disc version) | 0.1045200 |
| MDNA (Deluxe Version) | 0.0934824 |
| Hard Candy | 0.0786542 |
| Erotica (PA Version) | 0.0644404 |
| album.name | mean(valence) |
|---|---|
| Hard Candy | 0.7056667 |
| Celebration (double disc version) | 0.6406667 |
| MDNA (Deluxe Version) | 0.4920769 |
| American Life | 0.4911818 |
| I’m Breathless | 0.4789000 |
| Erotica (PA Version) | 0.4737167 |
| Rebel Heart (Deluxe) | 0.3957889 |
| Evita: The Complete Motion Picture Music Soundtrack | 0.3657250 |
| Ray of Light | 0.2996364 |
| album.name | mean(popularity) |
|---|---|
| Celebration (double disc version) | 58.00000 |
| Ray of Light | 48.45455 |
| American Life | 42.00000 |
| Rebel Heart (Deluxe) | 38.00000 |
| Erotica (PA Version) | 36.16667 |
| I’m Breathless | 32.40000 |
| Evita: The Complete Motion Picture Music Soundtrack | 32.20000 |
| Hard Candy | 28.00000 |
| MDNA (Deluxe Version) | 26.30769 |
Biorąc pod uwagę albumy Madonny, w przypadku średnich dla parametrów cech audio zróżnicowanie warstwy muzycznej poszczególnych albumów odzwierciedlają poniższe stwierdzenia:
Podstawą analizy tekstu, będącej celem 2 części projektu jest podział tekstu na tokeny. W wyniku przeprowadzonej tokenizacji uzyskano strukturę “jednego tokena w wierszu”. W celu eksploracji tekstu token przechowywany w każdym wierszu jest najczęściej pojedynczym słowem, ale może również być także n-gramem, zdaniem lub akapitem. Na początkowym etapie analizy dokonano podziału tekstu na pojedyncze wyrazy. W kolejnym etapie przygotowania tekstu do analizy dokonano usunięcia(poprawy) wyrazów zawierających błędy. W tekstach piosenek często występują wyrazy nie mające żadnego znaczenia, używane jedynie dla zachowania rytmu śpiewanego tekstu (np. ua, ha-ha, itp.). W celu wyodrębnienia błędów wykorzystano Hunspell - popularne narzędzie do sprawdzania pisowni i analizatora morfologicznego. W przypadku błędnie zapisanych wyrazów narzędzie Hunspell wykorzystano do zasugerowania ewentualnych poprawnych słów. Na tej podstawie zastąpiono błędnie napisane słowa sugerowanymi poprawnymi. Zarówno w przypadku Jacksona, jak i Madonny najczęstsze błędy w zapisie tekstu polegały na skróceniu końcówki -ing do -in. Tego typu skrócona forma charakterystyczna jest dla slangu oraz tekstów śpiewanych. Ponadto w przypadku tekstów Madonny wskazywane błędy wynikały z pojawienia się w tekstach wyrażeń zapożyczonych z języka hiszpańskiego. Następny etap przygotowania tekstu do analizy polegał na zastąpieniu wielu form tego samego wyrazu jedną. Na przykład love, loves, loving, loved są różnymi formami tego samego wyrazu love. Na tym etapie oryginalne słowa z piosenek zastąpiono ich rdzeniami. Aby uzyskać lepszą wydajność, zapisano sugerowane rdzenie poszczególnych wyrazów do pliku i ręcznie sprawdzono, czy proponowany rdzeń jest podstawową formą danego wyrazu, czy też nie. Ostatni etap związany z przygotowaniem tekstu do analizy polegał na usunięciu stopwords, czyli wyrazów, które nie są nośnikiem żadnej informacji, a których częstotliwość występowania jest zazwyczaj największa. Przykładowymi stopwords mogą być zaimki, przyimki, partykuły. Listę stopwords dostępną w bibliotece R, pochodzącą z trzech słowników, uzupełniono własną - stworzoną na podstawie wyrazów zidentyfikowanych w trakcie pierwszego etapu. Poniższe rysunki przedstawiają najczęściej występujące w tekstach piosenek Jacksona i Madonny wyrazy - w postaci chmury słów. Poniżej na wykresie przedstawiono najczęściej występujące słowa w danych albumach artystów. W przypadku Madonny jedynym często spotykanym wyrazem występującym w różnych albumach jest love. Natomiast w przypadku albumów Jacksona co najmniej w dwóch albumach często spotykanymi wyrazami są stop, body, beat, hold.
Rys. 26. Chmura słów dla tekstów piosenek Jacksona
Powyższy rysunek przedstawia najczęściej występujące w tekstach piosenek Jacksona wyrazy - w postaci chmury słów. Większa czcionka oznacza większą częstość lub większy udział w analizowanej strukturze. Słowo love występuje najczęściej w utworach artysty. Kolejne słowa według częstości występowania we wszystkich piosenkach to baby, girl i time.
Rys. 27. Częste wyrazy występujące w tekstach piosenek Jacksona
Powyższy rysunek przedstawia najczęściej występujące wyrazy w tekstach piosenek Jacksona według albumów, gdzie warunkiem koniecznym było wystąpienie wyrazu co najmniej 50 razy w albumie.
Słowo love jest bezsprzecznie najczęściej występującym wyrazem w większości albumów. Natomiast biorąc pod uwagę kolejne wyrazy to:
Rys. 28. Chmura słów dla tekstów piosenek Madonny
Najczęściej występujące słowa w tekstach piosenek Madonny to również słowo love. Kolejne słowa według częstości występowania we wszystkich piosenkach to baby, feel, time i gonna. Jak można zauważyć 3 z 5 pierwszych najczęściej występujących słów pokrywają się z najczęściej występującymi słowami z piosnek Jacksona.
Rys. 29.Częste wyrazy występujące w tekstach piosenek Madonny
Analizując najczęściej występujące wyrazy w tekstach piosenek Madonny według albumów, gdzie warunkiem koniecznym było wystąpienie wyrazu co najmniej 50 razy w albumie, można stwierdzić, iż:
Rozkład długość wyrazów w teksie jest parametrem zależnym od wielu czynników. Przeprowadzone badania wskazują na to, iż w przypadku analizy wielu tekstów pisanych przez tego samego autora rozkład długości użytych wyrazów jest bardzo do siebie podobny. Innym parametrem decydującym o rozkładzie długości wyrazów w tekście jest język w jakim został on napisany. Przykładowo w angielskich tekstach średnia długość wyrazów wynosi 5,1, zaś w rosyjskich - 5,28. Teksty utworów wykonywanych przez Jacksona i Madonnę zostały napisane przez wielu autorów. Pomimo tego rozkład długości użytych wyrazów u obu artystów jest do siebie podobny. Cechą charakterystyczną tekstów piosenek jest stosowanie dużej liczby krótkich wyrazów - łatwych do zaśpiewania. Z tego też względu największy udział mają wyrazy 2-4 literowe, których udział w tekstach oryginalnych u obu artystów wynosi ok. 75%. Prezentowane w tej części projektu wyniki dotyczą analizy tekstu pierwotnego, a więc zawierającego stopwords, wyrazy z błędami oraz wyrazy spoza słownika, gdyż w takiej postaci był on śpiewany przez wykonawców. Na wykresie wyrazy o zerowej długości przedstawiają udział liczb, które pojawiły się w tekscie, a które zostały zapisane w postaci samych cyfr.
Rys. 30. Udział wyrazów w zależności od ich długości w tekstach Jacksona i Madonny
Różnorodność leksykalna to kolejna kluczowa cecha językowa, która może być przedmiotem analizy tekstu. Jak sama nazwa wskazuje, „różnorodność leksykalna” jest miarą tego, ile różnych słów leksykalnych występuje w tekście.Jest to wskaźnik stopnia złożoności tekstu lub umiejętności użytkownika języka. Istnieje klika sposobów pomiaru różnorodności. Jedną z pierwszych miar opracowanych w celu pomiaru różnorodności leksykalnej był wskaźnik type-token ratio (TTR), czyli liczba typów (unikalnych tokenów) podzielona przez łączną ich liczbę. TTR jest bardzo intuicyjnym wskaźnikiem, ale wrażliwym na długość tekstu, co uniemożliwia porównanie z wykorzystaniem TTR próbek o różnych długościach. W rzeczywistości, im więcej tokenów zawiera tekst, tym więcej powtórzeń już istniejących typów, co powoduje, że TTR skutecznie zmniejsza się wraz ze wzrostem długości tekstu. Innym podejściem zastosowanym przez badaczy w celu zminimalizowania wpływu długości próbki jest linearyzacja. Koncepcyjnie podejście to opiera się na założeniu, że krzywa TTR może być stosunkowo dobrze dopasowana przez krzywą logarytmiczną. Podejście to wykorzystywane jest przy obliczaniu wskaźnika Maas, który jest liczony na podstawie różnicy logarytmów z typów tokenów i ich ogólnej liczby. Zastosowanie w obliczeniach logarytmowania powoduje, iż wskaźnik ten jest mniej wrażliwy na długość wypowiedzi. W celu oceny wpływu wybranych parametrów utworów (energetyczność, akustyczność, czas trwania, data wydania albumu) na różnorodność leksykalną tekstów, w ramach każdej zmiennej dokonano podziału utworów na 4 grupy, oznaczone jako A, B, C i D. Każdorazowo grupa D obejmuje utwory o najniższych wartościach danej cechy, zaś grupa A - najwyższych. W przypadku roku wydania w grupie A znalazły się utwory najmłodsze, zaś w grupie D - najstarsze. Zależność statystyczna między liczbą tokenów (ntoken) oraz wskaźnikiem TTR a daną cechą utworu została określona na podstawie współczynników korelacji rang Spearmana oraz Kendall. Przedstawione w p. 1 i 2 wyniki wskazują na niewielką zależność różnorodności leksykalnej od cech utworu. Dodatkowym parametrem wyznaczonym w przypadku określania różnorodności leksykalnej od długości piosenki jest średnia liczba tokenów na 1 sekundę utworu. Pod tym względem utwory Jacksona odznaczają się wyższymi wartościami.
Rys. 31. Wpływ energetyczności na różnorodność leksykalną tekstów piosenek Jacksona
Współczynnik korelacji Spermana dla zależności między energetycznoscią a liczbą tokenów wyniósł 0.1825586 (p-value wynosi 0.004067), natomiast dla zależności między energetycznością a wskaźnikiem TTR -0.1561435 (p-value wynosi 0.0142223).
Współczynnik korelacji Kendalla dla zależności między energetycznością a liczbą tokenów wyniósł 0.1210106 (p-value wynosi 0.0047982), natomiast dla zależności między energetycznością a wskaźnikiem TTR -0.1070212 (p-value wynosi 0.0125539)
Rys. 32. Wpływ akustyczności na różnorodność leksykalną tekstów piosenek Jacksona
Współczynnik korelacji Spermana dla zależności między akustycznością a liczbą tokenów wyniósł -0.0855383 (p-value wynosi 0.1811459), natomiast dla zależności między akustycznością a wskaźnikiem TTR 0.081416 (p-value wynosi 0.2031708).
Współczynnik korelacji Kendalla dla zależności między akustycznością a liczbą tokenów wyniósł -0.0582974 (p-value wynosi 0.1741569), natomiast dla zależności między akustycznością a wskaźnikiem TTR 0.0534658 (p-value wynosi 0.2122839)
Rys. 33. Wpływ długości utworu na różnorodność leksykalną tekstów piosenek Jacksona
Współczynnik korelacji Spermana dla zależności między czasem trwania a liczbą tokenów wyniósł 0.2043472 (p-value wynosi 0.0012694), natomiast dla zależności między czasem trwania a wskaźnikiem TTR -0.1597813 (p-value wynosi 0.0120919).
Współczynnik korelacji Kendalla dla zależności między czasem trwania a liczbą tokenów wyniósł 0.1353639 (p-value wynosi 0.0016376), natomiast dla zależności między czasem trwania a wskaźnikiem TTR -0.102857 (p-value wynosi 0.0166321)
Rys. 34. Liczba tokenów na sekundę trwania piosenek Jacksona
Rys. 35. Wpływ roku wydania albumu na różnorodność leksykalną tekstów piosenek Jacksona
Rys. 36. Wpływ roku wydania albumu na liczbę tokenóW w tekstach piosenek Jacksona
Współczynnik korelacji Spermana dla zależności między rokiem wydania albumu a liczbą tokenów wyniósł 0.1966674 (p-value wynosi 0.0019403), natomiast dla zależności między rokiem wydania a wskaźnikiem TTR -0.1787134 (p-value wynosi 0.0049326).
Współczynnik korelacji Kendalla dla zależności między rokiem wydania albumu a liczbą tokenów wyniósł 0.1341623 (p-value wynosi 0.0020613), natomiast dla zależności między rokiem wydania a wskaźnikiem TTR -0.1225773 (p-value wynosi 0.0048418)
Rys. 37. Wpływ energetyczności na różnorodność leksykalną tekstów piosenek Madonny
Współczynnik korelacji Spermana dla zależności między energetycznością a liczbą tokenów wyniósł 0.3655922 (p-value wynosi 2.7915271^{-10}), natomiast dla zależności między energetycznością a wskaźnikiem TTR -0.3871397 (p-value wynosi 1.9108185^{-11}).
Współczynnik korelacji Kendalla dla zależności między energetycznoscią a liczbą tokenów wyniósł 0.2489834 (p-value wynosi 5.7229302^{-10}), natomiast dla zależności między energetycznością a wskaźnikiem TTR -0.2638242 (p-value wynosi 4.8602204^{-11})
Rys. 38. Wpływ akustyczności na różnorodność leksykalną tekstów piosenek Madonny
Współczynnik korelacji Spermana dla zależności między akustycznością a liczbą tokenów wyniósł -0.2256759 (p-value wynosi 1.3973562^{-4}), natomiast dla zależności między akustycznością a wskaźnikiem TTR 0.3693642 (p-value wynosi 1.770592^{-10}).
Współczynnik korelacji Kendalla dla zależności między akustycznością a liczbą tokenów wyniósł -0.1456448 (p-value wynosi 2.8632432^{-4}), natomiast dla zależności między akustycznością a wskaźnikiem TTR 0.2538256 (p-value wynosi 2.4638856^{-10})
Rys. 39. Wpływ długości utworów na różnorodność leksykalną tekstów piosenek Madonny
Współczynnik korelacji Spermana dla zależności między długością utworu a liczbą tokenów wyniósł 0.2505671 (p-value wynosi 2.2164007^{-5}), natomiast dla zależności między długością utworu a wskaźnikiem TTR -0.1981008 (p-value wynosi 8.5876493^{-4}).
Współczynnik korelacji Kendalla dla zależności między długością utworu a liczbą tokenów wyniósł 0.1687058 (p-value wynosi 2.763239^{-5}), natomiast dla zależności między długością utworu a wskaźnikiem TTR -0.1336145 (p-value wynosi 8.8692525^{-4})
Rys. 40. Liczba tokenów na sekundę trwania piosenek Madonny
Rys. 41. Wpływ roku wydania albumu na różnorodność leksykalną tekstów piosenek Madonny
Rys. 42. Wpływ roku wydania albumu na liczbę tokenów tekstów piosenek Madonny
Współczynnik korelacji Spermana dla zależności między rokiem wydania albumu a liczbą tokenów wyniósł 0.054952 (p-value wynosi 0.3596138), natomiast dla zależności między rokiem wydania a wskaźnikiem TTR -0.1308694 (p-value wynosi 0.028561).
Współczynnik korelacji Kendalla dla zależności między rokiem wydania a liczbą tokenów wyniósł 0.0350425 (p-value wynosi 0.3918774), natomiast dla zależności między rokiem wydania a wskaźnikiem TTR -0.0840102 (p-value wynosi 0.0398662)
Na poniższych wykresach przedstawiono najczęściej występujące wyrazy w tekstach piosenek śpiewanych przez Jacksona i Madonnę. W zestawieniu razem najczęściej występujących wyrazów w tekstach piosenek Madonny i Jacksona, gdzie warunkiem koniecznym było wystąpienie wyrazu co najmniej 150 razy, najczęściej występującym słowem jest love. Kolejne słowa według częstości występowania to baby, time, girl, gonna i feel. Jak można zauważyć te same słowa wystąpiły w zestawieniach indywidualnych dla każdego z artystów z osobna.
Rys. 43. Najczęsciej występujace wyrazy w tekstach piosenek Jacksona i Madonny - zestawienie wspólne
Rys. 44. Top 20 najczęsciej występujących wyrazów w tekstach piosenek Jacksona i Madonny
Biorąc pod uwagę liczbę słowo love pojawia się częściej w piosenkach wykonywanych przez Madonnę. Ze względu jednak na to, że analiza obejmuje większą liczbę utworów tej artystki określono częstotliwość użycia poszczególnych wyrazów w stosunku do całości tekstów. Wyniki obliczeń przedstawiono na poniższym wykresie. Słowa znajdujące się blisko linii przerywanej mają podobną częstotliwość w obu zestawach tekstów - dotyczy to m.in love, którego użycie jest częstsze w przypadku piosenek Jacksona. Słowa, które są daleko od linii, to słowa, które występują częściej w jednym zestawie tekstów niż w innym. Przykładowo wyraz shake pojawia się częściej w piosenkach Jacksona , a party - u Madonny. Ilościowo zależność miedzy częstotliwością wyrazów została określona na podstawie współczynników korelacji rang Spearman’a i Kendall’a. Przedstawione wyniki wskazują, iż brak jest podstaw do odrzucenia hipotezy o braku zależności zmiennych. Zależność ta jest jednak umiarkowana.
Rys. 45. Częstotliwość wyrazów w tekstach piosenke Jacksona i Madonny
Współczynnik korelacji Spermana dla zależności między częstotliwością występowania słowa w piosence Jacksoana a częstotliwością występowania tego samego wyrazu w tekstach Madonny wynosi 0.5176463 (p-value wynosi 4.1320784^{-25}). Współczynnik korelacji Kendalla dla tej samej zależności wyniósł 0.372366 (p-value wynosi 4.3120681^{-24}).
Głównym pytaniem w eksploracji tekstu i przetwarzaniu języka naturalnego jest to, jak określić ilościowo, o czym jest dokument. Czy można to zrobić, patrząc na słowa, które składają się na tekst? Jedną z miar tego, jak ważne może być słowo, jest częstotliwość jego występowania (tf). W poprzednich punktach tego rozdziału określono jak często słowo występuje w piosenkach. W dokumencie są jednak słowa, które pojawiają się wiele razy, ale mogą nie być ważne. Ponadto wiele częstych słów spotkać można zarówno w piosenkach Jacksona, jak i Madonny. Innym podejściem do określenia ważności słowa, od liczenia częstości jego występowania, jest przyjrzenie się odwrotnej częstotliwości dokumentu (idf), która zmniejsza wagę często używanych słów a zwiększa tych, które nie są często używane w zbiorze dokumentów. Można to połączyć z częstotliwością terminu, aby obliczyć tf-idf terminu (dwie wielkości pomnożone razem), częstotliwość terminu skorygowana o to, jak rzadko jest on używany. Statystyka tf-idf ma na celu zmierzenie, jak ważne jest słowo w danym dokumencie, będącym częścią zbioru wielu dokumentów. W przypadku kiedy dany wyraz pojawia się we wszystkich analizowanych zbiorach jego wartość mierzona za pomocą tf-idf jest równa 0.
Rys. 46. Częstotliwość terminów i odwrotna częstotliwość dokumentu (tf-idf) w tekstach piosenek Jacksona i Madonny
Biorąc pod uwagę wartości tf-idf – metodę obliczania wagi słów w oparciu o liczbę ich wystąpień statystyka wyrazów kształtuje się następująco: dla piosenek Micheala Jacksona charakterystyczne wyrazy to: ease, mighty, force i matte. Natomiast dla piosenek Madonny są nimi: bang, bitch, anymore i stupid.
W tej części projektu przedstawiono najczęściej występujące słowa w piosenkach w zależności od cech takich jak: populraność, energetyczność, akustyczność, rok wydania albumu na którym znajduje się dany utwór. Podobnie jak wcześniej w ramach każdej z cech wskazano 4 grupy utworów: A, B, C, D. Grupa A obejmuje utwory o największych wartościach danej cechy (w przypadku roku wydania - albumy najmłodsze), natomiast grupa D - utwory o najmniejszych wartościach danej cechy (albumy najstarsze). Ze względu na różną liczbę piosenek sklasyfikowanych w danej grupie (a co za tym idzie ze względu na różną całkowitą liczbę wyrazów w ich tekstach) rozkład wyrazów został przedstawiony za pomocą częstotliwości występowania w ogólnej liczbie słów z piosenek danej grupy.
Rys. 47. Słowa w zależności od kategorii popularnosci piosenek Jacksona
W przypadku rozkładu słów w oparciu o popularność danego utworu najczęściej występujące słowa to stop, beat i love. Co ciekawe słowo love znalazło się dopiero na trzeciej pozycji w grupie A, czyli najbardziej popularnych utworów. W kolejnych grupach najczęściej występującym słowem jest słowo love. Kolejność następnych wyrazów również się nie zmienia - na kolejnych miejscach znajdują się słowa baby, girl i stop.
Rys. 48. Słowa w zależności od kategorii energetyczności piosenek Jacksona
W przypadku rozkładu słów w oparciu o energetyczność danego utworu najczęściej występujące słowa w piosenkach Jacksona to love i baby. Słowa te występują na pierwszych pozycjach w kolejnych grupach od A do D. Warto zauważyć, że w przypadku kategorii D (utworów o najmniejszej energetyczności) słowo love pojawia się najczęściej (pond 8%), a wraz ze wzrostem energetyczności piosenek częstotliwość love jest coraz mniejsza (nieco ponad 5% w przypadku utworów najbardziej energetycznych)
Rys. 49. Słowa w zależności od kategorii akustyczności piosenek Jacksona
W przypadku rozkładu słów w oparciu o akustyczność danego utworu najczęściej występujące słowa to love, body i beat (kategoria A), love, wonna i baby (kategoria B), oraz love, baby i girl (kategoria C i D). We wszystkich kategoriach akustycznosci najcześciej występujacym słowem jest więc love. Wraz ze wzrostem akustyczności częstotliwość użycia tego słowa rośnie
Rys. 50. Słowa w zależności od roku wydania albumu Jacksona
W przypadku rozkładu słów w oparciu o rok wydania albumu, najczęściej występującymi słowami w albumach najstarszych, czyli wydanych w początkowym okresie kariery Jacksona, są love, baby i girl. W kolejnych latach, aż do najmłodszych albumów (kategoria A) słowo love wraz ze słowem baby również występują najczęściej.
Rys. 51. Słowa w zależności od kategorii popularnosci piosenek Madonny
W przypadku rozkładu słów w oparciu o popularność danego utworu najczęściej występujące słowa, w grupie utworów najbardziej popularnych (kategoria A) to erotic, material i slow. Co ciekawe słowo love - podobnie, jak w przypadku najbardziej popularnych utworów Jacksona znalazło się na dalszej pozycji. W kolejnych grupach (od B do D), słowo love znajduje się już na pierwszej pozycji, natomiast na kolejnych pozycjach znajdują się słowa baby, gonna, feel i time oraz wild.
Rys. 52. Słowa w zależności od kategorii energetyczności piosenek Madonny
W przypadku rozkładu słów w oparciu o energetyczność danego utworu najczęściej występujące słowa w najbardziej energetycznych piosenkach Madonny to love, gonna i baby. W kolejnych zaś grupach od B do D najczęściej występującymi słowami w utworach są love oraz słowa time, baby i feel. Widoczny jest także bardzo duży udział słowa love w piosenkach należących do kategorii C - ponad 10%. Kolejne w tej kategorii słowo według częstotliwościowi występowania - feel ma udział poniżej 2,5%.
Rys. 53. Słowa w zależności od kategorii akustyczności Madonny
W przypadku rozkładu słów w oparciu o akustyczność danego utworu ponownie najczęściej występującym słowem jest love. Na kolejnych miejscahc znajdują się słowa: feel i erotic (kategoria A), gonna i baby (kategoria B), alive i time (kategoria C) oraz gonna i feel (kategoria D). Podobnie jak w przypadku piosenke Jacksona częstotliowść użycia słowa love w utworach najbardziej aktustycznych jest największa (prawie 9% w tekstach piosenek z kategorii A, przy 5-6% udziale w pozostałych kategoriach). Wynika to z faktu, iż piosenki o dużej akustyczności są utworami spokojnymi, mniej energetycznymi, często balladami opowiadającymi o miłości.
Rys. 54. Słowa w zależności od od roku wydania albumu Madonny
W przypadku rozkładu słów w oparciu o rok wydania albumu, najczęściej występującymi słowami w albumach najstarszych, czyli wydanych w pierwszych latach kariery Madonny, są si, ven, day i conmigo. Wskazuje to na duże powiązanie pierwszych piosenek z językiem hiszpańskim. W kolejnych latach najczęściej wsypującymi słowami są love, baby, gonna i feel. Warto zwrócić uwagę, że w drugim okresie kariery Madonny częstotliwość użycia słowa love była większa niż w kolejnych latach (piosenki z kategorii A i B).
Zgonie ze sformułowanym przez amerykańskiego lingwistę George’a Kingsleya Zipfa prawem przy pewnym zbiorze wyrażeń języka naturalnego częstotliwość każdego słowa jest odwrotnie proporcjonalna do jego pozycji w tabeli częstości. Tak więc najczęstsze słowo będzie występować w przybliżeniu dwa razy częściej niż drugie najczęstsze słowo, trzy razy częściej niż trzecie najczęstsze słowo itd. Tak więc zgodnie z prawem Zipfa częstotliwość pojawiania się słowa jest odwrotnie proporcjonalna do jego rangi. Porównanie rozkładu Zipfa obliczonego dla korpusu języka z rozkładem dla danego tekstu pozwala na ocenę stylu autora i jego zrozumiałość przez przeciętnego czytelnika. Czym bardziej rozkład dla analizowanego tekstu jest zgodny z rozkładem ogólnym dla języka, w którym go napisano, tym jest on bardziej zrozumiały dla większości osób posługujących się na co dzień tym językiem Aby sprawdzić, czy założenia prawa są spełnione w analizowanych zbiorach tekstów obejmujących teksty piosenek wchodzących w skład albumów wykonawców sporządzono wykres powstały poprzez wykreślenie rangi na osi x i częstotliwości wyrazu na osi y na skalach logarytmicznych. Wykreślana w ten sposób, odwrotnie proporcjonalna zależność będzie miała stałe, ujemne nachylenie.
W drugiej części tego rozdziału zaprezentowano wartości wskaźnika tf-idf obliczonego dla zbiorów tekstów znajdujących się na poszczególnych albumach. Wysokie wskaźniki tf-idf pozwalają na zidentyfikowanie charakterystycznych dla danego albumu wyrazów, które nie pojawiają się wśród tekstów piosenek umieszczonych na innych albumach.
Rys. 55. Częstotliwość słów tekstów piosenek Jacksona a ich ranking
Analiza zaprezentowanych wykresów wskazuje że zarówno w przypadku albumów Jacksona, jak i Madonny zależności są do siebie podobne i że związek między rangą a częstotliwością ma nachylenie ujemne. Nie jest ono jednak do końca stałe. Odchylenia, które występują na wysokim poziomie rang, nie są rzadkością w przypadku wielu rodzajów języka: korpus językowy często zawiera mniej rzadkich słów niż przewiduje to jedno prawo potęgowe. Bardziej nietypowe są odchylenia na niższych poziomach. Obaj wykonawcy w tekstach swych piosenek używają mniejszego odsetka najpopularniejszych słów niż w przypadku wielu zbiorów językowych napisanych w jezyku angielskim.
Rys. 56. Częstotliwość terminów i odwrotna częstotliwość dla albumów Jacksona
Biorąc pod uwagę metodę tf-idf można stwierdzić, iż charakterystycznymi dla poszczególnych albumów Jacksona są następujące słowa:
Rys. 57. Częstotliwość słów tekstów piosenek Madonny a ich ranking
Rys. 58. Częstotliwość terminów i odwrotna częstotliwość dla albumów Madonny
Biorąc pod uwagę metodę tf-idf można stwierdzić, iż charakterystycznymi dla poszczególnych albumów Madonny są następujące słowa:
Przeprowadzona do tej pory analiza koncentrowała się na słowach jako indywidualnych jednostkach. Jednak wiele interesujących analiz tekstowych opiera się na relacjach między słowami, sprawdzając, które słowa następują po sobie lub które mają tendencję do współwystępowania w tych samych dokumentach. W wyniku przeprowadzenia tokenizacji można uzyskać sekwencje kolejnych słów - zwanych n-gramami. Wiedząc, jak często po słowie X następuje słowo Y, można m.in zbudować model relacji między nimi. Tego typu analiza powoduje, iż zamiast dzielić teksty piosenek na pojedyncze słowa, można podzielić je na grupy, np. dwa słowa, trzy słowa lub więcej. W ten sposób możliwe jest uchwycenie pewnych informacje, których nie można odzwierciedlić w pojedynczych słowach. Metoda, która dzieli słowa na grupy, jest ogólnie nazywana analizą „n-gramową”. W przypadku dwóch słów jest to analiza 2-gramowa lub bigramowa, a przy trzech nazywa się to analizą 3-gramową lub trigramową.
W tej części projektu w postaci tabeli oraz chmury słów przedstawiono najczęściej występujące w piosenkach Jacksona bigramy -czyli wyrażenia składające się z dwóch następujących po sobie. Aby lepiej poznać kontekst słowa love które jest najczęściej występującym słowem zarówno w tekstach Jacksona, jak i Madonny w tabeli 15 przedstawiono 10 wyrazów najczęściej występujących bezpośrednio po love, natomiast w tabeli 16 - 10 najczęstszych wyrazów poprzedzających love w tekstach Jacksona. W drugiej części tego rozdziału projektu - w podobnym układzie zaprezentowano wyniki analizy bigramów w tekstach piosenek Madonny.
| word1 | word2 | n |
|---|---|---|
| stop | til | 76 |
| blue | gangsta | 50 |
| mighty | body | 48 |
| body | language | 46 |
| honey | love | 45 |
| dirty | diana | 44 |
| cry | cry | 36 |
| baby | baby | 32 |
| heartbreak | hotel | 28 |
| real | real | 28 |
Rys. 59. Chmura słów dla bigramów tekstów piosenek Jacksona
Najczęstsze bigramy w tekstach Jacksona to stop til, blue gangsta (blue gangster- potoczne określenie osoby, która ma negatywne doświadczenia w związkach i związane z tym problemy z zaufaniem drugiej osobie w miłości), mighty body oraz body language, występujące ponad 45 razy. Pierwszy bigram zawierający słowo miłość honey love pojawia się na piątym miejscu pod względem częstości. Częstymi bigramami są także powtórzenia tych samych słów, jak cry, cry czy baby, baby.
| word2 | n |
|---|---|
| dance | 20 |
| girl | 15 |
| love | 15 |
| sugar | 12 |
| billie | 10 |
| baby | 8 |
| honey | 8 |
| power | 8 |
| farewell | 7 |
| begin | 6 |
| sweeter | 6 |
| word1 | n |
|---|---|
| honey | 45 |
| makin | 16 |
| love | 15 |
| real | 14 |
| stop | 14 |
| baby | 12 |
| candy | 12 |
| sugar | 12 |
| stay | 8 |
| sweet | 8 |
Wyrazy najczęściej występujące po słowie love u Jacksona to dance, girl oraz love.
Słowo love zdecydowanie najczęściej bo aż 45 razy poprzedza wyraz honey. Większość z najczęstszych bigramów z słowem love ma zabarwienie pozytywne
| word1 | word2 | n |
|---|---|---|
| love | love | 128 |
| bang | bang | 42 |
| erotic | erotic | 38 |
| tao | gostoso | 38 |
| wild | dance | 34 |
| tick | tock | 31 |
| forbidden | love | 30 |
| bye | bye | 28 |
| ho | water | 27 |
| human | nature | 25 |
Rys. 60. Chmura słów dla bigramów tekstów piosenek Madonny
W tekstach Madonny najczęstsze bigramy zawierają powtórzenia tych samych słów, szczególnie słowa love. Wśród częstych bigramów pojawia się tão gosto - hiszpański odpowiednik angielskiego so good, co wskazuje na pojawiające się u Madonny wtrącenia do anglojęzycznych piosenek zwrotów latynoskich.
| word2 | n |
|---|---|
| love | 128 |
| hurt | 16 |
| parade | 12 |
| spent | 12 |
| gonna | 11 |
| anymore | 10 |
| forbidden | 10 |
| song | 10 |
| burning | 6 |
| inside | 5 |
| word1 | n |
|---|---|
| love | 128 |
| forbidden | 30 |
| true | 24 |
| feel | 12 |
| future | 8 |
| hurt | 8 |
| gonna | 6 |
| guilt | 6 |
| real | 5 |
| sin | 5 |
Słowa najczęściej występujące przed lub po słowie love mają u Madonny w porównaniu do tekstów Jacksona zabarwienie nieco bardziej negatywne, np. hurt, forbidden czy guilt.
W niektórych analizach ważne może być określenie najczęstrzych trygramamów, które są sekwencjami 3 kolejnych słów. Przedstawione poniżej wyniki analizy trigramów wskazują na to, że w najczęstszych trigramach u obojga artystów podobnie jak w bigramach, często pojawiają się powtórzenia tych samych słów lub fraz. Wynika to z faktu, iż zwroty tego typu często pojawiają się w refrenach piosenek - stąd też ich największa czestotliwość spośród wszytskich trigramów.
| word1 | word2 | word3 | n |
|---|---|---|---|
| mighty | mighty | body | 26 |
| body | mighty | body | 22 |
| bad | bad | real | 18 |
| bad | real | real | 18 |
| body | language | shake | 18 |
| cry | cry | cry | 18 |
| mighty | body | shake | 18 |
| real | real | bad | 18 |
| baby | baby | baby | 12 |
| can’t | stop | lovin | 12 |
| candy | love | sugar | 12 |
| dawn | makin | love | 12 |
| love | sugar | love | 12 |
| stop | til | break | 12 |
| won’t | stop | til | 12 |
Trigramy w piosenkach Madonny
| word1 | word2 | word3 | n |
|---|---|---|---|
| love | love | love | 96 |
| rollin | rollin | rollin | 23 |
| bang | bang | shot | 21 |
| body | erotic | erotic | 19 |
| beep | beep | gotta | 16 |
| starlight | star | bright | 16 |
| wild | dance | wild | 15 |
| dance | wild | dance | 14 |
| tick | tock | tick | 14 |
| tock | tick | tock | 14 |
| candy | perfume | girl | 13 |
| wanna | die | happy | 13 |
| baby | true | love | 12 |
| infinity | infinity | infinity | 12 |
| peace | peace | peace | 12 |
| stay | stay | darlin | 12 |
Za pomocą n-gramów możliwe jest połączenie ze sobą słowów na wykresie, tworząc wykres sieciowy. To kolejny sposób na wizualizację 2 gramów i relacji między słowam. Konstrukcja sieci możliwa jest dzieki wysteępowaniu trzech zmiennych:
Do wygenerowania sieci użyto zestawu danych z rozdzielonymi słowami po usunięciu stopwords. Dla lepszej prezentacji wybrano pary słów, które mają co najmniej 10 wystąpień. Wygenerowana dla piosenek Jackosna sieć składa się z 64 węzłów (słów) i 57 połączeń. Sieć utworzona na podstawie bigramów z tekstów Madonny składa się natomiast z 82 węzłów i 63 połączeń. Średnia liczba stopni wierzchołka dla sieci Jacksona jest równa 1.78, natomiast w przypadku Madonny jest ona równa 1.54. Gęstość sieci Jacksona liczona z pętlami wynosi 0.0139, natomiast liczona bez pętli 0.0141. W przypadku sieci Madonny wartości te wynoszą odpowiednio 0.00936 i 0.00948. W przypadku sieci Jacksona aktorami z największą liczbą powiązań są: love (6 stopni - 5 “in”, 1, “out” ), reala (6 stopni - 2 “in”, 4 “out”), stop (5 stopni - 0 “in”, 5 “out”), bad (4 stopnie - 2 “in”, 2 “out”). W sieci stworzonej na podstawie bigramów występujących w piosenkach Madonny aktorami z największą liczbą powiązań są: love (9 stopini - 4 “in”, 5 “out”), dance (5 stopni - 2 “in”, 3 “out”).
Rys. 61. Sieć powiązań utworzona na podstawie bigramów z tekstówpiosenek Jacksona
Rys. 62. Sieć powiązań utworzona na podstawie bigramów z tekstów piosenek Madonny
Przeprowadzona do tej pory analiza koncentrowała koncentrowała się bądź na pojedynczych słowach piosenek, bądź na sekwencjach słów występujących po sobie - czyli bigramów lub trigramów. Kolejnym etapem analizy jest konkordancja. W analizie tekstu konkordancja odnosi się do wyodrębniania słów z danego tekstu lub tekstów. Zwykle konkordancje są wyświetlane w postaci słowa kluczowego w kontekście (KWIC), gdzie wyszukiwane hasło jest wyświetlane z pewnym poprzedzającym i następującym kontekstem. Tego typu podejście jest pomocne przy sprawdzaniu, w jaki sposób analizowany termin jest używany w danych, przy sprawdzaniu, jak często wyraz występuje w tekście lub zbiorze tekstów, przy wydobywaniu przykładów, a także stanowi podstawową procedurę i często pierwszy krok w bardziej wyrafinowanej analizie danych językowych. Ze względu na to, iż zarówno w piosenkach Jacksoona, jak i Madonny najczęściej występującym słowem jest love do analizy współwystępowania wybrano właśnie to słowo. Jako słowa występujące w kontekście przyjęto 3 wyrazy występujące bezpośrednio przed i po love - nie wliczając do tej grupy stopwords. Poniżej przedstawiono częstotliwość występowania wybranych słów w kontekście słowa love. Wyniki obliczeń współwystępowania w kontekście słowa love z innymi często występującymi słowami z piosenek (baby, girl, honey, real, goodbye, stop, forbidden, hurt, cry) została zaprezentowana w postaci wykresu sieciowego. U obojga artystów love najczęściej współwystępuje ze słowem baby: u Jacksona 28 razy a u Madonny aż 35 razy. Ponadto u Jacksona słowo love częściej niż u Madonny pojawia się w kontekście słów real i stop. Natomiast u Madonny, w przeciwieństwie do piosenek Jacksona love nie pojawia się ze w kontekście słowa sweet.
## [1] "Liczba słów <love> w kontekście słowa <baby>"
## [1] 28
## [1] "Liczba słów <love> w kontekście słowa <sweet>"
## [1] 12
## [1] "Liczba słów <love> w kontekście słowa <stop>"
## [1] 14
## [1] "Liczba słów <love> w kontekście słowa <real>"
## [1] 26
Rys. 63. Sieć powiązań współwystępowania słowa love z innymi wybranymi słowami z tekstów piosenek Jacksona
## [1] "Liczba słów <love> w kontekście słowa <baby>"
## [1] 35
## [1] "Liczba słów <love> w kontekście słowa <sweet>"
## [1] 0
## [1] "Liczba słów <love> w kontekście słowa <stop>"
## [1] 7
## [1] "Liczba słów <love> w kontekście słowa <real>"
## [1] 15
Rys. 64. Sieć powiązań współwystępowania słowa love z innymi wybranymi słowami z tekstów piosenek Madonny
Tokenizacja według n-gramów to przydatny sposób na eksplorację par sąsiednich słów. Interesująca może być jednak analiza słów, które mają tendencję do współwystępowania w obrębie poszczególnych tekstów piosenek, nawet jeśli nie występują obok siebie. Jednym ze sposobów przeprowadzenia tego typu analizy jest określenie współczynnika korelacji między słowami, która wskazuje, jak często dane dwa słowa pojawiają się razem, w stosunku do tego, jak często pojawiają się osobno. W szczególności do tego celu może być wykorzystany współczynnik phi - wspólna miara korelacji binarnej. Celem obliczenia współczynnika phi jest wskazanie tego, o ile bardziej prawdopodobne jest, że zarówno słowa X, jak i Y pojawią się razem lub żadne z nich się nie pojawi, niż to, że jedno pojawia się bez drugiego. Przedstawia to poniższa tabela
| Ma słowo Y | Brak słowa Y | Całkowity | |
|---|---|---|---|
| Ma słowo X | n11 | n10 | n1. |
| Brak słowa X | n01 | n00 | n0. |
| Całkowity | n.1 | n.0 | n |
W odniesieniu do tej tabeli współczynnik phi może zostać obliczony jako: \[ \phi = \frac{n11 n00 - n10n01}{\sqrt{n1. n0.n.0n.1}} \] Tabela 22 i 23 przedstawia pary słów o największych współczynników korelacji dla piosenek Jacksona i Madonny. W piosenkach Jacksona najwyższy współczynnik korelacji (>0.5) maja zwroty: mighty language, dirty diana i dance floor. Natomiast u Madonny najwyższą korelacje (0.7) ma zwrot tao gostoso (ang. so good).
Zamieszczone poniżej tabeli wykresy przedstawiają wyniki analizy współwystępowania opartej o współczynniki korelacji dla czterech najczęściej występujących w tekstach wyrazów baby, girl, love, time. Slowa skorelowane z tymi czterema najczęściej występującymi w tekstach wyrazami są w większości inne u obu artystów.
Ostatnim etapem przeprowadzonej analizy współwystępowania była konstrukcja sieci, pozwalającej na wizualizację ogólnego wzorca korelacji. W przeciwieństwie do sieci skonstruowanej na podstawie bigramów, relacje tutaj są symetryczne, a nie kierunkowe (nie ma strzałek). Tworząc sieć powiązań między wyrazami uwzględniono jedynie te powiązania dla których współczynnik korelacji jest większy od 0,25. Średnia liczba stopni wierzchołka dla sieci Jacksona jest równa 1.43, natomiast w przypadku Madonny jest ona równa 1.42. Gęstość sieci Jacksona liczona z pętlami wynosi 0.0408, natomiast liczona bez pętli 0.042. W przypadku sieci Madonny wartości te wynoszą odpowiednio 0.0368 i 0.0378. W przypadku sieci Jacksona aktorami z największą liczbą powiązań są: dance (5 stopni), rhytm (3 stopnie), rock (3 stopnie). W sieci stworzonej dla piosenek Madonny aktorami z największą liczbą powiązań są: erotic (3 stopnie), bang (3 stopnie), music (3 stopnie), dance (3 stopnie), party (3 stopnie).
| item1 | item2 | correlation |
|---|---|---|
| language | mighty | 0.7041909 |
| mighty | language | 0.7041909 |
| diana | dirty | 0.5713748 |
| dirty | diana | 0.5713748 |
| floor | dance | 0.5332528 |
| dance | floor | 0.5332528 |
| body | move | 0.5043151 |
| move | body | 0.5043151 |
| ease | diana | 0.4917012 |
| diana | ease | 0.4917012 |
| verse | chorus | 0.4544318 |
| chorus | verse | 0.4544318 |
| rhythm | floor | 0.4447832 |
| floor | rhythm | 0.4447832 |
| children | people | 0.4443334 |
| people | children | 0.4443334 |
Rys. 65. Słowa piosenek Jacksona najsilniej skorelowane z baby, girl, love, time
Rys. 66. Sieć słów utworzona na podstawie współczynników korealacji słów w piosenkach Jacksoan
| item1 | item2 | correlation |
|---|---|---|
| gostoso | tao | 0.7057912 |
| tao | gostoso | 0.7057912 |
| erotic | wild | 0.4399585 |
| wild | erotic | 0.4399585 |
| girl | boy | 0.3946201 |
| boy | girl | 0.3946201 |
| erotic | pain | 0.3756621 |
| pain | erotic | 0.3756621 |
| music | dance | 0.3756354 |
| dance | music | 0.3756354 |
| body | music | 0.3613720 |
| music | body | 0.3613720 |
| game | play | 0.3584118 |
| play | game | 0.3584118 |
| bang | bitch | 0.3401710 |
| bitch | bang | 0.3401710 |
Rys. 67. Słowa piosenek Madonny najsilniej skorelowane z baby, girl, love, time
Rys. 68. Sieć słów utworzona na podstawie współczynników korealacji słów w piosenkach Madonny
Analiza bigramów i korelacja par mówią o tym, jak pary słów są ze sobą powiązane. Analiza może jednak również dotyczyć tego, jak więcej niż jedno słowo jest powiązane z innymi słowami. Można to zbadać za pomocą metody zwanej Analiza koszyków rynkowych MBA, w której można zidentyfikować reguły asocjacji. W tym celu należy przekonwertować dane tekstowe do formatu danych transakcyjnych. Przed konwersją danych usunięte zostały bardzo rzadkie terminy, w wyniku czego pozostało w sumie 376 słów w zbiorze Jacksona i 370 w zbiorze Madonny. Rzadkość obu macierzy wyniosła 94%. Podstawowe informacje o macierzy transakcji dla piosenek Jacksona to:
W przypadku macierzy piosenek Madonny charakterystyka macierzy transakcji przedstawia się następująco:
W sposób graficzny występowanie itemsów w poszczególnych pierwszych 100 transakcjach zostało przedstawione na rys. 69 i rys. 70. Na poniższych wykresach w postaci kwadratu oznaczono, występowanie w danej transakcji(tekście piosenki) słowa (itemsu).
Rys. 69. Występowanie itemsów (wyrazów) w 100 pierwszych transakcjach - tekstach piosenek Jacksona
Rys. 70. Występowanie itemsów (wyrazów) w 100 pierwszych transakcjach - tekstach piosenek Madonny
Poszukując reguł asocjacji w analizowanych danych transakcyjnych należy określić minimalne parametry, jakie muszą one spełniać. Do tych parametrów należą: wsparcie reguły (support), czyli odsetek transakcji zawierających analizowaną regułę w całym zbiorze oraz poziom ufności (confidence), czyli odsetek transakcji zawierających analizowaną regułę w zbiorze tych, które spełniają poprzednik danej reguły. Dla analizowanych danych przyjęto następujące minimalne poziomy:
Dla tak określonych kryteriów w zbiorze danych transakcyjnych obejmujących teksty piosenek Jacksoan 529 reguł. Poniżej przedstawiono miary (s - support, c - confidence) dla wybranych reguł zawierajacych słowo love:
Rozkład reguł ze względu na ich poziom wsparcia i ufności został przedstawiony na rys. 71. Rysunek 72 przedstawia w postaci grafu 15 reguł asocjacji wedlug najwyższego poziomu confidence. Centralnym punktem na wykresie, czyli wyrazem wspólnym dla większości z tych reguł jest love.Parametr lift (przyrost) określa, czy fakt wystąpienia jednego itemu (slowa) wpływa na zwiększenie prawdopodobieństwa wystąpienia drugiego w ramach jednej transakcji (tekstu piosenki).
Rys. 71. Wykres punktowy dla reguł asocjacji w piosenkach Jacksona- min. support = 0,05, min confidence = 0,6
Rys. 72. Graf dla reguł asocjacji w piosenkach Jacksona- według największego poziomu confidence
Przyjmując te same wartości minimalne dla parametrów opisujących jakość reguł asocjacji, w przypadku danych transakcyjnych obejmujących teksty piosenek Madonny zaledwie 124 reguły. Poniżej przedstawiono miary dla wybranych reguł:
Rozkład reguł ze względu na ich poziom wsparcia i ufności został przedstawiony na rys. 73, natomiast na rys. 74 w postaci grafu zilustrowano 15 reguł asocjacji według największego poziomu confidence. Centralnym punktem na wykresie, czyli wyrazem wspólnym dla większości z tych reguł jest love.
Rys. 73. Wykres punktowy dla reguł asocjacji w piosenkach Madonny- min. support = 0,05, min confidence = 0,6
Rys. 74. Graf dla reguł asocjacji w piosenkach Jacksona- według największego poziomu confidence
We wcześniejszych etapach pracy celem analizy były dwa lub trzy następujące po sobie słowa (analiza za pomocą ngramów), skojarzenia dowolnych dwóch słów (analiza korelacji) oraz reguły asocjacji dla relacji między słowami. W tej części opracowania zostaną przedstawione wyniki analizy dotyczące tego w jaki sposób słowa łączą się w grupę. Podstawą tego typu analiz jest pomiar bliskość słów. Jednym ze sposobów mierzenia odległości jest określenie częstotliwości każdego słowa dla wszystkich tekstów piosenek. W efekcie uzyskiwana jest macierz danych ze słowami w kolumnach i częstotliwością w wierszach, będąca podstawą obliczeń odległości pary słów. Otrzymana w ten sposób macierz dla piosenek Jacksona ma wymiar 245 X 618 z czego jedynie 6029 rekordów ma wartość różną od 0, a 96% ma wartość 0. W przypadku piosenek Madonny utworzona macierz ma wymiar 271 x 796. Odsetek pozycji zawierającej 0 wynosi 97%. Jedynie 7309 elementów macierzy ma wartości nie-zerowe. Z tego też względu w dalszej analizie skupiono się jedynie na często używanych słowach. W szczególności usunięto słowa, które mają co najmniej rzadkość 0,8, co oznacza, że dla 80% tekstów piosenek słowa te nie zostały użyte. W efekcie w przypadku tekstów Jacksona analiza dotyczy 15 najczęściej występujących słów, zaś dla tekstów Madonny - 11. Rzadkość utworzonych w ten sposób macierzy wynosi 67% (dla Jacksona) i 69% (dla Madonny). Grupowanie słów zostało przeprowadzone za pomocą hierarchicznej analizy skupień wykorzystując do pomiaru odległości odległość euklidesową. Na kolejnych etapach łączenia odległość między skupieniami została obliczona na podstawie metody najdalszych sąsiadów. Wyniki analizy w postaci dendrogramów zostały przedstawione poniżej.
Inną metodą grupowania jest metoda k-średnich. Reprezentuje ona grupę algorytmów niehierarchicznych. Główną różnicą pomiędzy niehierarchicznymi i hierarchicznymi algorytmami jest konieczność wcześniejszego podania liczby skupień. Do określenia najlepszej liczby skupień można zastosować wiele metod. W niniejszej analizie wykorzystano metodę opartą o wariancję. Dla każdej podanej liczby skupień obliczono, ile wariancji danych można wyjaśnić grupowaniem. Procent wyjaśnienia zazwyczaj będzie się zwiększać wraz z liczbą klastrów. Jednak w pewnym momencie wzrost zwalnia - punkt ten wybierany jest jako optymalna liczba skupień. Z rys. 76 wynika, że właściwa liczba skupień w przypadku piosenek Jacksona wynosi 4, zaś dla utworów Madonny 2 (rys. 79). Wizualizacja w przestrzeni dwuwymiarowej wydzielonych skupień została przedstawiona na rys. 77 (dla Jacksona) i rys. 80 (dla Madonny).
Porównując wyniki grupowania słów piosenek obojga artystów, z zastosowanie obu metod, można stwierdzić ze słowo love w obu przypadkach tworzy osobna jednoelementowa grupę. Natomiast wyrazy należące do ostatniej najbardziej licznej grupy są bardzo podobne u Jacksona i Madonny np. w obu grupach występują: baby, heart, feel, time, world i day.
W tej części projektu zostaną przedstawione wyniki analizy tematów. Została ona przeprowadzona z wykorzystaniem dwóch metod: utajonej alokacji Dirichleta (LDA)oraz modelowania tematycznego strukturalnego (STM)
Utajona alokacja Dirichleta (LDA) jest szczególnie popularną metodą dopasowywania modelu tematycznego. Traktuje każdy dokument jako mieszankę tematów, a każdy temat jako mieszankę słów. Dzięki temu dokumenty „nakładają się” na siebie pod względem treści, a nie są dzielone na odrębne grupy w sposób, który odzwierciedla typowe użycie języka naturalnego. LDA kieruje się on dwiema podstawowymi zasadami:
Modelowanie tematów polega więc na wyszukiwaniu podobnych tematów w różnych dokumentach i grupowaniu razem różnych słów, tak aby każdy temat składał się ze słów o podobnym znaczeniu. W matematycznym ujęciu LDA jest modelem probabilistycznym, który przypisuje słowu wynik probabilistyczny najbardziej prawdopodobnego tematu, do którego potencjalnie może on należeć.
Podstawą analizy jest DTM (document term matrix), czyli macierz zawierająca terminy i dokumenty jako wymiary. W dalszej kolejności należny wskazać liczbę tematów jakie mają być wyszczególnione w ramach analizowanej biblioteki. Do oceny najlepszej liczby tematów na jakie można podzielić teksty piosenek Jacksona i Madonny wykorzystano wskaźniki koherencji. Wskazuje on, czy słowa z tego samego tematu mają sens, gdy są ze sobą połączone. Tym samym daje możliwość oceny jakości tworzonych tematów. Wyższy wynik dla określonej liczby k, oznacza to, że dla każdego tematu będzie więcej powiązanych słów razem i temat będzie miał większy sens. Istnieje kilka różnych typów wyniku koherencji, z których dwa najpopularniejsze to c_v i u_mass. C_v jest dokładniejszy, podczas gdy u_mass jest szybszy. W tej części analizy jako wskaźnik oceny koherencji wybrano c_v, który waha się od 0 do 1, gdzie 1 to doskonale spójne tematy. Wyniki obliczeń wskaźników koherencji dla k od 1 do 30 zostały przedstawione w postaci graficznej na rys. 81 i rys. 83. Na tej podstawie zarówno dla zbioru tekstów Jacksona, jak i Madonny jako najlepszą liczbę tematów wybrano 29. Zgodnie z założeniami LDA, każdy temat składa się z wielu słów. Prawdopodobieństwo występowania konkretnego słowa w danym temacie określane jest jako \(\beta\) Na rys. 82 i rys. 84 przedstawiono najbardziej prawdopodobne słowa występujące w danych tematach wyodrębnionych z tekstów piosenek Jacksona i Madonny. Analiza tych słów wskazuje na to, że niektóre z związane są z kilkoma tematami, innym może być jednak kontekst ich użycia. Oprócz szacowania każdego tematu jako mieszanki słów, LDA modeluje również każdy dokument jako mieszankę tematów. Możliwe jest przy tym określenie prawdopodobieństwa przypisana każdego dokumentu do określonego tematu, zwane jako \(\gamma\). Piosenki o najwyższych wartościach prawdopodobieństwa \(\gamma\) zostały zamieszczone w tab. 24 i tab. 25.
Rys. 81. Wskaźnik koherencji w zależności od liczby tematów - piosenki Jacksona
Rys. 82. Najbardziej prawdopodobne słowa zwiażane z poszczególnymi tematami piosenek Jaksona
| document | topic | gamma |
|---|---|---|
| smile | 20 | 0.9973512 |
| la-la means i love you | 10 | 0.9967121 |
| whatzupwitu | 4 | 0.9966053 |
| that’s how love is | 25 | 0.9965681 |
| love is here & now you’re gone | 21 | 0.9962611 |
| you rock my world | 12 | 0.9961929 |
| this is it | 26 | 0.9959728 |
| heartbreak hotel | 1 | 0.9956963 |
| love’s gone bad | 1 | 0.9956058 |
| different kind of lady | 17 | 0.9955433 |
| push me away | 4 | 0.9953790 |
| you were there | 14 | 0.9953790 |
| you can cry on my shoulder | 9 | 0.9953099 |
| wait | 6 | 0.9951652 |
| didn’t mean to hurt you | 11 | 0.9951652 |
Rys. 83. Wskaźnik koherencji w zależności od liczby tematów - piosenki Madonny
Rys. 84. Najbardziej prawdopodobne słowa zwiażane z poszczególnymi tematami piosenek Madonny
| document | topic | gamma |
|---|---|---|
| 4 minutes (feat, justin timberlake & timbaland) | 21 | 0.9961520 |
| american life | 25 | 0.9956911 |
| beat goes on (feat, kanye west) | 23 | 0.9966840 |
| candy shop | 13 | 0.9973299 |
| come alive | 9 | 0.9960462 |
| crazy | 22 | 0.9964813 |
| faz gostoso (feat, anitta) | 14 | 0.9972795 |
| future | 3 | 0.9954885 |
| girl gone wild (offer nissim remix) | 28 | 0.9956586 |
| god control | 26 | 0.9969314 |
| holy water | 28 | 0.9960732 |
| human nature | 9 | 0.9955921 |
| it’s so cool | 12 | 0.9965238 |
| living for love | 24 | 0.9957857 |
| medellin feat, maluma | 3 | 0.9959631 |
| possesive love | 10 | 0.9966647 |
| the lady’s got potential | 27 | 0.9962764 |
| true blue | 24 | 0.9959912 |
| what the woman feels | 1 | 0.9955921 |
| wild dancing | 28 | 0.9960462 |
Strukturalny model tematyczny (STM) to forma modelowania tematów pozwalająca włączyć metadane do modelu i odkryć, w jaki sposób różne dokumenty mogą mówić o tym samym podstawowym temacie przy użyciu różnych słów. Zgodnie z założeniami LDA:
Powyższe ograniczenia nie dotyczą STM, które pozwala między innymi na korelacje między tematami. Podobnie jednak jak w przypadku LDA podstawą obliczeń jest wstępne określenie liczby tematów w zbiorze tekstów. Nie istnieje jedna metoda wskazująca, jaka jest optymalna ich liczba. Można wziąć pod uwagę dwa kryteria, aby zdecydować o liczbie tematów K, które powinny zostać wygenerowane:
Należy zauważyć, że statystyczne dopasowanie i interpretacja tematów nie zawsze idą w parze. Opierając się na tych kryteriach, można dojść do różnych rozwiązań dotyczących tego, ile tematów wydaje się „dobrym” wyborem. Na przykład badania pokazują, że modele z dobrym dopasowaniem statystycznym są często trudne do interpretacji dla ludzi i niekoniecznie zawierają istotne tematy.
Wybór optymalnej liczby tematów w tekstach piosenek oparto na trzech kryteriach: spójności semantycznej, wyłączności tematów i resztach:
Wynik obliczeń, (przyjmując za k wartości ze zbioru {4,6,8,10,15,20,25,30}) dotyczących wyboru najlepszej liczby tematów zostały przedstawione na rys. 85 (dla Jacksoan) i rys. 87 (dla Madonny). Analizując wykresy można stwierdzić, że spójność tematów maleje, wraz ze wzrostem liczby tematów. Z kolei wyłączność tematów wzrasta wraz ze wzrostem liczby tematów. Najniższy poziom reszt występuje natomiast dla k = 10 lub 15. Biorąc pod uwagę powyższe obliczenia jako liczbę tematów w modelu STM dla tekstów Jackosona przyjęto k = 15, zaś dla Madonny k = 20. Na rys. 86 i rys. 89 przedstawiono natomiast najbardziej prawdopodobne słowa występujące w poszczególnych tematach. Podobnie jak w przypadku analizy LDA zaobserwować można występowanie tych samych wyrazów w różnych tematach. Rozkład prawdopodobieństw dokumentów dla każdego tematu wskazuje jednak, że dla prawie każdego tematu można wskazać teksty o dużym prawdopodobieństwie przynależności. Oznacza to, że przy zastosowanym podziale uniknięto wyodrębnienia tematów, które byłyby jedynie tłem dla innych głównych tematów.
Jednym ze sposobów analizy sentymentu tekstu jest potraktowanie tekstu jako kombinacji jego poszczególnych słów, a wymiar sentymentalny całego tekstu jako sumy treści tonacji poszczególnych jego słów. Istnieje wiele metod i słowników służących do oceny opinii lub emocji w tekście. W niniejszej analizie wykorzystano trzy z nich:
Wszystkie trzy z tych leksykonów oparte są na unigramach. TZawierają one wiele angielskich wyrazów, którym przypisuje się punkty za pozytywne/negatywne uczucia, a także prawdopodobnie emocje, takie jak radość, złość, smutek i tak dalej. Leksykon NRC dzieli słowa na klasy pozytywne, negatywne, złość, oczekiwanie, wstręt, strach, radość, smutek, zaskoczenie i zaufanie. Leksykon bing kategoryzuje słowa w sposób binarny na kategorie pozytywne i negatywne. Leksykon AFINN przypisuje słowa z wynikiem od -5 do 5, przy czym wyniki ujemne wskazują na sentyment negatywny, a wyniki pozytywne wskazują na sentyment pozytywny. Podejście oparte na założeniu, iż ogólna ocena sentymentu całego tekstu wynika z sumy wartości sentymentu przypisywanej do poszczególnych jego wyrazów może budzić zastrzeżenia, wynikające z faktu, że rozmiar fragmentu tekstu, który używany jest do dodawania wyników sentymentu unigramu, może mieć wpływ na wyniki analizy. Tekst o rozmiarze wielu akapitów może często mieć pozytywne i negatywne nastroje uśrednione do około zera, podczas gdy tekst o rozmiarze zdania lub akapitu wskazać może różnorodność nastrojów w danym tekście. W niniejszym opracowaniu jako podstawową jednostkę do analizy sentymentu przyjęto cały tekst poszczególnych piosenek. W tab. 26 i tab. 27 przedstawiono - obliczone na podstawie słownika AFINN (uwzględnia wyrazy pozytywne i negatywne,którym przypisywane są wartości od -5 do 5) - najbardziej pozytywne i negatywne piosenki Jacksona, natomiast w tab. 28 i tab. 29 Madonny. Najbardziej negatywną piosenką Jacksona jest piosenka Bad. Wysoka negatywna ocena tego utworu wynika przede wszystkim z wielokrotnie powtarzanego (16 razy) w refrenie słowa Bad, którego wartość negatywna według słownika AFINN wynosi -3. Z podobnego powodu wynika wysoka pozytywna wartość utworu Madonny, It’s so cool w którym w każdym refrenie powtarzany jest cztery razy zwrot: We need love (love, love, love, love, love). Zarówno w przypadku utworów Jackosona (rys. 89), jaki i Madonny (rys. 92) najwięcej piosenek ma wartość sentymentu bliską 0.
| title | popularity | sentiment |
|---|---|---|
| stranger in moscow | 59 | 193 |
| beautiful girl | 11 | 114 |
| honey love | 15 | 114 |
| slave 2 the rythm (feat. justin bieber) | 54 | 114 |
| ease on down the road | 47 | 98 |
| wait | 28 | 98 |
| who is looking for a lover | 27 | 97 |
| heaven knows i love you girl | 19 | 79 |
| jump for joy | 22 | 77 |
| fly away | 41 | 71 |
| title | popularity | sentiment |
|---|---|---|
| bad | 29 | -266 |
| 2 bad | 47 | -197 |
| maria (you were the only one) | 39 | -63 |
| it is scary | 32 | -59 |
| whatzupwitu | 33 | -50 |
| dirty diana | 65 | -41 |
| privacy | 41 | -41 |
| the young folks | 15 | -41 |
| leave me alone | 60 | -32 |
| don’t stop ’til you get enough | 77 | -25 |
| maybe tomorrow | 33 | -25 |
| that’s how love is | 13 | -25 |
Rys. 89. Ocena sentymentu piosenek Jacksona według słownika AFINN
Porównanie analizy sentymentu przeprowadzonej na podstawie różnych bibliotek
Ocena sentymentu zależy nie tylko od sposobu podziału tekstu na fragmenty, które podlegają oceny, ale także od wybranego słownika, na podstawie którego dokonywana jest ocena. Wymienione w p. 1 słowniki różnią się nie tylko sposobem oceny sentymentu, ale przede wszystkim liczbą słów, które zostały w nich uwzględnione. Przykładowo w słowniku AFINN uwzględniono prawie 2.500 słów, podczas gdy w słownik bing wymienia ich ponad 6.700. Z tego też względu w pracy dokonano porównania oceny sentymentu sporządzonej na podstawie wszystkich trzech wykorzystywanych słowników. Wyniki w postaci graficznej przedstawiono na rys. 90 i 91 (dla piosenek Jacksona) oraz rys. 93 i 94 (dla utworów Madonny). W zależności od porównywanych ze sobą bibliotek współczynnik korelacji rang Spearmana wyniósł od 0,69 do 0,76 (dla piosenek Jacksona) oraz od 0,67 do 0,70 (dla piosenek Madonny). Trzy różne leksykony do obliczania sentymentu dają wyniki, które są różne w sensie bezwzględnym, ale mają podobne rozkłady. Podobne spadki i szczyty nastrojów obserwujemy w mniej więcej tych samych miejscach, ale wartości bezwzględne znacznie się różnią. Leksykon AFINN podaje największe wartości bezwzględne, z wysokimi wartościami dodatnimi. Leksykon Bing et al. ma niższe wartości bezwzględne i wydaje się oznaczać większe bloki ciągłego tekstu pozytywnego lub negatywnego.
Rys. 90. Porównanie oceny sentymentu piosenek Jacksona według 3 słowników
Rys. 91. Współczynniki korealcji rang Spearman’a dla oceny piosenek Jacksona według 3 bibliotek
| title | popularity | sentiment |
|---|---|---|
| it’s so cool | 11 | 371 |
| true blue | 63 | 158 |
| come alive | 43 | 124 |
| holiday | 63 | 117 |
| forbidden love (bedtime stories) | 49 | 105 |
| dress you up | 53 | 100 |
| to love you | 2 | 90 |
| heaven | 44 | 88 |
| justify my love | 51 | 86 |
| stay | 35 | 82 |
| title | popularity | sentiment |
|---|---|---|
| gang bang | 32 | -160 |
| bitch i’m madonna (feat. nicki minaj) | 30 | -142 |
| human nature | 47 | -72 |
| thief of hearts | 35 | -66 |
| crazy | 64 | -65 |
| give it 2 me | 45 | -62 |
| unapologetic bitch | 42 | -52 |
| best friend | 20 | -48 |
| get stupid | 8 | -42 |
| trust no bitch | 3 | -40 |
Rys. 92. Ocena sentymentu piosenek Madonny według słownika AFINN
Porównanie analizy sentymentu przeprowadzonej na podstawie różnych bibliotek
Rys. 93. Porównanie oceny sentymentu piosenek Madonny według 3 słowników
Rys. 94. Współczynniki korealcji rang Spearman’a dla oceny piosenek Madonny według 3 bibliotek
Analiza sentymentu poszczególnych piosenek Jackosona i Madonny umożliwia dokonania oceny sentymentu poszczególnych albumów. Wartość te stanowi sumę ocen uzyskanych przez utwory wydane na danym albumie. Wyniki obliczeń przedstawiono na rys. 95 i rys. 96. Przedstawione wyniki wskazują na to, że w przypadku albumów Jacksona wszystkie z nich mają wyraźny wydźwięk pozytywny. Natomiast albumy Madonny odznaczają się większym zróżnicowaniem oceny sentymentu. Wśród 9 analizowanych albumów ocena jednego (MDNA) jest ujemna, a dwa pozostała mają wartość sentymentu bliską 0. Ponadto zauważyć można iż albumy Madonny mają niższe wartości sentymentu w porównaniu z albumami Jacksona.
Leksykony AFINN i Bing są dość ograniczone jeśli chodzi o bardziej szczegółową ocenę nastroju tekstu. Dostarczają bowie one jedynie binarnego sentymentu - poszczególne wyrazy klasyfikowane są albo jako pozytywne, albo jako negatywne. Z kolei leksykon nrc pozwala na podzielenie słów na osiem dodatkowych kategorii emocjonalnych: radość, oczekiwanie, zaufanie, zaskoczenie, smutek, złość, wstręt i strach. W tej części użyto wizualizacji w postaci wykresu radarowego, aby zobaczyć, jak teksty Jacksona i Madonny zebrane według albumów układają się nawzajem pod względem tych ośmiu emocji. Skala przedstawia procent słów w korpusie połączonych z nrc, które należą do określonej kategorii emocjonalnej. Słowa mogą należeć do więcej niż jednej kategorii, ale ponieważ jest to uwzględnione w zbiorze danych, suma wartości procentowych jednego albumu wynosi 100. Te profile nastrojów wyraźnie pokazują, że w przypadku wszystkich albumów Jacksona dominującym nastrojem jest radość. Potwierdza to tym samym wniosek ze wcześniejszej analizy, wskazujący, iż wszystkie analizowane albumy tego wykonawcy mają wydźwięk pozytywny. Pod względem oceny emocjonalnej bardziej zróżnicowane są natomiast albumy Madonny, wśród których Hard candy i Evita ma wysoki odsetek słów związanych z oczekiwaniem, natomiast MDNA ze gniewem, smutkiem i strachem.
Rys. 97. Wykres radarowy oceny emocji albumów Jacksoana według biblioteki nrc
Rys. 98. Wykres radarowy oceny emocji albumów Madonny według biblioteki nrc
W tej części projektu w postaci wykresu oraz chmury słów przedstawione zostały najczęstsze pozytywne i negatywne słowa występujące w piosenkach Jacksoana i Madonny. Do analizy wykorzystano słownik bing. Następnie - na podstawie występujących w tekstach piosenek wyrazów pozytywnych i negatywnych określono ich udział w stosunku do całości wyrazów z danego tekstu (po wyeliminowaniu stopwords). Otrzymano w ten sposób wskaźnik udziałów słów pozytywnych/negatywnych w piosence.
Zarówno w piosenkach Jacksona jak i Madonny zdecydowanie najczęstsze pozytywne słowo to love. Do najczęstszych słów zakwalifikowanych jako negatywne u Jacksona należą bad, cry, shake i lose, a u Madonny fall, hard, cry i wild. W tej klasyfikacji widać słabość metody określania sentymentu wypowiedzi na podstawie pojedynczych słów, gdyż w zależności od kontekstu słowa te mogą być też nacechowane pozytywnie. Z dalszej analizy wynika, ze album Jacksona o największym udziale słów negatywnych to 2Bad, a stosunkowo najwięcej słów pozytywnych występuje w albumie Beautiful girl. U Madonny jako najbardziej negatywnie nacechowane analiza wskazała albumy Pretender i Burning up. Najwięcej słów pozytywnych zawiera natomiast album It’s so cool.
Rys. 99. Najczęstrze pozytywne i negatywne słowa występujace w piosenkach Jacksona
Rys. 100. Chmura słów pozytywnych i nagatywnych w piosenkach Jacksona
| title | negativewords | words | ratio |
|---|---|---|---|
| 2 bad | 73 | 112 | 0.6517857 |
| breaking news | 32 | 60 | 0.5333333 |
| rock with you | 32 | 60 | 0.5333333 |
| bad | 90 | 190 | 0.4736842 |
| privacy | 54 | 120 | 0.4500000 |
| i am a loser | 35 | 84 | 0.4166667 |
| you are not alone | 35 | 84 | 0.4166667 |
| maybe tomorrow | 17 | 42 | 0.4047619 |
| al capone | 20 | 55 | 0.3636364 |
| jam | 29 | 82 | 0.3536585 |
| title | positivewords | words | ratio |
|---|---|---|---|
| beautiful girl | 38 | 47 | 0.8085106 |
| love is here & now you're gone | 28 | 57 | 0.4912281 |
| trouble | 28 | 57 | 0.4912281 |
| heaven knows i love you girl | 29 | 60 | 0.4833333 |
| greatest show on earth | 15 | 32 | 0.4687500 |
| i can only give you love | 25 | 54 | 0.4629630 |
| much too soon | 25 | 54 | 0.4629630 |
| who is looking for a lover | 38 | 87 | 0.4367816 |
| happy | 23 | 54 | 0.4259259 |
| speed demon | 23 | 54 | 0.4259259 |
Rys. 101. Najczęstrze pozytywne i negatywne słowa występujace w piosenkach Madonny
Rys. 102. Chmura słów pozytywnych i nagatywnych w piosenkach Madonny
| title | negativewords | words | ratio |
|---|---|---|---|
| pretender | 50 | 91 | 0.5494505 |
| burning up | 44 | 91 | 0.4835165 |
| oh father | 11 | 26 | 0.4230769 |
| guilty by assocation | 6 | 15 | 0.4000000 |
| beautiful scars | 17 | 44 | 0.3863636 |
| i’m so stupid | 16 | 42 | 0.3809524 |
| bitch i’m madonna (feat. nicki minaj) | 47 | 126 | 0.3730159 |
| best friend | 33 | 89 | 0.3707865 |
| fever | 44 | 119 | 0.3697479 |
| love tried to welcome me | 26 | 72 | 0.3611111 |
| title | positivewords | words | ratio |
|---|---|---|---|
| it’s so cool | 125 | 165 | 0.7575758 |
| survival | 29 | 51 | 0.5686275 |
| to love you | 29 | 52 | 0.5576923 |
| i feel love | 19 | 36 | 0.5277778 |
| angel | 25 | 52 | 0.4807692 |
| beautiful scars | 20 | 44 | 0.4545455 |
| future lovers | 32 | 72 | 0.4444444 |
| amazing | 15 | 34 | 0.4411765 |
| heaven | 43 | 99 | 0.4343434 |
| nobody’s perfect | 18 | 42 | 0.4285714 |
Podstawą dotychczas przeprowadzonej analizy sentymentu był pojedyncze wyrazy występuje w tekście. Podejście takie nie uwzględnia kontekstu pojawiających się w wypowiedzi słów, wynikającego choćby z faktu zaprzeczenia jakiemuś twierdzeniu, które samo w sobie jest pozytywne. Z tego też powodu niektóre algorytmy analizy sentymentu wykraczają poza unigramy (tj. pojedyncze słowa), aby spróbować zrozumieć sentyment zdania jako całości. Jednym z najprostszych rozwiązań jest rozwiązanie uwzględniające zmianę ogólnej oceny wyrazu w wyniku jego zaprzeczenia. W tekstach często pojawiają się słowa zaprzeczenia, które mogą nadać pojedynczemu słowu przeciwne znaczenie. Na przykład „dobry” jest ogólnie pozytywnym słowem, ale „nie-dobry” jest negatywny. Z tego też względu należy zmienić kierunek sentymentu dla tych wyrazów, które poprzedzone są słowami negatywnymi. Poniżej przedstawiono listę słów zidentyfikowanych jako zaprzeczenia: “no”, “not”, “never”, “dont”, “don’t”, “cannot”, “can’t”, “won’t”, “wouldn’t”, “shouldn’t”, “aren’t”, “isn’t”, “wasn’t”, “weren’t”, “haven’t”, “hasn’t”, “hadn’t”, “doesn’t”, “didn’t”, “mightn’t”, “mustn’t”. Wykonując analizę sentymentu na bigramach, można sprawdzić, jak często słowa związane z sentymentem są poprzedzone słowem „nie” lub innymi słowami przeczącymi. W tab. 34 i tab. 35 przedstawiono bigramy, które w największym stopniu przyczyniają się do zmiany oceny tekstu. Wkład poszczególnego bigramu w zmianę oceny sentymentu wynika z częstości jego występowania oraz wartości pozytywnej, bądź negatywnej, jaka jest przypisana wyrazowi głównemu w słowniku AFINN. Przykładowo dla tekstów Jacksona największy wkład w korektę wartości sentymentu ma bigram don’t stop, występujący łącznie 134 razy. Ze względu na to, że wyraz stop ma przypisaną w słowniku AFINN wartość -1, korekta dla tego bigramu wyniosła łącznie +134, co oznacza, że o tyle zwiększona została ogółem ocena sentymentu wszystkich piosenek Jacksona. Na rys. 103 i rys. 105 przedstawiono zanegowane słowa, które miały największy wpływ na zmianę wartości sentymentu, zarówno w kierunku pozytywnym, jak i negatywnym. W przypadku tekstów Jacksona w największym stopniu do obniżenia ogólnej oceny sentymentu przyczyniło się zanegowanie wyrazu help, zaś do zwiększenia oceny sentymentu - negacja stop. W przypadku Madonny zwiększenie oceny sentymentu poprzez uwzględnienie bigramów w największym stopniu wynikało także z negacji stop. Natomiast do obniżenie oceny sentymentu w największym stopniu wynikało z negacji want. Na rys. 104 i rys. 106 przedstawiono porównanie oceny sentymentu przeprowadzonej na podstawie pojedynczych wyrazów (oś X) i bigramów (oś Y). Zaobserwować możne, że jedynie w pojedynczych przypadkach dokonana korekta - wynikająca z zaprzeczeń - spowodowała zmianę oceny tekstu piosenki. Położenie większości punktów zbliżone jest do linii czerwonej, poprowadzonej pod kątem 45 oznaczającej brak zmiany oceny.
| word1 | word2 | value | n | contribution |
|---|---|---|---|---|
| don’t | stop | -1 | 134 | 134 |
| can’t | help | 2 | 20 | -40 |
| can’t | win | 4 | 10 | -40 |
| no | no | -1 | 33 | 33 |
| wouldn’t | help | 2 | 16 | -32 |
| no | damn | -4 | 7 | 28 |
| don’t | want | 1 | 23 | -23 |
| don’t | care | 2 | 11 | -22 |
| can’t | fake | -3 | 6 | 18 |
| no | good | 3 | 6 | -18 |
Rys. 103. Słowa poprzedzone negacją, które miały największy wpływ na zmianę wartości sentymentu - piosenki Jacksona
Rys. 104. Porównanie oceny sentymentu dla pojedyńczych wyrazów (oś X) i bigramów z zaprzeczeniem (oś Y)- piosenki Jacksona
| word1 | word2 | value | n | contribution |
|---|---|---|---|---|
| don’t | want | 1 | 55 | -55 |
| not | happy | 3 | 15 | -45 |
| no | bitch | -5 | 9 | 45 |
| not | like | 2 | 20 | -40 |
| don’t | care | 2 | 19 | -38 |
| not | sorry | -1 | 36 | 36 |
| not | afraid | -2 | 16 | 32 |
| don’t | stop | -1 | 28 | 28 |
| no | regret | -2 | 14 | 28 |
| wasn’t | lost | -3 | 9 | 27 |
Rys. 105. Słowa poprzedzone negacją, które miały największy wpływ na zmianę wartości sentymentu - piosenki Madonny
Rys. 106. Porównanie oceny sentymentu dla pojedyńczych wyrazów (oś X) i bigramów z zaprzeczeniem(oś Y)- piosenki Madonny
Przeprowadzona wcześniej ocena sentymentu bazująca na występowaniu pojedynczych słów będących nośnikiem emocji pozytywnych, bądź negatywnych wskazała, że wielokrotne powtarzanie tego samego wyrazu w tekście może znacznie przyczynić się do jego oceny sentymentalnej. Dotyczy to przede wszystkim tych tekstów, w których słowa pozytywne/negatywne występują w refrenach i są powtarzane dla utrzymania melodii. Z tego też względu w tej części pracy dokonano korekty oceny sentymentu polegającej na nieuwzględnianiu w ocenie tych słów, które stanowią powtórzenie wcześniej występującego słowa. Wyniki w postaci wykresów zostały przedstawione na rys. 107 i rys. 108. Widać wyraźnie, że zarówno w przypadku najbardziej negatywnego utworu Jacksona, jak i najbardziej pozytywnego tekstu Madonny ich wartości sentymentu znacznie zmieniły się po zastosowaniu opisanej poprawki.
Dotychczas przeprowadzona analiza sentymentu ograniczona była do oceny tekstu jedynie na podstawie występowania określonych wyrazów (ewentualnie par wyrazów), którym przypisano wartości pozytywne i negatywne. Ocena końcowa była jedynie prostą sumą wartości przypisywanych wyrazom - bez uwzględnienia kontekstu zdania. Przedstawione w poprzedniej części wyniki wskazują, iż uwzględnienie w ocenie zaprzeczeń nie zmienia w sposób znaczący oceny całego tekstu. Z tego też względu do oceny sentymentu analizowanych piosenek wykorzystano chmurę obliczeniową IBM Watson Natural Language Understanding. Jest to rozwiązanie do przetwarzania języka naturalnego, które udostępnia takie funkcje, jak dostosowane spostrzeżenia, ekstrakcja metadanych, analiza tekstu, kategoryzacja danych, identyfikacja koncepcji wysokiego poziomu i analiza sentymentu. NLU wykorzystuje głębokie uczenie do wydobywania różnego typu informacji z tekstu, w tym m.in analizy sentymentu oraz nasycenia emocjonalnego. Wynikiem końcowym analizy sentymentu jest sentiment score - wyskalowany wskaźnik sentymentu przyjmujący wartości od -1 (dla tekstów negatywnych) do +1 (dla tekstów pozytywnych). Dodatkowo w wyniku przeprowadzanych analiz określany jest procent wskazujący jaka część tekstu ma wydzwięk emocjonalny: związany ze smutkiem, radością, strachem, wstrętem bądź złością. Na poniższym wykresie przedstawiono krzywe gęstości dla oceny sentymentu NLU tekstów piosenek Jacksoana i Madonny. Wynika z nich, podobnie jak w przypadku wcześniejszych analiz, iż piosenki Jacksoana są bardziej pozytywne. Najwięcej z nich według oceny sentymentu NLU uzyskała wynik 0,4, podczas gdy w przypadku piosenek Madonny najwięcej z nich otrzymało ocenę -0,4.
Rys. 109. Ocena sentymentu piosenek Madonny i Jacksona według IBM Natural Language Understending
W tej części projektu przedstawiono porównanie oceny sentymentu dokonanej z wykorzystaniem chmury obliczeniowej IBM (sentiment scor) z oceną sentymentu z wykorzystaniem słowników R. Wyniki porównania zostały przedstawione w postaci graficznej macierzy korelacji rang Spearmana. Wynika z niej, iż w przypadku oceny utworów Jacksona istnieje niska zależność między ocenami - wartość współczynnika korelacji wynosi ~0,3. Natomiast w przypadku tekstów piosenek Madonny współczynnik korelacji między oceną IBM a oceną z wykorzystaniem słowników R wynosi prawie 0,5. Potwierdzeniem niskiej zależności między sposobami oceny sentymentu są dane zamieszczone w tab. 36-37 i tab. 38-39 przedstawiające najbardziej pozytywne i negatywne piosenki Jacksoana i Madonny według oceny IBM. Porównując te tabele z tab. 25-28 przedstawiającymi tego samego typu oceny na podstawie słownika AFIN można stwierdzić, iż w przypadku Jacksona tylko w 2 przypadkach prezentowane tytuły pokrywają się ze sobą. Oznacza to, ze w pierwszych 10 najbardziej pozytywnych i negatywnych piosenek według oceny IBM znalazły się po 2 utwory z pierwszych dziesiątek wydzielonych na podstawie słownika R. Jeszcze gorzej wygląda w przypadku tekstów Madonny, gdzie w pierwszej 10 najbardziej pozytywnych i negatywnych piosenek według oceny IBM znalazło się tylko po 1 utworze z list ustalonych na podstawie R.
| title | sentiment.score |
|---|---|
| trouble | 0.6758435 |
| wondering who | 0.6748983 |
| people make the world go round | 0.6731048 |
| burn this disco out | 0.6702949 |
| a place with no name | 0.6668899 |
| love is here & now you're gone | 0.6535887 |
| hold my hand | 0.6493060 |
| song groove (aka abortion papers) | 0.6399755 |
| just a little bit of you | 0.6255710 |
| that’s how love is | 0.6189254 |
| title | sentiment.score |
|---|---|
| maria (you were the only one) | -0.7022047 |
| it’s great to be here | -0.6927197 |
| la-la means i love you | -0.6879202 |
| billie jean | -0.6872829 |
| heartbreaker | -0.6827286 |
| workin’ day and night | -0.6686503 |
| didn’t mean to hurt you | -0.6596743 |
| on the line | -0.6547040 |
| things i do for you | -0.6546351 |
| lisa it’s your birthday | -0.6512638 |
Rys. 110. Współczynniki korealcji rang Spearman’a dla oceny piosenek Jacksona według 3 bibliotek R i IBM Natural Language Understending
| title | sentiment.score |
|---|---|
| i don’t search i find | 0.7125387 |
| justify my love | 0.6640775 |
| can’t stop | 0.6519306 |
| i feel love | 0.6399553 |
| lucky star | 0.6394122 |
| superstar | 0.6389184 |
| future lovers | 0.6316927 |
| dear jessie | 0.6299942 |
| stay | 0.6180772 |
| forbidden love | 0.5678935 |
| title | sentiment.score |
|---|---|
| heartbeat | -0.7329772 |
| faz gostoso (feat. anitta) | -0.6985287 |
| human nature | -0.6701005 |
| a new argentina | -0.6584293 |
| cry baby | -0.6583743 |
| partido feminista | -0.6488338 |
| some girls | -0.6361425 |
| oh what a circus | -0.6341235 |
| ghosttown | -0.6326155 |
| hung up | -0.6285508 |
Rys. 111. Współczynniki korealcji rang Spearman’a dla oceny piosenek Madonny według 3 bibliotek R i IBM Natural Language Understending
Chmura obliczeniowa IBM, poza określeniem ogólnego nastroju tekstu (ocenianego na podstawie sentiment score) pozwala również na określenie jego ładunku emocjonalnego. Ocena emocji prezentowana jest w postaci udziału w tekście następujących typów emocji: smutku, radości, strachu, wstrętu i złością. W przypadku analizowanych tekstów piosenek dominującymi emocjami były: radość i smutek. Dla tych dwóch typów emocji wskazano najczęściej występujące w tekstach piosenek wyrazy. Wyniki analizy zostały zaprezentowane na rys. 112 (dla Jacksona) i rys. 113 (dla Madonny). Prezentowane wyniki wskazują, iż w przypadku utworów Jackosona wiele z wyrazów, które znalazły się w tekstach, których głównym nastrojem była radość znalazły się także jako główne w tekstach z dominującym nastrojem smutku. Do tego typu słów zalicza się m.in love, baby, girl, stop. Pewnym zaskoczeniem może być to, iż w grupie najczęściej występujących słów w piosenkach radosnych znalazło się słowo bad, które jednocześnie nie występuje w grupie najczęstszych słów w piosenkach smutnych. Podobnie także w przypadku tekstów Madonny zaobserwować można, iż wiele z najczęściej niewstępujących wyrazów w tekstach radosnych występuje często w tekstach smutnych. Zarówno bowiem w przypadku Madonny, jak i Jacksona prezentowane na wykresach słowa należą do grupy najczęściej następujących słów w tekstach ogółem. Potwierdza to tym samym, iż analiza sentymentu i ocena emocjonalnego tekstu - oparta tylko i wyłącznie na pojedynczych wyrazach - obarczona jest błędem wynikającym z nieuwzględniania kontekstu całego zdania. Słowo love, baby, girl mogą równie często występować w tekstach radosnych, jak i pozytywnych - a ocena, czy dana wypowiedź jest pozytywna, czy też negatywna będzie zależała od tego jakie inne słowa pojawia się w wypowiedzi.
Przeprowadzona analiza podobieństwa warstwy muzycznej i tekstowej piosenek Jacksona i Madonny pozwala na sformułowanie następujących wniosków:
Reasumując można stwierdzić, iż pod względem muzycznym obaj artyści nieznacznie różnią się. Ich teksty są jednak do siebie podobne - przede wszystkim, jak wiele innych piosenek - są o miłości. Sposób opisu tej miłości jest jednak nieco inny u Jacksona, niż u Madonny - dla której miłość to nie tylko baby i sweet, ale także hurt, forbidden i erotic.