Zastosowanie algorytmów i technik Data Mining

Przeprowadzenie analizy recenzji najpopularniejszych musilacali z portalu IMDb.com

Streszczenie

Data mining (eksploracja danych) to interdysyplinarna część informatyki, zajmujaca się odkrywaniem wzorców w dużych zbiorach danych, celem czego jest wydobycie informacji ze zbioru danych i przetworzenie ich tak, by były zrozumiałe i nadawały się do późniejszego użycia. (wikipedia - prezentacja Nina Rizun)

Zgłębianie danych to proces analityczny przeznaczony do poszukiwania regularnych wzorców oraz współzależnosći pomiędzy zmiennymi, a następnie do oceny wyników poprzez zastosowanie wykrytych wzorców do nowych podzbiorów danych.

W niniejszym projekcie zastosowano proces Data Miningu do analizy recenzji musicali z popularnego serwisu imdb.com, który jest największą na świecie internetową bazą danych na temat filmów, serilai i ludzi z nimi związanymi (IMDb- Internet Movie Database).

Praca została podzielona na następujące etapy:

Wstęp

Data Mining to proces przekształcający surowe dane w wartościowe informacje poprzez znajdowanie wzorców i podobieństw w dużych zbiorach danych. Taka analiza ułatwia firmom opracowywanie przyszłych działań tak aby najepiej dopasować się do potrzeb rynku, klientów. Działania takie pozwalają stworzyć bardziej efektywne strategie, zwiększyć sprzedaż oraz zmniejszyć koszty.

Teoria

Metodologia

Wyniki projektu

Wstępna analiza tesktów

Preprocessing

Aby przeprowadzić poprawną analizę danych należy je najpierw odpowiednio przygotować. W projekcie wykorzystano wybrane recenzje 20 najpopularniejszych musicali z serwisu IMDb.com.

Poniżej przedstawiona została lista badanych filmów:

  1. “A Night at the Opera” Sam Wood, Edmund Goulding -1935 rok
  2. “Aladdin”
  3. “All That Jazz”
  4. “Annand”
  5. “Beauty and the Beast”
  6. “Dancer in the Dark”
  7. “Fiddler on the roof”
  8. “Hamilton”
  9. “Kal Ho Naa Ho”
  10. “La la land”
  11. “Lagaan Once Upon a Time in India”
  12. “Sholay”
  13. “Singin’ in the Rain”
  14. “Swedes We, the People”
  15. “The blues brothers”
  16. “The Lion King”
  17. “The Nightmare Before Christmas”
  18. “The Sound of Music”
  19. “The Wizard of Oz”
  20. “Veer-Zaara”

Na potrzeby zaprezentowania działań przeprowadzonych na tekstach posłużymy się pierwszą recenczją tj. “A Night at the Opera”.

## Never one to miss a business opportunity to make money, Otis B. Driftwood takes a break from fleecing the wealthy Mrs Claypool to represent an opera singer represented by manger Fiorello. However when he boards a steamer to return to the US he doesn't know that Fiorello, Tomasso and Ricardo have stowed away in his trunk. Arriving in America disguised as three famous aviators, they try to evade arrest while getting Ricardo together with his love Rosa.
## 
## There is a plot here but if you have come to this film because you are deeply interested in the young love between Rosa and Ricardo then you've probably missed the point and don't have much of a sense of humour. I say this because really the narrative is a very thin nail on which all manner of Marx Brothers hilarity is hung and this is the reason for coming to and loving this film. Whether it is the classic discussion over the contract clauses, the cramped cabin, the room switching or the chaotic backstage at the opera, it is all energetic and enjoyable. Personally I found the physical humour to be secondary to the sharp tongue and wisecracks of Groucho but many will enjoy both equally. The musical moments do slow the film down somewhat because I wanted the quips to come back in favour of the music (although mostly the music is impressive – just slightly unwanted.
## 
## The cast are dominated by Groucho and it is a very welcome thing. He is wonderful and iconic throughout, cracking jokes across the whole film and delivering each line with the style that he will be forever famous for. Chico is good as he often works the routines well with Groucho but he is never his equal. Harpo is an acquired taste and personally I think he is OK when he is a side issue but anytime the film calls on him to do stand alone clowning (at the breakfast table) then it doesn't work, although there is no denying his musical talent. Carlisle and Jones are uninspiring matinée style performers and they bored me whenever the film checked in with them to move the story on. Support from Rumann, King and Dumont is good though and they all convincingly react to Groucho.
## 
## Overall a wonderful comedy if you like the Marx brothers – Groucho in particular. The plot may be a very thin excuse for the comedy but when the comedy is as strong as this then it is easy to forgive. All in all, a classic film that is the sort of thing you want to force your kids to watch just to start them off right.

Przeprowadzenie analizy wymaga odpowiedniego przygotowania posiadanych danych. Należy z tekstu usunąć znaki interpunkcyjne, numery, znaki specjalne (/, @, :, -, itp.) oraz Stopwords, czyli pospolite słowa. (wskazać stopwords). W tekstach należy również zamienić wszystkie wielkie litery na małe ze względu na wrażliwość programu R oraz zastosować steamming tj. usunięcie końcówek wyrazów, które mają taki sam rdzeń.

Po przeprowadzeniu powyższych działań należy usunąć puste miesjca, które powstały, poprzez usuwanie konkretnych obiektów.

Poniżej znajduje się już przygotowany tekst.

## never miss busi opportun make money oti b driftwood take break fleec wealthi mrs claypool repres opera singer repres manger fiorello howev board steamer return us doesnt know fiorello tomasso ricardo stow away trunk arriv america disguis three famous aviat tri evad arrest get ricardo togeth love rosa plot film deepli interest young love rosa ricardo youv probabl miss point dont much sens humour say realli narrat thin nail manner marx brother hilar hung reason come love film whether classic discuss contract claus cramp cabin room switch chaotic backstag opera energet enjoy person found physic humour secondari sharp tongu wisecrack groucho mani enjoy equal music moment slow film somewhat want quip favour music although most music impress †just slight unwant cast domin groucho welcom thing wonder icon throughout crack joke across whole film deliv line style forev famous chico good often work routin groucho never equal harpo acquir tast person think ok side issu anytim film call stand alon clown breakfast tabl doesnt work although deni music talent carlisl jone uninspir matin㩠style perform bore whenev film check move stori support rumann king dumont good though convinc react groucho overal wonder comedi like marx brother †groucho particular plot may thin excus comedi comedi strong easi forgiv classic film sort thing forc kid watch just start right

Document Term Matrix

Kolejnym etapem etapem jest przygotowanie Document Term Matrix (DTM), czyli macierz zawierająca listę wszystkich występujących słów w korpusie.

## <<DocumentTermMatrix (documents: 20, terms: 2061)>>
## Non-/sparse entries: 3859/37361
## Sparsity           : 91%
## Maximal term length: 20
## Weighting          : term frequency (tf)

Powstała macierz o wymiarze 20 x 3233, gdzie 91% kolumn jest pustych.

Macierz zawiera 20 dokumntów z 3233 słowami, gdzie udział pustych komórek w tekstach wynosi 91%. Nadjłuższy wyraz zawiera 24 znaki.

Bibliografia

  1. Rizun Nina - Prezentacje wykładowe z Data Miningu
  2. Teksty wykorzystane do analzy - serwis IMDb.com