Szövegbányászat gyakorlat

Az R-ről

Funkcionális nyelv, ill. környezet
Alapvetően statisztikai számításokra, grafikus ábrázolásra
Könnyen kiterjeszthető, rengeteg package
Parancssoros interface
Ingyenes. Letölthető a *http://www.r-project.org/* oldalról

Az R indítása

Hozzuk létre a working directory-nkat
Lépjünk be a wd-be egy terminállal, majd indítsuk el az R-t
Indítás után: szükséges csomagokat töltsük be:

library(tm)
library(SnowballC)

Főként a tm csomagot fogjuk használni
Help: pl.: ?mean

?mean

Adatok beolvasása

A tm package Corpus-okkal dolgozik
- A Corpus egy absztrakt ősosztály
- Egy corpus dokumentumokból áll
- Dokumentumok ~ az egyes entitások (itt: Rejtő-könyvek)
Konstruktor pl: VCorpus(x, readerControl)
Könyvek pdf formátumban, így a Corpus létrehozásának módja:

source <- DirSource("../../data/rejto_konyvek")
rejtoKonyvek <- VCorpus(x = source,
        readerControl =
                list(reader = readPDF(),
                language = "hun"))

Ha nem egy könyvtárból szeretnénk olvasni: a getSources() fgv kilistázza az elérhető Source típusokat.

Adatok megtekintése

A beolvasás után nem tudjuk mit kaptunk
A változó elvileg 5 teljes könyvet tartalmaz -> sok adat
Néhány lehetőség a változó feltérképezésére:

str(rejtoKonyvek) # nagyon nagy kimenet is lehet
str(rejtoKonyvek[[1]][["content"]])
str(rejtoKonyvek[[1]]$content)
rejtoKonyvek
length(rejtoKonyvek)
class(rejtoKonyvek)
typeof(rejtoKonyvek)

Továbbá: a tm package inspect fgv-e

Adatok transzformációja

tm_map fgv-nyel: két paraméter:
1. corpus
2. transzformáció függvénye
Bizonyos transzformációkra létezik fgv a tm package-ben (de újak is írhatóak)
Pl.: extra whitespace-k törlése, majd konvertálás kisbetűkre

rejtoKonyvek <- tm_map(rejtoKonyvek, stripWhitespace)
rejtoKonyvek <- tm_map(rejtoKonyvek,
                       content_transformer(tolower))

Metaadatok I.

Többféle metaadat típus, az str fgv használatánál már megjelent az egyik fajta
Típusok:

Dokumentumokhoz tartozó metadatok: minden dok-hoz külön-külön. A metaadatok halmaza is különbözhet. Pl.: egyik dok-haz van osztályzat, másikhoz nincs.
Corpus-hoz tartozó metaadatok
- Metaadatok, amelyek minden dok esetén más-más értéket vehetnek fel.
- Egy metaadat az egész corpusra: név-érték párok

Metaadatok II.

Metaadatok kezelése: meta függvénnyel
Pl.: az 2. dokumentumokhoz tartozó egyéni metaadatok

meta(rejtoKonyvek[[2]], "megjegyzes") <-
        "Ujra kene olvasni"
meta(rejtoKonyvek[[2]])

##   author       : Rejtő Jenő
##   datetimestamp: 2003-08-09 18:41:53
##   description  : character(0)
##   heading      : A szőke ciklon
##   id           : Rejto_Jeno_A_szoke_ciklon.pdf
##   language     : hun
##   origin       : character(0)
##   megjegyzes   : Ujra kene olvasni

Dokumentum-kifejezés mátrix I. - Mx előállítása

dokKifMx <- DocumentTermMatrix(rejtoKonyvek)
inspect(dokKifMx[,1000:1001])

## <<DocumentTermMatrix (documents: 5, terms: 2)>>
## Non-/sparse entries: 2/8
## Sparsity           : 80%
## Maximal term length: 18
## Weighting          : term frequency (tf)
## 
##                                          Terms
## Docs                                      <c3><a1>lmackenzie
##   Rejto_Jeno_A_nema_revolverek_varosa.pdf                  0
##   Rejto_Jeno_A_szoke_ciklon.pdf                            0
##   Rejto_Jeno_Az_eloretolt_helyorseg.pdf                    0
##   Rejto_Jeno_Menni_vagy_meghalni.pdf                       2
##   Rejto_Jeno_Piszkos_Fred_a_kapitany.pdf                   0
##                                          Terms
## Docs                                      <c3><a1>lmatagon
##   Rejto_Jeno_A_nema_revolverek_varosa.pdf                0
##   Rejto_Jeno_A_szoke_ciklon.pdf                          0
##   Rejto_Jeno_Az_eloretolt_helyorseg.pdf                  1
##   Rejto_Jeno_Menni_vagy_meghalni.pdf                     0
##   Rejto_Jeno_Piszkos_Fred_a_kapitany.pdf                 0

Dokumentum-kifejezés mátrix II. - Műveletek

Azon kifejezések megkeresése, amelyek legalább 50-szer előfordultak:

findFreqTerms(dokKifMx, 50)

Egy adott kifejezéssel (“légió”) korreláló (min. 0.95-ös korreláció) kifejezések megkeresése:

findAssocs(dokKifMx, "légió", 0.95)

Ritkán előforduló kifejezések törlése: (maximális megengedett sparsity: 0.4)

dokKifMxReduced <- removeSparseTerms(dokKifMx, 0.4)

Szótárak

Szótár: szavak halmaza
Dokumentum-kifejezés mx létrehozása szótárral:

szotar <- c("igen", "nem")
dokKifMxSzotarral <- DocumentTermMatrix(rejtoKonyvek,
                        list(dictionary = szotar))
as.matrix(dokKifMxSzotarral)

##                                          Terms
## Docs                                      igen nem
##   Rejto_Jeno_A_nema_revolverek_varosa.pdf    8 668
##   Rejto_Jeno_A_szoke_ciklon.pdf             23 534
##   Rejto_Jeno_Az_eloretolt_helyorseg.pdf     13 630
##   Rejto_Jeno_Menni_vagy_meghalni.pdf        10 466
##   Rejto_Jeno_Piszkos_Fred_a_kapitany.pdf    51 669

Konvertálás data frame-mé

Data frame: leggyakoribb típus R-ben
Nem tartozik az alaptípusok közé, listaként tárolódik
Mx-szerű, azonban az oszlopok különböző típusúak lehetnek
A dok-kif mx-ot az alábbi módon konvertálhatjuk data frame-mé:

dokKifDf <- as.data.frame(as.matrix(dokKifMxReduced))
ncol(dokKifDf)  # oszlopok száma
nrow(dokKifDf)  # sorok száma
names(dokKifDf) # oszlopok nevei
head(dokKifDf)  # oszlopok nevei és az első sorok

Egyszerű műveletek data frame-mel I.

A kigyűjtött szavak gyakoriságainak eloszlása a Piszkos Fred, a kapitány könyvben:

# melyik sor tartozik ehhez a könyvhöz?
rownames(dokKifDf)

## [1] "Rejto_Jeno_A_nema_revolverek_varosa.pdf"
## [2] "Rejto_Jeno_A_szoke_ciklon.pdf"          
## [3] "Rejto_Jeno_Az_eloretolt_helyorseg.pdf"  
## [4] "Rejto_Jeno_Menni_vagy_meghalni.pdf"     
## [5] "Rejto_Jeno_Piszkos_Fred_a_kapitany.pdf"

Egyszerű műveletek data frame-mel II.

A kigyűjtött szavak gyakoriságainak eloszlása a Piszkos Fred, a kapitány könyvben:

# kiválasztjuk az 5. sort, és számmá konvertáljuk 
tmp <- as.numeric(dokKifDf[5, ])
plot(density(tmp), xlab="Elofordulasok szama")

Egyszerű műveletek data frame-mel III.

Ábrázoljuk oszlopdiagramon a “piszkos” szó előfordulásainak számát az egyes könyvekben:

barplot(dokKifDf[,"piszkos"], col=rainbow(5))
legend("topright", rownames(dokKifDf), fill=rainbow(5))

Önálló munka

Célszerű a végleges kódokat kigyűjteni egy szöveges fájlba.

Egy szöveges fájlban található utasításokat végrehajthatunk a source() függvénnyel. Pl.:

source("file_path/to_source_file/megoldasok.r")

Szövegbányászat gyakorlat

Pósfai Gergely

2015-05-17

Az R-ről

Az R indítása

Adatok beolvasása

Adatok megtekintése

Adatok transzformációja

Metaadatok I.

Metaadatok II.

Dokumentum-kifejezés mátrix I. - Mx előállítása

Dokumentum-kifejezés mátrix II. - Műveletek

Szótárak

Konvertálás data frame-mé

Egyszerű műveletek data frame-mel I.

Egyszerű műveletek data frame-mel II.

Egyszerű műveletek data frame-mel III.

Önálló munka