rm(list = ls())
date()
## [1] "Fri Aug 23 09:33:14 2019"
sessionInfo()
## R version 3.5.1 (2018-07-02)
## Platform: x86_64-apple-darwin15.6.0 (64-bit)
## Running under: macOS  10.14.6
## 
## Matrix products: default
## BLAS: /Library/Frameworks/R.framework/Versions/3.5/Resources/lib/libRblas.0.dylib
## LAPACK: /Library/Frameworks/R.framework/Versions/3.5/Resources/lib/libRlapack.dylib
## 
## locale:
## [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## loaded via a namespace (and not attached):
##  [1] compiler_3.5.1  magrittr_1.5    tools_3.5.1     htmltools_0.3.6
##  [5] yaml_2.2.0      Rcpp_1.0.0      stringi_1.2.4   rmarkdown_1.11 
##  [9] knitr_1.21      stringr_1.3.1   xfun_0.4        digest_0.6.18  
## [13] evaluate_0.12

Библиотеки

#library(dplyr)
#library(readtext)
library(quanteda)
## Warning: package 'quanteda' was built under R version 3.5.2
## Package version: 1.4.3
## Parallel computing: 2 of 4 threads used.
## See https://quanteda.io for tutorials and examples.
## 
## Attaching package: 'quanteda'
## The following object is masked from 'package:utils':
## 
##     View
#library(stringr)

Загрузка корпусов

#load(file = "Corpus.RData")
#load(file = "Corpus_S.RData")
load(file = "Tokens_S.Rdata")

IDOR

Tokens_S %>% 
        dfm() %>% 
        textstat_keyness(., target = docvars(.) == "IDOR", measure = "chi2") %>% 
        head(25)
##              feature      chi2            p n_target n_reference
## 1          ребенок_s 44.871853 2.103606e-11      206          51
## 2          природа_s 26.355323 2.840351e-07     2769        1596
## 3          правило_s 18.482942 1.714318e-05       73          16
## 4             и_conj 18.462422 1.732876e-05     4233        2575
## 5       воспитание_s 17.219564 3.329895e-05       42           5
## 6        отношение_s 15.882131 6.741220e-05      701         367
## 7         качество_s 15.461007 8.422500e-05       72          18
## 8         поступок_s 13.816942 2.015110e-04       71          19
## 9  психологический_a 13.711537 2.131411e-04       24           1
## 10  нравственность_s 13.042494 3.045023e-04       23           1
## 11     правильно_adv 13.042494 3.045023e-04       23           1
## 12  взаимодействие_s 12.354167 4.400032e-04       81          25
## 13 потребительский_a 12.023835 5.252452e-04       56          14
## 14      правильный_a 10.904483 9.593182e-04       42           9
## 15          стадия_s 10.858194 9.835956e-04       23           2
## 16       поведение_s 10.657435 1.096293e-03       51          13
## 17         возраст_s  9.865161 1.684379e-03       30           5
## 18     способность_s  9.619807 1.924899e-03       42          10
## 19           он_spro  9.542075 2.008146e-03      678         376
## 20             мир_s  9.482139 2.074819e-03      373         192
## 21          стихия_s  9.044558 2.634779e-03       17           1
## 22           семья_s  8.955742 2.765988e-03       23           3
## 23          эмоция_s  8.786023 3.035473e-03       13           0
## 24              к_pr  8.679712 3.217719e-03     1059         617
## 25         свой_apro  8.617180 3.330071e-03      738         417
Tokens_S %>% 
        dfm() %>% 
        textstat_keyness(., target = docvars(.) == "IDOR", measure = "chi2") %>% 
        textplot_keyness(labelsize = 2)

Bio

Tokens_S %>% 
        dfm() %>% 
        textstat_keyness(., target = docvars(.) == "Bio", measure = "chi2") %>% 
        head(25)
##             feature     chi2            p n_target n_reference
## 1  географический_a 36.20643 1.774843e-09        7           1
## 2        миллиард_s 33.65320 6.586627e-09       12          10
## 3             раз_s 30.46767 3.394779e-08       27          59
## 4      приемлемый_a 26.50214 2.632462e-07        7           3
## 5       продукция_s 23.76642 1.087633e-06       10          10
## 6            кофе_s 22.47195 2.132348e-06        5           1
## 7          чей_apro 21.51967 3.502182e-06        4           0
## 8      заниматься_v 20.22588 6.881559e-06       15          29
## 9       континент_s 20.12378 7.258853e-06        7           5
## 10     исправлять_v 19.60392 9.527373e-06       12          18
## 11       сейчас_adv 19.57325 9.681526e-06       51         188
## 12       животное_s 19.28312 1.126982e-05      104         475
## 13            год_s 18.60795 1.605498e-05       57         222
## 14    загрязнение_s 18.40917 1.781984e-05       33         105
## 15           дело_s 17.05609 3.629173e-05       23          64
## 16          мешок_s 15.87052 6.782712e-05        4           1
## 17  выбрасываться_v 14.93197 1.114584e-04        8          10
## 18       лишаться_v 14.77507 1.211263e-04        5           3
## 19        вариант_s 14.70873 1.254640e-04        9          13
## 20           злак_s 14.40663 1.472828e-04        3           0
## 21           тест_s 14.40663 1.472828e-04        3           0
## 22         дико_adv 14.40663 1.472828e-04        3           0
## 23          бренд_s 14.40663 1.472828e-04        3           0
## 24          взрыв_s 14.40663 1.472828e-04        3           0
## 25     безобидный_a 14.40663 1.472828e-04        3           0
Tokens_S %>% 
        dfm() %>% 
        textstat_keyness(., target = docvars(.) == "Bio", measure = "chi2") %>% 
        textplot_keyness(labelsize = 2)

Chem

Tokens_S %>% 
        dfm() %>% 
        textstat_keyness(., target = docvars(.) == "Chem", measure = "chi2") %>% 
        head(25)
##             feature     chi2            p n_target n_reference
## 1     содружество_s 52.05263 5.403455e-13        6           0
## 2     определение_s 36.55509 1.484117e-09        9           8
## 3        вывозить_v 33.24177 8.138351e-09        5           1
## 4     тропический_a 21.06072 4.449572e-06        3           0
## 5        подпункт_s 21.06072 4.449572e-06        3           0
## 6      биоресурсы_s 21.06072 4.449572e-06        3           0
## 7       спирогира_s 21.06072 4.449572e-06        3           0
## 8        проблема_s 20.32193 6.544603e-06       55         302
## 9        радиация_s 18.63117 1.586057e-05        4           2
## 10         выброс_s 17.92041 2.303371e-05       17          59
## 11    придумывать_v 17.67228 2.624227e-05        9          18
## 12            газ_s 17.33103 3.140175e-05       22          89
## 13          речка_s 16.61187 4.586319e-05        5           5
## 14    ограничение_s 16.51267 4.832599e-05        6           8
## 15      солнечный_a 15.39094 8.740660e-05        8          16
## 16 расточительный_a 14.59320 1.333953e-04        3           1
## 17     могущество_s 14.59320 1.333953e-04        3           1
## 18           свет_s 14.22435 1.622576e-04       13          41
## 19         машина_s 14.10030 1.733166e-04       12          36
## 20      понятно_adv 12.54954 3.963039e-04        5           7
## 21         дорога_s 12.39497 4.304928e-04        8          19
## 22        следить_v 11.99354 5.338520e-04        6          11
## 23    температура_s 11.99354 5.338520e-04        6          11
## 24            из_pr 11.95934 5.437413e-04       69         466
## 25        бытовой_a 11.55257 6.765580e-04        8          20
Tokens_S %>% 
        dfm() %>% 
        textstat_keyness(., target = docvars(.) == "Chem", measure = "chi2") %>% 
        textplot_keyness(labelsize = 2)

Sluzh

Tokens_S %>% 
        dfm() %>% 
        textstat_keyness(., target = docvars(.) == "Sluzh", measure = "chi2") %>% 
        head(25)
##                feature     chi2            p n_target n_reference
## 1         субъектный_a 95.98947 0.000000e+00       11           1
## 2                  м_s 79.34397 0.000000e+00       11           3
## 3   непрагматический_a 74.52065 0.000000e+00        8           0
## 4            цицерон_s 63.84611 1.332268e-15        7           0
## 5        модальность_s 54.26390 1.753042e-13        7           1
## 6      интенсивность_s 46.83175 7.735035e-12        7           2
## 7       субъективный_a 44.83656 2.141853e-11        8           4
## 8          объектный_a 44.04750 3.205025e-11        6           1
## 9             отпуск_s 42.56612 6.833278e-11        5           0
## 10      преобладание_s 37.21332 1.058880e-09        6           2
## 11               тип_s 37.10724 1.118080e-09       14          23
## 12     специфический_a 34.00298 5.502762e-09        5           1
## 13             зайти_v 31.99501 1.545691e-08        4           0
## 14     перцептивный?_a 31.99501 1.545691e-08        4           0
## 15       аффективный_a 31.99501 1.545691e-08        4           0
## 16          пришвин?_s 31.99501 1.545691e-08        4           0
## 17 характеризоваться_v 28.68051 8.535835e-08        7           6
## 18    прагматический_a 27.70135 1.415642e-07        6           4
## 19    контролировать_v 25.35755 4.762847e-07        8          10
## 20           здравый_a 24.23339 8.533979e-07        4           1
## 21       когнитивный_a 23.36892 1.337217e-06        5           3
## 22      поступочный?_a 21.53089 3.481747e-06        3           0
## 23       вредоносный_a 21.53089 3.481747e-06        3           0
## 24       долговечный_a 21.53089 3.481747e-06        3           0
## 25        настроение_s 19.85528 8.353168e-06        5           4
Tokens_S %>% 
        dfm() %>% 
        textstat_keyness(., target = docvars(.) == "Sluzh", measure = "chi2") %>% 
        textplot_keyness(labelsize = 2)

IP16-10

Tokens_S %>% 
        dfm() %>% 
        textstat_keyness(., target = docvars(.) == "IP16-10", measure = "chi2") %>% 
        head(25)
##               feature     chi2            p n_target n_reference
## 1             сброс_s 43.89596 3.463019e-11        4           1
## 2            ресурс_s 38.81797 4.652257e-10       54         424
## 3            погоня_s 35.44901 2.618161e-09        4           2
## 4          радовать_v 35.44901 2.618161e-09        4           2
## 5           много_adv 33.51280 7.079651e-09       41         304
## 6           потомок_s 31.19654 2.331819e-08        6           9
## 7         состояние_s 29.48747 5.627951e-08       19         100
## 8  общечеловеческий_a 27.47367 1.592479e-07        3           1
## 9   санкт-петербург_s 27.47367 1.592479e-07        3           1
## 10        батарейка_s 21.37829 3.770156e-06        5           9
## 11          зарядка_s 20.36590 6.395951e-06        2           0
## 12  обеспокоенность_s 20.36590 6.395951e-06        2           0
## 13       нетерпение_s 20.36590 6.395951e-06        2           0
## 14          обожать_v 20.36590 6.395951e-06        2           0
## 15      оборудовать_v 20.36590 6.395951e-06        2           0
## 16         вернее_adv 20.36590 6.395951e-06        2           0
## 17    прогуливаться_v 20.36590 6.395951e-06        2           0
## 18         лишайник_s 20.36590 6.395951e-06        2           0
## 19         natworld?? 20.36590 6.395951e-06        2           0
## 20             info?? 20.36590 6.395951e-06        2           0
## 21           raznoe?? 20.36590 6.395951e-06        2           0
## 22                o?? 20.36590 6.395951e-06        2           0
## 23          prirode?? 20.36590 6.395951e-06        2           0
## 24   неутешительный_a 20.36590 6.395951e-06        2           0
## 25        твориться_v 20.36590 6.395951e-06        2           0
Tokens_S %>% 
        dfm() %>% 
        textstat_keyness(., target = docvars(.) == "IP16-10", measure = "chi2") %>% 
        textplot_keyness(labelsize = 2)

IP18-42

Tokens_S %>% 
        dfm() %>% 
        textstat_keyness(., target = docvars(.) == "IP18-42", measure = "chi2") %>% 
        head(25)
##            feature      chi2            p n_target n_reference
## 1          ты_spro 148.48373 0.000000e+00       36          69
## 2           заяц_s  69.76786 1.110223e-16        7           2
## 3              \\s  65.99441 4.440892e-16      868       10280
## 4  ленинградский_a  46.96872 7.212897e-12        4           0
## 5           я_spro  46.49258 9.196643e-12       72         488
## 6   исчезновение_s  40.06058 2.462082e-10       17          51
## 7         хищник_s  37.63559 8.527445e-10        6           5
## 8          метан_s  36.20076 1.780007e-09        4           1
## 9        процент_s  33.64678 6.608422e-09        6           6
## 10         мазай_s  31.71584 1.784605e-08        3           0
## 11        герман_s  31.71584 1.784605e-08        3           0
## 12         гессе_s  31.71584 1.784605e-08        3           0
## 13   prezentacii??  31.71584 1.784605e-08        3           0
## 14    инвазивный_a  31.71584 1.784605e-08        3           0
## 15           акр_s  31.71584 1.784605e-08        3           0
## 16       леопард_s  31.71584 1.784605e-08        3           0
## 17         спать_v  23.94936 9.890295e-07        4           3
## 18          рыба_s  23.46224 1.273895e-06       18          86
## 19    защищаться_v  22.56900 2.027296e-06        3           1
## 20           вид_s  21.49305 3.551135e-06       43         322
## 21    изменяться_v  20.66297 5.476495e-06        9          26
## 22           газ_s  20.43491 6.169399e-06       18          93
## 23      северный_a  20.14479 7.179536e-06        4           4
## 24      сильно_adv  19.15654 1.204240e-05       11          40
## 25     надеяться_v  17.19990 3.364534e-05        4           5
Tokens_S %>% 
        dfm() %>% 
        textstat_keyness(., target = docvars(.) == "IP18-42", measure = "chi2") %>% 
        textplot_keyness(labelsize = 2)

IP18-42