rm(list = ls())
date()
## [1] "Fri Aug 23 09:33:14 2019"
sessionInfo()
## R version 3.5.1 (2018-07-02)
## Platform: x86_64-apple-darwin15.6.0 (64-bit)
## Running under: macOS 10.14.6
##
## Matrix products: default
## BLAS: /Library/Frameworks/R.framework/Versions/3.5/Resources/lib/libRblas.0.dylib
## LAPACK: /Library/Frameworks/R.framework/Versions/3.5/Resources/lib/libRlapack.dylib
##
## locale:
## [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
##
## attached base packages:
## [1] stats graphics grDevices utils datasets methods base
##
## loaded via a namespace (and not attached):
## [1] compiler_3.5.1 magrittr_1.5 tools_3.5.1 htmltools_0.3.6
## [5] yaml_2.2.0 Rcpp_1.0.0 stringi_1.2.4 rmarkdown_1.11
## [9] knitr_1.21 stringr_1.3.1 xfun_0.4 digest_0.6.18
## [13] evaluate_0.12
#library(dplyr)
#library(readtext)
library(quanteda)
## Warning: package 'quanteda' was built under R version 3.5.2
## Package version: 1.4.3
## Parallel computing: 2 of 4 threads used.
## See https://quanteda.io for tutorials and examples.
##
## Attaching package: 'quanteda'
## The following object is masked from 'package:utils':
##
## View
#library(stringr)
#load(file = "Corpus.RData")
#load(file = "Corpus_S.RData")
load(file = "Tokens_S.Rdata")
Tokens_S %>%
dfm() %>%
textstat_keyness(., target = docvars(.) == "IDOR", measure = "chi2") %>%
head(25)
## feature chi2 p n_target n_reference
## 1 ребенок_s 44.871853 2.103606e-11 206 51
## 2 природа_s 26.355323 2.840351e-07 2769 1596
## 3 правило_s 18.482942 1.714318e-05 73 16
## 4 и_conj 18.462422 1.732876e-05 4233 2575
## 5 воспитание_s 17.219564 3.329895e-05 42 5
## 6 отношение_s 15.882131 6.741220e-05 701 367
## 7 качество_s 15.461007 8.422500e-05 72 18
## 8 поступок_s 13.816942 2.015110e-04 71 19
## 9 психологический_a 13.711537 2.131411e-04 24 1
## 10 нравственность_s 13.042494 3.045023e-04 23 1
## 11 правильно_adv 13.042494 3.045023e-04 23 1
## 12 взаимодействие_s 12.354167 4.400032e-04 81 25
## 13 потребительский_a 12.023835 5.252452e-04 56 14
## 14 правильный_a 10.904483 9.593182e-04 42 9
## 15 стадия_s 10.858194 9.835956e-04 23 2
## 16 поведение_s 10.657435 1.096293e-03 51 13
## 17 возраст_s 9.865161 1.684379e-03 30 5
## 18 способность_s 9.619807 1.924899e-03 42 10
## 19 он_spro 9.542075 2.008146e-03 678 376
## 20 мир_s 9.482139 2.074819e-03 373 192
## 21 стихия_s 9.044558 2.634779e-03 17 1
## 22 семья_s 8.955742 2.765988e-03 23 3
## 23 эмоция_s 8.786023 3.035473e-03 13 0
## 24 к_pr 8.679712 3.217719e-03 1059 617
## 25 свой_apro 8.617180 3.330071e-03 738 417
Tokens_S %>%
dfm() %>%
textstat_keyness(., target = docvars(.) == "IDOR", measure = "chi2") %>%
textplot_keyness(labelsize = 2)
Tokens_S %>%
dfm() %>%
textstat_keyness(., target = docvars(.) == "Bio", measure = "chi2") %>%
head(25)
## feature chi2 p n_target n_reference
## 1 географический_a 36.20643 1.774843e-09 7 1
## 2 миллиард_s 33.65320 6.586627e-09 12 10
## 3 раз_s 30.46767 3.394779e-08 27 59
## 4 приемлемый_a 26.50214 2.632462e-07 7 3
## 5 продукция_s 23.76642 1.087633e-06 10 10
## 6 кофе_s 22.47195 2.132348e-06 5 1
## 7 чей_apro 21.51967 3.502182e-06 4 0
## 8 заниматься_v 20.22588 6.881559e-06 15 29
## 9 континент_s 20.12378 7.258853e-06 7 5
## 10 исправлять_v 19.60392 9.527373e-06 12 18
## 11 сейчас_adv 19.57325 9.681526e-06 51 188
## 12 животное_s 19.28312 1.126982e-05 104 475
## 13 год_s 18.60795 1.605498e-05 57 222
## 14 загрязнение_s 18.40917 1.781984e-05 33 105
## 15 дело_s 17.05609 3.629173e-05 23 64
## 16 мешок_s 15.87052 6.782712e-05 4 1
## 17 выбрасываться_v 14.93197 1.114584e-04 8 10
## 18 лишаться_v 14.77507 1.211263e-04 5 3
## 19 вариант_s 14.70873 1.254640e-04 9 13
## 20 злак_s 14.40663 1.472828e-04 3 0
## 21 тест_s 14.40663 1.472828e-04 3 0
## 22 дико_adv 14.40663 1.472828e-04 3 0
## 23 бренд_s 14.40663 1.472828e-04 3 0
## 24 взрыв_s 14.40663 1.472828e-04 3 0
## 25 безобидный_a 14.40663 1.472828e-04 3 0
Tokens_S %>%
dfm() %>%
textstat_keyness(., target = docvars(.) == "Bio", measure = "chi2") %>%
textplot_keyness(labelsize = 2)
Tokens_S %>%
dfm() %>%
textstat_keyness(., target = docvars(.) == "Chem", measure = "chi2") %>%
head(25)
## feature chi2 p n_target n_reference
## 1 содружество_s 52.05263 5.403455e-13 6 0
## 2 определение_s 36.55509 1.484117e-09 9 8
## 3 вывозить_v 33.24177 8.138351e-09 5 1
## 4 тропический_a 21.06072 4.449572e-06 3 0
## 5 подпункт_s 21.06072 4.449572e-06 3 0
## 6 биоресурсы_s 21.06072 4.449572e-06 3 0
## 7 спирогира_s 21.06072 4.449572e-06 3 0
## 8 проблема_s 20.32193 6.544603e-06 55 302
## 9 радиация_s 18.63117 1.586057e-05 4 2
## 10 выброс_s 17.92041 2.303371e-05 17 59
## 11 придумывать_v 17.67228 2.624227e-05 9 18
## 12 газ_s 17.33103 3.140175e-05 22 89
## 13 речка_s 16.61187 4.586319e-05 5 5
## 14 ограничение_s 16.51267 4.832599e-05 6 8
## 15 солнечный_a 15.39094 8.740660e-05 8 16
## 16 расточительный_a 14.59320 1.333953e-04 3 1
## 17 могущество_s 14.59320 1.333953e-04 3 1
## 18 свет_s 14.22435 1.622576e-04 13 41
## 19 машина_s 14.10030 1.733166e-04 12 36
## 20 понятно_adv 12.54954 3.963039e-04 5 7
## 21 дорога_s 12.39497 4.304928e-04 8 19
## 22 следить_v 11.99354 5.338520e-04 6 11
## 23 температура_s 11.99354 5.338520e-04 6 11
## 24 из_pr 11.95934 5.437413e-04 69 466
## 25 бытовой_a 11.55257 6.765580e-04 8 20
Tokens_S %>%
dfm() %>%
textstat_keyness(., target = docvars(.) == "Chem", measure = "chi2") %>%
textplot_keyness(labelsize = 2)
Tokens_S %>%
dfm() %>%
textstat_keyness(., target = docvars(.) == "Sluzh", measure = "chi2") %>%
head(25)
## feature chi2 p n_target n_reference
## 1 субъектный_a 95.98947 0.000000e+00 11 1
## 2 м_s 79.34397 0.000000e+00 11 3
## 3 непрагматический_a 74.52065 0.000000e+00 8 0
## 4 цицерон_s 63.84611 1.332268e-15 7 0
## 5 модальность_s 54.26390 1.753042e-13 7 1
## 6 интенсивность_s 46.83175 7.735035e-12 7 2
## 7 субъективный_a 44.83656 2.141853e-11 8 4
## 8 объектный_a 44.04750 3.205025e-11 6 1
## 9 отпуск_s 42.56612 6.833278e-11 5 0
## 10 преобладание_s 37.21332 1.058880e-09 6 2
## 11 тип_s 37.10724 1.118080e-09 14 23
## 12 специфический_a 34.00298 5.502762e-09 5 1
## 13 зайти_v 31.99501 1.545691e-08 4 0
## 14 перцептивный?_a 31.99501 1.545691e-08 4 0
## 15 аффективный_a 31.99501 1.545691e-08 4 0
## 16 пришвин?_s 31.99501 1.545691e-08 4 0
## 17 характеризоваться_v 28.68051 8.535835e-08 7 6
## 18 прагматический_a 27.70135 1.415642e-07 6 4
## 19 контролировать_v 25.35755 4.762847e-07 8 10
## 20 здравый_a 24.23339 8.533979e-07 4 1
## 21 когнитивный_a 23.36892 1.337217e-06 5 3
## 22 поступочный?_a 21.53089 3.481747e-06 3 0
## 23 вредоносный_a 21.53089 3.481747e-06 3 0
## 24 долговечный_a 21.53089 3.481747e-06 3 0
## 25 настроение_s 19.85528 8.353168e-06 5 4
Tokens_S %>%
dfm() %>%
textstat_keyness(., target = docvars(.) == "Sluzh", measure = "chi2") %>%
textplot_keyness(labelsize = 2)
Tokens_S %>%
dfm() %>%
textstat_keyness(., target = docvars(.) == "IP16-10", measure = "chi2") %>%
head(25)
## feature chi2 p n_target n_reference
## 1 сброс_s 43.89596 3.463019e-11 4 1
## 2 ресурс_s 38.81797 4.652257e-10 54 424
## 3 погоня_s 35.44901 2.618161e-09 4 2
## 4 радовать_v 35.44901 2.618161e-09 4 2
## 5 много_adv 33.51280 7.079651e-09 41 304
## 6 потомок_s 31.19654 2.331819e-08 6 9
## 7 состояние_s 29.48747 5.627951e-08 19 100
## 8 общечеловеческий_a 27.47367 1.592479e-07 3 1
## 9 санкт-петербург_s 27.47367 1.592479e-07 3 1
## 10 батарейка_s 21.37829 3.770156e-06 5 9
## 11 зарядка_s 20.36590 6.395951e-06 2 0
## 12 обеспокоенность_s 20.36590 6.395951e-06 2 0
## 13 нетерпение_s 20.36590 6.395951e-06 2 0
## 14 обожать_v 20.36590 6.395951e-06 2 0
## 15 оборудовать_v 20.36590 6.395951e-06 2 0
## 16 вернее_adv 20.36590 6.395951e-06 2 0
## 17 прогуливаться_v 20.36590 6.395951e-06 2 0
## 18 лишайник_s 20.36590 6.395951e-06 2 0
## 19 natworld?? 20.36590 6.395951e-06 2 0
## 20 info?? 20.36590 6.395951e-06 2 0
## 21 raznoe?? 20.36590 6.395951e-06 2 0
## 22 o?? 20.36590 6.395951e-06 2 0
## 23 prirode?? 20.36590 6.395951e-06 2 0
## 24 неутешительный_a 20.36590 6.395951e-06 2 0
## 25 твориться_v 20.36590 6.395951e-06 2 0
Tokens_S %>%
dfm() %>%
textstat_keyness(., target = docvars(.) == "IP16-10", measure = "chi2") %>%
textplot_keyness(labelsize = 2)
Tokens_S %>%
dfm() %>%
textstat_keyness(., target = docvars(.) == "IP18-42", measure = "chi2") %>%
head(25)
## feature chi2 p n_target n_reference
## 1 ты_spro 148.48373 0.000000e+00 36 69
## 2 заяц_s 69.76786 1.110223e-16 7 2
## 3 \\s 65.99441 4.440892e-16 868 10280
## 4 ленинградский_a 46.96872 7.212897e-12 4 0
## 5 я_spro 46.49258 9.196643e-12 72 488
## 6 исчезновение_s 40.06058 2.462082e-10 17 51
## 7 хищник_s 37.63559 8.527445e-10 6 5
## 8 метан_s 36.20076 1.780007e-09 4 1
## 9 процент_s 33.64678 6.608422e-09 6 6
## 10 мазай_s 31.71584 1.784605e-08 3 0
## 11 герман_s 31.71584 1.784605e-08 3 0
## 12 гессе_s 31.71584 1.784605e-08 3 0
## 13 prezentacii?? 31.71584 1.784605e-08 3 0
## 14 инвазивный_a 31.71584 1.784605e-08 3 0
## 15 акр_s 31.71584 1.784605e-08 3 0
## 16 леопард_s 31.71584 1.784605e-08 3 0
## 17 спать_v 23.94936 9.890295e-07 4 3
## 18 рыба_s 23.46224 1.273895e-06 18 86
## 19 защищаться_v 22.56900 2.027296e-06 3 1
## 20 вид_s 21.49305 3.551135e-06 43 322
## 21 изменяться_v 20.66297 5.476495e-06 9 26
## 22 газ_s 20.43491 6.169399e-06 18 93
## 23 северный_a 20.14479 7.179536e-06 4 4
## 24 сильно_adv 19.15654 1.204240e-05 11 40
## 25 надеяться_v 17.19990 3.364534e-05 4 5
Tokens_S %>%
dfm() %>%
textstat_keyness(., target = docvars(.) == "IP18-42", measure = "chi2") %>%
textplot_keyness(labelsize = 2)
IP18-42