rm(list = ls())
date()
## [1] "Sat Nov  9 15:45:10 2019"
sessionInfo()
## R version 3.6.1 (2019-07-05)
## Platform: x86_64-apple-darwin15.6.0 (64-bit)
## Running under: macOS Catalina 10.15.1
## 
## Matrix products: default
## BLAS:   /Library/Frameworks/R.framework/Versions/3.6/Resources/lib/libRblas.0.dylib
## LAPACK: /Library/Frameworks/R.framework/Versions/3.6/Resources/lib/libRlapack.dylib
## 
## locale:
## [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## loaded via a namespace (and not attached):
##  [1] compiler_3.6.1  magrittr_1.5    tools_3.6.1     htmltools_0.3.6
##  [5] yaml_2.2.0      Rcpp_1.0.2      stringi_1.4.3   rmarkdown_1.16 
##  [9] knitr_1.25      stringr_1.4.0   xfun_0.10       digest_0.6.21  
## [13] evaluate_0.14

##Библиотеки

library(quanteda)
## Package version: 1.5.1
## Parallel computing: 2 of 4 threads used.
## See https://quanteda.io for tutorials and examples.
## 
## Attaching package: 'quanteda'
## The following object is masked from 'package:utils':
## 
##     View
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
# library(ggplot2)
library(stringr)
library(ggplot2)
library(magrittr)
library(tibble)

Импорт данных

load(file = "Tokens_S2.RData")
load(file = "Tokens_S.RData")
load(file = "Corpus_S2.RData")

Создание матрицы

Из токенизатора делаю dfm Оставляю только существительные, глаголы и прилагательные и по нему считаю самые частые слова по количеству текстов

DFM_S2 <- Tokens_S2 %>% 
  tokens_keep(pattern = c("*_s", "*_v", "*_a", "*_adv")) %>% 
  dfm()

test Предложения, в которых одно из слов употребляется очень много раз шесть и более

DFM_S2 %>% 
  as.matrix() %>% 
  {
    r <- apply(., MARGIN = 1, max)
    c <- apply(., MARGIN = 2, max)
    .[r > 5, c > 5]
  } %>% 
  print() %>% 
  rownames()
##             features
## docs         человек_s природа_s нельзя_adv международный_a конвенция_s
##   Bio6.16            6         4          0               0           0
##   IDOR86.23          0         1          6               0           0
##   IDOR98.7           0         0          0               6          11
##   IDOR165.27         2         6          0               0           0
##   IDOR166.7          1         6          0               0           0
##   IDOR181.12         6         6          0               0           0
## [1] "Bio6.16"    "IDOR86.23"  "IDOR98.7"   "IDOR165.27" "IDOR166.7" 
## [6] "IDOR181.12"
Corpus_S2[docnames(Corpus_S2) == "IDOR98.7"]
##                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       IDOR98.7 
## "самый_APRO главный_A являться_V международный_A договор_S источник_S обязательный_A международный_A природопользование_S и_CONJ право_S окружающий_A среда_S такой_APRO как_CONJ конвенция_S об_PR охрана_S средиземный_A море_S от_PR загрязнение_S конвенция_S о_PR трансграничный_A загрязнение_S воздух_S на_PR большой_A расстояние_S венский_A конвенция_S по_PR охрана_S озоновый_A слой_S монреальский_A протокол_S по_PR вещество_S разрушать_V озоновый_A слой_S конвенция_S по_PR охрана_S и_CONJ использование_S трансграничный_A водоток_S и_CONJ международный_A озеро_S конвенция_S об_PR оценка_S воздействие_S на_PR окружающий_A среда_S в_PR трансграничный_A контекст_S конвенция_S по_PR защита_S морской_A среда_S балтийский_A море_S конвенция_S по_PR охрана_S и_CONJ использование_S трансграничный_A водоток_S и_CONJ международный_A озеро_S конвенция_S о_PR биологический_A разнообразие_S международный_A конвенция_S юнеско_S о_PR водный_A болотный_A место_S иметь_V международный_A значение_S как_CONJ место_S обитание_S в_PR основной_A водный_A птица_S рамсарская?_S конвенция_S г_S конвенция_S о_PR доступ_S к_PR информация_S об_PR окружающий_A среда_S участие_S общественность_S в_PR принятие_S решение_S и_CONJ открытый_A проведение_S правосудие_S орхус_S г_S и_CONJ др_S"
Corpus_S2[docnames(Corpus_S2) == "IDOR166.7"]
##                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   IDOR166.7 
## "однако_CONJ по_PR мера_S усложнение_S жизнь_S человеческий_A общество_S связь_S с_PR природа_S становиться_V весь_APRO более_ADV опосредовать_V возникать_V противоречие_S я_SPRO верить_V что_CONJ мы_SPRO часть_S природа_S и_CONJ что_CONJ наш_APRO цель_S должный_A быть_V достигать_V при_PR сохранение_S здоровье_S природа_S но_CONJ по_PR мнение_S народ_S природа_S существовать_V отдельно_ADV от_PR человек_S что_CONJ мы_SPRO нечто_SPRO иной_APRO нечто_SPRO что_CONJ заслуживать_V то_SPRO чтобы_CONJ использовать_V то_SPRO что_CONJ природа_S иметь_V и_CONJ не_PART отдавать_V взамен_ADV не_PART думать_V о_PR то_SPRO что_CONJ природа_S это_SPRO не_PART то_PART за_PR что_SPRO мы_SPRO она_SPRO принимать_V а_CONJ на_PR самый_APRO дело_S это_PART исчерпывать_V ресурс_S который_APRO мы_SPRO осознавать_V только_PART тогда_ADVPRO когда_CONJ он_SPRO окончательно_ADV исчезать_V"

#Корреляция и кластеризация Корреляция 100 самых частых слов.

DFM_S2 %>% 
  dfm_trim(min_termfreq = 100, termfreq_type = "rank" ) %>%
  textstat_simil(method = "correlation", margin = "features") %>% 
  as.dist() %>% 
  hclust() %>% 
  plot(cex = 0.5)

Косинусное расстояние

DFM_S2 %>% 
  dfm_trim(min_termfreq = 100, termfreq_type = "rank" ) %>%
  textstat_simil(method = "cosine", margin = "features") %>% 
  as.dist() %>% 
  hclust() %>% 
  plot(cex = 0.5)

Network

set.seed(100)
DFM_S2 %>% 
        fcm() %>%
        fcm_select(., pattern = names(topfeatures(., 30))) %>% 
        textplot_network()
## Registered S3 method overwritten by 'network':
##   method            from    
##   summary.character quanteda

Тепловая карта

Наверное, надо близость считать по всему массиву, а фильтровать уже матрицу близости Или результат н будет меняться? x, y
a dfm objects; y is an optional target matrix matching x in the margin on which the similarity or distance will be computed. Создаю списки слов по частям речи

Swords <- DFM_S2 %>% 
  textstat_frequency() %>% 
  {a <- endsWith(.$feature, "_s")
  .[a,]
  }

Vwords <- DFM_S2 %>% 
  textstat_frequency() %>% 
  {a <- endsWith(.$feature, "_v")
  .[a,]
  }

Awords <- DFM_S2 %>% 
  textstat_frequency() %>% 
  {a <- endsWith(.$feature, "_a")
  .[a,]
  }

Генератор списка слов по частям речи (функция)

word <- function(n = Inf) {head(textstat_frequency(DFM_S2)$feature, n)}
sword <- function(n = Inf) {head(Swords$feature, n)}
vword <- function(n = Inf) {head(Vwords$feature, n)}
aword <- function(n = Inf) {head(Awords$feature, n)}

Матрица Косинусной близости

CosineMatrix <- textstat_simil(DFM_S2, margin = "features", method = "cosine")

Cуществительные х Глаголы (50х50)

CosineMatrix[sword(50), vword(50)] %>% 
  as.matrix() %>% 
  heatmap(cexRow = 0.4, cexCol = 0.4, scale = "none")

Cуществительные х Прилагательные (50х50)

CosineMatrix[sword(50), aword(50)] %>% 
  as.matrix() %>% 
  heatmap(cexRow = 0.4, cexCol = 0.4, scale = "none")

Глаголы х Прилагательные (50х50)

CosineMatrix[vword(50), aword(50)] %>% 
  as.matrix() %>% 
  heatmap(cexRow = 0.4, cexCol = 0.4, scale = "none")

Нравственные слова

Перевожу всё строчные буквы

MoralTypes <- Tokens_S2 %>% 
        types() %>% 
        str_subset("нравств|морал|(эти)[кч].|идеал") %>% 
  
        extract(. != "поэтичный_A") %>% 
        tolower()
CosineMatrix[ word(50), tolower(MoralTypes)] %>% 
  as.matrix() %>% 
  heatmap(cexRow = 0.4, cexCol = 0.5
          , scale = "none")

Списки похожих слов

создаю функцию

neighbour <- function(lemma) {
  Friq <- Tokens_S %>%
    dfm() %>%
    textstat_frequency() %>%
    {.[.$feature %in% lemma, ]}
  print(Friq)
  
  lapply(lemma, function(f) {
    if (Friq$frequency[which(Friq$feature == f)] > 2) {
      CosineMatrix %>%
        as.matrix() %>%
        as.data.frame() %>%
        extract(names(.) == f) %>%
        rownames_to_column() %>%
        set_colnames(c("feature", "Cosine")) %>%
        arrange(desc(Cosine)) %>%
        
        left_join(Tokens_S %>%
                    tokens_keep(pattern = c("*_s", "*_v", "*_a", "*_adv")) %>%
                    dfm() %>%
                    textstat_frequency()
                  ,
                  by = "feature") %>%
        #кавычки нужны, чтобы не использовался объект
        select(-group) %>%
        filter(frequency > 2) %>%
        head(20)
    } else {
      Tokens_S %>%
    dfm() %>%
    textstat_frequency() %>%
    {.[.$feature == f, ]}
      #print(f)
    }
    
  }
  )
}

Связи моральных слов

neighbour(MoralTypes)
##                      feature frequency rank docfreq group
## 439              моральный_a        54  432      28   all
## 480           нравственный_a        49  475      32   all
## 843              идеальный_a        26  817      15   all
## 917         нравственность_s        24  890      14   all
## 918                 мораль_s        24  890      15   all
## 1326                 этика_s        15 1270      14   all
## 1500             этический_a        13 1425      10   all
## 1655                 идеал_s        11 1593       8   all
## 2576             этичность_s         5 2542       4   all
## 2752            этически_adv         5 2542       5   all
## 2980            морально_adv         4 2856       4   all
## 3653       безнравственный_a         3 3288       3   all
## 4516           моральность_s         2 3958       1   all
## 4812        идеализировать_v         2 3958       1   all
## 6337           аморально_adv         1 5168       1   all
## 6676                этикет_s         1 5168       1   all
## 6881              морализм_s         1 5168       1   all
## 7106            идеально_adv         1 5168       1   all
## 7418 морально-нравственный_a         1 5168       1   all
## 7475     безнравственность_s         1 5168       1   all
## 7706            аморальный_a         1 5168       1   all
## 8271          неэтичность?_s         1 5168       1   all
## 8559             экоэтика?_s         1 5168       1   all
## [[1]]
##                feature     Cosine frequency rank docfreq
## 1          этичность_s 1.00000000         5 2337       4
## 2           поедание_s 0.37796447         4 2635       4
## 3             жертва_s 0.22792115        11 1423      10
## 4              бренд_s 0.21821789         3 3049       1
## 5             хищник_s 0.20965697        11 1423       7
## 6          продукция_s 0.20701967        20  894      10
## 7            браться_v 0.18898224         4 2635       4
## 8               скот_s 0.16903085         5 2337       5
## 9            держать_v 0.16903085         5 2337       5
## 10 свидетельствовать_v 0.13363062         8 1743       8
## 11         выпускать_v 0.10482848        13 1258      12
## 12       потребление_s 0.10012523        57  299      39
## 13      задумываться_v 0.09542762       235   45     120
## 14          домашний_a 0.08058230        22  816      21
## 15         небольшой_a 0.07881104        23  785      21
## 16       специальный_a 0.07559289        23  785      18
## 17           магазин_s 0.07273930        27  653      22
## 18       настолько_adv 0.07018624        27  653      23
## 19     практически_adv 0.06213698        37  477      33
## 20            список_s 0.05902813        37  477      30
## 
## [[2]]
##              feature    Cosine frequency rank docfreq
## 1        моральный_a 1.0000000        54  325      28
## 2  урбанистический_a 0.3042903         5 2337       5
## 3    эгоистический_a 0.2872135        11 1423      11
## 4         колберг?_s 0.2721655         9 1625       3
## 5   индустриальный_a 0.2108185        15 1110      13
## 6           потеря_s 0.2057378        28  632      23
## 7         аргумент_s 0.1666667         6 2094       4
## 8           угроза_s 0.1524432        49  365      41
## 9    обязательство_s 0.1360828         4 2635       4
## 10    материальный_a 0.1350319        61  276      49
## 11          стадия_s 0.1309457        25  710       8
## 12         принцип_s 0.1259882        40  444      30
## 13      составлять_v 0.1200137        63  267      53
## 14        ценность_s 0.1194962        73  221      45
## 15            путь_s 0.1135009        88  179      55
## 16       этический_a 0.1132277        13 1258      10
## 17        развитие_s 0.1121544       186   61      95
## 18    базироваться_v 0.1111111         6 2094       5
## 19    нравственный_a 0.1081476        49  365      32
## 20        суждение_s 0.1028689         7 1906       7
## 
## [[3]]
##               feature     Cosine frequency rank docfreq
## 1             идеал_s 1.00000000        11 1423       8
## 2  индивидуальность_s 0.42008403         3 3049       3
## 3       приниматься_v 0.42008403         3 3049       3
## 4        абсолютный_a 0.27500955         7 1906       7
## 5     универсальный_a 0.25724788         8 1743       7
## 6        исключение_s 0.21004201        12 1333      11
## 7      совершенство_s 0.19802951         6 2094       6
## 8             грань_s 0.15512631        22  816      19
## 9       возвышенный_a 0.14002801         3 3049       3
## 10       несмотря_adv 0.12478355        34  520      31
## 11         единство_s 0.11504475        38  465      24
## 12         согласие_s 0.10846523         5 2337       5
## 13   справедливость_s 0.10846523         5 2337       5
## 14  сосуществование_s 0.10846523         5 2337       5
## 15       вероятно_adv 0.09901475         6 2094       6
## 16             мощь_s 0.09901475         6 2094       6
## 17      возрождение_s 0.09901475         6 2094       6
## 18       литература_s 0.09901475         6 2094       5
## 19         доводить_v 0.09166985         7 1906       7
## 20     повседневный_a 0.09166985         7 1906       7
## 
## [[4]]
##             feature     Cosine frequency rank docfreq
## 1      морально_adv 1.00000000         4 2635       4
## 2       украшение_s 0.25000000         4 2635       4
## 3            звук_s 0.20412415         6 2094       5
## 4      деградация_s 0.20412415         6 2094       6
## 5   расслабляться_v 0.17677670         8 1743       8
## 6         портить_v 0.15075567        11 1423      11
## 7  сформировывать_v 0.13363062        14 1179      11
## 8       страдание_s 0.12909944        15 1110      13
## 9      рассуждать_v 0.12500000        16 1059      15
## 10    потребитель_s 0.12126781        17 1017      14
## 11         замена_s 0.11785113        16 1059      13
## 12         болото_s 0.11470787        19  936      12
## 13        обычный_a 0.11180340        18  976      14
## 14       находить_v 0.10369517        83  193      64
## 15            быт_s 0.09805807        26  681      21
## 16        красота_s 0.09449112       102  150      66
## 17    справляться_v 0.09449112        26  681      22
## 18   использовать_v 0.08333333       296   30     139
## 19        почти_adv 0.07715167        42  422      37
## 20     стремиться_v 0.07453560        45  399      36
## 
## [[5]]
##             feature     Cosine frequency rank docfreq
## 1  нравственность_s 1.00000000        24  748      14
## 2         золотой_a 0.52923775        18  976      15
## 3           этика_s 0.36893239        15 1110      14
## 4         правило_s 0.33681653        87  182      52
## 5          делать_v 0.27105760       252   40     133
## 6         главное_s 0.19287919        28  632      26
## 7        называть_v 0.18761969        56  307      42
## 8          хотеть_v 0.18711380       136   98      92
## 9        основной_a 0.17588162        66  250      48
## 10        гласить_v 0.11785113         3 3049       3
## 11           жечь_v 0.11785113         3 3049       3
## 12         благой_a 0.11785113         3 3049       3
## 13      намерение_s 0.11785113         3 3049       3
## 14         грубый_a 0.11785113         3 3049       3
## 15       включать_v 0.10998534        31  572      24
## 16       работать_v 0.10660036        31  572      27
## 17        краткий_a 0.10206207         4 2635       3
## 18         ясно_adv 0.09365858        19  936      19
## 19   существовать_v 0.09242585       227   48     133
## 20      профессия_s 0.09128709         5 2337       5
## 
## [[6]]
##               feature     Cosine frequency rank docfreq
## 1            мораль_s 1.00000000        24  748      15
## 2       дозволенный_a 0.26148818         7 1906       5
## 3         намерение_s 0.22645541         3 3049       3
## 4             норма_s 0.22269967        36  499      32
## 5           краткий_a 0.19611614         4 2635       3
## 6          колберг?_s 0.13074409         9 1625       3
## 7      регулировать_v 0.11826248        11 1423       8
## 8       юридический_a 0.11322770         3 3049       3
## 9             щенок_s 0.11322770         3 3049       2
## 10       библейский_a 0.11322770         3 3049       3
## 11  наплевательский_a 0.11322770         3 3049       3
## 12        стереотип_s 0.11322770         3 3049       3
## 13           зоолог_s 0.11322770         3 3049       2
## 14       основывать_v 0.10482848        14 1179      14
## 15            рамка_s 0.10241831        27  653      23
## 16         традиция_s 0.09805807         4 2635       4
## 17          помнить_v 0.09805807        62  270      46
## 18          комната_s 0.09805807         4 2635       4
## 19 распространяться_v 0.09805807         4 2635       3
## 20          прошлое_s 0.09805807         4 2635       4
## 
## [[7]]
##               feature    Cosine frequency rank docfreq
## 1         идеальный_a 1.0000000        26  681      15
## 2         дружеский_a 0.3706247         7 1906       7
## 3     доверительный_a 0.3508232         5 2337       4
## 4         искренний_a 0.3396831        12 1333      10
## 5        основывать_v 0.2620712        14 1179      14
## 6  конструироваться_v 0.2264554         3 3049       3
## 7     акцентировать_v 0.2264554         3 3049       3
## 8      составляющая_s 0.1961161         4 2635       4
## 9       несколько_adv 0.1754116         5 2337       5
## 10        вернуться_v 0.1572427        14 1179      13
## 11         реальный_a 0.1519109        15 1110      14
## 12  функционировать_v 0.1307441         9 1625       6
## 13          снова_adv 0.1254363        20  894      15
## 14            сфера_s 0.1245339        54  325      35
## 15     материальный_a 0.1216261        61  276      49
## 16            ствол_s 0.1132277         3 3049       3
## 17    формулировать_v 0.1132277         3 3049       3
## 18         клеточка_s 0.1132277         3 3049       1
## 19      живительный_a 0.1132277         3 3049       2
## 20        отношение_s 0.1103239      1062    5     212
## 
## [[8]]
##                feature    Cosine frequency rank docfreq
## 1       нравственный_a 1.0000000        49  365      32
## 2        сострадание_s 0.3532086         9 1625       8
## 3            буддизм_s 0.2649065         4 2635       4
## 4          основание_s 0.2185367        18  976      16
## 5         осмысление_s 0.2162952         6 2094       6
## 6          уделяться_v 0.2162952         6 2094       6
## 7              мотив_s 0.1873172         8 1743       6
## 8            чувство_s 0.1821232        56  307      44
## 9          идеология_s 0.1777047         5 2337       4
## 10        этически_adv 0.1777047         5 2337       5
## 11         побуждать_v 0.1777047         5 2337       5
## 12      вскармливать_v 0.1529438         3 3049       3
## 13            родить_v 0.1529438         3 3049       3
## 14   оздоровительный_a 0.1529438         3 3049       3
## 15             рубеж_s 0.1529438         3 3049       3
## 16      перешагивать_v 0.1529438         3 3049       3
## 17       воспитатель_s 0.1529438         3 3049       2
## 18         концепция_s 0.1415985        14 1179       8
## 19      эстетический_a 0.1383429        25  710      18
## 20 совершенствование_s 0.1324532         4 2635       4
## 
## [[9]]
##               feature    Cosine frequency rank docfreq
## 1             этика_s 1.0000000        15 1110      14
## 2           золотой_a 0.4260064        18  976      15
## 3    нравственность_s 0.3689324        24  748      14
## 4           правило_s 0.3076977        87  182      52
## 5          подпункт_s 0.2309401         3 3049       1
## 6          основной_a 0.2224746        66  250      48
## 7            делать_v 0.2086997       252   40     133
## 8          называть_v 0.2034191        56  307      42
## 9           главное_s 0.1951800        28  632      26
## 10           хотеть_v 0.1506160       136   98      92
## 11          гласить_v 0.1490712         3 3049       3
## 12            рубеж_s 0.1490712         3 3049       3
## 13       ценностный_a 0.1490712         3 3049       3
## 14        стереотип_s 0.1490712         3 3049       3
## 15     перешагивать_v 0.1490712         3 3049       3
## 16           зоолог_s 0.1490712         3 3049       2
## 17 распространяться_v 0.1290994         4 2635       3
## 18            ясный_a 0.1154701         5 2337       5
## 19          религия_s 0.1054093         6 2094       4
## 20        воплощать_v 0.1054093         6 2094       6
## 
## [[10]]
##              feature     Cosine frequency rank docfreq
## 1  безнравственный_a 1.00000000         3 3049       3
## 2       этически_adv 0.25819889         5 2337       5
## 3         конфликт_s 0.21821789         5 2337       4
## 4           победа_s 0.20412415         6 2094       3
## 5     преступление_s 0.16012815        13 1258      13
## 6        поведение_s 0.14002801        64  265      48
## 7      невозможный_a 0.12598816        21  852      20
## 8     совершенно_adv 0.10369517        31  572      27
## 9          принцип_s 0.08908708        40  444      30
## 10          видеть_v 0.06052275        85  188      57
## 11           вести_v 0.05407381       114  126      77
## 12     происходить_v 0.04652421       148   87      98
## 13            цель_s 0.04145133       152   86      76
## 14        сейчас_adv 0.03711348       236   44     130
## 15           уже_adv 0.03384487       277   32     157
## 16          делать_v 0.03333333       252   40     133
## 17        являться_v 0.03042903       346   24     149
## 18     становиться_v 0.02651858       446   15     185
## 19         должный_a 0.02280396       559    9     178
## 20         природа_s 0.01525829      4337    1     225
## 
## [[11]]
##              feature     Cosine frequency rank docfreq
## 1       этически_adv 1.00000000         5 2337       5
## 2          буддизм_s 0.67082039         4 2635       4
## 3        побуждать_v 0.60000000         5 2337       5
## 4       осмысление_s 0.54772256         6 2094       6
## 5        уделяться_v 0.54772256         6 2094       6
## 6            мотив_s 0.47434165         8 1743       6
## 7      сострадание_s 0.44721360         9 1625       8
## 8        основание_s 0.31622777        18  976      16
## 9  безнравственный_a 0.25819889         3 3049       3
## 10      правильный_a 0.18786729        51  352      43
## 11        вообще_adv 0.18090681        55  314      48
## 12    нравственный_a 0.17770466        49  365      32
## 13        основной_a 0.16514456        66  250      48
## 14        внимание_s 0.16514456        66  250      51
## 15       приходить_v 0.15702718        71  226      59
## 16          помощь_s 0.15289416        73  221      56
## 17    деятельность_s 0.10476454       154   80      99
## 18         большой_a 0.09393364       200   59     126
## 19       отношение_s 0.07547319      1062    5     212
## 20        являться_v 0.07071068       346   24     149
## 
## [[12]]
##                 feature    Cosine frequency rank docfreq
## 1           этический_a 1.0000000        13 1258      10
## 2          формальный_a 0.4160251         4 2635       3
## 3           регулятор_s 0.4160251         4 2635       3
## 4            гуманный_a 0.2773501         9 1625       8
## 5             вовсе_adv 0.2018018        17 1017      13
## 6              аспект_s 0.1773937        22  816      18
## 7            психолог_s 0.1754116        10 1525       6
## 8  природопользование_s 0.1698416        24  748      22
## 9           воззрение_s 0.1601282         3 3049       3
## 10    деятельностный?_a 0.1601282         3 3049       2
## 11         покоритель_s 0.1601282         3 3049       3
## 12             лозунг_s 0.1601282         3 3049       3
## 13      бесполезность_s 0.1601282         3 3049       3
## 14        завоеватель_s 0.1601282         3 3049       3
## 15                  е_s 0.1406422        29  610      23
## 16           активист_s 0.1386750         4 2635       4
## 17         античность_s 0.1386750         4 2635       4
## 18         склоняться_v 0.1386750         4 2635       4
## 19     восприниматься_v 0.1386750        14 1179       6
## 20   психологически_adv 0.1386750         4 2635       4
## 
## [[13]]
##            feature frequency rank docfreq group
## 4516 моральность_s         2 3958       1   all
## 
## [[14]]
##            feature frequency rank docfreq group
## 6337 аморально_adv         1 5168       1   all
## 
## [[15]]
##       feature frequency rank docfreq group
## 6676 этикет_s         1 5168       1   all
## 
## [[16]]
##         feature frequency rank docfreq group
## 6881 морализм_s         1 5168       1   all
## 
## [[17]]
##               feature frequency rank docfreq group
## 4812 идеализировать_v         2 3958       1   all
## 
## [[18]]
##           feature frequency rank docfreq group
## 7106 идеально_adv         1 5168       1   all
## 
## [[19]]
##                      feature frequency rank docfreq group
## 7418 морально-нравственный_a         1 5168       1   all
## 
## [[20]]
##                  feature frequency rank docfreq group
## 7475 безнравственность_s         1 5168       1   all
## 
## [[21]]
##           feature frequency rank docfreq group
## 7706 аморальный_a         1 5168       1   all
## 
## [[22]]
##             feature frequency rank docfreq group
## 8271 неэтичность?_s         1 5168       1   all
## 
## [[23]]
##          feature frequency rank docfreq group
## 8559 экоэтика?_s         1 5168       1   all

Близкие соседи наиболее частых слов (15 самых частых)

DFM_S2 %>% 
        topfeatures(15) %>% 
        names() %>%
        neighbour()
##          feature frequency rank docfreq group
## 3      природа_s      4337    3     225   all
## 5      человек_s      4145    5     225   all
## 12        быть_v      1398   12     216   all
## 16        мочь_v      1097   16     220   all
## 20   отношение_s      1062   20     212   all
## 35       жизнь_s       626   35     196   all
## 37    животное_s       579   37     182   all
## 39         мир_s       565   39     188   all
## 40     должный_a       559   40     178   all
## 43   позволять_v       511   43     176   all
## 46   природный_a       487   46     177   all
## 47         лес_s       481   47     179   all
## 48      ресурс_s       476   48     166   all
## 49       среда_s       475   49     166   all
## 51 становиться_v       446   51     185   all
## [[1]]
##           feature    Cosine frequency rank docfreq
## 1       природа_s 1.0000000      4337    1     225
## 2       человек_s 0.5830572      4145    2     225
## 3     отношение_s 0.4040103      1062    5     212
## 4          мочь_v 0.2683576      1097    4     220
## 5          быть_v 0.2536482      1398    3     216
## 6       должный_a 0.2458263       559    9     178
## 7     позволять_v 0.2266448       511   10     176
## 8         жизнь_s 0.1941626       626    6     196
## 9        ресурс_s 0.1816063       476   13     166
## 10   относиться_v 0.1722014       273   33     144
## 11     общество_s 0.1712319       223   50     102
## 12        часть_s 0.1630808       238   43     137
## 13     гармония_s 0.1606957        93  167      61
## 14       давать_v 0.1545103       326   28     157
## 15 человечество_s 0.1515908       381   21     154
## 16         жить_v 0.1485026       312   29     149
## 17     являться_v 0.1476458       346   24     149
## 18          мир_s 0.1469404       565    8     188
## 19 существовать_v 0.1410332       227   48     133
## 20  становиться_v 0.1389897       446   15     185
## 
## [[2]]
##           feature    Cosine frequency rank docfreq
## 1       человек_s 1.0000000      4145    2     225
## 2       природа_s 0.5830572      4337    1     225
## 3     отношение_s 0.3430639      1062    5     212
## 4          мочь_v 0.2978142      1097    4     220
## 5     позволять_v 0.2596252       511   10     176
## 6          быть_v 0.2535129      1398    3     216
## 7       должный_a 0.2119907       559    9     178
## 8         жизнь_s 0.1848602       626    6     196
## 9   становиться_v 0.1717420       446   15     185
## 10  потребность_s 0.1689156       170   69      89
## 11        среда_s 0.1678743       475   14     166
## 12   относиться_v 0.1650917       273   33     144
## 13    природный_a 0.1640122       487   11     177
## 14       ресурс_s 0.1612398       476   13     166
## 15   окружающий_a 0.1597672       419   16     163
## 16     являться_v 0.1527089       346   24     149
## 17     понимать_v 0.1502197       261   36     136
## 18 деятельность_s 0.1454481       154   80      99
## 19         жить_v 0.1437673       312   29     149
## 20        время_s 0.1418011       338   26     163
## 
## [[3]]
##                 feature    Cosine frequency rank docfreq
## 1                быть_v 1.0000000      1398    3     216
## 2             природа_s 0.2536482      4337    1     225
## 3             человек_s 0.2535129      4145    2     225
## 4              слепок_s 0.1625783         3 3049       3
## 5                 лик_s 0.1625783         3 3049       3
## 6                мочь_v 0.1444329      1097    4     220
## 7            должно_adv 0.1435663        89  178      64
## 8             должный_a 0.1408824       559    9     178
## 9               мнить_v 0.1407970         4 2635       4
## 10          отношение_s 0.1313474      1062    5     212
## 11               язык_s 0.1259326         5 2337       5
## 12               жить_v 0.1228977       312   29     149
## 13              жизнь_s 0.1172504       626    6     196
## 14 самоорганизующийся_a 0.1171502        13 1258      10
## 15       использовать_v 0.1134198       296   30     139
## 16                год_s 0.1117078       278   31     151
## 17               союз_s 0.1095088         9 1625       9
## 18              земля_s 0.1090183       417   17     183
## 19            можно_adv 0.1049985       404   18     170
## 20         безбедно_adv 0.0990544        11 1423      11
## 
## [[4]]
##                feature     Cosine frequency rank docfreq
## 1               мочь_v 1.00000000      1097    4     220
## 2          позволять_v 0.41564178       511   10     176
## 3            человек_s 0.29781419      4145    2     225
## 4            природа_s 0.26835758      4337    1     225
## 5          отношение_s 0.22976474      1062    5     212
## 6               быть_v 0.14443294      1398    3     216
## 7                дар_s 0.10595362       109  138      84
## 8            сделать_v 0.10285079       160   75     105
## 9             вопрос_s 0.09827258       222   51     118
## 10         приводить_v 0.09535607       230   46     117
## 11            давать_v 0.09497370       326   28     157
## 12      использовать_v 0.08824294       296   30     139
## 13      существовать_v 0.08806569       227   48     133
## 14            делать_v 0.08679200       252   40     133
## 15           сказать_v 0.08663782       103  148      78
## 16      пользоваться_v 0.08639723        93  167      62
## 17      уважительный_a 0.08509140        36  499      34
## 18 безответственно_adv 0.08509140         4 2635       4
## 19       последствие_s 0.08442173       159   76     103
## 20            ресурс_s 0.08317714       476   13     166
## 
## [[5]]
##              feature    Cosine frequency rank docfreq
## 1        отношение_s 1.0000000      1062    5     212
## 2          природа_s 0.4040103      4337    1     225
## 3          человек_s 0.3430639      4145    2     225
## 4        позволять_v 0.3009343       511   10     176
## 5             мочь_v 0.2297647      1097    4     220
## 6         бережный_a 0.1888874        41  433      37
## 7  потребительский_a 0.1680922        70  232      59
## 8            сфера_s 0.1464585        54  325      35
## 9              тип_s 0.1340984        37  477      14
## 10            быть_v 0.1313474      1398    3     216
## 11       перенести_v 0.1312603         9 1625       9
## 12       дружеский_a 0.1275730         7 1906       7
## 13         должный_a 0.1144286       559    9     178
## 14      восприятие_s 0.1143614        32  555      20
## 15       искренний_a 0.1136747        12 1333      10
## 16    субъективный_a 0.1136747        12 1333       4
## 17    общественный_a 0.1133982        59  287      38
## 18   доверительный_a 0.1132098         5 2337       4
## 19         буддизм_s 0.1125088         4 2635       4
## 20          вопрос_s 0.1121627       222   51     118
## 
## [[6]]
##              feature    Cosine frequency rank docfreq
## 1            жизнь_s 1.0000000       626    6     196
## 2          природа_s 0.1941626      4337    1     225
## 3          человек_s 0.1848602      4145    2     225
## 4     обустраивать_v 0.1847734        13 1258      12
## 5       загрязнуть_v 0.1655212         5 2337       5
## 6             счет_s 0.1512284        46  391      28
## 7             ноль_s 0.1480466         9 1625       8
## 8     обогреваться_v 0.1480466         4 2635       4
## 9       пробуждать_v 0.1324169         5 2337       5
## 10           жилье_s 0.1305850        29  610      26
## 11 воспроизведение_s 0.1287453        10 1525      10
## 12       жестоко_adv 0.1282122        12 1333      12
## 13         сводить_v 0.1242328        15 1110      13
## 14           образ_s 0.1213853       154   80     105
## 15            быть_v 0.1172504      1398    3     216
## 16     потребность_s 0.1171859       170   69      89
## 17      усложнение_s 0.1170411        10 1525      10
## 18           тепло_s 0.1158648        20  894      19
## 19       первичный_a 0.1146764        15 1110      15
## 20          ресурс_s 0.1133969       476   13     166
## 
## [[7]]
##           feature    Cosine frequency rank docfreq
## 1      животное_s 1.0000000       579    7     182
## 2      растение_s 0.4471508       246   41     132
## 3           вид_s 0.3257288       365   22     156
## 4        редкий_a 0.2514548        71  226      52
## 5       красный_a 0.2346997        66  250      49
## 6       убивать_v 0.2088177       122  114      81
## 7   бенгальский_a 0.1934981         6 2094       6
## 8    кавказский_a 0.1934981         6 2094       6
## 9         дикий_a 0.1890969        61  276      44
## 10       нажива_s 0.1862294        13 1258      13
## 11 исчезновение_s 0.1815388        68  239      48
## 12        птица_s 0.1792502        92  171      70
## 13          лес_s 0.1705684       481   12     179
## 14        книга_s 0.1687493        73  221      56
## 15     вымирать_v 0.1668860        55  314      42
## 16   истреблять_v 0.1648628        45  399      39
## 17        охота_s 0.1625709        34  520      28
## 18         волк_s 0.1596278        12 1333      12
## 19       дерево_s 0.1583299       221   52     117
## 20   уничтожать_v 0.1529736       129  106      84
## 
## [[8]]
##             feature     Cosine frequency rank docfreq
## 1             мир_s 1.00000000       565    8     188
## 2        окружать_v 0.20252642       118  120      91
## 3        животный_a 0.18073922        60  279      49
## 4      окружающий_a 0.18002198       419   16     163
## 5    растительный_a 0.17705408        27  653      23
## 6      целостно_adv 0.16099689         5 2337       5
## 7       специфика_s 0.15178933         6 2094       4
## 8         природа_s 0.14694039      4337    1     225
## 9         человек_s 0.14018128      4145    2     225
## 10        материя_s 0.11929618        19  936      10
## 11    современный_a 0.11917525       142   92      87
## 12        частица_s 0.10474459        21  852      21
## 13 неорганический_a 0.10119289        10 1525       9
## 14   материальный_a 0.09922779        61  276      49
## 15     утрачивать_v 0.09838699        20  894      20
## 16   воспринимать_v 0.09748349        33  532      26
## 17      отношение_s 0.09450738      1062    5     212
## 18          часть_s 0.09426640       238   43     137
## 19   неотъемлемый_a 0.09339476        31  572      29
## 20      крошечный_a 0.09333333         9 1625       9
## 
## [[9]]
##                 feature    Cosine frequency rank docfreq
## 1             должный_a 1.0000000       559    9     178
## 2             природа_s 0.2458263      4337    1     225
## 3             человек_s 0.2119907      4145    2     225
## 4         создаваемый_a 0.1934981         6 2094       6
## 5        динамический_a 0.1824317        12 1333      12
## 6    производительный_a 0.1675742         8 1743       8
## 7         техногенный_a 0.1667257        11 1423      11
## 8         продолжение_s 0.1628529        17 1017      13
## 9            исходить_v 0.1536097        32  555      27
## 10 самоорганизующийся_a 0.1533654        13 1258      10
## 11               быть_v 0.1408824      1398    3     216
## 12         совпадение_s 0.1190898        11 1423      11
## 13         равновесие_s 0.1186573        40  444      34
## 14      противоречить_v 0.1184929         4 2635       4
## 15          следовать_v 0.1178205       104  146      66
## 16         относиться_v 0.1169819       273   33     144
## 17          оценивать_v 0.1148152        20  894      20
## 18            интерес_s 0.1145431        74  219      43
## 19          отношение_s 0.1144286      1062    5     212
## 20        минимальный_a 0.1140198        12 1333      12
## 
## [[10]]
##                feature     Cosine frequency rank docfreq
## 1          позволять_v 1.00000000       511   10     176
## 2               мочь_v 0.41564178      1097    4     220
## 3          отношение_s 0.30093429      1062    5     212
## 4            человек_s 0.25962519      4145    2     225
## 5            природа_s 0.22664478      4337    1     225
## 6  легкодоступность?_s 0.10303034         8 1743       8
## 7               тема_s 0.10293111        53  334      45
## 8    неисчерпаемость_s 0.10041665        11 1423      11
## 9            иллюзия_s 0.09614162        12 1333      12
## 10         расширять_v 0.09614162        12 1333      12
## 11               вид_s 0.09604746       365   22     156
## 12            вопрос_s 0.09525158       222   51     118
## 13      ограниченный_a 0.08900985        14 1179      14
## 14          исцелять_v 0.08831172         8 1743       5
## 15              груз_s 0.08497799         6 2094       6
## 16       расслаблять_v 0.08326109         4 2635       4
## 17             мышца_s 0.08326109         4 2635       4
## 18           должный_a 0.08057108       559    9     178
## 19          отдавать_v 0.07544313        80  203      66
## 20           симбиоз_s 0.07531249        11 1423      10
## 
## [[11]]
##             feature    Cosine frequency rank docfreq
## 1       природный_a 1.0000000       487   11     177
## 2          ресурс_s 0.3099194       476   13     166
## 3       богатство_s 0.2002494        93  167      64
## 4          объект_s 0.1676082        53  334      25
## 5         человек_s 0.1640122      4145    2     225
## 6           среда_s 0.1549818       475   14     166
## 7   субъективно_adv 0.1535342         5 2337       4
## 8  неповторимость_s 0.1501994         4 2635       4
## 9     единичность_s 0.1486588         3 3049       3
## 10      катаклизм_s 0.1450762        33  532      29
## 11       комплекс_s 0.1440449        15 1110      12
## 12 восстановление_s 0.1424647        42  422      35
## 13   совокупность_s 0.1287423         9 1625       9
## 14     окрашивать_v 0.1287423         4 2635       3
## 15        природа_s 0.1270236      4337    1     225
## 16 эмоционально_adv 0.1226373         6 2094       5
## 17      достояние_s 0.1213794         8 1743       8
## 18   объективно_adv 0.1213794         8 1743       6
## 19   использовать_v 0.1192059       296   30     139
## 20          тайга_s 0.1190223        13 1258      13
## 
## [[12]]
##                     feature    Cosine frequency rank docfreq
## 1                     лес_s 1.0000000       481   12     179
## 2                вырубать_v 0.4489514       129  106      92
## 3                 вырубка_s 0.3919020        80  203      67
## 4              вырубаться_v 0.2050549        23  785      23
## 5                   почва_s 0.1820419       153   83      94
## 6                    поле_s 0.1734022        38  465      35
## 7                животное_s 0.1705684       579    7     182
## 8                 пустыня_s 0.1587269        32  555      29
## 9                    река_s 0.1511277       134  100      85
## 10            тропический_a 0.1481143         3 3049       3
## 11               очистный_a 0.1471366        19  936      19
## 12              атмосфера_s 0.1455815       139   94      93
## 13 мусороперерабатывающий_a 0.1453735        25  710      24
## 14                 дерево_s 0.1387484       221   52     117
## 15                посадка_s 0.1367371        22  816      20
## 16             потепление_s 0.1352092        40  444      36
## 17              урожайный_a 0.1352092        10 1525      10
## 18            загрязнение_s 0.1328971       138   96      88
## 19                гибнуть_v 0.1324774        15 1110      14
## 20             сооружение_s 0.1300851        39  452      32
## 
## [[13]]
##            feature    Cosine frequency rank docfreq
## 1         ресурс_s 1.0000000       476   13     166
## 2      природный_a 0.3099194       487   11     177
## 3   использовать_v 0.2528865       296   30     139
## 4  использование_s 0.2057695       141   93      92
## 5     загрязнуть_v 0.1957401         5 2337       5
## 6        природа_s 0.1816063      4337    1     225
## 7    потребление_s 0.1797169        57  299      39
## 8           ноль_s 0.1750752         9 1625       8
## 9           счет_s 0.1740044        46  391      28
## 10       сводить_v 0.1695159        15 1110      13
## 11 неисчерпаемый_a 0.1642757        23  785      20
## 12     жестоко_adv 0.1642546        12 1333      12
## 13       человек_s 0.1612398      4145    2     225
## 14      истощать_v 0.1592324        17 1017      15
## 15    восполнять_v 0.1488875        24  748      18
## 16    медленно_adv 0.1486169        17 1017      16
## 17  обустраивать_v 0.1456714        13 1258      12
## 18   исчерпаемый_a 0.1392715         8 1743       6
## 19  рациональный_a 0.1386012        36  499      28
## 20    количество_s 0.1301046       204   57     108
## 
## [[14]]
##             feature    Cosine frequency rank docfreq
## 1           среда_s 1.0000000       475   14     166
## 2      окружающий_a 0.7114926       419   16     163
## 3        обитание_s 0.3398535        95  162      66
## 4          охрана_s 0.2403402        54  325      32
## 5     федеральный_a 0.2149668         4 2635       4
## 6     воздействие_s 0.1879148        90  174      61
## 7  трансграничный_a 0.1719734         4 2635       1
## 8       конвенция_s 0.1705695        13 1258       2
## 9         человек_s 0.1678743      4145    2     225
## 10  международный_a 0.1580685        26  681      17
## 11      природный_a 0.1549818       487   11     177
## 12   естественный_a 0.1503987       114  126      74
## 13        паразит_s 0.1349071        26  681      21
## 14 общественность_s 0.1241111         3 3049       3
## 15  осуществление_s 0.1153633         5 2337       4
## 16        природа_s 0.1147596      4337    1     225
## 17         защита_s 0.1132592        79  208      55
## 18    варварски_adv 0.1064031         8 1743       8
## 19      оценивать_v 0.1057497        20  894      20
## 20              г_s 0.1056248        18  976       9
## 
## [[15]]
##             feature     Cosine frequency rank docfreq
## 1     становиться_v 1.00000000       446   15     185
## 2         человек_s 0.17174196      4145    2     225
## 3         много_adv 0.16479020       341   25     155
## 4         природа_s 0.13898973      4337    1     225
## 5      усложнение_s 0.13072340        10 1525      10
## 6    опосредовать_v 0.12991396         8 1743       8
## 7           явный_a 0.12991396         8 1743       8
## 8         более_adv 0.11692256       182   64     104
## 9         щедрота_s 0.11250879         6 2094       6
## 10      осваивать_v 0.10673521        15 1110      15
## 11  перестраивать_v 0.10607430         3 3049       3
## 12         мало_adv 0.10564250        94  165      64
## 13 собирательство_s 0.10270600         5 2337       5
## 14  малопригодный_a 0.10270600         5 2337       5
## 15      привычный_a 0.10026027        17 1017      15
## 16       покорять_v 0.09792633        22  816      19
## 17   национальный_a 0.09792633        22  816      21
## 18         служба_s 0.09694212        11 1423      10
## 19          все_adv 0.09678772        97  157      58
## 20   противоречие_s 0.09243540        20  894      18
#topfeatures(DFM_S2, 15)