rm(list = ls())
date()
## [1] "Sat Nov 9 15:45:10 2019"
sessionInfo()
## R version 3.6.1 (2019-07-05)
## Platform: x86_64-apple-darwin15.6.0 (64-bit)
## Running under: macOS Catalina 10.15.1
##
## Matrix products: default
## BLAS: /Library/Frameworks/R.framework/Versions/3.6/Resources/lib/libRblas.0.dylib
## LAPACK: /Library/Frameworks/R.framework/Versions/3.6/Resources/lib/libRlapack.dylib
##
## locale:
## [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
##
## attached base packages:
## [1] stats graphics grDevices utils datasets methods base
##
## loaded via a namespace (and not attached):
## [1] compiler_3.6.1 magrittr_1.5 tools_3.6.1 htmltools_0.3.6
## [5] yaml_2.2.0 Rcpp_1.0.2 stringi_1.4.3 rmarkdown_1.16
## [9] knitr_1.25 stringr_1.4.0 xfun_0.10 digest_0.6.21
## [13] evaluate_0.14
##Библиотеки
library(quanteda)
## Package version: 1.5.1
## Parallel computing: 2 of 4 threads used.
## See https://quanteda.io for tutorials and examples.
##
## Attaching package: 'quanteda'
## The following object is masked from 'package:utils':
##
## View
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
# library(ggplot2)
library(stringr)
library(ggplot2)
library(magrittr)
library(tibble)
load(file = "Tokens_S2.RData")
load(file = "Tokens_S.RData")
load(file = "Corpus_S2.RData")
Из токенизатора делаю dfm Оставляю только существительные, глаголы и прилагательные и по нему считаю самые частые слова по количеству текстов
DFM_S2 <- Tokens_S2 %>%
tokens_keep(pattern = c("*_s", "*_v", "*_a", "*_adv")) %>%
dfm()
test Предложения, в которых одно из слов употребляется очень много раз шесть и более
DFM_S2 %>%
as.matrix() %>%
{
r <- apply(., MARGIN = 1, max)
c <- apply(., MARGIN = 2, max)
.[r > 5, c > 5]
} %>%
print() %>%
rownames()
## features
## docs человек_s природа_s нельзя_adv международный_a конвенция_s
## Bio6.16 6 4 0 0 0
## IDOR86.23 0 1 6 0 0
## IDOR98.7 0 0 0 6 11
## IDOR165.27 2 6 0 0 0
## IDOR166.7 1 6 0 0 0
## IDOR181.12 6 6 0 0 0
## [1] "Bio6.16" "IDOR86.23" "IDOR98.7" "IDOR165.27" "IDOR166.7"
## [6] "IDOR181.12"
Corpus_S2[docnames(Corpus_S2) == "IDOR98.7"]
## IDOR98.7
## "самый_APRO главный_A являться_V международный_A договор_S источник_S обязательный_A международный_A природопользование_S и_CONJ право_S окружающий_A среда_S такой_APRO как_CONJ конвенция_S об_PR охрана_S средиземный_A море_S от_PR загрязнение_S конвенция_S о_PR трансграничный_A загрязнение_S воздух_S на_PR большой_A расстояние_S венский_A конвенция_S по_PR охрана_S озоновый_A слой_S монреальский_A протокол_S по_PR вещество_S разрушать_V озоновый_A слой_S конвенция_S по_PR охрана_S и_CONJ использование_S трансграничный_A водоток_S и_CONJ международный_A озеро_S конвенция_S об_PR оценка_S воздействие_S на_PR окружающий_A среда_S в_PR трансграничный_A контекст_S конвенция_S по_PR защита_S морской_A среда_S балтийский_A море_S конвенция_S по_PR охрана_S и_CONJ использование_S трансграничный_A водоток_S и_CONJ международный_A озеро_S конвенция_S о_PR биологический_A разнообразие_S международный_A конвенция_S юнеско_S о_PR водный_A болотный_A место_S иметь_V международный_A значение_S как_CONJ место_S обитание_S в_PR основной_A водный_A птица_S рамсарская?_S конвенция_S г_S конвенция_S о_PR доступ_S к_PR информация_S об_PR окружающий_A среда_S участие_S общественность_S в_PR принятие_S решение_S и_CONJ открытый_A проведение_S правосудие_S орхус_S г_S и_CONJ др_S"
Corpus_S2[docnames(Corpus_S2) == "IDOR166.7"]
## IDOR166.7
## "однако_CONJ по_PR мера_S усложнение_S жизнь_S человеческий_A общество_S связь_S с_PR природа_S становиться_V весь_APRO более_ADV опосредовать_V возникать_V противоречие_S я_SPRO верить_V что_CONJ мы_SPRO часть_S природа_S и_CONJ что_CONJ наш_APRO цель_S должный_A быть_V достигать_V при_PR сохранение_S здоровье_S природа_S но_CONJ по_PR мнение_S народ_S природа_S существовать_V отдельно_ADV от_PR человек_S что_CONJ мы_SPRO нечто_SPRO иной_APRO нечто_SPRO что_CONJ заслуживать_V то_SPRO чтобы_CONJ использовать_V то_SPRO что_CONJ природа_S иметь_V и_CONJ не_PART отдавать_V взамен_ADV не_PART думать_V о_PR то_SPRO что_CONJ природа_S это_SPRO не_PART то_PART за_PR что_SPRO мы_SPRO она_SPRO принимать_V а_CONJ на_PR самый_APRO дело_S это_PART исчерпывать_V ресурс_S который_APRO мы_SPRO осознавать_V только_PART тогда_ADVPRO когда_CONJ он_SPRO окончательно_ADV исчезать_V"
#Корреляция и кластеризация Корреляция 100 самых частых слов.
DFM_S2 %>%
dfm_trim(min_termfreq = 100, termfreq_type = "rank" ) %>%
textstat_simil(method = "correlation", margin = "features") %>%
as.dist() %>%
hclust() %>%
plot(cex = 0.5)
Косинусное расстояние
DFM_S2 %>%
dfm_trim(min_termfreq = 100, termfreq_type = "rank" ) %>%
textstat_simil(method = "cosine", margin = "features") %>%
as.dist() %>%
hclust() %>%
plot(cex = 0.5)
set.seed(100)
DFM_S2 %>%
fcm() %>%
fcm_select(., pattern = names(topfeatures(., 30))) %>%
textplot_network()
## Registered S3 method overwritten by 'network':
## method from
## summary.character quanteda
Наверное, надо близость считать по всему массиву, а фильтровать уже матрицу близости Или результат н будет меняться? x, y
a dfm objects; y is an optional target matrix matching x in the margin on which the similarity or distance will be computed. Создаю списки слов по частям речи
Swords <- DFM_S2 %>%
textstat_frequency() %>%
{a <- endsWith(.$feature, "_s")
.[a,]
}
Vwords <- DFM_S2 %>%
textstat_frequency() %>%
{a <- endsWith(.$feature, "_v")
.[a,]
}
Awords <- DFM_S2 %>%
textstat_frequency() %>%
{a <- endsWith(.$feature, "_a")
.[a,]
}
Генератор списка слов по частям речи (функция)
word <- function(n = Inf) {head(textstat_frequency(DFM_S2)$feature, n)}
sword <- function(n = Inf) {head(Swords$feature, n)}
vword <- function(n = Inf) {head(Vwords$feature, n)}
aword <- function(n = Inf) {head(Awords$feature, n)}
Матрица Косинусной близости
CosineMatrix <- textstat_simil(DFM_S2, margin = "features", method = "cosine")
CosineMatrix[sword(50), vword(50)] %>%
as.matrix() %>%
heatmap(cexRow = 0.4, cexCol = 0.4, scale = "none")
CosineMatrix[sword(50), aword(50)] %>%
as.matrix() %>%
heatmap(cexRow = 0.4, cexCol = 0.4, scale = "none")
CosineMatrix[vword(50), aword(50)] %>%
as.matrix() %>%
heatmap(cexRow = 0.4, cexCol = 0.4, scale = "none")
Перевожу всё строчные буквы
MoralTypes <- Tokens_S2 %>%
types() %>%
str_subset("нравств|морал|(эти)[кч].|идеал") %>%
extract(. != "поэтичный_A") %>%
tolower()
CosineMatrix[ word(50), tolower(MoralTypes)] %>%
as.matrix() %>%
heatmap(cexRow = 0.4, cexCol = 0.5
, scale = "none")
создаю функцию
neighbour <- function(lemma) {
Friq <- Tokens_S %>%
dfm() %>%
textstat_frequency() %>%
{.[.$feature %in% lemma, ]}
print(Friq)
lapply(lemma, function(f) {
if (Friq$frequency[which(Friq$feature == f)] > 2) {
CosineMatrix %>%
as.matrix() %>%
as.data.frame() %>%
extract(names(.) == f) %>%
rownames_to_column() %>%
set_colnames(c("feature", "Cosine")) %>%
arrange(desc(Cosine)) %>%
left_join(Tokens_S %>%
tokens_keep(pattern = c("*_s", "*_v", "*_a", "*_adv")) %>%
dfm() %>%
textstat_frequency()
,
by = "feature") %>%
#кавычки нужны, чтобы не использовался объект
select(-group) %>%
filter(frequency > 2) %>%
head(20)
} else {
Tokens_S %>%
dfm() %>%
textstat_frequency() %>%
{.[.$feature == f, ]}
#print(f)
}
}
)
}
Связи моральных слов
neighbour(MoralTypes)
## feature frequency rank docfreq group
## 439 моральный_a 54 432 28 all
## 480 нравственный_a 49 475 32 all
## 843 идеальный_a 26 817 15 all
## 917 нравственность_s 24 890 14 all
## 918 мораль_s 24 890 15 all
## 1326 этика_s 15 1270 14 all
## 1500 этический_a 13 1425 10 all
## 1655 идеал_s 11 1593 8 all
## 2576 этичность_s 5 2542 4 all
## 2752 этически_adv 5 2542 5 all
## 2980 морально_adv 4 2856 4 all
## 3653 безнравственный_a 3 3288 3 all
## 4516 моральность_s 2 3958 1 all
## 4812 идеализировать_v 2 3958 1 all
## 6337 аморально_adv 1 5168 1 all
## 6676 этикет_s 1 5168 1 all
## 6881 морализм_s 1 5168 1 all
## 7106 идеально_adv 1 5168 1 all
## 7418 морально-нравственный_a 1 5168 1 all
## 7475 безнравственность_s 1 5168 1 all
## 7706 аморальный_a 1 5168 1 all
## 8271 неэтичность?_s 1 5168 1 all
## 8559 экоэтика?_s 1 5168 1 all
## [[1]]
## feature Cosine frequency rank docfreq
## 1 этичность_s 1.00000000 5 2337 4
## 2 поедание_s 0.37796447 4 2635 4
## 3 жертва_s 0.22792115 11 1423 10
## 4 бренд_s 0.21821789 3 3049 1
## 5 хищник_s 0.20965697 11 1423 7
## 6 продукция_s 0.20701967 20 894 10
## 7 браться_v 0.18898224 4 2635 4
## 8 скот_s 0.16903085 5 2337 5
## 9 держать_v 0.16903085 5 2337 5
## 10 свидетельствовать_v 0.13363062 8 1743 8
## 11 выпускать_v 0.10482848 13 1258 12
## 12 потребление_s 0.10012523 57 299 39
## 13 задумываться_v 0.09542762 235 45 120
## 14 домашний_a 0.08058230 22 816 21
## 15 небольшой_a 0.07881104 23 785 21
## 16 специальный_a 0.07559289 23 785 18
## 17 магазин_s 0.07273930 27 653 22
## 18 настолько_adv 0.07018624 27 653 23
## 19 практически_adv 0.06213698 37 477 33
## 20 список_s 0.05902813 37 477 30
##
## [[2]]
## feature Cosine frequency rank docfreq
## 1 моральный_a 1.0000000 54 325 28
## 2 урбанистический_a 0.3042903 5 2337 5
## 3 эгоистический_a 0.2872135 11 1423 11
## 4 колберг?_s 0.2721655 9 1625 3
## 5 индустриальный_a 0.2108185 15 1110 13
## 6 потеря_s 0.2057378 28 632 23
## 7 аргумент_s 0.1666667 6 2094 4
## 8 угроза_s 0.1524432 49 365 41
## 9 обязательство_s 0.1360828 4 2635 4
## 10 материальный_a 0.1350319 61 276 49
## 11 стадия_s 0.1309457 25 710 8
## 12 принцип_s 0.1259882 40 444 30
## 13 составлять_v 0.1200137 63 267 53
## 14 ценность_s 0.1194962 73 221 45
## 15 путь_s 0.1135009 88 179 55
## 16 этический_a 0.1132277 13 1258 10
## 17 развитие_s 0.1121544 186 61 95
## 18 базироваться_v 0.1111111 6 2094 5
## 19 нравственный_a 0.1081476 49 365 32
## 20 суждение_s 0.1028689 7 1906 7
##
## [[3]]
## feature Cosine frequency rank docfreq
## 1 идеал_s 1.00000000 11 1423 8
## 2 индивидуальность_s 0.42008403 3 3049 3
## 3 приниматься_v 0.42008403 3 3049 3
## 4 абсолютный_a 0.27500955 7 1906 7
## 5 универсальный_a 0.25724788 8 1743 7
## 6 исключение_s 0.21004201 12 1333 11
## 7 совершенство_s 0.19802951 6 2094 6
## 8 грань_s 0.15512631 22 816 19
## 9 возвышенный_a 0.14002801 3 3049 3
## 10 несмотря_adv 0.12478355 34 520 31
## 11 единство_s 0.11504475 38 465 24
## 12 согласие_s 0.10846523 5 2337 5
## 13 справедливость_s 0.10846523 5 2337 5
## 14 сосуществование_s 0.10846523 5 2337 5
## 15 вероятно_adv 0.09901475 6 2094 6
## 16 мощь_s 0.09901475 6 2094 6
## 17 возрождение_s 0.09901475 6 2094 6
## 18 литература_s 0.09901475 6 2094 5
## 19 доводить_v 0.09166985 7 1906 7
## 20 повседневный_a 0.09166985 7 1906 7
##
## [[4]]
## feature Cosine frequency rank docfreq
## 1 морально_adv 1.00000000 4 2635 4
## 2 украшение_s 0.25000000 4 2635 4
## 3 звук_s 0.20412415 6 2094 5
## 4 деградация_s 0.20412415 6 2094 6
## 5 расслабляться_v 0.17677670 8 1743 8
## 6 портить_v 0.15075567 11 1423 11
## 7 сформировывать_v 0.13363062 14 1179 11
## 8 страдание_s 0.12909944 15 1110 13
## 9 рассуждать_v 0.12500000 16 1059 15
## 10 потребитель_s 0.12126781 17 1017 14
## 11 замена_s 0.11785113 16 1059 13
## 12 болото_s 0.11470787 19 936 12
## 13 обычный_a 0.11180340 18 976 14
## 14 находить_v 0.10369517 83 193 64
## 15 быт_s 0.09805807 26 681 21
## 16 красота_s 0.09449112 102 150 66
## 17 справляться_v 0.09449112 26 681 22
## 18 использовать_v 0.08333333 296 30 139
## 19 почти_adv 0.07715167 42 422 37
## 20 стремиться_v 0.07453560 45 399 36
##
## [[5]]
## feature Cosine frequency rank docfreq
## 1 нравственность_s 1.00000000 24 748 14
## 2 золотой_a 0.52923775 18 976 15
## 3 этика_s 0.36893239 15 1110 14
## 4 правило_s 0.33681653 87 182 52
## 5 делать_v 0.27105760 252 40 133
## 6 главное_s 0.19287919 28 632 26
## 7 называть_v 0.18761969 56 307 42
## 8 хотеть_v 0.18711380 136 98 92
## 9 основной_a 0.17588162 66 250 48
## 10 гласить_v 0.11785113 3 3049 3
## 11 жечь_v 0.11785113 3 3049 3
## 12 благой_a 0.11785113 3 3049 3
## 13 намерение_s 0.11785113 3 3049 3
## 14 грубый_a 0.11785113 3 3049 3
## 15 включать_v 0.10998534 31 572 24
## 16 работать_v 0.10660036 31 572 27
## 17 краткий_a 0.10206207 4 2635 3
## 18 ясно_adv 0.09365858 19 936 19
## 19 существовать_v 0.09242585 227 48 133
## 20 профессия_s 0.09128709 5 2337 5
##
## [[6]]
## feature Cosine frequency rank docfreq
## 1 мораль_s 1.00000000 24 748 15
## 2 дозволенный_a 0.26148818 7 1906 5
## 3 намерение_s 0.22645541 3 3049 3
## 4 норма_s 0.22269967 36 499 32
## 5 краткий_a 0.19611614 4 2635 3
## 6 колберг?_s 0.13074409 9 1625 3
## 7 регулировать_v 0.11826248 11 1423 8
## 8 юридический_a 0.11322770 3 3049 3
## 9 щенок_s 0.11322770 3 3049 2
## 10 библейский_a 0.11322770 3 3049 3
## 11 наплевательский_a 0.11322770 3 3049 3
## 12 стереотип_s 0.11322770 3 3049 3
## 13 зоолог_s 0.11322770 3 3049 2
## 14 основывать_v 0.10482848 14 1179 14
## 15 рамка_s 0.10241831 27 653 23
## 16 традиция_s 0.09805807 4 2635 4
## 17 помнить_v 0.09805807 62 270 46
## 18 комната_s 0.09805807 4 2635 4
## 19 распространяться_v 0.09805807 4 2635 3
## 20 прошлое_s 0.09805807 4 2635 4
##
## [[7]]
## feature Cosine frequency rank docfreq
## 1 идеальный_a 1.0000000 26 681 15
## 2 дружеский_a 0.3706247 7 1906 7
## 3 доверительный_a 0.3508232 5 2337 4
## 4 искренний_a 0.3396831 12 1333 10
## 5 основывать_v 0.2620712 14 1179 14
## 6 конструироваться_v 0.2264554 3 3049 3
## 7 акцентировать_v 0.2264554 3 3049 3
## 8 составляющая_s 0.1961161 4 2635 4
## 9 несколько_adv 0.1754116 5 2337 5
## 10 вернуться_v 0.1572427 14 1179 13
## 11 реальный_a 0.1519109 15 1110 14
## 12 функционировать_v 0.1307441 9 1625 6
## 13 снова_adv 0.1254363 20 894 15
## 14 сфера_s 0.1245339 54 325 35
## 15 материальный_a 0.1216261 61 276 49
## 16 ствол_s 0.1132277 3 3049 3
## 17 формулировать_v 0.1132277 3 3049 3
## 18 клеточка_s 0.1132277 3 3049 1
## 19 живительный_a 0.1132277 3 3049 2
## 20 отношение_s 0.1103239 1062 5 212
##
## [[8]]
## feature Cosine frequency rank docfreq
## 1 нравственный_a 1.0000000 49 365 32
## 2 сострадание_s 0.3532086 9 1625 8
## 3 буддизм_s 0.2649065 4 2635 4
## 4 основание_s 0.2185367 18 976 16
## 5 осмысление_s 0.2162952 6 2094 6
## 6 уделяться_v 0.2162952 6 2094 6
## 7 мотив_s 0.1873172 8 1743 6
## 8 чувство_s 0.1821232 56 307 44
## 9 идеология_s 0.1777047 5 2337 4
## 10 этически_adv 0.1777047 5 2337 5
## 11 побуждать_v 0.1777047 5 2337 5
## 12 вскармливать_v 0.1529438 3 3049 3
## 13 родить_v 0.1529438 3 3049 3
## 14 оздоровительный_a 0.1529438 3 3049 3
## 15 рубеж_s 0.1529438 3 3049 3
## 16 перешагивать_v 0.1529438 3 3049 3
## 17 воспитатель_s 0.1529438 3 3049 2
## 18 концепция_s 0.1415985 14 1179 8
## 19 эстетический_a 0.1383429 25 710 18
## 20 совершенствование_s 0.1324532 4 2635 4
##
## [[9]]
## feature Cosine frequency rank docfreq
## 1 этика_s 1.0000000 15 1110 14
## 2 золотой_a 0.4260064 18 976 15
## 3 нравственность_s 0.3689324 24 748 14
## 4 правило_s 0.3076977 87 182 52
## 5 подпункт_s 0.2309401 3 3049 1
## 6 основной_a 0.2224746 66 250 48
## 7 делать_v 0.2086997 252 40 133
## 8 называть_v 0.2034191 56 307 42
## 9 главное_s 0.1951800 28 632 26
## 10 хотеть_v 0.1506160 136 98 92
## 11 гласить_v 0.1490712 3 3049 3
## 12 рубеж_s 0.1490712 3 3049 3
## 13 ценностный_a 0.1490712 3 3049 3
## 14 стереотип_s 0.1490712 3 3049 3
## 15 перешагивать_v 0.1490712 3 3049 3
## 16 зоолог_s 0.1490712 3 3049 2
## 17 распространяться_v 0.1290994 4 2635 3
## 18 ясный_a 0.1154701 5 2337 5
## 19 религия_s 0.1054093 6 2094 4
## 20 воплощать_v 0.1054093 6 2094 6
##
## [[10]]
## feature Cosine frequency rank docfreq
## 1 безнравственный_a 1.00000000 3 3049 3
## 2 этически_adv 0.25819889 5 2337 5
## 3 конфликт_s 0.21821789 5 2337 4
## 4 победа_s 0.20412415 6 2094 3
## 5 преступление_s 0.16012815 13 1258 13
## 6 поведение_s 0.14002801 64 265 48
## 7 невозможный_a 0.12598816 21 852 20
## 8 совершенно_adv 0.10369517 31 572 27
## 9 принцип_s 0.08908708 40 444 30
## 10 видеть_v 0.06052275 85 188 57
## 11 вести_v 0.05407381 114 126 77
## 12 происходить_v 0.04652421 148 87 98
## 13 цель_s 0.04145133 152 86 76
## 14 сейчас_adv 0.03711348 236 44 130
## 15 уже_adv 0.03384487 277 32 157
## 16 делать_v 0.03333333 252 40 133
## 17 являться_v 0.03042903 346 24 149
## 18 становиться_v 0.02651858 446 15 185
## 19 должный_a 0.02280396 559 9 178
## 20 природа_s 0.01525829 4337 1 225
##
## [[11]]
## feature Cosine frequency rank docfreq
## 1 этически_adv 1.00000000 5 2337 5
## 2 буддизм_s 0.67082039 4 2635 4
## 3 побуждать_v 0.60000000 5 2337 5
## 4 осмысление_s 0.54772256 6 2094 6
## 5 уделяться_v 0.54772256 6 2094 6
## 6 мотив_s 0.47434165 8 1743 6
## 7 сострадание_s 0.44721360 9 1625 8
## 8 основание_s 0.31622777 18 976 16
## 9 безнравственный_a 0.25819889 3 3049 3
## 10 правильный_a 0.18786729 51 352 43
## 11 вообще_adv 0.18090681 55 314 48
## 12 нравственный_a 0.17770466 49 365 32
## 13 основной_a 0.16514456 66 250 48
## 14 внимание_s 0.16514456 66 250 51
## 15 приходить_v 0.15702718 71 226 59
## 16 помощь_s 0.15289416 73 221 56
## 17 деятельность_s 0.10476454 154 80 99
## 18 большой_a 0.09393364 200 59 126
## 19 отношение_s 0.07547319 1062 5 212
## 20 являться_v 0.07071068 346 24 149
##
## [[12]]
## feature Cosine frequency rank docfreq
## 1 этический_a 1.0000000 13 1258 10
## 2 формальный_a 0.4160251 4 2635 3
## 3 регулятор_s 0.4160251 4 2635 3
## 4 гуманный_a 0.2773501 9 1625 8
## 5 вовсе_adv 0.2018018 17 1017 13
## 6 аспект_s 0.1773937 22 816 18
## 7 психолог_s 0.1754116 10 1525 6
## 8 природопользование_s 0.1698416 24 748 22
## 9 воззрение_s 0.1601282 3 3049 3
## 10 деятельностный?_a 0.1601282 3 3049 2
## 11 покоритель_s 0.1601282 3 3049 3
## 12 лозунг_s 0.1601282 3 3049 3
## 13 бесполезность_s 0.1601282 3 3049 3
## 14 завоеватель_s 0.1601282 3 3049 3
## 15 е_s 0.1406422 29 610 23
## 16 активист_s 0.1386750 4 2635 4
## 17 античность_s 0.1386750 4 2635 4
## 18 склоняться_v 0.1386750 4 2635 4
## 19 восприниматься_v 0.1386750 14 1179 6
## 20 психологически_adv 0.1386750 4 2635 4
##
## [[13]]
## feature frequency rank docfreq group
## 4516 моральность_s 2 3958 1 all
##
## [[14]]
## feature frequency rank docfreq group
## 6337 аморально_adv 1 5168 1 all
##
## [[15]]
## feature frequency rank docfreq group
## 6676 этикет_s 1 5168 1 all
##
## [[16]]
## feature frequency rank docfreq group
## 6881 морализм_s 1 5168 1 all
##
## [[17]]
## feature frequency rank docfreq group
## 4812 идеализировать_v 2 3958 1 all
##
## [[18]]
## feature frequency rank docfreq group
## 7106 идеально_adv 1 5168 1 all
##
## [[19]]
## feature frequency rank docfreq group
## 7418 морально-нравственный_a 1 5168 1 all
##
## [[20]]
## feature frequency rank docfreq group
## 7475 безнравственность_s 1 5168 1 all
##
## [[21]]
## feature frequency rank docfreq group
## 7706 аморальный_a 1 5168 1 all
##
## [[22]]
## feature frequency rank docfreq group
## 8271 неэтичность?_s 1 5168 1 all
##
## [[23]]
## feature frequency rank docfreq group
## 8559 экоэтика?_s 1 5168 1 all
Близкие соседи наиболее частых слов (15 самых частых)
DFM_S2 %>%
topfeatures(15) %>%
names() %>%
neighbour()
## feature frequency rank docfreq group
## 3 природа_s 4337 3 225 all
## 5 человек_s 4145 5 225 all
## 12 быть_v 1398 12 216 all
## 16 мочь_v 1097 16 220 all
## 20 отношение_s 1062 20 212 all
## 35 жизнь_s 626 35 196 all
## 37 животное_s 579 37 182 all
## 39 мир_s 565 39 188 all
## 40 должный_a 559 40 178 all
## 43 позволять_v 511 43 176 all
## 46 природный_a 487 46 177 all
## 47 лес_s 481 47 179 all
## 48 ресурс_s 476 48 166 all
## 49 среда_s 475 49 166 all
## 51 становиться_v 446 51 185 all
## [[1]]
## feature Cosine frequency rank docfreq
## 1 природа_s 1.0000000 4337 1 225
## 2 человек_s 0.5830572 4145 2 225
## 3 отношение_s 0.4040103 1062 5 212
## 4 мочь_v 0.2683576 1097 4 220
## 5 быть_v 0.2536482 1398 3 216
## 6 должный_a 0.2458263 559 9 178
## 7 позволять_v 0.2266448 511 10 176
## 8 жизнь_s 0.1941626 626 6 196
## 9 ресурс_s 0.1816063 476 13 166
## 10 относиться_v 0.1722014 273 33 144
## 11 общество_s 0.1712319 223 50 102
## 12 часть_s 0.1630808 238 43 137
## 13 гармония_s 0.1606957 93 167 61
## 14 давать_v 0.1545103 326 28 157
## 15 человечество_s 0.1515908 381 21 154
## 16 жить_v 0.1485026 312 29 149
## 17 являться_v 0.1476458 346 24 149
## 18 мир_s 0.1469404 565 8 188
## 19 существовать_v 0.1410332 227 48 133
## 20 становиться_v 0.1389897 446 15 185
##
## [[2]]
## feature Cosine frequency rank docfreq
## 1 человек_s 1.0000000 4145 2 225
## 2 природа_s 0.5830572 4337 1 225
## 3 отношение_s 0.3430639 1062 5 212
## 4 мочь_v 0.2978142 1097 4 220
## 5 позволять_v 0.2596252 511 10 176
## 6 быть_v 0.2535129 1398 3 216
## 7 должный_a 0.2119907 559 9 178
## 8 жизнь_s 0.1848602 626 6 196
## 9 становиться_v 0.1717420 446 15 185
## 10 потребность_s 0.1689156 170 69 89
## 11 среда_s 0.1678743 475 14 166
## 12 относиться_v 0.1650917 273 33 144
## 13 природный_a 0.1640122 487 11 177
## 14 ресурс_s 0.1612398 476 13 166
## 15 окружающий_a 0.1597672 419 16 163
## 16 являться_v 0.1527089 346 24 149
## 17 понимать_v 0.1502197 261 36 136
## 18 деятельность_s 0.1454481 154 80 99
## 19 жить_v 0.1437673 312 29 149
## 20 время_s 0.1418011 338 26 163
##
## [[3]]
## feature Cosine frequency rank docfreq
## 1 быть_v 1.0000000 1398 3 216
## 2 природа_s 0.2536482 4337 1 225
## 3 человек_s 0.2535129 4145 2 225
## 4 слепок_s 0.1625783 3 3049 3
## 5 лик_s 0.1625783 3 3049 3
## 6 мочь_v 0.1444329 1097 4 220
## 7 должно_adv 0.1435663 89 178 64
## 8 должный_a 0.1408824 559 9 178
## 9 мнить_v 0.1407970 4 2635 4
## 10 отношение_s 0.1313474 1062 5 212
## 11 язык_s 0.1259326 5 2337 5
## 12 жить_v 0.1228977 312 29 149
## 13 жизнь_s 0.1172504 626 6 196
## 14 самоорганизующийся_a 0.1171502 13 1258 10
## 15 использовать_v 0.1134198 296 30 139
## 16 год_s 0.1117078 278 31 151
## 17 союз_s 0.1095088 9 1625 9
## 18 земля_s 0.1090183 417 17 183
## 19 можно_adv 0.1049985 404 18 170
## 20 безбедно_adv 0.0990544 11 1423 11
##
## [[4]]
## feature Cosine frequency rank docfreq
## 1 мочь_v 1.00000000 1097 4 220
## 2 позволять_v 0.41564178 511 10 176
## 3 человек_s 0.29781419 4145 2 225
## 4 природа_s 0.26835758 4337 1 225
## 5 отношение_s 0.22976474 1062 5 212
## 6 быть_v 0.14443294 1398 3 216
## 7 дар_s 0.10595362 109 138 84
## 8 сделать_v 0.10285079 160 75 105
## 9 вопрос_s 0.09827258 222 51 118
## 10 приводить_v 0.09535607 230 46 117
## 11 давать_v 0.09497370 326 28 157
## 12 использовать_v 0.08824294 296 30 139
## 13 существовать_v 0.08806569 227 48 133
## 14 делать_v 0.08679200 252 40 133
## 15 сказать_v 0.08663782 103 148 78
## 16 пользоваться_v 0.08639723 93 167 62
## 17 уважительный_a 0.08509140 36 499 34
## 18 безответственно_adv 0.08509140 4 2635 4
## 19 последствие_s 0.08442173 159 76 103
## 20 ресурс_s 0.08317714 476 13 166
##
## [[5]]
## feature Cosine frequency rank docfreq
## 1 отношение_s 1.0000000 1062 5 212
## 2 природа_s 0.4040103 4337 1 225
## 3 человек_s 0.3430639 4145 2 225
## 4 позволять_v 0.3009343 511 10 176
## 5 мочь_v 0.2297647 1097 4 220
## 6 бережный_a 0.1888874 41 433 37
## 7 потребительский_a 0.1680922 70 232 59
## 8 сфера_s 0.1464585 54 325 35
## 9 тип_s 0.1340984 37 477 14
## 10 быть_v 0.1313474 1398 3 216
## 11 перенести_v 0.1312603 9 1625 9
## 12 дружеский_a 0.1275730 7 1906 7
## 13 должный_a 0.1144286 559 9 178
## 14 восприятие_s 0.1143614 32 555 20
## 15 искренний_a 0.1136747 12 1333 10
## 16 субъективный_a 0.1136747 12 1333 4
## 17 общественный_a 0.1133982 59 287 38
## 18 доверительный_a 0.1132098 5 2337 4
## 19 буддизм_s 0.1125088 4 2635 4
## 20 вопрос_s 0.1121627 222 51 118
##
## [[6]]
## feature Cosine frequency rank docfreq
## 1 жизнь_s 1.0000000 626 6 196
## 2 природа_s 0.1941626 4337 1 225
## 3 человек_s 0.1848602 4145 2 225
## 4 обустраивать_v 0.1847734 13 1258 12
## 5 загрязнуть_v 0.1655212 5 2337 5
## 6 счет_s 0.1512284 46 391 28
## 7 ноль_s 0.1480466 9 1625 8
## 8 обогреваться_v 0.1480466 4 2635 4
## 9 пробуждать_v 0.1324169 5 2337 5
## 10 жилье_s 0.1305850 29 610 26
## 11 воспроизведение_s 0.1287453 10 1525 10
## 12 жестоко_adv 0.1282122 12 1333 12
## 13 сводить_v 0.1242328 15 1110 13
## 14 образ_s 0.1213853 154 80 105
## 15 быть_v 0.1172504 1398 3 216
## 16 потребность_s 0.1171859 170 69 89
## 17 усложнение_s 0.1170411 10 1525 10
## 18 тепло_s 0.1158648 20 894 19
## 19 первичный_a 0.1146764 15 1110 15
## 20 ресурс_s 0.1133969 476 13 166
##
## [[7]]
## feature Cosine frequency rank docfreq
## 1 животное_s 1.0000000 579 7 182
## 2 растение_s 0.4471508 246 41 132
## 3 вид_s 0.3257288 365 22 156
## 4 редкий_a 0.2514548 71 226 52
## 5 красный_a 0.2346997 66 250 49
## 6 убивать_v 0.2088177 122 114 81
## 7 бенгальский_a 0.1934981 6 2094 6
## 8 кавказский_a 0.1934981 6 2094 6
## 9 дикий_a 0.1890969 61 276 44
## 10 нажива_s 0.1862294 13 1258 13
## 11 исчезновение_s 0.1815388 68 239 48
## 12 птица_s 0.1792502 92 171 70
## 13 лес_s 0.1705684 481 12 179
## 14 книга_s 0.1687493 73 221 56
## 15 вымирать_v 0.1668860 55 314 42
## 16 истреблять_v 0.1648628 45 399 39
## 17 охота_s 0.1625709 34 520 28
## 18 волк_s 0.1596278 12 1333 12
## 19 дерево_s 0.1583299 221 52 117
## 20 уничтожать_v 0.1529736 129 106 84
##
## [[8]]
## feature Cosine frequency rank docfreq
## 1 мир_s 1.00000000 565 8 188
## 2 окружать_v 0.20252642 118 120 91
## 3 животный_a 0.18073922 60 279 49
## 4 окружающий_a 0.18002198 419 16 163
## 5 растительный_a 0.17705408 27 653 23
## 6 целостно_adv 0.16099689 5 2337 5
## 7 специфика_s 0.15178933 6 2094 4
## 8 природа_s 0.14694039 4337 1 225
## 9 человек_s 0.14018128 4145 2 225
## 10 материя_s 0.11929618 19 936 10
## 11 современный_a 0.11917525 142 92 87
## 12 частица_s 0.10474459 21 852 21
## 13 неорганический_a 0.10119289 10 1525 9
## 14 материальный_a 0.09922779 61 276 49
## 15 утрачивать_v 0.09838699 20 894 20
## 16 воспринимать_v 0.09748349 33 532 26
## 17 отношение_s 0.09450738 1062 5 212
## 18 часть_s 0.09426640 238 43 137
## 19 неотъемлемый_a 0.09339476 31 572 29
## 20 крошечный_a 0.09333333 9 1625 9
##
## [[9]]
## feature Cosine frequency rank docfreq
## 1 должный_a 1.0000000 559 9 178
## 2 природа_s 0.2458263 4337 1 225
## 3 человек_s 0.2119907 4145 2 225
## 4 создаваемый_a 0.1934981 6 2094 6
## 5 динамический_a 0.1824317 12 1333 12
## 6 производительный_a 0.1675742 8 1743 8
## 7 техногенный_a 0.1667257 11 1423 11
## 8 продолжение_s 0.1628529 17 1017 13
## 9 исходить_v 0.1536097 32 555 27
## 10 самоорганизующийся_a 0.1533654 13 1258 10
## 11 быть_v 0.1408824 1398 3 216
## 12 совпадение_s 0.1190898 11 1423 11
## 13 равновесие_s 0.1186573 40 444 34
## 14 противоречить_v 0.1184929 4 2635 4
## 15 следовать_v 0.1178205 104 146 66
## 16 относиться_v 0.1169819 273 33 144
## 17 оценивать_v 0.1148152 20 894 20
## 18 интерес_s 0.1145431 74 219 43
## 19 отношение_s 0.1144286 1062 5 212
## 20 минимальный_a 0.1140198 12 1333 12
##
## [[10]]
## feature Cosine frequency rank docfreq
## 1 позволять_v 1.00000000 511 10 176
## 2 мочь_v 0.41564178 1097 4 220
## 3 отношение_s 0.30093429 1062 5 212
## 4 человек_s 0.25962519 4145 2 225
## 5 природа_s 0.22664478 4337 1 225
## 6 легкодоступность?_s 0.10303034 8 1743 8
## 7 тема_s 0.10293111 53 334 45
## 8 неисчерпаемость_s 0.10041665 11 1423 11
## 9 иллюзия_s 0.09614162 12 1333 12
## 10 расширять_v 0.09614162 12 1333 12
## 11 вид_s 0.09604746 365 22 156
## 12 вопрос_s 0.09525158 222 51 118
## 13 ограниченный_a 0.08900985 14 1179 14
## 14 исцелять_v 0.08831172 8 1743 5
## 15 груз_s 0.08497799 6 2094 6
## 16 расслаблять_v 0.08326109 4 2635 4
## 17 мышца_s 0.08326109 4 2635 4
## 18 должный_a 0.08057108 559 9 178
## 19 отдавать_v 0.07544313 80 203 66
## 20 симбиоз_s 0.07531249 11 1423 10
##
## [[11]]
## feature Cosine frequency rank docfreq
## 1 природный_a 1.0000000 487 11 177
## 2 ресурс_s 0.3099194 476 13 166
## 3 богатство_s 0.2002494 93 167 64
## 4 объект_s 0.1676082 53 334 25
## 5 человек_s 0.1640122 4145 2 225
## 6 среда_s 0.1549818 475 14 166
## 7 субъективно_adv 0.1535342 5 2337 4
## 8 неповторимость_s 0.1501994 4 2635 4
## 9 единичность_s 0.1486588 3 3049 3
## 10 катаклизм_s 0.1450762 33 532 29
## 11 комплекс_s 0.1440449 15 1110 12
## 12 восстановление_s 0.1424647 42 422 35
## 13 совокупность_s 0.1287423 9 1625 9
## 14 окрашивать_v 0.1287423 4 2635 3
## 15 природа_s 0.1270236 4337 1 225
## 16 эмоционально_adv 0.1226373 6 2094 5
## 17 достояние_s 0.1213794 8 1743 8
## 18 объективно_adv 0.1213794 8 1743 6
## 19 использовать_v 0.1192059 296 30 139
## 20 тайга_s 0.1190223 13 1258 13
##
## [[12]]
## feature Cosine frequency rank docfreq
## 1 лес_s 1.0000000 481 12 179
## 2 вырубать_v 0.4489514 129 106 92
## 3 вырубка_s 0.3919020 80 203 67
## 4 вырубаться_v 0.2050549 23 785 23
## 5 почва_s 0.1820419 153 83 94
## 6 поле_s 0.1734022 38 465 35
## 7 животное_s 0.1705684 579 7 182
## 8 пустыня_s 0.1587269 32 555 29
## 9 река_s 0.1511277 134 100 85
## 10 тропический_a 0.1481143 3 3049 3
## 11 очистный_a 0.1471366 19 936 19
## 12 атмосфера_s 0.1455815 139 94 93
## 13 мусороперерабатывающий_a 0.1453735 25 710 24
## 14 дерево_s 0.1387484 221 52 117
## 15 посадка_s 0.1367371 22 816 20
## 16 потепление_s 0.1352092 40 444 36
## 17 урожайный_a 0.1352092 10 1525 10
## 18 загрязнение_s 0.1328971 138 96 88
## 19 гибнуть_v 0.1324774 15 1110 14
## 20 сооружение_s 0.1300851 39 452 32
##
## [[13]]
## feature Cosine frequency rank docfreq
## 1 ресурс_s 1.0000000 476 13 166
## 2 природный_a 0.3099194 487 11 177
## 3 использовать_v 0.2528865 296 30 139
## 4 использование_s 0.2057695 141 93 92
## 5 загрязнуть_v 0.1957401 5 2337 5
## 6 природа_s 0.1816063 4337 1 225
## 7 потребление_s 0.1797169 57 299 39
## 8 ноль_s 0.1750752 9 1625 8
## 9 счет_s 0.1740044 46 391 28
## 10 сводить_v 0.1695159 15 1110 13
## 11 неисчерпаемый_a 0.1642757 23 785 20
## 12 жестоко_adv 0.1642546 12 1333 12
## 13 человек_s 0.1612398 4145 2 225
## 14 истощать_v 0.1592324 17 1017 15
## 15 восполнять_v 0.1488875 24 748 18
## 16 медленно_adv 0.1486169 17 1017 16
## 17 обустраивать_v 0.1456714 13 1258 12
## 18 исчерпаемый_a 0.1392715 8 1743 6
## 19 рациональный_a 0.1386012 36 499 28
## 20 количество_s 0.1301046 204 57 108
##
## [[14]]
## feature Cosine frequency rank docfreq
## 1 среда_s 1.0000000 475 14 166
## 2 окружающий_a 0.7114926 419 16 163
## 3 обитание_s 0.3398535 95 162 66
## 4 охрана_s 0.2403402 54 325 32
## 5 федеральный_a 0.2149668 4 2635 4
## 6 воздействие_s 0.1879148 90 174 61
## 7 трансграничный_a 0.1719734 4 2635 1
## 8 конвенция_s 0.1705695 13 1258 2
## 9 человек_s 0.1678743 4145 2 225
## 10 международный_a 0.1580685 26 681 17
## 11 природный_a 0.1549818 487 11 177
## 12 естественный_a 0.1503987 114 126 74
## 13 паразит_s 0.1349071 26 681 21
## 14 общественность_s 0.1241111 3 3049 3
## 15 осуществление_s 0.1153633 5 2337 4
## 16 природа_s 0.1147596 4337 1 225
## 17 защита_s 0.1132592 79 208 55
## 18 варварски_adv 0.1064031 8 1743 8
## 19 оценивать_v 0.1057497 20 894 20
## 20 г_s 0.1056248 18 976 9
##
## [[15]]
## feature Cosine frequency rank docfreq
## 1 становиться_v 1.00000000 446 15 185
## 2 человек_s 0.17174196 4145 2 225
## 3 много_adv 0.16479020 341 25 155
## 4 природа_s 0.13898973 4337 1 225
## 5 усложнение_s 0.13072340 10 1525 10
## 6 опосредовать_v 0.12991396 8 1743 8
## 7 явный_a 0.12991396 8 1743 8
## 8 более_adv 0.11692256 182 64 104
## 9 щедрота_s 0.11250879 6 2094 6
## 10 осваивать_v 0.10673521 15 1110 15
## 11 перестраивать_v 0.10607430 3 3049 3
## 12 мало_adv 0.10564250 94 165 64
## 13 собирательство_s 0.10270600 5 2337 5
## 14 малопригодный_a 0.10270600 5 2337 5
## 15 привычный_a 0.10026027 17 1017 15
## 16 покорять_v 0.09792633 22 816 19
## 17 национальный_a 0.09792633 22 816 21
## 18 служба_s 0.09694212 11 1423 10
## 19 все_adv 0.09678772 97 157 58
## 20 противоречие_s 0.09243540 20 894 18
#topfeatures(DFM_S2, 15)