rm(list = ls())
date()
## [1] "Thu Jan 30 14:45:24 2020"
sessionInfo()
## R version 3.6.1 (2019-07-05)
## Platform: x86_64-apple-darwin15.6.0 (64-bit)
## Running under: macOS Catalina 10.15.2
##
## Matrix products: default
## BLAS: /Library/Frameworks/R.framework/Versions/3.6/Resources/lib/libRblas.0.dylib
## LAPACK: /Library/Frameworks/R.framework/Versions/3.6/Resources/lib/libRlapack.dylib
##
## locale:
## [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
##
## attached base packages:
## [1] stats graphics grDevices utils datasets methods base
##
## loaded via a namespace (and not attached):
## [1] compiler_3.6.1 magrittr_1.5 tools_3.6.1 htmltools_0.4.0
## [5] yaml_2.2.0 Rcpp_1.0.2 stringi_1.4.3 rmarkdown_1.16
## [9] knitr_1.25 stringr_1.4.0 xfun_0.10 digest_0.6.21
## [13] rlang_0.4.2 evaluate_0.14
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(quanteda)
## Package version: 1.5.1
## Parallel computing: 2 of 4 threads used.
## See https://quanteda.io for tutorials and examples.
##
## Attaching package: 'quanteda'
## The following object is masked from 'package:utils':
##
## View
library(ggplot2)
#library(stringr)
#load(file = "Corpus.RData")
#load(file = "Corpus_S.RData")
load(file = "Tokens_S.Rdata")
load(file = "Freq_plus_Fun.RData") #Таблица с частотами НКРЯ
Количество текстов
ndoc(Tokens_S)
## [1] 225
50 наиболее часто встречающих слов
set.seed(100)
Tokens_S %>%
tokens_keep(pattern = "*_S") %>%
dfm() %>%
textplot_wordcloud(max_words = 50, min_size = 1, rotation = 0)
встречающихся более чем в половине текстов
#quanteda_options("threads")
Tokens_S %>%
tokens_keep(pattern = "*_S") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 2) %>%
ggplot(aes(x = reorder(feature, frequency), y = frequency)) +
geom_point() +
coord_flip() +
labs(x = NULL, y = "Frequency") +
theme_minimal()
Tokens_S %>%
tokens_keep(pattern = "*_S") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 2) %>%
ggplot(aes(x = reorder(feature, docfreq), y = docfreq)) +
geom_point() +
coord_flip() +
labs(x = NULL, y = "Документы") +
theme_minimal()
Список слов, которые встречаются более чем в четверти текстов.
frequency - частота встречаемости слова rank - ранг частоты docfreq - количество текстов, где встречается это слов Freq.ipm. - частота на млн. словоупотреблений в НКРЯ Rank_S - Ранг в списке существительных частотного словаря НКРЯ Dif - Разница рангов в корпусе текстов и НКРЯ
Tokens_S %>%
tokens_keep(pattern = "*_S") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 4) %>%
arrange(desc(docfreq)) %>%
select(-group) %>%
rename(Lemma = feature) %>%
left_join(., Freq_S, by = "Lemma") %>%
#select(-PoS, -R, -D, -Doc, -Rank) %>%
mutate(Dif = Rank_S - rank)
## Lemma frequency rank docfreq Freq.ipm. Rank_S Dif
## 1 природа_s 4337 1 225 169.9 247.0 246.0
## 2 человек_s 4145 2 225 2723.0 2.0 0.0
## 3 отношение_s 1062 3 212 557.4 29.0 26.0
## 4 жизнь_s 626 4 196 1389.8 5.0 1.0
## 5 мир_s 565 6 188 714.7 19.0 13.0
## 6 земля_s 417 10 183 494.4 32.0 22.0
## 7 животное_s 579 5 182 95.9 540.0 535.0
## 8 лес_s 481 7 179 211.5 176.0 169.0
## 9 ресурс_s 476 8 166 98.7 515.0 507.0
## 10 среда_s 475 9 166 142.4 326.5 317.5
## 11 время_s 338 16 163 2015.7 3.0 -13.0
## 12 планета_s 398 11 160 51.4 1014.5 1003.5
## 13 вид_s 365 14 156 620.1 25.0 11.0
## 14 человечество_s 381 13 154 68.6 769.0 756.0
## 15 год_s 278 18 151 3727.5 1.0 -17.0
## 16 проблема_s 356 15 147 474.9 36.0 21.0
## 17 вода_s 389 12 142 484.8 34.0 22.0
## 18 мусор_s 335 17 141 23.4 1994.5 1977.5
## 19 часть_s 238 22 137 585.4 27.0 5.0
## 20 растение_s 246 20 132 94.4 552.0 532.0
## 21 воздух_s 239 21 128 192.2 204.0 183.0
## 22 место_s 216 26 128 926.6 11.0 -15.0
## 23 вопрос_s 222 24 118 805.8 15.0 -9.0
## 24 дерево_s 221 25 117 171.9 244.0 219.0
## 25 отходы_s 207 27 113 19.1 2329.0 2302.0
## 26 действие_s 186 29 110 329.3 83.0 54.0
## 27 количество_s 204 28 108 206.7 179.0 151.0
## 28 образ_s 154 37 105 445.9 42.0 5.0
## 29 вред_s 162 33 104 30.2 1628.5 1595.5
## 30 ребенок_s 257 19 103 658.3 22.0 3.0
## 31 последствие_s 159 35 103 70.6 745.0 710.0
## 32 общество_s 223 23 102 314.7 93.0 70.0
## 33 деятельность_s 154 37 99 313.5 94.0 57.0
## 34 завод_s 133 49 99 164.0 262.0 213.0
## 35 сила_s 154 37 97 645.8 23.0 -14.0
## 36 город_s 162 33 96 573.4 28.0 -5.0
## 37 дом_s 159 35 96 792.6 16.0 -19.0
## 38 развитие_s 186 29 95 372.6 63.0 34.0
## 39 почва_s 153 40 94 56.2 935.5 895.5
## 40 атмосфера_s 139 44 93 56.4 928.5 884.5
## 41 существо_s 177 31 92 96.6 534.5 503.5
## 42 день_s 153 40 92 1258.4 6.0 -34.0
## 43 использование_s 141 43 92 190.3 207.0 164.0
## 44 процесс_s 124 54 91 371.7 64.0 10.0
## 45 потребность_s 170 32 89 70.2 750.5 718.5
## 46 источник_s 127 52 89 123.7 388.0 336.0
## 47 загрязнение_s 138 45 88 14.5 2877.5 2832.5
## 48 возможность_s 114 60 88 407.5 51.0 -9.0
## 49 река_s 134 48 85 131.0 367.0 319.0
## 50 целое_s 110 63 85 106.6 471.0 408.0
## 51 дар_s 109 67 84 44.3 1160.5 1093.5
## 52 условие_s 138 45 83 368.1 66.0 21.0
## 53 сохранение_s 131 50 82 46.7 1117.0 1067.0
## 54 состояние_s 119 57 81 294.4 108.0 51.0
## 55 существование_s 110 63 80 99.6 510.0 447.0
## 56 пример_s 102 71 80 201.2 190.5 119.5
## 57 экология_s 130 51 79 11.8 3311.0 3260.0
## 58 закон_s 136 47 78 433.4 45.0 -2.0
## 59 сторона_s 108 68 78 768.3 17.0 -51.0
## 60 поколение_s 120 56 77 96.2 537.5 481.5
## 61 цель_s 152 42 76 315.5 92.0 50.0
## 62 система_s 124 54 76 617.8 26.0 -28.0
## 63 океан_s 118 59 76 49.8 1041.5 982.5
## 64 изменение_s 119 57 75 179.8 227.0 170.0
## 65 связь_s 101 73 75 346.1 75.0 2.0
## 66 множество_s 94 82 74 113.3 432.5 350.5
## 67 момент_s 97 77 73 306.8 99.0 22.0
## 68 влияние_s 127 52 70 114.9 424.0 372.0
## 69 мера_s 96 78 70 284.3 115.0 37.0
## 70 птица_s 92 86 70 94.5 551.0 465.0
## 71 газ_s 111 61 69 101.0 501.0 440.0
## 72 т_s 110 63 68 NA NA NA
## 73 случай_s 101 73 68 709.7 20.0 -53.0
## 74 вещь_s 101 73 68 242.5 144.0 71.0
## 75 вырубка_s 80 104 67 5.1 5792.5 5688.5
## 76 рыба_s 104 70 66 86.0 621.5 551.5
## 77 красота_s 102 71 66 94.7 550.0 479.0
## 78 пища_s 96 78 66 39.6 1281.5 1203.5
## 79 обитание_s 95 80 66 8.2 4219.5 4139.5
## 80 качество_s 90 88 65 331.7 79.0 -9.0
## 81 богатство_s 93 83 64 38.1 1324.0 1241.0
## 82 ответственность_s 76 110 64 113.8 429.5 319.5
## 83 любовь_s 110 63 63 323.9 87.0 24.0
## 84 взаимодействие_s 106 69 63 67.1 788.0 719.0
## 85 страна_s 95 80 63 725.7 18.0 -62.0
## 86 дело_s 86 96 63 1412.1 4.0 -92.0
## 87 сожаление_s 82 102 63 99.4 512.5 410.5
## 88 организм_s 99 76 62 80.6 659.5 583.5
## 89 будущее_s 92 86 62 131.4 364.0 278.0
## 90 гармония_s 93 83 61 21.5 2137.5 2054.5
## 91 воздействие_s 90 88 61 68.0 774.5 686.5
## 92 энергия_s 88 91 61 99.7 509.0 418.0
## 93 продукт_s 87 93 61 136.7 350.0 257.0
## 94 очередь_s 77 109 61 212.5 175.0 66.0
## 95 уровень_s 87 93 60 348.5 73.0 -20.0
## 96 раз_s 83 100 60 1131.8 8.0 -92.0
## 97 результат_s 78 108 60 403.1 52.0 -56.0
## 98 способ_s 68 122 60 164.2 261.0 139.0
## 99 озеро_s 81 103 59 54.9 959.0 856.0
## 100 производство_s 93 83 58 275.6 125.0 42.0
## 101 точка_s 80 104 58 232.2 157.0 53.0
## 102 выброс_s 76 110 58 10.8 3514.0 3404.0
## 103 век_s 69 120 58 317.4 90.0 -30.0
## 104 друг_s 111 61 57 874.2 13.0 -48.0
## 105 ситуация_s 85 98 57 298.8 104.0 6.0
## 106 слово_s 79 106 57 967.9 10.0 -96.0
## 107 технология_s 72 117 57 133.5 359.0 242.0
## 108 пора_s 68 122 57 358.2 70.0 -52.0
set.seed(100)
Tokens_S %>%
tokens_keep(pattern = "*_V") %>%
dfm() %>%
textplot_wordcloud(max_words = 50, min_size = 1, rotation = 0)
встречающихся более чем в половине текстов
Tokens_S %>%
tokens_keep(pattern = "*_V") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 2) %>%
ggplot(aes(x = reorder(feature, frequency), y = frequency)) +
geom_point() +
coord_flip() +
labs(x = NULL, y = "Frequency") +
theme_minimal()
Tokens_S %>%
tokens_keep(pattern = "*_V") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 2) %>%
ggplot(aes(x = reorder(feature, docfreq), y = docfreq)) +
geom_point() +
coord_flip() +
labs(x = NULL, y = "Документы") +
theme_minimal()
Список слов, которые встречаются более чем в четверти.
frequency - частота встречаемости слова rank - ранг частоты docfreq - количество текстов, где встречается это слов Freq.ipm. - частота на млн. словоупотреблений в НКРЯ Rank_S - Ранг в списке существительных частотного словаря НКРЯ Dif - Разница рангов в корпусе текстов и НКРЯ
Tokens_S %>%
tokens_keep(pattern = "*_V") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 4) %>%
arrange(desc(docfreq)) %>%
select(-5) %>%
rename(Lemma = feature) %>%
left_join(., Freq_V, by = "Lemma") %>%
mutate(Dif = Rank_V - rank)
## Lemma frequency rank docfreq Freq.ipm. Rank_V Dif
## 1 мочь_v 1097 2 220 2912.3 2.0 0.0
## 2 быть_v 1398 1 216 12160.7 1.0 0.0
## 3 становиться_v 446 4 185 259.3 70.0 66.0
## 4 позволять_v 511 3 176 194.3 115.0 112.0
## 5 давать_v 326 6 157 370.7 42.0 36.0
## 6 являться_v 346 5 149 522.9 27.0 22.0
## 7 жить_v 312 7 149 725.5 13.0 6.0
## 8 относиться_v 273 9 144 191.6 119.0 110.0
## 9 использовать_v 296 8 139 249.6 74.0 66.0
## 10 понимать_v 261 10 136 559.7 21.0 11.0
## 11 делать_v 252 11 133 701.1 14.0 3.0
## 12 существовать_v 227 14 133 260.9 69.0 55.0
## 13 создавать_v 220 15 124 114.1 216.0 201.0
## 14 начинать_v 217 16 124 296.0 59.0 43.0
## 15 задумываться_v 235 12 120 28.8 907.5 895.5
## 16 считать_v 169 20 118 455.3 33.0 13.0
## 17 приводить_v 230 13 117 97.8 251.5 238.5
## 18 иметь_v 191 17 106 906.7 9.0 -8.0
## 19 сделать_v 160 21 105 743.5 12.0 -9.0
## 20 помогать_v 173 19 104 134.5 178.0 159.0
## 21 зависеть_v 155 23 103 115.0 214.0 191.0
## 22 сохранять_v 156 22 101 40.4 643.5 621.5
## 23 происходить_v 148 24 98 263.6 68.0 44.0
## 24 брать_v 144 25 98 226.3 88.0 63.0
## 25 думать_v 185 18 92 755.5 11.0 -7.0
## 26 хотеть_v 136 28 92 991.3 7.0 -21.0
## 27 вырубать_v 129 31 92 2.1 6179.0 6148.0
## 28 загрязнять_v 124 34 92 2.7 5368.0 5334.0
## 29 оставаться_v 134 29 91 327.4 48.0 19.0
## 30 окружать_v 118 38 91 32.2 804.5 766.5
## 31 наносить_v 121 36 90 22.0 1147.5 1111.5
## 32 стоить_v 143 27 89 501.9 29.0 2.0
## 33 находиться_v 120 37 87 342.7 46.0 9.0
## 34 говорить_v 144 25 86 1755.0 4.0 -21.0
## 35 смочь_v 128 33 85 255.1 72.0 39.0
## 36 уничтожать_v 129 31 84 16.0 1485.0 1454.0
## 37 убивать_v 122 35 81 49.8 518.5 483.5
## 38 казаться_v 109 42 81 448.2 35.0 -7.0
## 39 забывать_v 132 30 80 65.4 395.5 365.5
## 40 получать_v 107 43 78 188.2 123.0 80.0
## 41 сказать_v 103 46 78 2396.6 3.0 -43.0
## 42 вести_v 114 40 77 280.3 64.0 24.0
## 43 оставлять_v 107 43 76 81.4 309.5 266.5
## 44 заботиться_v 111 41 72 27.2 953.5 912.5
## 45 выбрасывать_v 103 46 72 14.4 1637.0 1591.0
## 46 разрушать_v 96 49 71 15.3 1539.0 1490.0
## 47 идти_v 98 48 68 957.1 8.0 -40.0
## 48 решать_v 88 52 68 96.5 257.0 205.0
## 49 изменять_v 115 39 67 22.1 1142.5 1103.5
## 50 следовать_v 104 45 66 305.1 55.0 10.0
## 51 появляться_v 85 53 66 118.4 201.0 148.0
## 52 отдавать_v 80 59 66 70.3 358.5 299.5
## 53 стоять_v 76 64 65 419.3 38.0 -26.0
## 54 расти_v 84 55 64 125.8 189.5 134.5
## 55 находить_v 83 56 64 89.5 274.0 218.0
## 56 знать_v 81 58 64 1713.8 5.0 -53.0
## 57 осознавать_v 78 62 63 20.3 1213.0 1151.0
## 58 пользоваться_v 93 50 62 120.1 199.0 149.0
## 59 влиять_v 90 51 61 39.4 660.5 609.5
## 60 беречь_v 80 59 59 23.4 1081.0 1022.0
## 61 строить_v 76 64 59 82.2 305.0 241.0
## 62 приходить_v 71 67 59 218.2 93.0 26.0
## 63 видеть_v 85 53 57 818.2 10.0 -43.0
## 64 приносить_v 77 63 57 64.9 402.0 339.0
## 65 связывать_v 66 72 57 33.5 763.5 691.5
set.seed(100)
Tokens_S %>%
tokens_keep(pattern = "*_A") %>%
dfm() %>%
textplot_wordcloud(max_words = 50, min_size = 1, rotation = 0)
встречающихся более чем в половине текстов
Tokens_S %>%
tokens_keep(pattern = "*_A") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 2) %>%
ggplot(aes(x = reorder(feature, frequency), y = frequency)) +
geom_point() +
coord_flip() +
labs(x = NULL, y = "Frequency") +
theme_minimal()
Tokens_S %>%
tokens_keep(pattern = "*_A") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 2) %>%
ggplot(aes(x = reorder(feature, docfreq), y = docfreq)) +
geom_point() +
coord_flip() +
labs(x = NULL, y = "Документы") +
theme_minimal()
Список слов, которые встречаются более чем в четверти текстов.
frequency - частота встречаемости слова rank - ранг частоты docfreq - количество текстов, где встречается это слов Freq.ipm. - частота на млн. словоупотреблений в НКРЯ Rank_S - Ранг в списке существительных частотного словаря НКРЯ Dif - Разница рангов в корпусе текстов и НКРЯ
Tokens_S %>%
tokens_keep(pattern = "*_A") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 4) %>%
arrange(desc(docfreq)) %>%
select(-5) %>%
rename(Lemma = feature) %>%
left_join(., Freq_A, by = "Lemma") %>%
mutate(Dif = Rank_A - rank)
## Lemma frequency rank docfreq Freq.ipm. Rank_A Dif
## 1 должный_a 559 1 178 17.6 869.5 868.5
## 2 природный_a 487 2 177 69.7 241.0 239.0
## 3 окружающий_a 419 3 163 51.1 329.5 326.5
## 4 новый_a 271 4 134 1217.5 1.0 -3.0
## 5 большой_a 200 7 126 944.4 2.0 -5.0
## 6 живой_a 227 6 118 284.0 29.0 23.0
## 7 огромный_a 174 8 111 272.1 35.0 27.0
## 8 экологический_a 257 5 106 40.7 402.5 397.5
## 9 человеческий_a 153 10 97 199.3 59.0 49.0
## 10 данный_a 170 9 88 NA NA NA
## 11 современный_a 142 11 87 236.1 40.0 29.0
## 12 различный_a 139 12 81 205.5 55.0 43.0
## 13 чистый_a 117 13 80 159.0 88.0 75.0
## 14 необходимый_a 115 14 80 203.7 56.0 42.0
## 15 хороший_a 105 19 80 471.4 9.0 -10.0
## 16 важный_a 110 17 79 277.0 32.0 15.0
## 17 глобальный_a 113 16 76 33.0 501.0 485.0
## 18 естественный_a 114 15 74 98.7 164.0 149.0
## 19 собственный_a 107 18 69 338.3 22.0 4.0
## 20 главный_a 83 20 68 454.6 10.0 -10.0
## 21 возможный_a 81 21 64 179.1 69.0 48.0
## 22 связанный_a 68 27 60 113.2 141.0 114.0
## 23 потребительский_a 70 25 59 18.3 842.5 817.5
set.seed(100)
Tokens_S %>%
tokens_keep(pattern = "*_ADV") %>%
dfm() %>%
textplot_wordcloud(max_words = 50, min_size = 1, rotation = 0)
встречающихся более чем в половине текстов
Tokens_S %>%
tokens_keep(pattern = "*_ADV") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 2) %>%
ggplot(aes(x = reorder(feature, frequency), y = frequency)) +
geom_point() +
coord_flip() +
labs(x = NULL, y = "Frequency") +
theme_minimal()
Tokens_S %>%
tokens_keep(pattern = "*_ADV") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 2) %>%
ggplot(aes(x = reorder(feature, docfreq), y = docfreq)) +
geom_point() +
coord_flip() +
labs(x = NULL, y = "Документы") +
theme_minimal()
Список слов, которые встречаются более чем в четверти текстов.
frequency - частота встречаемости слова rank - ранг частоты docfreq - количество текстов, где встречается это слов
Tokens_S %>%
tokens_keep(pattern = "*_ADV") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 4) %>%
arrange(desc(docfreq)) %>%
select(-5)
## feature frequency rank docfreq
## 1 можно_adv 404 1 170
## 2 уже_adv 277 3 157
## 3 много_adv 341 2 155
## 4 нужно_adv 271 4 136
## 5 очень_adv 255 5 134
## 6 сейчас_adv 236 6 130
## 7 еще_adv 202 8 129
## 8 также_adv 228 7 117
## 9 необходимо_adv 182 9 106
## 10 более_adv 182 9 104
## 11 например_adv 162 11 103
## 12 часто_adv 145 12 99
## 13 нельзя_adv 115 13 76
## 14 бережно_adv 95 15 72
## 15 конечно_adv 86 19 70
## 16 хорошо_adv 82 20 65
## 17 мало_adv 94 16 64
## 18 должно_adv 89 18 64
## 19 взамен_adv 71 21 60
## 20 все_adv 97 14 58
Tokens_S %>%
tokens_remove(pattern = "\\s") %>%
tokens_ngrams(n = 2, concatenator = "/") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 4) %>%
arrange(desc(docfreq)) %>%
select(-group)
## feature frequency rank docfreq
## 1 с_pr/природа_s 551 1 195
## 2 то_spro/что_conj 514 3 192
## 3 к_pr/природа_s 546 2 176
## 4 природа_s/и_conj 423 4 173
## 5 отношение_s/к_pr 373 5 157
## 6 человек_s/и_conj 303 6 141
## 7 окружающий_a/среда_s 293 8 139
## 8 человек_s/не_part 232 12 138
## 9 позволять_v/себя_spro 303 6 137
## 10 относиться_v/к_pr 233 11 133
## 11 не_part/только_part 224 15 131
## 12 что_conj/человек_s 219 16 130
## 13 и_conj/природа_s 260 9 129
## 14 о_pr/то_spro 212 17 129
## 15 человек_s/в_pr 202 18 124
## 16 отношение_s/с_pr 247 10 123
## 17 в_pr/отношение_s 231 13 123
## 18 но_conj/и_conj 194 19 123
## 19 мочь_v/позволять_v 227 14 122
## 20 не_part/мочь_v 173 21 109
## 21 и_conj/не_part 156 24 109
## 22 природа_s/человек_s 149 27 101
## 23 отношение_s/человек_s 164 22 99
## 24 природа_s/в_pr 158 23 97
## 25 что_conj/мы_spro 150 26 96
## 26 природа_s/не_part 147 28 96
## 27 и_conj/в_pr 121 34 95
## 28 природа_s/но_conj 121 34 94
## 29 человек_s/мочь_v 180 20 93
## 30 человек_s/должный_a 147 28 93
## 31 мы_spro/не_part 145 31 93
## 32 и_conj/человек_s 120 36 92
## 33 в_pr/этот_apro 115 40 89
## 34 на_pr/природа_s 147 28 88
## 35 приводить_v/к_pr 155 25 87
## 36 по_pr/отношение_s 143 32 84
## 37 не_part/быть_v 117 38 84
## 38 так_advpro/и_conj 104 49 84
## 39 это_spro/не_part 110 43 83
## 40 человек_s/к_pr 119 37 82
## 41 животное_s/и_conj 116 39 82
## 42 в_pr/свой_apro 106 45 82
## 43 что_conj/природа_s 105 47 82
## 44 в_pr/наш_apro 111 42 81
## 45 себя_spro/человек_s 98 57 80
## 46 природный_a/ресурс_s 124 33 77
## 47 считать_v/что_conj 101 53 77
## 48 на_pr/земля_s 106 45 76
## 49 все_spro/что_conj 104 49 76
## 50 зависеть_v/от_pr 102 51 76
## 51 и_conj/другой_apro 101 53 74
## 52 что_conj/он_spro 97 61 72
## 53 природа_s/это_spro 80 76 72
## 54 в_pr/природа_s 110 43 71
## 55 человек_s/с_pr 89 66 71
## 56 понимать_v/что_conj 102 51 70
## 57 задумываться_v/о_pr 98 57 70
## 58 я_spro/считать_v 86 69 70
## 59 от_pr/природа_s 99 56 69
## 60 то_spro/чтобы_conj 98 57 69
## 61 мы_spro/мочь_v 105 47 68
## 62 человек_s/на_pr 101 53 68
## 63 вырубать_v/лес_s 77 81 68
## 64 не_part/задумываться_v 93 63 67
## 65 к_pr/она_spro 90 65 67
## 66 человек_s/быть_v 89 66 67
## 67 жить_v/в_pr 86 69 67
## 68 один_apro/из_pr 83 73 67
## 69 такой_apro/образ_s 80 76 67
## 70 каждый_apro/человек_s 89 66 66
## 71 природа_s/как_conj 83 73 66
## 72 в_pr/который_apro 86 69 65
## 73 на_pr/планета_s 76 85 65
## 74 так_advpro/же_part 115 40 64
## 75 мы_spro/должный_a 92 64 64
## 76 в_pr/тот_apro 85 72 64
## 77 весь_apro/это_spro 77 81 64
## 78 природа_s/мы_spro 94 62 63
## 79 наш_apro/планета_s 98 57 62
## 80 к_pr/сожаление_s 80 76 62
## 81 что_conj/в_pr 72 89 62
## 82 себя_spro/в_pr 72 89 62
## 83 потому_advpro/что_conj 80 76 61
## 84 часть_s/природа_s 74 87 61
## 85 с_pr/она_spro 73 88 60
## 86 должный_a/быть_v 70 95 60
## 87 он_spro/не_part 77 81 59
## 88 заботиться_v/о_pr 83 73 57
## 89 человек_s/который_apro 78 80 57
## 90 природа_s/быть_v 68 100 57
## 91 она_spro/и_conj 65 104 57
Tokens_S %>%
tokens_remove(pattern = "\\s") %>%
tokens_ngrams(n = 3, concatenator = "/") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 4) %>%
arrange(desc(docfreq)) %>%
select(-group)
## feature frequency rank docfreq
## 1 отношение_s/к_pr/природа_s 242 1 125
## 2 отношение_s/с_pr/природа_s 227 2 120
## 3 мочь_v/позволять_v/себя_spro 198 3 115
## 4 человек_s/и_conj/природа_s 190 4 114
## 5 в_pr/отношение_s/с_pr 185 5 105
## 6 о_pr/то_spro/что_conj 136 7 92
## 7 по_pr/отношение_s/к_pr 138 6 82
## 8 относиться_v/к_pr/природа_s 116 8 81
## 9 человек_s/в_pr/отношение_s 86 10 67
## 10 позволять_v/себя_spro/человек_s 78 13 67
## 11 отношение_s/человек_s/к_pr 87 9 60
Tokens_S %>%
tokens_remove(pattern = "\\s") %>%
tokens_ngrams(n = 4, concatenator = "/") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 4) %>%
arrange(desc(docfreq)) %>%
select(-group)
## feature frequency rank docfreq
## 1 в_pr/отношение_s/с_pr/природа_s 180 1 105
## 2 человек_s/в_pr/отношение_s/с_pr 82 3 66
## 3 мочь_v/позволять_v/себя_spro/человек_s 72 4 62
## 4 по_pr/отношение_s/к_pr/природа_s 87 2 58
Tokens_S %>%
tokens_remove(pattern = "\\s") %>%
tokens_ngrams(n = 5, concatenator = "/") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > ndoc(Tokens_S) / 4) %>%
arrange(desc(docfreq)) %>%
select(-group)
## feature frequency rank docfreq
## 1 человек_s/в_pr/отношение_s/с_pr/природа_s 82 1 66