rm(list = ls())
date()

## [1] "Thu Jan 30 14:45:24 2020"

sessionInfo()

## R version 3.6.1 (2019-07-05)
## Platform: x86_64-apple-darwin15.6.0 (64-bit)
## Running under: macOS Catalina 10.15.2
## 
## Matrix products: default
## BLAS:   /Library/Frameworks/R.framework/Versions/3.6/Resources/lib/libRblas.0.dylib
## LAPACK: /Library/Frameworks/R.framework/Versions/3.6/Resources/lib/libRlapack.dylib
## 
## locale:
## [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## loaded via a namespace (and not attached):
##  [1] compiler_3.6.1  magrittr_1.5    tools_3.6.1     htmltools_0.4.0
##  [5] yaml_2.2.0      Rcpp_1.0.2      stringi_1.4.3   rmarkdown_1.16 
##  [9] knitr_1.25      stringr_1.4.0   xfun_0.10       digest_0.6.21  
## [13] rlang_0.4.2     evaluate_0.14

Библиотеки

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(quanteda)

## Package version: 1.5.1

## Parallel computing: 2 of 4 threads used.

## See https://quanteda.io for tutorials and examples.

## 
## Attaching package: 'quanteda'

## The following object is masked from 'package:utils':
## 
##     View

library(ggplot2)
#library(stringr)

Загрузка корпусов

#load(file = "Corpus.RData")
#load(file = "Corpus_S.RData")
load(file = "Tokens_S.Rdata")
load(file = "Freq_plus_Fun.RData") #Таблица с частотами НКРЯ

Количество текстов

ndoc(Tokens_S)

## [1] 225

POS Существительные

Облако

50 наиболее часто встречающих слов

set.seed(100)
Tokens_S %>%
        tokens_keep(pattern = "*_S") %>% 
        dfm() %>% 
        textplot_wordcloud(max_words = 50, min_size = 1, rotation = 0)

График - частоты слов

встречающихся более чем в половине текстов

#quanteda_options("threads")
Tokens_S %>% 
        tokens_keep(pattern = "*_S") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 2) %>%
        ggplot(aes(x = reorder(feature, frequency), y = frequency)) +
  geom_point() +
  coord_flip() +
  labs(x = NULL, y = "Frequency") +
  theme_minimal()

График - Количество текстов, где встречается слово

Tokens_S %>% 
        tokens_keep(pattern = "*_S") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 2) %>%
        ggplot(aes(x = reorder(feature, docfreq), y = docfreq)) +
  geom_point() +
  coord_flip() +
  labs(x = NULL, y = "Документы") +
  theme_minimal()

Таблица Существительные + частоты из НКРЯ

Список слов, которые встречаются более чем в четверти текстов.

frequency - частота встречаемости слова rank - ранг частоты docfreq - количество текстов, где встречается это слов Freq.ipm. - частота на млн. словоупотреблений в НКРЯ Rank_S - Ранг в списке существительных частотного словаря НКРЯ Dif - Разница рангов в корпусе текстов и НКРЯ

Tokens_S %>% 
        tokens_keep(pattern = "*_S") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 4) %>% 
        arrange(desc(docfreq)) %>% 
        select(-group) %>% 
        rename(Lemma = feature) %>% 
        left_join(., Freq_S, by = "Lemma") %>% 
        #select(-PoS, -R, -D, -Doc, -Rank) %>% 
        mutate(Dif = Rank_S - rank)

##                 Lemma frequency rank docfreq Freq.ipm. Rank_S    Dif
## 1           природа_s      4337    1     225     169.9  247.0  246.0
## 2           человек_s      4145    2     225    2723.0    2.0    0.0
## 3         отношение_s      1062    3     212     557.4   29.0   26.0
## 4             жизнь_s       626    4     196    1389.8    5.0    1.0
## 5               мир_s       565    6     188     714.7   19.0   13.0
## 6             земля_s       417   10     183     494.4   32.0   22.0
## 7          животное_s       579    5     182      95.9  540.0  535.0
## 8               лес_s       481    7     179     211.5  176.0  169.0
## 9            ресурс_s       476    8     166      98.7  515.0  507.0
## 10            среда_s       475    9     166     142.4  326.5  317.5
## 11            время_s       338   16     163    2015.7    3.0  -13.0
## 12          планета_s       398   11     160      51.4 1014.5 1003.5
## 13              вид_s       365   14     156     620.1   25.0   11.0
## 14     человечество_s       381   13     154      68.6  769.0  756.0
## 15              год_s       278   18     151    3727.5    1.0  -17.0
## 16         проблема_s       356   15     147     474.9   36.0   21.0
## 17             вода_s       389   12     142     484.8   34.0   22.0
## 18            мусор_s       335   17     141      23.4 1994.5 1977.5
## 19            часть_s       238   22     137     585.4   27.0    5.0
## 20         растение_s       246   20     132      94.4  552.0  532.0
## 21           воздух_s       239   21     128     192.2  204.0  183.0
## 22            место_s       216   26     128     926.6   11.0  -15.0
## 23           вопрос_s       222   24     118     805.8   15.0   -9.0
## 24           дерево_s       221   25     117     171.9  244.0  219.0
## 25           отходы_s       207   27     113      19.1 2329.0 2302.0
## 26         действие_s       186   29     110     329.3   83.0   54.0
## 27       количество_s       204   28     108     206.7  179.0  151.0
## 28            образ_s       154   37     105     445.9   42.0    5.0
## 29             вред_s       162   33     104      30.2 1628.5 1595.5
## 30          ребенок_s       257   19     103     658.3   22.0    3.0
## 31      последствие_s       159   35     103      70.6  745.0  710.0
## 32         общество_s       223   23     102     314.7   93.0   70.0
## 33     деятельность_s       154   37      99     313.5   94.0   57.0
## 34            завод_s       133   49      99     164.0  262.0  213.0
## 35             сила_s       154   37      97     645.8   23.0  -14.0
## 36            город_s       162   33      96     573.4   28.0   -5.0
## 37              дом_s       159   35      96     792.6   16.0  -19.0
## 38         развитие_s       186   29      95     372.6   63.0   34.0
## 39            почва_s       153   40      94      56.2  935.5  895.5
## 40        атмосфера_s       139   44      93      56.4  928.5  884.5
## 41         существо_s       177   31      92      96.6  534.5  503.5
## 42             день_s       153   40      92    1258.4    6.0  -34.0
## 43    использование_s       141   43      92     190.3  207.0  164.0
## 44          процесс_s       124   54      91     371.7   64.0   10.0
## 45      потребность_s       170   32      89      70.2  750.5  718.5
## 46         источник_s       127   52      89     123.7  388.0  336.0
## 47      загрязнение_s       138   45      88      14.5 2877.5 2832.5
## 48      возможность_s       114   60      88     407.5   51.0   -9.0
## 49             река_s       134   48      85     131.0  367.0  319.0
## 50            целое_s       110   63      85     106.6  471.0  408.0
## 51              дар_s       109   67      84      44.3 1160.5 1093.5
## 52          условие_s       138   45      83     368.1   66.0   21.0
## 53       сохранение_s       131   50      82      46.7 1117.0 1067.0
## 54        состояние_s       119   57      81     294.4  108.0   51.0
## 55    существование_s       110   63      80      99.6  510.0  447.0
## 56           пример_s       102   71      80     201.2  190.5  119.5
## 57         экология_s       130   51      79      11.8 3311.0 3260.0
## 58            закон_s       136   47      78     433.4   45.0   -2.0
## 59          сторона_s       108   68      78     768.3   17.0  -51.0
## 60        поколение_s       120   56      77      96.2  537.5  481.5
## 61             цель_s       152   42      76     315.5   92.0   50.0
## 62          система_s       124   54      76     617.8   26.0  -28.0
## 63            океан_s       118   59      76      49.8 1041.5  982.5
## 64        изменение_s       119   57      75     179.8  227.0  170.0
## 65            связь_s       101   73      75     346.1   75.0    2.0
## 66        множество_s        94   82      74     113.3  432.5  350.5
## 67           момент_s        97   77      73     306.8   99.0   22.0
## 68          влияние_s       127   52      70     114.9  424.0  372.0
## 69             мера_s        96   78      70     284.3  115.0   37.0
## 70            птица_s        92   86      70      94.5  551.0  465.0
## 71              газ_s       111   61      69     101.0  501.0  440.0
## 72                т_s       110   63      68        NA     NA     NA
## 73           случай_s       101   73      68     709.7   20.0  -53.0
## 74             вещь_s       101   73      68     242.5  144.0   71.0
## 75          вырубка_s        80  104      67       5.1 5792.5 5688.5
## 76             рыба_s       104   70      66      86.0  621.5  551.5
## 77          красота_s       102   71      66      94.7  550.0  479.0
## 78             пища_s        96   78      66      39.6 1281.5 1203.5
## 79         обитание_s        95   80      66       8.2 4219.5 4139.5
## 80         качество_s        90   88      65     331.7   79.0   -9.0
## 81        богатство_s        93   83      64      38.1 1324.0 1241.0
## 82  ответственность_s        76  110      64     113.8  429.5  319.5
## 83           любовь_s       110   63      63     323.9   87.0   24.0
## 84   взаимодействие_s       106   69      63      67.1  788.0  719.0
## 85           страна_s        95   80      63     725.7   18.0  -62.0
## 86             дело_s        86   96      63    1412.1    4.0  -92.0
## 87        сожаление_s        82  102      63      99.4  512.5  410.5
## 88         организм_s        99   76      62      80.6  659.5  583.5
## 89          будущее_s        92   86      62     131.4  364.0  278.0
## 90         гармония_s        93   83      61      21.5 2137.5 2054.5
## 91      воздействие_s        90   88      61      68.0  774.5  686.5
## 92          энергия_s        88   91      61      99.7  509.0  418.0
## 93          продукт_s        87   93      61     136.7  350.0  257.0
## 94          очередь_s        77  109      61     212.5  175.0   66.0
## 95          уровень_s        87   93      60     348.5   73.0  -20.0
## 96              раз_s        83  100      60    1131.8    8.0  -92.0
## 97        результат_s        78  108      60     403.1   52.0  -56.0
## 98           способ_s        68  122      60     164.2  261.0  139.0
## 99            озеро_s        81  103      59      54.9  959.0  856.0
## 100    производство_s        93   83      58     275.6  125.0   42.0
## 101           точка_s        80  104      58     232.2  157.0   53.0
## 102          выброс_s        76  110      58      10.8 3514.0 3404.0
## 103             век_s        69  120      58     317.4   90.0  -30.0
## 104            друг_s       111   61      57     874.2   13.0  -48.0
## 105        ситуация_s        85   98      57     298.8  104.0    6.0
## 106           слово_s        79  106      57     967.9   10.0  -96.0
## 107      технология_s        72  117      57     133.5  359.0  242.0
## 108            пора_s        68  122      57     358.2   70.0  -52.0

POS Глаголы

set.seed(100)
Tokens_S %>% 
        tokens_keep(pattern = "*_V") %>% 
        dfm() %>% 
        textplot_wordcloud(max_words = 50, min_size = 1, rotation = 0)

График - частоты слов

встречающихся более чем в половине текстов

Tokens_S %>% 
        tokens_keep(pattern = "*_V") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 2) %>%
        ggplot(aes(x = reorder(feature, frequency), y = frequency)) +
  geom_point() +
  coord_flip() +
  labs(x = NULL, y = "Frequency") +
  theme_minimal()

График - Количество текстов, где встречается слово

Tokens_S %>% 
        tokens_keep(pattern = "*_V") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 2) %>%
        ggplot(aes(x = reorder(feature, docfreq), y = docfreq)) +
  geom_point() +
  coord_flip() +
  labs(x = NULL, y = "Документы") +
  theme_minimal()

Таблица Глаголы + частоты из НКРЯ

Список слов, которые встречаются более чем в четверти.

Tokens_S %>% 
        tokens_keep(pattern = "*_V") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 4) %>% 
        arrange(desc(docfreq)) %>% 
        select(-5) %>% 
        rename(Lemma = feature) %>% 
        left_join(., Freq_V, by = "Lemma") %>% 
        mutate(Dif = Rank_V - rank)

##             Lemma frequency rank docfreq Freq.ipm. Rank_V    Dif
## 1          мочь_v      1097    2     220    2912.3    2.0    0.0
## 2          быть_v      1398    1     216   12160.7    1.0    0.0
## 3   становиться_v       446    4     185     259.3   70.0   66.0
## 4     позволять_v       511    3     176     194.3  115.0  112.0
## 5        давать_v       326    6     157     370.7   42.0   36.0
## 6      являться_v       346    5     149     522.9   27.0   22.0
## 7          жить_v       312    7     149     725.5   13.0    6.0
## 8    относиться_v       273    9     144     191.6  119.0  110.0
## 9  использовать_v       296    8     139     249.6   74.0   66.0
## 10     понимать_v       261   10     136     559.7   21.0   11.0
## 11       делать_v       252   11     133     701.1   14.0    3.0
## 12 существовать_v       227   14     133     260.9   69.0   55.0
## 13    создавать_v       220   15     124     114.1  216.0  201.0
## 14     начинать_v       217   16     124     296.0   59.0   43.0
## 15 задумываться_v       235   12     120      28.8  907.5  895.5
## 16      считать_v       169   20     118     455.3   33.0   13.0
## 17    приводить_v       230   13     117      97.8  251.5  238.5
## 18        иметь_v       191   17     106     906.7    9.0   -8.0
## 19      сделать_v       160   21     105     743.5   12.0   -9.0
## 20     помогать_v       173   19     104     134.5  178.0  159.0
## 21     зависеть_v       155   23     103     115.0  214.0  191.0
## 22    сохранять_v       156   22     101      40.4  643.5  621.5
## 23  происходить_v       148   24      98     263.6   68.0   44.0
## 24        брать_v       144   25      98     226.3   88.0   63.0
## 25       думать_v       185   18      92     755.5   11.0   -7.0
## 26       хотеть_v       136   28      92     991.3    7.0  -21.0
## 27     вырубать_v       129   31      92       2.1 6179.0 6148.0
## 28   загрязнять_v       124   34      92       2.7 5368.0 5334.0
## 29   оставаться_v       134   29      91     327.4   48.0   19.0
## 30     окружать_v       118   38      91      32.2  804.5  766.5
## 31     наносить_v       121   36      90      22.0 1147.5 1111.5
## 32       стоить_v       143   27      89     501.9   29.0    2.0
## 33   находиться_v       120   37      87     342.7   46.0    9.0
## 34     говорить_v       144   25      86    1755.0    4.0  -21.0
## 35        смочь_v       128   33      85     255.1   72.0   39.0
## 36   уничтожать_v       129   31      84      16.0 1485.0 1454.0
## 37      убивать_v       122   35      81      49.8  518.5  483.5
## 38     казаться_v       109   42      81     448.2   35.0   -7.0
## 39     забывать_v       132   30      80      65.4  395.5  365.5
## 40     получать_v       107   43      78     188.2  123.0   80.0
## 41      сказать_v       103   46      78    2396.6    3.0  -43.0
## 42        вести_v       114   40      77     280.3   64.0   24.0
## 43    оставлять_v       107   43      76      81.4  309.5  266.5
## 44   заботиться_v       111   41      72      27.2  953.5  912.5
## 45  выбрасывать_v       103   46      72      14.4 1637.0 1591.0
## 46    разрушать_v        96   49      71      15.3 1539.0 1490.0
## 47         идти_v        98   48      68     957.1    8.0  -40.0
## 48       решать_v        88   52      68      96.5  257.0  205.0
## 49     изменять_v       115   39      67      22.1 1142.5 1103.5
## 50    следовать_v       104   45      66     305.1   55.0   10.0
## 51   появляться_v        85   53      66     118.4  201.0  148.0
## 52     отдавать_v        80   59      66      70.3  358.5  299.5
## 53       стоять_v        76   64      65     419.3   38.0  -26.0
## 54        расти_v        84   55      64     125.8  189.5  134.5
## 55     находить_v        83   56      64      89.5  274.0  218.0
## 56        знать_v        81   58      64    1713.8    5.0  -53.0
## 57   осознавать_v        78   62      63      20.3 1213.0 1151.0
## 58 пользоваться_v        93   50      62     120.1  199.0  149.0
## 59       влиять_v        90   51      61      39.4  660.5  609.5
## 60       беречь_v        80   59      59      23.4 1081.0 1022.0
## 61      строить_v        76   64      59      82.2  305.0  241.0
## 62    приходить_v        71   67      59     218.2   93.0   26.0
## 63       видеть_v        85   53      57     818.2   10.0  -43.0
## 64    приносить_v        77   63      57      64.9  402.0  339.0
## 65    связывать_v        66   72      57      33.5  763.5  691.5

POS Прилагательные

set.seed(100)
Tokens_S %>% 
        tokens_keep(pattern = "*_A") %>% 
        dfm() %>% 
        textplot_wordcloud(max_words = 50, min_size = 1, rotation = 0)

График - частоты слов

встречающихся более чем в половине текстов

Tokens_S %>% 
        tokens_keep(pattern = "*_A") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 2) %>%
        ggplot(aes(x = reorder(feature, frequency), y = frequency)) +
  geom_point() +
  coord_flip() +
  labs(x = NULL, y = "Frequency") +
  theme_minimal()

График - Количество текстов, где встречается слово

Tokens_S %>% 
        tokens_keep(pattern = "*_A") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 2) %>%
        ggplot(aes(x = reorder(feature, docfreq), y = docfreq)) +
  geom_point() +
  coord_flip() +
  labs(x = NULL, y = "Документы") +
  theme_minimal()

Таблица Прилагательные + частоты из НКРЯ

Список слов, которые встречаются более чем в четверти текстов.

Tokens_S %>% 
        tokens_keep(pattern = "*_A") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 4) %>% 
        arrange(desc(docfreq)) %>% 
        select(-5) %>% 
        rename(Lemma = feature) %>% 
        left_join(., Freq_A, by = "Lemma") %>% 
        mutate(Dif = Rank_A - rank)

##                Lemma frequency rank docfreq Freq.ipm. Rank_A   Dif
## 1          должный_a       559    1     178      17.6  869.5 868.5
## 2        природный_a       487    2     177      69.7  241.0 239.0
## 3       окружающий_a       419    3     163      51.1  329.5 326.5
## 4            новый_a       271    4     134    1217.5    1.0  -3.0
## 5          большой_a       200    7     126     944.4    2.0  -5.0
## 6            живой_a       227    6     118     284.0   29.0  23.0
## 7         огромный_a       174    8     111     272.1   35.0  27.0
## 8    экологический_a       257    5     106      40.7  402.5 397.5
## 9     человеческий_a       153   10      97     199.3   59.0  49.0
## 10          данный_a       170    9      88        NA     NA    NA
## 11     современный_a       142   11      87     236.1   40.0  29.0
## 12       различный_a       139   12      81     205.5   55.0  43.0
## 13          чистый_a       117   13      80     159.0   88.0  75.0
## 14     необходимый_a       115   14      80     203.7   56.0  42.0
## 15         хороший_a       105   19      80     471.4    9.0 -10.0
## 16          важный_a       110   17      79     277.0   32.0  15.0
## 17      глобальный_a       113   16      76      33.0  501.0 485.0
## 18    естественный_a       114   15      74      98.7  164.0 149.0
## 19     собственный_a       107   18      69     338.3   22.0   4.0
## 20         главный_a        83   20      68     454.6   10.0 -10.0
## 21       возможный_a        81   21      64     179.1   69.0  48.0
## 22       связанный_a        68   27      60     113.2  141.0 114.0
## 23 потребительский_a        70   25      59      18.3  842.5 817.5

POS Наречия

set.seed(100)
Tokens_S %>% 
        tokens_keep(pattern = "*_ADV") %>% 
        dfm() %>% 
        textplot_wordcloud(max_words = 50, min_size = 1, rotation = 0)

График - частоты слов

встречающихся более чем в половине текстов

Tokens_S %>% 
        tokens_keep(pattern = "*_ADV") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 2) %>%
        ggplot(aes(x = reorder(feature, frequency), y = frequency)) +
  geom_point() +
  coord_flip() +
  labs(x = NULL, y = "Frequency") +
  theme_minimal()

График - Количество текстов, где встречается слово

Tokens_S %>% 
        tokens_keep(pattern = "*_ADV") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 2) %>%
        ggplot(aes(x = reorder(feature, docfreq), y = docfreq)) +
  geom_point() +
  coord_flip() +
  labs(x = NULL, y = "Документы") +
  theme_minimal()

Таблица Наречия

Список слов, которые встречаются более чем в четверти текстов.

frequency - частота встречаемости слова rank - ранг частоты docfreq - количество текстов, где встречается это слов

Tokens_S %>% 
        tokens_keep(pattern = "*_ADV") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 4) %>% 
        arrange(desc(docfreq)) %>% 
        select(-5)

##           feature frequency rank docfreq
## 1       можно_adv       404    1     170
## 2         уже_adv       277    3     157
## 3       много_adv       341    2     155
## 4       нужно_adv       271    4     136
## 5       очень_adv       255    5     134
## 6      сейчас_adv       236    6     130
## 7         еще_adv       202    8     129
## 8       также_adv       228    7     117
## 9  необходимо_adv       182    9     106
## 10      более_adv       182    9     104
## 11   например_adv       162   11     103
## 12      часто_adv       145   12      99
## 13     нельзя_adv       115   13      76
## 14    бережно_adv        95   15      72
## 15    конечно_adv        86   19      70
## 16     хорошо_adv        82   20      65
## 17       мало_adv        94   16      64
## 18     должно_adv        89   18      64
## 19     взамен_adv        71   21      60
## 20        все_adv        97   14      58

Словосочетания

Двухсловные

Tokens_S %>% 
        tokens_remove(pattern = "\\s") %>%
        tokens_ngrams(n = 2, concatenator = "/") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 4) %>% 
        arrange(desc(docfreq)) %>% 
        select(-group)

##                   feature frequency rank docfreq
## 1          с_pr/природа_s       551    1     195
## 2        то_spro/что_conj       514    3     192
## 3          к_pr/природа_s       546    2     176
## 4        природа_s/и_conj       423    4     173
## 5        отношение_s/к_pr       373    5     157
## 6        человек_s/и_conj       303    6     141
## 7    окружающий_a/среда_s       293    8     139
## 8       человек_s/не_part       232   12     138
## 9   позволять_v/себя_spro       303    6     137
## 10      относиться_v/к_pr       233   11     133
## 11    не_part/только_part       224   15     131
## 12     что_conj/человек_s       219   16     130
## 13       и_conj/природа_s       260    9     129
## 14           о_pr/то_spro       212   17     129
## 15         человек_s/в_pr       202   18     124
## 16       отношение_s/с_pr       247   10     123
## 17       в_pr/отношение_s       231   13     123
## 18         но_conj/и_conj       194   19     123
## 19     мочь_v/позволять_v       227   14     122
## 20         не_part/мочь_v       173   21     109
## 21         и_conj/не_part       156   24     109
## 22    природа_s/человек_s       149   27     101
## 23  отношение_s/человек_s       164   22      99
## 24         природа_s/в_pr       158   23      97
## 25       что_conj/мы_spro       150   26      96
## 26      природа_s/не_part       147   28      96
## 27            и_conj/в_pr       121   34      95
## 28      природа_s/но_conj       121   34      94
## 29       человек_s/мочь_v       180   20      93
## 30    человек_s/должный_a       147   28      93
## 31        мы_spro/не_part       145   31      93
## 32       и_conj/человек_s       120   36      92
## 33         в_pr/этот_apro       115   40      89
## 34        на_pr/природа_s       147   28      88
## 35       приводить_v/к_pr       155   25      87
## 36      по_pr/отношение_s       143   32      84
## 37         не_part/быть_v       117   38      84
## 38      так_advpro/и_conj       104   49      84
## 39       это_spro/не_part       110   43      83
## 40         человек_s/к_pr       119   37      82
## 41      животное_s/и_conj       116   39      82
## 42         в_pr/свой_apro       106   45      82
## 43     что_conj/природа_s       105   47      82
## 44          в_pr/наш_apro       111   42      81
## 45    себя_spro/человек_s        98   57      80
## 46   природный_a/ресурс_s       124   33      77
## 47     считать_v/что_conj       101   53      77
## 48          на_pr/земля_s       106   45      76
## 49      все_spro/что_conj       104   49      76
## 50       зависеть_v/от_pr       102   51      76
## 51     и_conj/другой_apro       101   53      74
## 52       что_conj/он_spro        97   61      72
## 53     природа_s/это_spro        80   76      72
## 54         в_pr/природа_s       110   43      71
## 55         человек_s/с_pr        89   66      71
## 56    понимать_v/что_conj       102   51      70
## 57    задумываться_v/о_pr        98   57      70
## 58       я_spro/считать_v        86   69      70
## 59        от_pr/природа_s        99   56      69
## 60     то_spro/чтобы_conj        98   57      69
## 61         мы_spro/мочь_v       105   47      68
## 62        человек_s/на_pr       101   53      68
## 63       вырубать_v/лес_s        77   81      68
## 64 не_part/задумываться_v        93   63      67
## 65          к_pr/она_spro        90   65      67
## 66       человек_s/быть_v        89   66      67
## 67            жить_v/в_pr        86   69      67
## 68        один_apro/из_pr        83   73      67
## 69     такой_apro/образ_s        80   76      67
## 70  каждый_apro/человек_s        89   66      66
## 71     природа_s/как_conj        83   73      66
## 72      в_pr/который_apro        86   69      65
## 73        на_pr/планета_s        76   85      65
## 74     так_advpro/же_part       115   40      64
## 75      мы_spro/должный_a        92   64      64
## 76          в_pr/тот_apro        85   72      64
## 77     весь_apro/это_spro        77   81      64
## 78      природа_s/мы_spro        94   62      63
## 79     наш_apro/планета_s        98   57      62
## 80       к_pr/сожаление_s        80   76      62
## 81          что_conj/в_pr        72   89      62
## 82         себя_spro/в_pr        72   89      62
## 83 потому_advpro/что_conj        80   76      61
## 84      часть_s/природа_s        74   87      61
## 85          с_pr/она_spro        73   88      60
## 86       должный_a/быть_v        70   95      60
## 87        он_spro/не_part        77   81      59
## 88      заботиться_v/о_pr        83   73      57
## 89 человек_s/который_apro        78   80      57
## 90       природа_s/быть_v        68  100      57
## 91        она_spro/и_conj        65  104      57

Трёхсловные

Tokens_S %>% 
        tokens_remove(pattern = "\\s") %>%
        tokens_ngrams(n = 3, concatenator = "/") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 4) %>% 
        arrange(desc(docfreq)) %>% 
        select(-group)

##                            feature frequency rank docfreq
## 1       отношение_s/к_pr/природа_s       242    1     125
## 2       отношение_s/с_pr/природа_s       227    2     120
## 3     мочь_v/позволять_v/себя_spro       198    3     115
## 4       человек_s/и_conj/природа_s       190    4     114
## 5            в_pr/отношение_s/с_pr       185    5     105
## 6            о_pr/то_spro/что_conj       136    7      92
## 7           по_pr/отношение_s/к_pr       138    6      82
## 8      относиться_v/к_pr/природа_s       116    8      81
## 9       человек_s/в_pr/отношение_s        86   10      67
## 10 позволять_v/себя_spro/человек_s        78   13      67
## 11      отношение_s/человек_s/к_pr        87    9      60

Четырехсловные

Tokens_S %>% 
        tokens_remove(pattern = "\\s") %>%
        tokens_ngrams(n = 4, concatenator = "/") %>% 
        dfm() %>% 
        textstat_frequency() %>% 
        filter(docfreq > ndoc(Tokens_S) / 4) %>% 
        arrange(desc(docfreq)) %>% 
        select(-group)

##                                  feature frequency rank docfreq
## 1        в_pr/отношение_s/с_pr/природа_s       180    1     105
## 2        человек_s/в_pr/отношение_s/с_pr        82    3      66
## 3 мочь_v/позволять_v/себя_spro/человек_s        72    4      62
## 4       по_pr/отношение_s/к_pr/природа_s        87    2      58

Пять

Tokens_S %>%
        tokens_remove(pattern = "\\s") %>%
        tokens_ngrams(n = 5, concatenator = "/") %>%
        dfm() %>%
        textstat_frequency() %>%
        filter(docfreq > ndoc(Tokens_S) / 4) %>%
        arrange(desc(docfreq)) %>%
        select(-group)

##                                     feature frequency rank docfreq
## 1 человек_s/в_pr/отношение_s/с_pr/природа_s        82    1      66

Descriptive

Petr Ya

08 07 2019

Библиотеки

Загрузка корпусов

POS Существительные

Облако

График - частоты слов

График - Количество текстов, где встречается слово

Таблица Существительные + частоты из НКРЯ

POS Глаголы

График - частоты слов

График - Количество текстов, где встречается слово

Таблица Глаголы + частоты из НКРЯ

POS Прилагательные

График - частоты слов

График - Количество текстов, где встречается слово

Таблица Прилагательные + частоты из НКРЯ

POS Наречия

График - частоты слов

График - Количество текстов, где встречается слово

Таблица Наречия

Словосочетания

Двухсловные

Трёхсловные

Четырехсловные

Пять