rm(list = ls())
date()
## [1] "Sun Sep 22 17:35:05 2019"
sessionInfo()
## R version 3.5.1 (2018-07-02)
## Platform: x86_64-apple-darwin15.6.0 (64-bit)
## Running under: macOS 10.14.6
##
## Matrix products: default
## BLAS: /Library/Frameworks/R.framework/Versions/3.5/Resources/lib/libRblas.0.dylib
## LAPACK: /Library/Frameworks/R.framework/Versions/3.5/Resources/lib/libRlapack.dylib
##
## locale:
## [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
##
## attached base packages:
## [1] stats graphics grDevices utils datasets methods base
##
## loaded via a namespace (and not attached):
## [1] compiler_3.5.1 magrittr_1.5 tools_3.5.1 htmltools_0.3.6
## [5] yaml_2.2.0 Rcpp_1.0.0 stringi_1.2.4 rmarkdown_1.11
## [9] knitr_1.21 stringr_1.3.1 xfun_0.4 digest_0.6.18
## [13] evaluate_0.12
Библиотеки
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(quanteda)
## Warning: package 'quanteda' was built under R version 3.5.2
## Package version: 1.4.3
## Parallel computing: 2 of 4 threads used.
## See https://quanteda.io for tutorials and examples.
##
## Attaching package: 'quanteda'
## The following object is masked from 'package:utils':
##
## View
library(ggplot2)
#library(stringr)
Загрузка корпусов
load(file = "NotLikeS.RData")
ndoc(NotLikeS)
## [1] 51
Токенизация
TokensNotLike <- tokens(NotLikeS, what = "fastestword")
Слова, использованные более чем в 5 текстах (существительные, глаголы и прилагательные)
TokensNotLike %>%
tokens_keep(pattern = c("*_A", "*_V", "*_S")) %>%
dfm() %>%
textplot_wordcloud(max_words = 1000, rotation = 0, min_count = 6)
Слова использованные как минимум три раза
set.seed(100)
TokensNotLike %>%
tokens_keep(pattern = "*_S") %>%
dfm() %>%
textplot_wordcloud(max_words = 50, min_size = 1, rotation = 0)
Список слов, которые появились более чем в одном тексте
frequency - частота встречаемости слова rank - ранг частоты docfreq - количество текстов, где встречается это слов
TokensNotLike %>%
tokens_keep(pattern = "*_S") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > 2) %>%
arrange(desc(docfreq)) %>%
select(-group)
## feature frequency rank docfreq
## 1 человек_s 99 1 32
## 2 мир_s 38 2 21
## 3 жизнь_s 33 3 21
## 4 год_s 25 6 16
## 5 слово_s 23 7 13
## 6 друг_s 27 4 12
## 7 школа_s 27 4 12
## 8 время_s 18 11 12
## 9 день_s 14 13 12
## 10 ребенок_s 18 11 11
## 11 раз_s 14 13 11
## 12 девочка_s 20 8 10
## 13 мама_s 19 9 9
## 14 взгляд_s 11 18 9
## 15 дело_s 11 18 9
## 16 проблема_s 10 21 9
## 17 момент_s 9 23 9
## 18 семья_s 10 21 8
## 19 желание_s 11 18 7
## 20 внимание_s 8 27 7
## 21 путь_s 7 34 7
## 22 любовь_s 19 9 6
## 23 родитель_s 13 16 6
## 24 учитель_s 9 23 6
## 25 фраза_s 9 23 6
## 26 поступок_s 8 27 6
## 27 ответ_s 8 27 6
## 28 конец_s 8 27 6
## 29 сила_s 6 41 6
## 30 чувство_s 6 41 6
## 31 детство_s 12 17 5
## 32 общество_s 8 27 5
## 33 музыка_s 8 27 5
## 34 история_s 7 34 5
## 35 пример_s 7 34 5
## 36 правда_s 6 41 5
## 37 пора_s 6 41 5
## 38 голова_s 5 48 5
## 39 действие_s 5 48 5
## 40 характер_s 5 48 5
## 41 мальчик_s 14 13 4
## 42 качество_s 7 34 4
## 43 мнение_s 7 34 4
## 44 девушка_s 6 41 4
## 45 класс_s 6 41 4
## 46 работа_s 5 48 4
## 47 особенность_s 5 48 4
## 48 талант_s 5 48 4
## 49 одноклассник_s 5 48 4
## 50 внешность_s 5 48 4
## 51 вопрос_s 5 48 4
## 52 ум_s 4 63 4
## 53 вид_s 4 63 4
## 54 часть_s 4 63 4
## 55 парень_s 4 63 4
## 56 сторона_s 4 63 4
## 57 течение_s 4 63 4
## 58 масса_s 4 63 4
## 59 толпа_s 4 63 4
## 60 вкус_s 4 63 4
## 61 будущее_s 4 63 4
## 62 фильм_s 9 23 3
## 63 папа_s 5 48 3
## 64 признак_s 5 48 3
## 65 женщина_s 5 48 3
## 66 индивидуальность_s 5 48 3
## 67 дом_s 4 63 3
## 68 недостаток_s 4 63 3
## 69 рамка_s 4 63 3
## 70 мысль_s 4 63 3
## 71 окружение_s 4 63 3
## 72 волос_s 4 63 3
## 73 ребята_s 4 63 3
## 74 вещь_s 4 63 3
## 75 личность_s 4 63 3
## 76 возраст_s 4 63 3
## 77 минута_s 3 91 3
## 78 место_s 3 91 3
## 79 мода_s 3 91 3
## 80 город_s 3 91 3
## 81 принцип_s 3 91 3
## 82 цветок_s 3 91 3
## 83 бог_s 3 91 3
## 84 глаз_s 3 91 3
## 85 ситуация_s 3 91 3
## 86 ножка_s 3 91 3
## 87 рука_s 3 91 3
## 88 способность_s 3 91 3
## 89 странность_s 3 91 3
## 90 достоинство_s 3 91 3
## 91 воспитание_s 3 91 3
## 92 черта_s 3 91 3
## 93 мать_s 3 91 3
## 94 случай_s 3 91 3
## 95 одежда_s 3 91 3
## 96 идея_s 3 91 3
## 97 условие_s 3 91 3
## 98 смысл_s 3 91 3
## 99 сердце_s 3 91 3
Слова использованные как минимум три раза
set.seed(100)
TokensNotLike %>%
tokens_keep(pattern = "*_V") %>%
dfm() %>%
textplot_wordcloud(max_words = 50, min_size = 1, rotation = 0)
Список слов, которые появились более чем в одном тексте
TokensNotLike %>%
tokens_keep(pattern = "*_V") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > 1) %>%
arrange(desc(docfreq)) %>%
select(-group)
## feature frequency rank docfreq
## 1 быть_v 206 1 47
## 2 мочь_v 41 2 24
## 3 понимать_v 35 3 23
## 4 жить_v 25 5 21
## 5 знать_v 33 4 19
## 6 считать_v 24 6 18
## 7 становиться_v 23 8 18
## 8 хотеть_v 23 8 18
## 9 говорить_v 22 10 18
## 10 казаться_v 24 6 17
## 11 делать_v 20 11 14
## 12 думать_v 18 13 14
## 13 сказать_v 19 12 13
## 14 любить_v 18 13 11
## 15 учиться_v 12 17 10
## 16 ходить_v 13 16 9
## 17 идти_v 11 18 9
## 18 находить_v 10 21 9
## 19 иметь_v 9 24 9
## 20 бояться_v 14 15 8
## 21 являться_v 11 18 8
## 22 принимать_v 10 21 8
## 23 решать_v 9 24 8
## 24 видеть_v 8 28 8
## 25 замечать_v 11 18 7
## 26 играть_v 9 24 7
## 27 начинать_v 9 24 7
## 28 помогать_v 8 28 7
## 29 смотреть_v 8 28 7
## 30 сделать_v 10 21 6
## 31 сидеть_v 7 31 6
## 32 происходить_v 7 31 6
## 33 пытаться_v 7 31 6
## 34 ждать_v 6 37 6
## 35 проходить_v 6 37 6
## 36 отличать_v 6 37 6
## 37 заниматься_v 6 37 6
## 38 рассказывать_v 7 31 5
## 39 бывать_v 7 31 5
## 40 приходиться_v 6 37 5
## 41 подходить_v 6 37 5
## 42 стоить_v 6 37 5
## 43 слышать_v 6 37 5
## 44 приходить_v 6 37 5
## 45 смочь_v 6 37 5
## 46 хотеться_v 6 37 5
## 47 давать_v 6 37 5
## 48 нравиться_v 6 37 5
## 49 вырастать_v 5 53 5
## 50 вспоминать_v 5 53 5
## 51 стараться_v 5 53 5
## 52 получать_v 5 53 5
## 53 оставаться_v 5 53 5
## 54 уметь_v 5 53 5
## 55 вести_v 5 53 5
## 56 пойти_v 5 53 5
## 57 встречаться_v 7 31 4
## 58 поступать_v 6 37 4
## 59 отдавать_v 6 37 4
## 60 смеяться_v 6 37 4
## 61 появляться_v 5 53 4
## 62 называть_v 5 53 4
## 63 спрашивать_v 5 53 4
## 64 писать_v 5 53 4
## 65 выделяться_v 5 53 4
## 66 относиться_v 5 53 4
## 67 существовать_v 4 71 4
## 68 слушать_v 4 71 4
## 69 захотеть_v 4 71 4
## 70 обращать_v 4 71 4
## 71 встречать_v 4 71 4
## 72 чувствовать_v 4 71 4
## 73 готовить_v 4 71 4
## 74 увидеть_v 4 71 4
## 75 продолжать_v 4 71 4
## 76 находиться_v 4 71 4
## 77 провожать_v 4 71 4
## 78 плакать_v 5 53 3
## 79 ставить_v 5 53 3
## 80 гулять_v 5 53 3
## 81 рассматривать_v 5 53 3
## 82 узнавать_v 4 71 3
## 83 случаться_v 4 71 3
## 84 отвечать_v 4 71 3
## 85 повторять_v 4 71 3
## 86 изменять_v 4 71 3
## 87 приносить_v 4 71 3
## 88 придумывать_v 4 71 3
## 89 полюбить_v 4 71 3
## 90 получаться_v 4 71 3
## 91 молчать_v 4 71 3
## 92 отличаться_v 4 71 3
## 93 создавать_v 3 99 3
## 94 желать_v 3 99 3
## 95 бежать_v 3 99 3
## 96 переводить_v 3 99 3
## 97 направлять_v 3 99 3
## 98 стоять_v 3 99 3
## 99 мечтать_v 3 99 3
## 100 кричать_v 3 99 3
## 101 действовать_v 3 99 3
## 102 обижать_v 3 99 3
## 103 брать_v 3 99 3
## 104 сталкиваться_v 3 99 3
## 105 искать_v 3 99 3
## 106 отправляться_v 3 99 3
## 107 врать_v 3 99 3
## 108 значить_v 3 99 3
## 109 следовать_v 3 99 3
## 110 превращаться_v 3 99 3
## 111 переставать_v 3 99 3
## 112 подумать_v 3 99 3
## 113 приводить_v 3 99 3
## 114 веселиться_v 3 99 3
## 115 попробовать_v 3 99 3
## 116 прятать_v 4 71 2
## 117 написать_v 4 71 2
## 118 расти_v 4 71 2
## 119 проводить_v 4 71 2
## 120 успевать_v 4 71 2
## 121 разводиться_v 3 99 2
## 122 привлекать_v 3 99 2
## 123 бегать_v 3 99 2
## 124 прочитывать_v 3 99 2
## 125 стремиться_v 3 99 2
## 126 вкладывать_v 3 99 2
## 127 показывать_v 3 99 2
## 128 нарисовать_v 3 99 2
## 129 погружаться_v 2 130 2
## 130 увлекать_v 2 130 2
## 131 вернуться_v 2 130 2
## 132 возвращаться_v 2 130 2
## 133 ошибаться_v 2 130 2
## 134 сохранять_v 2 130 2
## 135 исполняться_v 2 130 2
## 136 дружить_v 2 130 2
## 137 оказывать_v 2 130 2
## 138 признавать_v 2 130 2
## 139 соблюдать_v 2 130 2
## 140 учить_v 2 130 2
## 141 одеваться_v 2 130 2
## 142 осознавать_v 2 130 2
## 143 помнить_v 2 130 2
## 144 заводить_v 2 130 2
## 145 возникать_v 2 130 2
## 146 улыбаться_v 2 130 2
## 147 избегать_v 2 130 2
## 148 ездить_v 2 130 2
## 149 летать_v 2 130 2
## 150 страдать_v 2 130 2
## 151 хранить_v 2 130 2
## 152 звать_v 2 130 2
## 153 избавляться_v 2 130 2
## 154 хватить_v 2 130 2
## 155 закладывать_v 2 130 2
## 156 поражать_v 2 130 2
## 157 проживать_v 2 130 2
## 158 высказывать_v 2 130 2
## 159 сдаваться_v 2 130 2
## 160 опускать_v 2 130 2
## 161 причинять_v 2 130 2
## 162 проявлять_v 2 130 2
## 163 бросать_v 2 130 2
## 164 верить_v 2 130 2
## 165 задавать_v 2 130 2
## 166 выходить_v 2 130 2
## 167 научаться_v 2 130 2
## 168 поддаваться_v 2 130 2
## 169 уходить_v 2 130 2
## 170 терять_v 2 130 2
## 171 подарить_v 2 130 2
## 172 навязывать_v 2 130 2
## 173 обеспечивать_v 2 130 2
## 174 составлять_v 2 130 2
## 175 залезать_v 2 130 2
## 176 упасть_v 2 130 2
## 177 связывать_v 2 130 2
## 178 запоминать_v 2 130 2
## 179 начинаться_v 2 130 2
## 180 наступать_v 2 130 2
## 181 посмотреть_v 2 130 2
## 182 добиваться_v 2 130 2
## 183 задумываться_v 2 130 2
## 184 убегать_v 2 130 2
## 185 услышать_v 2 130 2
## 186 наполнять_v 2 130 2
## 187 оказываться_v 2 130 2
## 188 представлять_v 2 130 2
## 189 заканчивать_v 2 130 2
## 190 танцевать_v 2 130 2
## 191 ловить_v 2 130 2
## 192 выражать_v 2 130 2
## 193 наблюдать_v 2 130 2
## 194 общаться_v 2 130 2
## 195 сторониться_v 2 130 2
## 196 изменяться_v 2 130 2
Слова использованные как минимум три раза
set.seed(100)
TokensNotLike %>%
tokens_keep(pattern = "*_A") %>%
dfm() %>%
textplot_wordcloud(max_words = 50, min_size = 0.7, rotation = 0)
Список слов, которые появились более чем в одном тексте
TokensNotLike %>%
tokens_keep(pattern = "*_A") %>%
dfm() %>%
textstat_frequency() %>%
filter(docfreq > 1) %>%
arrange(desc(docfreq)) %>%
select(-group)
## feature frequency rank docfreq
## 1 разный_a 12 2 11
## 2 странный_a 11 4 9
## 3 особенный_a 14 1 8
## 4 новый_a 12 2 8
## 5 маленький_a 11 4 7
## 6 большой_a 11 4 7
## 7 обычный_a 11 4 7
## 8 хороший_a 10 8 7
## 9 должный_a 10 8 7
## 10 похожий_a 9 10 6
## 11 уникальный_a 5 13 5
## 12 главный_a 5 13 5
## 13 плохой_a 7 11 4
## 14 красивый_a 6 12 4
## 15 непохожий_a 5 13 4
## 16 любимый_a 5 13 4
## 17 интересный_a 5 13 4
## 18 сладкий_a 4 19 4
## 19 непонятный_a 4 19 4
## 20 счастливый_a 4 19 4
## 21 школьный_a 4 19 4
## 22 уверенный_a 4 19 4
## 23 детский_a 5 13 3
## 24 готовый_a 4 19 3
## 25 единственный_a 4 19 3
## 26 нужный_a 4 19 3
## 27 спортивный_a 4 19 3
## 28 важный_a 4 19 3
## 29 творческий_a 4 19 3
## 30 волшебный_a 3 32 3
## 31 теплый_a 3 32 3
## 32 свежий_a 3 32 3
## 33 смешной_a 3 32 3
## 34 индивидуальный_a 3 32 3
## 35 окружающий_a 3 32 3
## 36 добрый_a 3 32 3
## 37 прекрасный_a 3 32 3
## 38 настоящий_a 3 32 3
## 39 физический_a 3 32 3
## 40 честный_a 3 32 3
## 41 белый_a 3 32 3
## 42 невыносимый_a 3 32 3
## 43 необычный_a 3 32 3
## 44 внутренний_a 3 32 3
## 45 живой_a 4 19 2
## 46 приятный_a 4 19 2
## 47 общий_a 3 32 2
## 48 розовый_a 3 32 2
## 49 активный_a 2 49 2
## 50 милый_a 2 49 2
## 51 холодный_a 2 49 2
## 52 идеальный_a 2 49 2
## 53 молодой_a 2 49 2
## 54 скромный_a 2 49 2
## 55 сложный_a 2 49 2
## 56 виноватый_a 2 49 2
## 57 светлый_a 2 49 2
## 58 родительский_a 2 49 2
## 59 дружный_a 2 49 2
## 60 последующий_a 2 49 2
## 61 больной_a 2 49 2
## 62 согласный_a 2 49 2
## 63 современный_a 2 49 2
## 64 легкий_a 2 49 2
## 65 человеческий_a 2 49 2
## 66 высокий_a 2 49 2
## 67 способный_a 2 49 2
## 68 жизненный_a 2 49 2
## 69 серый_a 2 49 2
## 70 правильный_a 2 49 2
## 71 талантливый_a 2 49 2
## 72 больший_a 2 49 2
## 73 близкий_a 2 49 2
## 74 короткий_a 2 49 2
## 75 пустой_a 2 49 2