Получим слова, очистим их от стоп-слов. В стандартном списке стоп-слов нет устаревших английских выражений, которые часто встречаются в тексте данного перевода, поэтому добавим вручную составленный список таких слов
За исключением служебных слов note (“примечание”) и canto (“глава”) заметны имена главных героев - Татьяны, Евгения, Ольги, Ленского, также слова, связанные со временем событий (day, days, night, time, winter) - вспомним одно из примечаний, в оригинале звучащее как
Смеем уверить, что в нашем романе время расчислено по календарю.
Заметны также слова, связанные с любовными отношениями (love, heart, dear).
Посмотрим теперь на имена собственные. Для этого проведем разметку частей речи с помощью udpipe.
Downloading udpipe model from https://raw.githubusercontent.com/jwijffels/udpipe.models.ud.2.5/master/inst/udpipe-ud-2.5-191206/english-ewt-ud-2.5-191206.udpipe to /Users/ekvoron/Programming/R/HSE/Text Analysis/onegin_project/english-ewt-ud-2.5-191206.udpipe
- This model has been trained on version 2.5 of data from https://universaldependencies.org
- The model is distributed under the CC-BY-SA-NC license: https://creativecommons.org/licenses/by-nc-sa/4.0
- Visit https://github.com/jwijffels/udpipe.models.ud.2.5 for model license details.
- For a list of all models and their licenses (most models you can download with this package have either a CC-BY-SA or a CC-BY-SA-NC license) read the documentation at ?udpipe_download_model. For building your own models: visit the documentation by typing vignette('udpipe-train', package = 'udpipe')
Downloading finished, model stored at '/Users/ekvoron/Programming/R/HSE/Text Analysis/onegin_project/english-ewt-ud-2.5-191206.udpipe'
Посчитаем частотность лемм имен собственных. К ним относятся и названия разделов, обозначенные римскими цифрами, поэтому уберем их с помощью регулярного выражения.
# A tibble: 20 × 2
lemma n
<chr> <int>
1 Tattiana 91
2 Eugene 54
3 Olga 34
4 Lenski 30
5 nor 28
6 Onéguine 26
7 God 21
8 Tania 21
9 Pushkin 17
10 Alas 16
11 Russia 15
12 Canto 14
13 Moscow 14
14 Neva 11
15 Petersburg 11
16 Zaretski 10
17 Napoleon 9
18 Byron 8
19 St. 8
20 Winter 8
Тут сразу видны имена главных героев - Татьяны (включая уменьшительно-ласкательную версию Таня), Евгения, Ольги, Ленского, а так же имя самого Пушкина (оно часто встречается в примечаниях). Также присутствует некоторое кол-во ошибок лемматизации. Посмотрим на облако слов.
Тут заметны еще и географические названия мест, где происходят действия поэмы - Петербург, Москва, Россия. Кроме того, встречается Mikhailovskoe (село Михайловское), как указание на место, где были написаны некоторые главы.
Обратим внимание, что имя Ленского (Vladimir) едва заметно, в то время как имя Онегина (Eugene) - топ-2 по частотности. Я не проводил анализ оригинала произведения, но насколько я помню, в нем эта закономерность тоже была.
В заключение построим barplot для сравнения частотности упоминания имен (не персонажей - мы не ставили соответсвие имен и фамилий)