Сравнений произведений в жанре антиутопия

Автор

Влада Берлин

Дата публикации

28 ноября 2024 г.

Страница посвящена сравнению трех произведений в жанре антиутопия: “Мы” Замятина, “1984” Оруэлла и “О дивный новый мир” Хаксли.

Подготовка данных

Импорт библиотек

library(rvest)
library(tidyverse)
library(udpipe)
library(stopwords)
library(wordcloud)
library(stringr)

Скачиваем модель для лемматизации и определяем цвета для визуализации

udpipe_download_model(language = "russian-syntagrus")
ru_model <- udpipe_load_model(file = "russian-syntagrus-ud-2.5-191206.udpipe")

pal <- c("#f1c40f", "#34495e", 
         "#8e44ad", "#3498db",
         "#2ecc71")

Дополнительные стоп-слова

Помимо слов, имеющихся в списке стоп-слов библиотеки stopwords, мы также уберем из наших данных слова, которые имеют высокую частотность в этих текстах, но при этом не несут высокой смысловой нагрузки для нашего исследования, так как не смогут дать представление о тематике произведения

stops <- c('это', 'весь', 'какой-то', 'что-то', 'который', 'оно', 'затем', 'лишь')

“Мы” Замятина (Замятин 1920)

# Достаем текст произведения
zam <- read_html('https://www.laban.rs/lib/Zamyatin/MY')
zam_table <- tibble(text = zam |>
                      html_elements('p') |>
                      html_text2())

# Аннотируем текст, при этом сразу убираем пунктуацию,
# так как в нашем исследовании она неважна, а также
# убираем латинские буквы, так как в произведении Замятина
# имена персонажжей выглядят как "латинская буква"-"номер",
# и udpipe выделяет латинские буквы как отдельные леммы,
# из-за чего одной из частотных лемм становится i, так как
# эта буква содержится в имени главной героини
zam_annotate <- udpipe_annotate(ru_model, zam_table$text)
zam_pos <- as_tibble(zam_annotate) |>
  filter(upos != 'PUNCT') |>
  filter(str_detect(lemma, '[a-zA-Z]') == FALSE) |>
  select(token, lemma, upos, feats)

# Подготавливаем данные для построения облака слов
# Мы убираем имена собственные, так как имена персонажей,
# скорее всего, будут часто встречаться, но при этом не
# помогут нам при сравнении произведений
# Также мы убираем стоп-слова
zam_words <- zam_pos |>
  filter(upos != 'PROPN') |>
  select(lemma) |>
  filter(!lemma %in% stops) |>
  filter(!lemma %in% stopwords('ru'))|>
  count(lemma)

# Строим облако слов
wordcloud(zam_words$lemma, 
          zam_words$n,
          min.freq = 50,
          scale = c(3, 0.8),
          colors = pal, 
          random.color = T, 
          rot.per = .2
)

“1984” Оруэлла (Оруэлл 1949)

То же самое проделываем с книгой Оруэлла

# Достаем текст произведения
orw <- read_html('https://www.laban.rs/orwell/1984/1984_ru')
orw_table <- tibble(text = orw |>
                      html_elements('p') |>
                      html_text2())

# Аннотируем текст и убираем пунктуацию
orw_annotate <- udpipe_annotate(ru_model, orw_table$text)
orw_pos <- as_tibble(orw_annotate) |>
  filter(upos != 'PUNCT') |>
  select(token, lemma, upos, feats)

# Подготавливаем данные для построения облака слов
orw_words <- orw_pos |>
  filter(upos != 'PROPN') |>
  select(lemma) |>
  filter(!lemma %in% stops) |>
  filter(!lemma %in% stopwords('ru'))|>
  count(lemma)

# Строим облако слов
wordcloud(orw_words$lemma, 
          orw_words$n,
          min.freq = 50,
          scale = c(3, 0.8),
          colors = pal, 
          random.color = T, 
          rot.per = .2
)

“О дивный новый мир” Хаксли (Олдос 1932)

# Достаем текст произведения
hux <- read_html('https://www.laban.rs/lib/Aldous_Huxley/O_divnyjj_novyjj_mir')
hux_table <- tibble(text = hux |>
                      html_elements('p') |>
                      html_text2())

# Аннотируем текст
hux_annotate <- udpipe_annotate(ru_model, hux_table$text)
hux_pos <- as_tibble(hux_annotate) |>
  filter(upos != 'PUNCT') |>
  select(token, lemma, upos, feats)

# Подготавливаем данные для построения облака слов
hux_words <- hux_pos |>
  filter(upos != 'PROPN') |>
  select(lemma) |>
  filter(!lemma %in% stops) |>
  filter(!lemma %in% stopwords('ru'))|>
  count(lemma)

# Строим облако слов
wordcloud(hux_words$lemma, 
          hux_words$n,
          min.freq = 50,
          scale = c(3, 0.8),
          colors = pal, 
          random.color = T, 
          rot.per = .2
)

Можно заметить, что во всех трех произведениях часто используется слово “мочь”, что может быть связано с тем, что главные герои, живут в тоталитарной системе, в которой существует множество правил и ограничений, то есть много “можно” и “нельзя”, а потом встречают персонажа, который открывает главному герою глаза на происходящее и переманивает на свою сторону, то есть появляются новые “могу” и “можно”. Кроме того, во всех трех книгах часто встречаются слова для обозначения частей тела: глаз, лицо. голова. Скорее всего, это связанно, во-первых, с тем, что эти слова могут применяться для описания внешности персонажей (особенно “лицо”), кроме того, с помощью глаз можно передать настроение и состояние персонажа. Также частотно слово “слово”, которое, скорее всего, также как “мочь”, отсылает к тоталитарному миру произведения (например, это может запрет на использование каких-то слов, которое упоминается в сюжете). Стоит обратить внимание, что в “Мы” и “1984” часто используются слова, которые относятся к тематике ощущений и восприятий (“чувствовать”, “чувство”, цветообозначения), в то время как в “О дивный новый мир” такого не наблюдается. Из этого можно сделать вывод, что “Мы” и “1984” действительно больше схожи между собой тематически, чем каждый из них с “О дивный новый мир”

Сравнение частоты использования частей речи

Наша гипотеза заключается в том, что топ-3 самых частотных частей речи будет выглядеть как “существительное, глагол, местоимение” для романа “Мы”, так как он написан в формате дневниковых записей, то есть там довольно частотным должно быть местоимение я, а для двух других произведений на третьем месте будет прилагательное.

Топ-5 частей речи для каждого произведения

Мы выводим топ-5, так как наша гипотеза может не подтвердиться, и какая-то из частей речи не будет в топ-3, в таком случае нам интересно посмотреть, попала ли она в топ-5. Кроме того, если топ-3 самых частотных частей речи можно как-то предположить, то с топ-5 это уже сложнее, поэтому нам может быть интересно посмотреть на него

“Мы” Замятина

head(zam_pos |>
  count(upos) |>
  arrange(desc(n)), 5)

Здесь наша гипотеза полностью подтвердилась, самыми частотными частями речи оказались существительные, глаголы и местоимения. На четвертом и пятом местах оказались прилагательные и наречия, что довольно ожидаемо, исходя из среднестатистической частотности употребления частей речи и того факта, что роман написан в виде дневниковых записей

“1984” Оруэлла

head(orw_pos |>
       count(upos) |>
       arrange(desc(n)), 5)

Здесь наша гипотеза подтвердилась не полностью. Существительные и глаголы действительно являются самыми частотными частями речи, но на третьем месте находятся предлоги, а прилагательные оказались на пятом месте; на четвертом месте находятся местоимения. Если посмотреть на статистику использования частей речи в русском языке из Частотного словаря современного русского языка (Ляшевская 2009), то там предлоги находятся на третьем месте, а прилагательные - на четвертом, то есть факт попадания прелогов в топ-3 можно было ожидать, но для художественной литературы привычно увеличенное использование прилагательных в качестве средств художественной выразительности, поэтому ожидалось, что прилагательные все же будут входить в топ-3

“О дивный новый мир” Хаксли

head(hux_pos |>
       count(upos) |>
       arrange(desc(n)), 5)

Здесь также не полностью подтвердилась гипотеза, на третьем месте опять же оказались предлоги, но, в отличие от “1984”, прилагательные находятся на четвертом месте, а замыкают пятерку наречия.

Вывод

Ожидаемо, во всех трех произведениях двумя самыми частотными частями речи являются существительные и глаголы, остальные же позиции в топ-5 отличаются. Интересно, что по частотности частей речи больше схожи “Мы” и “О дивный новый мир” (отличается только часть речи на третьем месте), при этом у “1984” и “О дивный новый мир” полностью совпадает топ-3.

использованная литература

Замятин, Евгений Иванович. 1920. Мы.
Ляшевская, Шаров С. А., О. Н. 2009. «Частотный словарь современного русского языка (на материалах Национального корпуса русского языка)».
Олдос, Леонард Хаксли. 1932. О дивный новый мир. Переведено Осия Петрович Сорока.
Оруэлл, Джордж. 1949. 1984. Переведено Виктор Петрович Голышев.