Введение

Допустим, в нашем научном поле поставили острый вопрос авторства (например: правда ли автором “Тихого Дона” является Шолохов, а не, скажем, Фадеев?). Одним из методов, способных помочь нам ответить на этот вопрос является иерархическая кластеризация и её визуализация через консенсусные деревья.

В домашнем задании предлагалось скачать файл со стилометрическими данными “Тихого Дона” и романов других авторов, современников Шолохова, дабы проверить высказанную выше гипотезу с точки зрения стилометрии.

Вот как описывают данные сами создатели: “Представленные данные позволяют воспроизвести исследование, описанное в статье Великанова Н. П., Орехов Б. В. Цифровая текстология: атрибуция текста на примере романа М. А. Шолохова «Тихий Дон» // Мир Шолохова. Научно-просветительский общенациональный журнал. — 2019. — № 1. — С. 70—82. Файлы позволяют более внимательно рассмотреть все количественные показатели и повторить исследование, описанное в статье по ссылке.”

Консенсусное дерево советских авторов (современников Шолохова)

Напишем следующие строчки кода:

data <- t(read.table("table_with_frequencies.txt"))
orekhov_dataset <- as.matrix(data)

bct_result <- stylo(gui = FALSE,
                    frequencies = orekhov_dataset,
                    analysis.type = "BCT",
                    mfw.min = 100,
                    mfw.max = 500,
                    mfw.incr = 100,
                    distance.measure = "wurzburg",
                    write.png.file = TRUE,
                    consensus.strength = 0.5,
                    plot.custom.width = 8,
                    plot.custom.height = 8,
                    custom.graph.title = "Консенсусное дерево советских авторов (современников Шолохова)"
                    )

При запуске мы получили следующую картинку:

Коротко опишем наши наблюдения:

  1. Полученное дерево можно мысленно поделить на две половины: “верхнюю”, в которую вошли все такие авторы как Булгаков, Фадеев,Островский, Платонов, Севский, Крюков, Леонов, Фурманов; и “нижнюю”: Шолохов, Серафимович и Иванов. Никаких пересечений авторов нет - то есть, все работы одного автора или сходятся сразу в одном узле, или сходятся в течение двух-трех объединений

  2. Наиболее “разными” с точки зрения иерархической кластеризации являются Шолохов и Крюков: некоторые их работы отстоят достаточно далеко от остальных их работ (“Шквал” Крюкова, например)

  3. В случае Шолохова это можно объяснить временем - ранний Шолохов (разница во времени написания “Донских рассказов” и “Судьбы человека” - 31 год!)

А теперь вернемся к вопросу авторства “Тихого Дона” - иерархическая кластеризация показала, что ближе всего к роману находятся именно произведения Шолохова разных периодов, а не произведения других кандидатов. И если сходство с “Донскими рассказами” еще хоть как-то можно считать связанным со совпадающей тематикой, то вот близость “Поднятой целины” с четвертым томом так легко не объясняется.