Допустим, в нашем научном поле поставили острый вопрос авторства (например: правда ли автором “Тихого Дона” является Шолохов, а не, скажем, Фадеев?). Одним из методов, способных помочь нам ответить на этот вопрос является иерархическая кластеризация и её визуализация через консенсусные деревья.
В домашнем задании предлагалось скачать файл со стилометрическими данными “Тихого Дона” и романов других авторов, современников Шолохова, дабы проверить высказанную выше гипотезу с точки зрения стилометрии.
Вот как описывают данные сами создатели: “Представленные данные позволяют воспроизвести исследование, описанное в статье Великанова Н. П., Орехов Б. В. Цифровая текстология: атрибуция текста на примере романа М. А. Шолохова «Тихий Дон» // Мир Шолохова. Научно-просветительский общенациональный журнал. — 2019. — № 1. — С. 70—82. Файлы позволяют более внимательно рассмотреть все количественные показатели и повторить исследование, описанное в статье по ссылке.”
Напишем следующие строчки кода:
data <- t(read.table("table_with_frequencies.txt"))
orekhov_dataset <- as.matrix(data)
bct_result <- stylo(gui = FALSE,
frequencies = orekhov_dataset,
analysis.type = "BCT",
mfw.min = 100,
mfw.max = 500,
mfw.incr = 100,
distance.measure = "wurzburg",
write.png.file = TRUE,
consensus.strength = 0.5,
plot.custom.width = 8,
plot.custom.height = 8,
custom.graph.title = "Консенсусное дерево советских авторов (современников Шолохова)"
)
При запуске мы получили следующую картинку:
Коротко опишем наши наблюдения:
Полученное дерево можно мысленно поделить на две половины: “верхнюю”, в которую вошли все такие авторы как Булгаков, Фадеев,Островский, Платонов, Севский, Крюков, Леонов, Фурманов; и “нижнюю”: Шолохов, Серафимович и Иванов. Никаких пересечений авторов нет - то есть, все работы одного автора или сходятся сразу в одном узле, или сходятся в течение двух-трех объединений
Наиболее “разными” с точки зрения иерархической кластеризации являются Шолохов и Крюков: некоторые их работы отстоят достаточно далеко от остальных их работ (“Шквал” Крюкова, например)
В случае Шолохова это можно объяснить временем - ранний Шолохов (разница во времени написания “Донских рассказов” и “Судьбы человека” - 31 год!)
А теперь вернемся к вопросу авторства “Тихого Дона” - иерархическая кластеризация показала, что ближе всего к роману находятся именно произведения Шолохова разных периодов, а не произведения других кандидатов. И если сходство с “Донскими рассказами” еще хоть как-то можно считать связанным со совпадающей тематикой, то вот близость “Поднятой целины” с четвертым томом так легко не объясняется.