Консенсусное дерево - анализ стилометрической принадлежности автора ‘Тихого Дона’

Автор

Ольга Старунова

Дата публикации

15 февраля 2026 г.

Здесь строится консесусное дерево текстов авторов XX века с использованием метода Bootstrap Consensus Tree из пакета stylo.

Загружаем данные

#| echo: true
#| message: false
freq_data <- read.table("table_with_frequencies.txt", 
                       header=TRUE, 
                       row.names=1, 
                       check.names=FALSE)
freq_data <- as.data.frame(t(freq_data))

authors <- str_extract(rownames(freq_data), "^[^_]+")
colors <- setNames(rainbow(length(unique(authors))), unique(authors))
text_colors <- colors[authors]

Строим дерево

bct_result <- stylo(gui = FALSE, 
                   frequencies = freq_data, 
                   analysis.type = "BCT",
                   mfw.min = min(100, ncol(freq_data)), 
                   mfw.max = min(500, ncol(freq_data)), 
                   mfw.incr = 50,
                   distance.measure = "wurzburg",
                   write.png.file = TRUE,  # сохраняет картинку
                   consensus.strength = 0.5,
                   image.format = "png")

cons_tree = bct_result$consensus.tree

print(bct_result)

Комментарий

  1. Видно, что разные авторы группируются в единые кластеры, между авторами нет пересечений; единственное исключение - Шолохов и автор “Тихого Дона”.

  2. Авторов согласно дереву можно разделить на две группы, что может говорить об относительной стилистической близости авторов внутри групп и разние между этими двумя группами.

  3. Стилистически ближе всего к “Тихому Дону” - “Донские рассказы” Шолохова.