#| echo: true
#| message: false
freq_data <- read.table("table_with_frequencies.txt",
header=TRUE,
row.names=1,
check.names=FALSE)
freq_data <- as.data.frame(t(freq_data))
authors <- str_extract(rownames(freq_data), "^[^_]+")
colors <- setNames(rainbow(length(unique(authors))), unique(authors))
text_colors <- colors[authors]Консенсусное дерево - анализ стилометрической принадлежности автора ‘Тихого Дона’
Здесь строится консесусное дерево текстов авторов XX века с использованием метода Bootstrap Consensus Tree из пакета stylo.
Загружаем данные
Строим дерево
bct_result <- stylo(gui = FALSE,
frequencies = freq_data,
analysis.type = "BCT",
mfw.min = min(100, ncol(freq_data)),
mfw.max = min(500, ncol(freq_data)),
mfw.incr = 50,
distance.measure = "wurzburg",
write.png.file = TRUE, # сохраняет картинку
consensus.strength = 0.5,
image.format = "png")cons_tree = bct_result$consensus.tree
print(bct_result)Комментарий
Видно, что разные авторы группируются в единые кластеры, между авторами нет пересечений; единственное исключение - Шолохов и автор “Тихого Дона”.
Авторов согласно дереву можно разделить на две группы, что может говорить об относительной стилистической близости авторов внутри групп и разние между этими двумя группами.
Стилистически ближе всего к “Тихому Дону” - “Донские рассказы” Шолохова.