Определение авторства текстов британской прозы

Автор

Екатерина Егоренкова

Дата публикации

7.06.2025

Введение

Корпус “A Small Collection of British Fiction” включает 27 произведений британской прозы XVIII - XIX веков, представленных такими авторами, как Jane Austen, сестры Bronte, Charles Dickens, Fielding и др.

Цель этой работы - определить, можно ли классифицировать отрывки текстов по автору на основе стилистических и лингвистических признаков, используя современные методы машинного обучения. Стилистические различия между авторами могут отражать индивидуальный почерк, влияние жанра и эпохи, различия в темах, персонажах, типе нарратива.

Для начала файлы с текстами были объединены с метаданными о них, такими как имя автора, дата первой публикации, комментарий.

Предобработка и признаки

Тексты обрабатываются через модель udpipe для английского языка. Извлекаются только леммы, исключаются:

  • стоп-слова (английский список snowball);
  • имена собственные, знаки препинания, цифры, символы (PROPN, PUNCT, SYM, NUM).

Имена собственные тоже были удалены, так как модель должна запоминать не конкретные произведения с их персонажами и локациями, а авторский стиль.

Разбиваем тексты на открывки по 500 лемм, чтобы увеличить объем данных. Для каждого отрыка вычислены признаки:

  • доля стоп-слов
  • средняя длина слова и предложения
  • частотность частей речи (по upos)

Доля стоп-слов

Наибольшая доля стоп-слов у Richardson и Austen, наименьшая - у Bronte Charlotte и Bronte Emily.

Высокая доля служебных слов может указывать на разговорный стиль, насыщенный диалогами и внутренними монологами. Это характерно, например, для Austen - её проза насыщена социальным взаимодействием, репликами и логическими связками.

Низкие значения у Charlotte и Emily Bronte отражают их более эмоционально нагруженный стиль, с преобладанием смысловых слов над связующими.

Средняя длина слова

Здесь Fielding и Charlotte Bronte - лидеры, внизу - Richardson и Sterne.

Длинные слова - маркер формальной, риторической прозы. Например, Fielding часто использует юридическую или философскую лексику.

Короткие слова характерны для эмоционально насыщенной или разговорной речи - у Sterne это часто ирония, пародия.

Средняя длина предложения

Резко выделяется Sterne - более 40 слов в среднем. Также высокие значения у Fielding, Thackeray.

Длинные предложения - типичный признак риторического, старшего литературного стиля XVIII века, часто с вставными конструкциями, уточнениями, обращениями.

У Emily Bronte и Dickens предложения короче - это соответствует более динамичной, сюжетно насыщенной прозе с большим числом сцен и диалогов.

Расшифровка POS-тегов:

  • NOUN - Существительные

  • VERB - Глаголы

  • ADJ - Прилагательные

  • ADV - Наречия

  • PROPN - Имена собственные

  • AUX - Вспомогательные глаголы

  • PRON - Местоимения

  • CCONJ - Сочинительные союзы

  • INTJ - Междометия

  • DET - Определители

  • SCONJ - Подчинительные союзы

  • X / PART - Частицы и прочие

NOUN (существительные) и VERB (глаголы) - доминирующие категории у всех авторов, что естественно для художественной прозы.

Charlotte Bronte выделяется самой высокой долей существительных (NOUN), что может свидетельствовать о насыщенности описаний и предметности повествования.

Laurence Sterne напротив, имеет менее выраженное использование глаголов и больше равномерности между частями речи - отражение его ироничного стиля.

Thackeray и Trollope используют больше PROPN (имена собственные) - это может говорить о сюжетной насыщенности, где важны индивидуальные персонажи.

Eliot и Dickens - относительно сбалансированы: их тексты демонстрируют умеренное использование разных частей речи.

AUX, ADV, CCONJ: высокая доля вспомогательных глаголов и наречий у Austen и Anne Bronte характерна для стиля внутреннего диалога и психологического анализа.

Можно предположить, что различия в частотности частей речи не случайны: они отражают поэтику авторов, жанровые особенности (эпистолярность, романтизм, реализм).

В результате получаем таблицу со всеми признаками:

Посмотрим на корреляцию этих признаков

Положительная корреляция ADJ и ADV - высокая взаимосвязь прилагательных и наречий: тексты с насыщенностью прилагательными, как правило, также изобилуют наречиями. Это ожидаемо: оба признака часто встречаются в описательной прозе.

AUX и stopword_ratio - вспомогательные глаголы (AUX) составляют значительную часть стоп-слов, так что корреляция здесь естественна. Тексты с большим количеством грамматических конструкций будут показывать и больше stopword_ratio.

CCONJ и avg_sentence_length - тексты с большим числом сочинительных союзов (and, but, or) чаще включают более длинные предложения. Это отражает синтаксическую сложность: авторы, строящие сложносочиненные предложения, показывают обе эти черты.

Отрицательная корреляция stopword_ratio и avg_word_length - обратная связь: чем больше служебных слов, тем короче средняя длина слова. Стоп-слова - это, как правило, короткие: in, of, was, do. Стиль, насыщенный грамматическими конструкциями, менее “лексически плотный”.

PRON и NOUN - конкуренция между местоимениями и существительными: если в тексте часто используется he, she, it, то прямое называние сущностей встречается реже. Это важное стилистическое различие: абстрактный стиль против конкретного.

Разведывательный анализ

PCA - линейный метод, проецирующий данные на оси, объясняющие наибольшую дисперсию.

График демонстрирует большую скученность точек. Явных кластеров нет, но можно заметить, что у некоторых авторов (например, Fielding, Sterne) есть умеренное смещение.

Стиль большинства авторов линейно неразделим на основе выбранных признаков. PCA не полностью справляется с задачей разграничения.

PLS стремится выделить компоненты, максимизирующие различия в целевой переменной (автор).

График десонстрирует более явное отделение групп, чем в PCA, особенно у Richardson, Fielding, Trollope. Некоторые авторы тяготеют к полюсам. PLS эффективнее выявляет стилистические особенности, важные для классификации, но все же сохраняется значительное перекрытие.

UMAP - нелинейный метод, сохраняющий локальную структуру данных.

Гораздо более четкие кластеры. Например, Richardson образует плотную область, Sterne и Thackeray заметно отделены. UMAP наиболее эффективно разделяет авторов по стилю. Это говорит о том, что стилистические различия между авторами имеют нелинейную природу, и для успешной классификации стоит использовать методы, способные её уловить.

Важность признаков

Для оценки значимости признаков обучим модель случайного леса на полной таблице признаков. Она измеряет, насколько ухудшается точность модели при случайной перестановке значений признака.

Важнейшими предикторами оказались stopword_ratio, а также доли некоторых частей речи - ADV, AUX, NOUN, CCONJ. Это соответствует интуитивным представлениям о стиле: например, служебные слова (stopword_ratio) указывают на диалогичность, а союзные конструкции (CCONJ) - на синтаксическую сложность.

Сравнение моделей и рецептов

Данные делятся на тренировочную и тестовую выборки. strata = author гарантирует пропорциональное распределение авторов. Выбираем наиболее важные признаки на основе результатов Random Forest.

Создаются рецепты:

  • top5: использует 5 важных признаков;

  • top3: использует только 3 топ-признака;

  • umap: применяет UMAP для снижения размерности на всех числовых признаках.

step_upsample() балансирует классы авторов (многие авторы представлены неравномерно). step_normalize() приводит признаки к одному масштабу.

Три модели:

  • Логистическая регрессия

  • Random Forest с тюнингом параметров mtry, min_n

  • kNN (ближайшие соседи)

Создаем workflow_set, где каждая модель обучается с каждым рецептом (всего 3 × 3 = 9 комбинаций). Для каждой комбинации рецепта и модели проводится тюнинг с 10 наборами параметров и расчетом метрик (итого 90 конфигураций)

Расчет метрик:

accuracy - точность

kap - коэффициент каппы (согласие)

mn_log_loss - мультиклассовая логарифмическая потеря

График демонстрирует наиболее высокие показатели точности у моделей случайного леса.

Увидев высокие показатели у top5, umap и Random Forest, ради эксперимента объединили все эти шаги в один воркфлоу, но получили точность 0,28.

Лучшей комбинацией признаем модель umap_rf: Используется UMAP как способ снижения размерности признаков. Модель - Random Forest. Это даёт самую высокую точность: 42% при 11 классах (авторах), что значительно выше случайного угадывания (примерно 9%).

Все модели, где применён UMAP (umap_rf, umap_knn, umap_logistic), дают выше точность, чем аналоги без него.

Финальная модель и метрики

После настройки и кросс-валидации моделей с использованием различных рецептов и алгоритмов, выбираем наилучшую конфигурацию на основании максимальной точности (accuracy). Наиболее высокую точность показал Random Forest, обученный на признаках, полученных через UMAP-преобразование.

Для оценки качества финальной модели делаем предсказания на ранее отложенной тестовой выборке.

Матрица ошибок показывает, насколько успешно модель различает авторов. Значения на диагонали - это правильные предсказания, а вне диагонали - ошибки классификации.

Наилучшее качество классификации достигнуто для автора Richardson Samuel - 194 правильных из ~250. Его стиль явно выделяется за счет длинных предложений, архаической синтаксической структуры и высокой частотности союзов и вспомогательных глаголов.

Также довольно хорошо различимы тексты Jane Austen и Charles Dickens, несмотря на то, что стиль Austen более разговорный и насыщен стоп-словами, а у Dickens наблюдается высокая плотность существительных и описательных структур.

Хуже всего классифицируются тексты Bronte - особенно Emily и Anne, что объяснимо: стиль сестер схож, а объем их текстов в корпусе ограничен.

Для более сбалансированной оценки была рассчитана метрика ROC AUC (macro-weighted), которая учитывает производительность по каждому классу (автору) с учетом их представленности. Полученное значение: ROC AUC = 0.804

Это достаточно высокий результат для мультиклассовой задачи с 11 авторами. Он показывает, что модель хорошо отделяет авторов друг от друга в пространстве вероятностей - даже если точная классификация иногда ошибается, модель “уверенно путает похожих”.

Финальная модель - это классификатор, способный различать авторов британской прозы XVIII–XIX веков по стилю. Однако ошибки в распознавании сестер Bronte, частичная путаница между Thackeray и Trollope и перекрестные ошибки у Dickens и Eliot указывают на близость стилистических черт внутри определенных направлений и эпох. Это может подтверждать, что стилистика - это не только индивидуальная особенность, но и часть более широкой литературной традиции.