Классификация британских романов XVIII–XIX веков

Автор

Анастасия Орлова

Дата публикации

7.06.2025

Мы рассмотрим стилистические признаки 27 классических британских романов XVIII–XIX веков и классифицируем их по авторам.

Корпус представлен следующими текстами:

Джейн Остин — «Эмма, Гордость и предубеждение»«Чувство и чувствительность».
Энн Бронте — «Агнес Грей»«Незнакомка из Уайлдфелл-Холла».
Шарлотта Бронте — «Джейн Эйр»«Учитель»«Городок».
Эмили Бронте — «Грозовой перевал».
Чарльз Диккенс — «Холодный дом, «Дэвид Копперфильд, «Тяжёлые времена».
Джордж Элиот — «Адам Бид»«Мидлмарч: картины провинциальной жизни»«Мельница на Флоссе».
Генри Филдинг — «История приключений Джозефа Эндруса и его друга Абраама Адамса», «История Тома Джонса, найденыша».
Сэмюэл Ричардсон — «Кларисса», «Памела, или награждённая добродетель».
Лоренс Стерн — «Сентиментальное путешествие по Франции и Италии»«Жизнь и мнения Тристрама Шенди, джентльмена».
Энтони Троллоп — «Барчестерские башни»«Финеас Финн»«Премьер-министр».
Уильям Мейкпис Теккерей — «Записки Барри Линдона», «Пенденнис»«Ярмарка тщеславия».

Как видно из списка текстов, корпус не является однородным. Он включает произведения, созданные в разные исторические периоды, что само по себе влечёт за собой существенные различия в языке, синтаксисе и стилистике. В коллекции представлены различные литературные направления — от сентиментализма и раннего реализма до зрелого викторианского романа. Авторский состав представлен неравномерно: одни писатели включены несколькими произведениями (например, Чарльз Диккенс, Джордж Элиот), тогда как другие — лишь одним текстом (например, Эмили Бронте). Такая структура корпуса может влиять на устойчивость и обобщаемость результатов анализа.

Jane Frightened in Her Bedroom, 1922. Art Prints from Mary Evans.

1 Подготовка корпуса

Для предварительной обработки текста и подготовки корпуса к дальнейшему анализу были выполнены следующие этапы: произведена базовая очистка текста, включая удаление римских и арабских цифр, токенизация и лемматизация. После этого были рассчитаны частотные характеристики лексических единиц и извлечена статистика по частям речи.

Несмотря на то что данные о частях речи были успешно получены, они не были включены в итоговое построение признакового пространства, так как для сравнительно небольшого объема текстов включение обобщённых грамматических признаков не способствовало повышению качества классификации, а также могло привести к избыточности данных и снижению устойчивости модели.

#Подготовка модели В процессе построения признаков для модели была использована относительная частотность слов, то есть доля каждого слова (или токена) по отношению к общему количеству слов в тексте. Такой подход позволяет нивелировать влияние длины текстов и сосредоточиться на стиле и предпочтениях автора в выборе лексики.

Дополнительно применялась настройка culling из пакета stylo, которая играет важную роль в очистке признакового пространства. Параметр culling определяет минимальную долю текстов, в которых слово должно встречаться, чтобы быть включённым в итоговую таблицу частот.

Перед выбором и обучением моделей классификации корпус текстов был разделён на обучающую и тестовую выборки. Это деление было выполнено с учётом сбалансированности по целевой переменной (автору). Обучающая выборка использовалась для настройки и кросс-валидации моделей, тогда как тестовая — для итоговой оценки их качества. Такой подход обеспечивает надёжность полученных результатов и позволяет избежать переобучения.

2 Разведывательный анализ

На этапе разведывательного анализа были визуализированы главные компоненты. На графике видно, что распределение классов (авторов) на плоскости частично пересекается, однако при этом некоторые авторы формируют относительно обособленные группы. Это указывает на наличие определённых стилевых различиях между писателями, но также свидетельствует о значительной степени лексико-стилистического сходства внутри корпуса.

Визуализация главных компонент.

В рамках разведывательного анализа текстов дополнительно был применён метод UMAP (Uniform Manifold Approximation and Projection) для визуализации данных в пространстве пониженной размерности. Этот метод позволяет более нагладно оторазить скрытые закономерности и кластеры в данных.

3 Оценка и выбор моделей

В процессе моделирования были протестированы различные комбинации методов предобработки и алгоритмов классификации. На этапе подготовки признаков использовались как базовые рецепты с нормализацией, так и методы понижения размерности, включая PCA (Principal Component Analysis), PLS (Partial Least Squares) и UMAP (Uniform Manifold Approximation and Projection). Однако на практике не все варианты показали устойчивую или воспроизводимую работу.

Часть рецептов и моделей пришлось исключить по следующим причинам:

  • Неравномерность классов и различная представленность авторов приводили к тому, что некоторые алгоритмы (особенно более чувствительные к размерности) не могли корректно обрабатывать данные и завершались ошибками на этапе кросс-валидации.
  • Модели с высокой чувствительностью к линейной зависимости признаков (например, bagging и flexible discriminant analysis) не справлялись с результирующими матрицами после снижения размерности.
  • UMAP-рецепты с параметрами, подлежащими тюнингу, часто давали нестабильные результаты и перегружали процесс обучения.

В результате были оставлены только наиболее надёжные и воспроизводимые комбинации, а среди моделей были отобраны:

  • SVM
  • lasso
  • ridge
  • KNN

Этот отбор позволил сосредоточиться на тех вариантах, которые демонстрируют наилучший баланс между точностью, интерпретируемостью и стабильностью при кросс-валидации.

Из графика видно, что наилучшей моделью оказалась base_ridge.

1 base_ridge Preprocessor1_Model1 accuracy 0.9957894 0.001404132 10 recipe multinom_reg 1
2 base_ridge Preprocessor1_Model1 f_meas 0.9909824 0.003572690 10 recipe multinom_reg 1
3 base_lasso Preprocessor1_Model1 accuracy 0.9924245 0.001373774 10 recipe multinom_reg 2

Применение модели к тестовой выборке показало очень высокие результаты:

1 f_meas macro 0.9920122 Preprocessor1_Model1
2 accuracy multiclass 0.9962217 Preprocessor1_Model1
3 roc_auc hand_till 1.0000000 Preprocessor1_Model1

По представленному ниже графику можно сделать вывод о высокой эффективности классификационной модели. Все ROC-кривые лежат близко к левому верхнему углу графика, а это означает, что модель достигает высокой чувствительности при низком уровне ложных срабатываний. Иными словами, модель с легкостью выявляет тексты каждого автора, почти не перепутывая их с чужими.

Ниже представлена визуализация наиболее важных признаков для каждого автора

4 Интерпретация результатов

📘 Уильям Теккерей. Слова pen, captain, major, money — яркие маркеры социальной тематики, влияния вопрос власти и богатства, иерархии. Сочетания and, but указывают на склонность к сложносочинённым структурам.

📘 Шарлотта Бронте. Повторяющееся имя jane указывает на центральность героини в повествовании. Слова: eye, still, seemed, once подчёркивают внимание к течению времени и способности видеть. Примечательно, что модель уловила какое большое внимание уделяется зрению. В “Джейн Эир” главная героиня не видит происходящего в доме, в котором она живет (фигурально и буквально), до самого последнего момента, а к концу романа мы наблюдаем ее встречу с ослепшим возлюбленным, к которому зрение частично возвращается после воссоеденения с ней. Тема зрения развита и в «Городке», подтверждение тому — эссе, опубликованное в Journal of Victorian Culture. (Villette is pioneering in its representation of an ophthalmoscopic conception of the eye, as an organ which could be looked into by medical practitioners as well as looked at.”)

📘 Анна Бронте часто использует союзы и модальные конструкции: but, and, or, too, few, replied. Это может указывать на характерный синтаксис: эмоциональную речь, диалоги, внутреннюю аргументацию. Отрицательные значения слов which, in, out можем свидетельствуют о менее активном использовании пространственных конструкций.

📘 Джейн Остин использует слова вроде herself, really, cried, которыеподчёркивают особенное внимание к внутреннему миру персонажей и отражают чувствительную реакцию персонажей на тяжелые события.

📘 Чарльз Диккенс. Частое употребление слов head, mr, am, says указывают на обилие диалогов и обращений.

📘 Эмили Бронте. Слова master, answered, replied, ll указывают на активное использование диалогов,.

📘 Джордж Элиот. Слова felt, feeling — говорят об акценте на внутренних переживаниях героев. everything,

📘 Генри Филдинг. Слова indeed, therefore, вероятно, характерны для комического повествования, логической аргументации и сатиры.

📘 Сэмюэл Ричардсон. Слова lovelace, harlowe, dear отражают эпистолярный стиль и интимный тон обращения и структуру повествования в форме писем, характерную для романа «Кларисса».

📘 Лоренс Стерн Слова world, nature, upon указывают на философско-иронический, эссеистический стиль. Слово chapter может говорить о структуре текстов писателя.

📘 Энтони Троллоп. Слова men, himself, man course подчеркивают центрольность мужских фигур в повествоании, а duke связано с системой общественных связей и представителями высшего общества.

Перечисленные признаки говорят о лексических предпочтениях каждого автора, которые модель выделяет как ключевые для различения стиля. Некоторые слова явно связаны с темами или персонажами, другие — с синтаксическими структурами. Таким образом, модель, не только хорошо отнесла тексты к их авторам, но и захватила как содержательные, так и стилистические маркеры.