Стилистические особенности британских авторов конца XVIII — XIX веков
Анализ стилистических особенностей авторов и классификация текстов по авторам на основе корпуса из 28 произведений британской прозы конца XVIII — XIX веков с применением фреймворка tidymodels в R
Полная и подробная версия с кодом доступна по ссылке: https://rpubs.com/chadaevakarina/1317153
Введение
В данном исследовании реализуются две модели авторской атрибуции, каждая из которых отличается составом используемых предикторов. Модели строятся на основе текстов, нарезанных на чанки по 1000 токенов, что позволяет обеспечить унифицированную структуру данных для обучения и кросс-валидации.
Модель на основе лингвистических признаков. Используются агрегированные количественные характеристики текстов, такие как средняя длина слова, индекс лексического разнообразия (TTR), относительная частотность различных частей речи (глаголов, существительных, прилагательных и др.), средняя длина предложения и др.
Модель на основе частотных n-грамм и стоп-слов. Во второй модели используются 1000 наиболее частотных биграмм и триграмм по корпусу и относительная частотность стоп-слов в каждом чанке
На графике представлено распределение произведений по авторам, включённым в корпус. По оси X указано количество текстов каждого автора, по оси Y — имена авторов. Наибольшее число произведений представлено у Trollope, Thackeray, Eliot и Dickens. Меньше всего — у EBronte.
Модель на основе лингвистических признаков
Для обучения модели используем 18 предикторов - разнообразные количественные лингвистические характеристики: средняя длина слова, TTR, относительная частотность различных частей речи, относительная частотность глагольных форм (прошедшее время, настоящее время, инфинитив) и сравнительных степеней прилагательных и причастий.
Матрица корреляций
На матрице корреляций наблюдаем значимые взаимосвязи между признаками:
- past_ratio и present_ratio (–0.78). Авторы склонны использовать либо прошедшее, либо настоящее время
- past_ratio и infinitive_ratio (–0.7). Повышенное использование прошедшего времени связано со снижением доли инфинитивов
- part_freq и infinitive_ratio (0.65). Частицы используются значительно чаще в текстах с высокой долей инфинитивов
- det_freq и pron_freq (–0.78), а det_freq и noun_freq (0.7). В текстах с высоким использованием определителей (the, a) наблюдается меньше местоимений. В свою очередь, имена существительные часто сопровождаются детерминантами
Положительные корреляции:
- avg_word_length и TTR (0.70). Чем длиннее слова в тексте, тем выше лексическое разнообразие. Можно предположить, что более редкие слова обычно длиннее
- noun_freq и TTR (0.64); noun_freq и avg_word_length (0.66). Авторы с частым использованием имен существительных, как правило, обладают более разнообразной лексикой и используют более длинные слова
Распределение признаков
Лексические и синтаксические признаки:
- avg_sentence_length - пиковые значения, которые появляются, вероятнее всего, из-за того, что была посчитана средняя длина предложения по всему автору, а затем приписана каждому наблюдению. Вероятнее всего, лучше будет исключить этот предиктор.
- TTR - распределение скошено влево
- avg_word_length - практически нормальное распределение
Частотности частей речи:
- noun_freq, verb_freq, adj_freq, adv_freq, pron_freq, det_freq, part_freq - практически нормальное распределение
- num_freq, punct_freq - сильная скошенность влево
Грамматические признаки:
- comparative_ratio, superlative_ratio - скошенность влево
- infinitive_ratio, present_ratio, past_ratio - довольно широкие распределения; past_ratio доминирующий
PCA для разведывательного анализа
Мы видим, что точки сильно перекрываются, авторы не образуют чётких кластеров в проекции на первые две главные компоненты. Так как PCA — линейный метод, возможно, это связано с тем, что данные не рапределены линейно.
UMAP для разведывательного анализа
UMAP — метод нелинейного понижения размерности, который пытается сохранить локальную структуру данных при проекции в двумерное пространство. В данном случае он дал лучший по сравнению с PCA, но не идеальный результат. Начинают просматриваться отдельные кластеры, но, тем не менее, мы наблюдаем заметное перекрытие.
Построение модели
Так как у нас всего 18 признаков, они плотные, числовые, не разреженные, будем использовать модели Support Vector Machine (SVM), Single-layer Neural Network (MLP), Bagging with Decision Trees, Logistic Regression, Extreme Gradient Boosting (XGBoost) и Random Forest
Оценка и выбор модели
На графике видим, что наилучший результат показали модели, обученные на базовом рецепте без использования методов уменьшения размерности (PCA или UMAP). Лучшими моделями по точности оказались Logistic Regression, XGBoost и MLP.
Остановимся на Logistic Regression. Значения метрик модели:
- f_meas - 0.714
- accuracy - 0.717
- roc_auc - 0.959
Построим confusion matrix. На графике тепловой карты видно, что, несмотря на четко выделяющуюся диагональ, модель часто ошибалась.
Все ROC-кривые располагаются сильно выше диагонали случайных предсказаний, что говорит о хорошем качестве классификации. Плотное переплетение кривых и отсутствие ярко выделяющихся кривых свидетельствуют о том, что ни один класс не доминирует по качеству, а различия между авторами выражены довольно равномерно.
Интерпретация результатов
Наиболее важные признаки
На графике представлены топ-10 наиболее важных признаков для каждого автора в модели логистической регрессии. Каждая панель соответствует одному автору и показывает, какие признаки (лингвистические характеристики) в наибольшей степени повлияли на вероятность отнесения текста к этому автору (в one-vs-rest схеме).
- pron_freq (частотность местоимений) и cconj_freq (сочинительные союзы) встречаются среди важных признаков почти у всех авторов
- avg_word_length и TTR (разнообразие лексики) также часто встречаются — они отражают общую сложность лексики автора
- у Thackeray, Dickens, Trollope — высокое значение имеют доли глагольных времен и infinitive_ratio
- Наибольшим лексическим разнообразием отличаются EBronte и CBronte
Вывод
Модели Logistic Regression и XGBoostпоказали наилучший результат среди всех протестированных: логистическая регрессия достигла accuracy 0.717 и f-measure 0.714, в то время как XGBoost показал сопоставимые значения — accuracy 0.708 и f-measure 0.691. Обе модели продемонстрировали высокое качество по метрике ROC AUC (> 0.95), что говорит о хорошей способности различать классы.
Признаки, основанные на лингвистических характеристиках — частотности частей речи, длине слов и предложений, TTR, соотношении грамматических форм — оказались информативными и достаточными для успешного решения задачи авторской атрибуции.
Модель на основе частотных n-грамм и стоп-слов
Во второй модели используется корпус текстов, разбитый на чанки по 1000 токенов. Из каждого фрагмента извлекаются частотные признаки, связанные с использованием типичных словосочетаний (биграмм и триграмм) и стоп-слов. В отличие от первой модели, здесь не учитываются грамматические или синтаксические характеристики.
Разведывательный анализ
Мы планируем обучать модель на 2702 предикторах - это частотность стоп-слов и ngrams. Наши данные представляют собой разреженную матрицу. Попробуем использовать методы уменьшения размерности PCA и UMAP.
PCA для разведывательного анализа
На графике видим, что Richardson довольно хорошо отделяется вдоль PC1. Остальные авторы сильно перекрываются, что говорит о слабой линейной разделимости классов на основе выбранных предикторов.
UMAP для разведывательного анализа
В отличие от PCA, здесь видно более чёткое разделение авторов. Особенно хорошо отделяются Richardson, Fielding, Austen. Остальные авторы довольно сильно перекрываются
Построение модели
Создаем спецификации двух моделей — линейной SVM и логистической регрессии с Lasso-регуляризацией, оптимальных для работы с разреженными высокоразмерными текстовыми признаками. Эти модели комбинируются с тремя вариантами предобработки: без изменений, с PCA и с UMAP, что позволяет сравнить эффективность линейного и нелинейного понижения размерности. Все комбинации объединяются в единый workflow_set для последующего тюнинга и оценки.
Оценка и выбор модели
Визуализируем точность моделей из workflow_set
Наилучший результат показали модели, обученные на базовом рецепте без уменьшения размерности.
Остановимся на логистической регрессии с Lasso-регуляризацией. Значения метрик модели:
- f_meas - 0.970
- accuracy - 0.980
Confusion matrix. Модель демонстрирует высокую точность по большинству классов, что видно по хорошо выраженной диагонали
Наиболее важные признаки по авторам
У каждого автора выделяются уникальные устойчивые словоформы и конструкции, которые модель Lasso посчитала наилучшими для их различения.
- Austen отличается частотностью таких выражений, как any.thing, every.thing, don.t, very, soon, could
- CBronte, Eliot и EBronte практически не используют upon, в отличие от других авторов, например, Dickens, Richardson, Sterne.
- Dickens выделяется по обращениям (mr, my.dear), что может отражать диалоговый стиль
- Слово which, вводящее придаточное определительное, отличает Fielding, Sterne, Thackeray и является антипризнаком для ABronte и EBronte
- Союз and, а следовательно, и однородность больше характерна для ABronte и Thackeray, являясь при этом антипризнаком для Fielding и Trollope
- Союз but - один из наиболее значимых и частотных у ABronte, чуть меньшим весом обладает в авторском стиле Richardson
- Sterne характерен использованием конструкций типа my.uncle, my.father
Вывод
Модель Lasso позволила выделить интерпретируемые лексико-грамматические признаки, отражающие индивидуальные особенности авторского стиля. Визуализация наглядно демонстрирует, что у большинства авторов имеются устойчивые языковые маркеры — как положительные, так и отрицательные. Выбранные предикторы, частотность стоп-слов и n-грам, обеспечивают надёжную дифференциацию между авторами и высокую точность классификации.
Общие выводы
С использованием фреймворка tidymodels и лингвистических признаков двух типов, количественно-лингвистических и частотных n-грамм и стоп-слов, удалось построить интерпретируемые модели, довольно точно различающие уникальный стиль авторов классической британской прозы. Лучшие результаты показали Logistic Regression и Lasso, обеспечив точность выше 0.95, а визуальный анализ признаков подтвердил наличие чётких стилистических различий между авторами.