Стилометрический анализ статей Уотсона и Крика, первооткрывателей структуры ДНК

Автор

Синило Иван

Аннотация
В этом исследовании мы проанализировали научные статьи и личные письма Уотсона и Крика, написанные ими по отдельности и вместе, и определили вероятности авторства фрагментов совместной знаменитой статьи в Nature(1953) про структуру ДНК.

Введение

Джеймс Уотсон и Френсис Крик в 1953 году

…Никогда не занимайся тем, что тебе скучно. Мой опыт в науке показывает, что кто-то всегда советует тебе делать то, от чего тебе становится не по себе. Плохая идея. Я недостаточно хорош, чтобы хорошо делать то, что мне не нравится. На самом деле мне достаточно сложно хорошо делать то, что мне нравится.

— Джеймс Уотсон

Стилометрия - наука, которая занимается исследованиями авторства текстов. Отдельная задача - определить соавторство. Например, в разное время проводились исследования соавторства художественных произведений: Ильфа и Петрова, братьев Стругацких (Староверова, 2025) и др.

В своём проекте мы решили проанализировать соаторство нехудожественных текстов, статьи (J. Watson, 1953b), (J. Watson, 1953a) знаменитых первооткрывателей ДНК, лауреатов Нобелевской премии по физиологии и медицине, Джеймса Дьюи Уотсона и Фрэнсиса Гарри Комптона Крика и предположить, кто именно является автором легендарных статей 1953 года в журнале Nature.

Материалы и методы

Для того, чтобы начать анализ статьи, написанной совместно, необходимо собрать обучающий корпус, состоящий из статей, писем и книг, написанных каждым из учёных в отдельности. Наш корпус включает в себя 4 статьи, 1 книгу и 25 писем Уотсона, а также 3 статьи и 16 писем Крика. Статьи и письма Уотсона обозначены буквой W, статьи Крика - C:

  • Статья 1954 года в Biochimica et Biophysica Acta (W)
  • Выступление 1958 года на Симпозиуме (C)
  • Статья 1963 года в Science (W)
  • Книга 1968 года The double helix (W)
  • Статья 1970 года в Nature (C)
  • Статья 1974 года в Molecular Biology (C)
  • Статья 1990 года в Science (W)
  • Интервью Scientific American (W)
  • Письма Уотсона
  • Письма Крика

Все материалы в свободном доступе, их можно найти на Google Scholar. Письма Уотсона и Крика, а также некоторые их статьи можно найти здесь. Это сайт, посвящённый наследию Фрэнсиса Крика.

Стилометрический анализ статьи мы проводили с помощью метода Delta Бёрроуза, реализованного в библиотеке stylo для языка программирования R, описание метода подробно изложено в статье самого Берроуза [Burrows 2002]. В составе этой библиотеки есть функция rolling.classify, позволяющая на основе обучающего корпуса (reference_set) проанализировать текст и определить, кто из соавторов написал какую часть совместного произведения, на основании списка самых частотных слов в тексте с помощью метода Delta Бёрроуза.

Результат

Рис 1.

Рис 2. Результат анализа статьи Molecular Structure of Nucleic Acids

Рис 3. Результат анализа статьи Genetical Implications of the Structure of Deoxyribonucleic Acid

Выводы

Стилометрический анализ демонстрирует, что большая часть обеих совместных статьей (J. Watson, 1953b) и (J. Watson, 1953a), скорее всего, написаны Дж. Уотсоном.

Список литературы

J. Watson, F. C. (1953a). Genetical Implications of Deoxyribenucleic Acid. Nature, 71(4361), 964–967. https://www.nature.com/nature/volumes/171/issues/4361
J. Watson, F. C. (1953b). Molecular Structure of Nucleic Acids: A Structure for Deoxyribose Nucleic Acid. Nature, 171(4356), 737–738. https://doi.org/10.1038/171737a0
Староверова, П. (2025). Cтругацкие разделенные. Cтилометрическое выявление индивидуальных авторских фрагментов в коллективном текст. Цифровые Гуманитарные Исследования, 24–39. https://pushkinskijdom.ru/zhurnal-tsifrovye-issledovaniya/strugatskie-razdelennye-stilemetricheskoe-vyyavlenie-individualnyh-avtorskih-fragmentov-v-kollektivnom-tekste/