1 Форматы / структуры

Есть несколько распространённых способов представления (структур) текстовых данных, с которыми вы можете встретиться в своей работе:

  • Строки (string): Чаще всего текстовые данные в R вам встречаются в формате строки или набора символов (character vector). То, что мы называем это строкой, впрочем не значит, что строка будет только одна. На картинке ниже вы можете увидеть примеры аннотаций статей, записанных в виде векторов / строк.

  • Корпус (corpus): Как правило, корпусом называют структурированный массив текстов. Например, если мы скачаем из Web of Science или Scopus библиометрические данные о публикациях сотрудников Вышки, то получим массив, где каждая строчка - это описание отдельной публикации в виде разных переменных (абстракт, авторы, год издания и тд)

  • Документ-термная матрица (document-term matrix, DTM): Несмотря на своё устрашающее название на русском, это представление текстовых данных не более чем разреженная матрица, которая содержит описание корпуса текстовых документов. В этой матрице каждому документу также отводится отдельная строка, а вот по колонкам (всем, кроме первой, тк там находится id документа) располагаются токены, которые встречаются в этих документах. Значения в ячейках матрицы это частота использования того или иного токена в том или ином документе. Частоту можно измерить просто количеством упоминаний токена, а можно использовать более сложные метрики - tf/idf и аналоги, о них мы расскажем вам на этом курсе чуть позже.


Примеры разных представлений текстовых данных. В качестве текстов используются абстракты статей

Figure 1.1: Примеры разных представлений текстовых данных. В качестве текстов используются абстракты статей