Поговорите о анализе текста и интеллектуальном анализе текста с помощью R. Я бы охватывал широкий набор инструментов для анализа текста и обработки естественного языка в R, с акцентом на мой пакет R quanteda , но также охватывал другие основные инструменты в экосистеме R для анализа текста (например , stringi). В этом руководстве описывается, как выполнять общие задачи анализа текста и обработки естественного языка с помощью R. Вопреки мнению, популярному среди некоторых специалистов по обработке и анализу данных, при правильном использовании R — это быстрый и мощный инструмент для управления даже очень большими задачами анализа текста. Мой разговор представит множество доступных вариантов, продемонстрировать, что эти работы над большими данными, и сравнить функции R для этих задач и популярные варианты в Python. В частности, я продемонстрируем, как форматировать и вводить исходные тексты, как структурировать их метаданные и как подготовить их к анализу. Сюда входят распространенные задачи, такие как маркеризация, в том числе создание ngrams и “skip-gram”, удаление стоп-слов, стебляющих слов и другие формы выбора признаков. Я также покажем, как пометить части речи и проанализировать структурные зависимости в текстах. Для статистического анализа я покажем, как можно использовать R для получения сводной статистики из текста, поиска и анализа ключевых слов и фраз, анализа текста для лексического разнообразия и удобочитаемости, обнаружения коллокаций, применения словарей, а также измерения терминов и связей документов с помощью мер расстояния.
{r cars}э library(quanteda)
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
You can also embed plots, for example:
Note that the echo = FALSE parameter was added to the
code chunk to prevent printing of the R code that generated the
plot.