R Markdown

Поговорите о анализе текста и интеллектуальном анализе текста с помощью R. Я бы охватывал широкий набор инструментов для анализа текста и обработки естественного языка в R, с акцентом на мой пакет R quanteda , но также охватывал другие основные инструменты в экосистеме R для анализа текста (например , stringi). В этом руководстве описывается, как выполнять общие задачи анализа текста и обработки естественного языка с помощью R. Вопреки мнению, популярному среди некоторых специалистов по обработке и анализу данных, при правильном использовании R — это быстрый и мощный инструмент для управления даже очень большими задачами анализа текста. Мой разговор представит множество доступных вариантов, продемонстрировать, что эти работы над большими данными, и сравнить функции R для этих задач и популярные варианты в Python. В частности, я продемонстрируем, как форматировать и вводить исходные тексты, как структурировать их метаданные и как подготовить их к анализу. Сюда входят распространенные задачи, такие как маркеризация, в том числе создание ngrams и “skip-gram”, удаление стоп-слов, стебляющих слов и другие формы выбора признаков. Я также покажем, как пометить части речи и проанализировать структурные зависимости в текстах. Для статистического анализа я покажем, как можно использовать R для получения сводной статистики из текста, поиска и анализа ключевых слов и фраз, анализа текста для лексического разнообразия и удобочитаемости, обнаружения коллокаций, применения словарей, а также измерения терминов и связей документов с помощью мер расстояния.

{r cars}э library(quanteda)

summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.