Задачи на проект

Неделя 1. Анализ текста

OPI дописать скрипты загрузки текстовых данных из mongo (GIST). Раздать участникам идентификаторы, по которым нужно выбирать вариант.

bit.ly/ethnic-gist01
bit.ly/music-gist01
bit.ly/games-gist01

Участникам:

Загрузить текстовые данные.
Сделать базовую чистку текста (удаление лишних символов, различного мусора).
Построить матрицу частотности слов. Найти частые слова. Взять несколько “интересных” примеров слов. Найти ассоциированные с ними.

Участникам:

Поделиться находками с другими членами команды, взять их частотные слова и поискать ассоциации с ними по своим данным.
Предложить направления исследования на следующую неделю

OPI: Получить от всех участников результаты их работ: частотные слова, интересные ассоциации. Свести всё в один общий отчёт.

Tips

Создание корпуса и матрицы

library("tm")
corpus <- Corpus(VectorSource(chat_data$msg))
tdm.data <- TermDocumentMatrix(corpus)

Частотные слова

#library("tm")
ft.data <- findFreqTerms(tdm.data, lowfreq=3)

Ассоциативный анализ

#library("tm")
findAssocs(tdm.data, "привет", 0.1)

Облако слов

library("devtools")
source_gist("https://gist.github.com/paulokopny/297387187194a48cb1a8")

Дополнительные источники

Text Analysis With R (for Students of Literature) by Matthew L. Jockers (есть в группе)
Материалы к курсу по text mining Кирилла Александровича Маслинского:
- скрипты
- слайды