Задачи на проект

Неделя 1. Анализ текста

  1. OPI дописать скрипты загрузки текстовых данных из mongo (GIST). Раздать участникам идентификаторы, по которым нужно выбирать вариант.
  • bit.ly/ethnic-gist01
  • bit.ly/music-gist01
  • bit.ly/games-gist01
  1. Участникам:
  • Загрузить текстовые данные.
  • Сделать базовую чистку текста (удаление лишних символов, различного мусора).
  • Построить матрицу частотности слов. Найти частые слова. Взять несколько “интересных” примеров слов. Найти ассоциированные с ними.
  1. Участникам:
  • Поделиться находками с другими членами команды, взять их частотные слова и поискать ассоциации с ними по своим данным.
  • Предложить направления исследования на следующую неделю
  1. OPI: Получить от всех участников результаты их работ: частотные слова, интересные ассоциации. Свести всё в один общий отчёт.

Tips

Создание корпуса и матрицы

library("tm")
corpus <- Corpus(VectorSource(chat_data$msg))
tdm.data <- TermDocumentMatrix(corpus)

Частотные слова

#library("tm")
ft.data <- findFreqTerms(tdm.data, lowfreq=3) 

Ассоциативный анализ

#library("tm")
findAssocs(tdm.data, "привет", 0.1)

Облако слов

library("devtools")
source_gist("https://gist.github.com/paulokopny/297387187194a48cb1a8")

Дополнительные источники

  • Text Analysis With R (for Students of Literature) by Matthew L. Jockers (есть в группе)
  • Материалы к курсу по text mining Кирилла Александровича Маслинского: