ДПВ "Аналитический пакет R"

Практика №2: Очистка и трансформация данных

Светлана Андреевна Суязова (Аксюк)
s.aksuk@kiber-guu.ru

Как не потратить вечность на очистку сырых данных?

  • стремимся к опрятным (tidy) данным
  • пакет dplyr и тиббл-таблицы
  • пакет data.table и специальные выражения в операторе []
  • очистка текстовых значений с помощью gsub()

Пакет dplyr

  • реализует грамматику обработки данных
  • таблицы – подлежащие
  • функции – сказуемые: filter(), select(), mutate(), summarize() и др.
  • каналы %>% уменьшают объём кода

Поиск и замена подстрок в символьных векторах:

  • grep(<что_ищем>', <где_ищем>') – функция просматривает символьный вектор <где ищем> и возвращает номера тех элементов, в которых встречается подстрока <что ищем>.

  • gsub(<что_ищем>', <на_что_заменяем>', <где_ищем>') – ищет и заменяет все вхождения подстроки в векторе.

В шаблоне поиска и замены можно использовать регулярные выражения.