Есть много интересных пакетов для визуализации, но сейчас я буду работать с пакетом highcharter. Более подробную информацию можно найти на сайте (http://jkunst.com/highcharter/).
Я буду работать с данными с сайта ESS (http://www.europeansocialsurvey.org)
library(dplyr)
library(DT)
install.packages("highcharter")
library(highcharter)
library(foreign)
В r нет пакета highcharter, поэтому сначала его нужно установить с помощью функции install.packages().
ESS1$eduyrs1 = as.numeric(ESS1$eduyrs)
hchart(ESS1$eduyrs1, color = "blue", name = "сколько лет человек учился") %>%
hc_title(text = "Распределение лет обучения")
Функция очень похожа на ту, что мы писали с пакетом ggplot2, единственное, здесь можно назвать переменную, используя name = “”.
Помимо того, что вы можете посмотреть точное количество наблюдений в каждой категории, вы также можете увеличивать изображение, чтобы рассмотреть все более подробно( для этого надо закодировать переменную как numeric).
income <- ESS1 %>% dplyr::group_by(hinctnta) %>%dplyr::summarise(n = n()) %>% dplyr::arrange(desc(n))
hchart(income, "treemap", hcaes(x = hinctnta,value = n, color = n))%>%
hc_title(text = "Уровень дохода")
Для того чтобы использовать эту функцию, сначала нужно посчитать n в каждой категории, затем исподьзовать n в value и color, иначе ваш график не будет иметь смысла.
Допустим, я хочу узнать, какой уровень дохода имеет наибольшее количество наблюдений, а какое наименьшее, я могу посторить гистограмму, но еще я могу использовать hchart. В этом случае, цвет и размер квадратика зависят от количества наблюдений. Например, чем темнее цвет квадрата, тем больше там наблюдений.
Также я этим пакетом можно построить корреляционную матрицу или прогнозы, все функции и примеры можно найти на сайте.
С помощью этого пакета можно построить таблицу, которая похожа на tabsets.
library(DT)
datatable(income)
В моем случае в переменной всего 10 категорий, но когда у вас их много, эта таблица весьма удобна, т.к. здесь можно не использую фильтры быстро найти нужное значение.