ДАТА ФРЕЙМЫ

Дата фреймы (data frame) - прямоугольная двумерная таблица с данными (Exctl spreadsheet, SQL-таблица).
По сути дата фреймы - это стандартный способ хранения данных в формате “наблюдения/переменные”: строки соотвествуют наблюдениям, а столбцы - изучаемым переменным.
Пример:

n <- 10
l <- list(rnorm(n), runif(n))
names(l) <- c("V1", "V2")
class(l) <- "data.frame"
rownames(l) <- 1:n
l

Этот способ создания таблицы намного эффективнее (быстрее) чем стандартный data.frame, но тут отсутствуют всевозможные проверки «от дурака», что может приводить к неожиданным результатам, если вы точно не контролируете входные данные.

Data frame наследует свойства матрицы (прямоугольная форма) и списка (перменные могут быть разных типов) - этакий гибрид матрица-список.

Формально, data.frame — это именованный список (см. typeof(data.frame)), все элементы которого имеют одинаковую длину и который имеет атрибут row.names

Создание data frame

Одноименная функция. Синтаксис напоминает синтаксис создания именованных списков или векторов:
* первый аргумент: имя = значения
* второй аргумент: имя = значения
* третий аргумент и т.д.
N.B! Как и в списке, здесь можем хранить данные разных типов

df <- data.frame(x = 1:4, y = LETTERS[1:4], z = c(T, F)); df

Обратите вниание на аргумент z - в качестве значений подается только два значения (True и False), а строк в дата фрейме задается 4 - значит сработают правила переписывания и значения будут повторены необходимое количество раз

Как получить краткую сводку об объекте?

О любом объекте в R можно получить краткую сводку с помощью функции str - сокр. от structure:
* тип объекта
* количество перменных
* краткая сводка по переменным

str(df)
'data.frame':   4 obs. of  3 variables:
 $ x: int  1 2 3 4
 $ y: chr  "A" "B" "C" "D"
 $ z: logi  TRUE FALSE TRUE FALSE

Имена строк и столбцов

При создании data frame по умолчанию задаем имена перменных, т.е. столбцов.
Чтобы установить имя наблюдения, т.е. ряда, есть аргумент row.names

df <- data.frame(x = 1:4, y = LETTERS[1:4], z = c(T,F),
      row.names = c("Alpha", "Bravo", "Charlie", "Delta")); df

Доступ к именам, как и для матрицы, можно получить функцией row.names и col.names

rownames(df)
[1] "Alpha"   "Bravo"   "Charlie" "Delta"  
colnames(df)
[1] "x" "y" "z"

Фукнция dimnames возвращает список из имен строк и столбцов

dimnames(df)
[[1]]
[1] "Alpha"   "Bravo"   "Charlie" "Delta"  

[[2]]
[1] "x" "y" "z"

Размерности

У дата фрейма есть определенная размерность:
* это прямоугольная двумерная таблица
* у нее есть определенное количество строк и столбцов

Доступ к количеству строк и столбцов

Как и в случае с матрицой, осуществляется через функции nrow, ncol, dim

nrow(df)
[1] 4
ncol(df)
[1] 3
dim(df) #Вектор из двух элементов
[1] 4 3

Особенности, чреватые ошибками

  1. length(df) - возвращает количество столбцов (переменных), а не общее количество элементов
length(df)
[1] 3

Если сравнивать с матрицей, то…

m <- matrix(0, 3, 2); m
     [,1] [,2]
[1,]    0    0
[2,]    0    0
[3,]    0    0
length(m)
[1] 6

length(m) - возвращает количество всех элементов матрицы.

Это происходит потому, что, по сути, дата фрейм - это список, уложенный по столбцам. А length(списка) - количество элементов списка

l <- list(a = 1:3, x = letters[1:2], "chap"); l
$a
[1] 1 2 3

$x
[1] "a" "b"

[[3]]
[1] "chap"
length(l)
[1] 3
  1. names(df) - также вернет имена столбцов
names(df)
[1] "x" "y" "z"
colnames(df)
[1] "x" "y" "z"
rownames(df)
[1] "Alpha"   "Bravo"   "Charlie" "Delta"  

Чтобы получить общее количетсво элементов в дата фрейме, нужно умножить nrow на ncol. Логично

length(df)
[1] 3
ncol(df)
[1] 3
nrow(df) * ncol(df)
[1] 12

Предостережение!

Чтобы избежать распространенных ошибок, следует избегать применения функции *length** и names на дата фрейме. Это убережет от ошибок и сделает код более удобочитаемым

Индексация data frame

Дата фрейм наследует некоторые особенности от списка, а некоторые от матрицы - это касается и правил индексирования.

А) Индексация в матричном стиле

  • положительная
  • отрицательная
  • логическая
  • по именам

Пример 1: хочу выбрать 3 и 4 ряд и все колонки, кроме первой - воспользуемся положительной и отрицательной индексацией

df[3:4, -1]

Пример 2: индексация по именам и логическая

df[c(F, T), c("z", "x")]

N.B! *Здесь также работает правило переписывания

Если хочу обратиться к конкретной колонке

df[ , 1]
[1] 1 2 3 4

То происходит то же, что и с матрицей - размерность схлопывается. Но схлопывание по умолчанию можно отменить - тогда получим дата фрейм из 1 столбца

df[ , 1, drop = FALSE]

Обращение в столбцу

Чаще всего самый удобный вариант в обращении к определенному столбцу - обращение через частичное дополнение (работает одинаково), т.е. значок $. Например:

df$z
[1]  TRUE FALSE  TRUE FALSE

Способы df[[3]] и df[["z]] будут работать, однако $ - самый удобный спооб

Фильтрация элементов по условию

Точно так же, как для матрицы, для дата фрейма возможен выбор элементов, соответсвующих определенным логическим условиям

df[df$x > 2, ]

subset

Иногда для таких фильтраций удобно ползоваться функцией subset. Чем примечательна эта функция? - не нужно дублировать название data frame, не нужно ничего заключать в кавычки. Такой же subset, что и выше, можно получить следующим образом

subset(df, x > 2)

У функции есть еще 1 доп аргумент - select - при помощи которого, можно указать условие на отбор столбцов, при этом также имена не труебуют кавычки

subset(df, x > 2, select = c(x, z))

Результат такой же, но с фильтрацией по колонкам

Комбинирование data frame

Как и для матриц, работают функции rbind, cbind. Например, хочу к дф присоединить еще 1 дф, который я создал на лету. Имена в df и нового df должны совпадать в точности

rbind(df, data.frame(x = 5:6, y = c("K", "Z"), z = TRUE, row.names = c("Kappa", "Zulu")))

Аналогично действует и функция cbind

cbind(df, data.frame(season = c("Summer", "Autumn", "Winter", "Spring"), temp = c(20, 5, -10, 5)))

Функция merge

Более сложный случай комбинирования дата фреймов - комбинирование по ключу.
Вспомним наш оригинальный дата фрейм

df

df = это 3 переменных и 4 наблюдения. Допустим, что переменная x - некий ключ, который однозначно определяет ту или ину запись.
Допустим, есть другой дата фрейм df_salary, который содержит набор ключей x в каком-то порядке и дополнительные колонки, как например, зарпалата (salary)

df_salary <- data.frame(x = c(3, 2, 6, 1), salary = c(100, 1000, 300, 500))
df_salary

Теперь хотим создать новый дата фрейм из двух старых, записи которых будут объединены по ключу x - воспользуемся функцией merge, в качестве первых двух аргументов укажем дата фреймы, из которых лепим новый, а третьим - обозначаем ключ

merge(df, df_salary, by = "x")

Результат - новый дата фрейм, со всеми полными записями из двух предыдущих дата фреймов, определяемых по ключу x.

Для тех, кто знаком с SQL - эта операция соответсвует inner join.

В R есть и остальные виды джоинов (left, right, outer, cross join), которые легко найти на stackoverflow по запросу “r joins”

#Глоссарий ?data.frame
?str
?rownames, ?colnames, ?dimnames, ?nrow, ?ncol, ? dim
?subset, ?rbind, ?cbind, ?merge

Задача

Дата фрейм attitude – встроенный массив данных, содержащий рейтинг департаментов одной финансовой компании, составленный сотрудниками. Представьте, что вы хотите устраиваться как раз в эту компанию, и дата фрейм (совершенно случайно!) оказался в вашем распоряжении.

Вы решили, что самое главное для вас – это возможность учиться новому (learning). Возьмите 5 топовых департаментов по этому показателю. Из этого набора вам более всего подойдёт тот департамент, который имеет наибольшую сумму баллов по трём показателям: реакция на жалобы работников (complaints), надбавки в зависимости от результатов работы (raises) и возможность продвижения (advance).

Какой же департамент вам выбрать? Напишите его номер XX (номер строки в дата фрейме)

head(attitude)

Алгоритм
1. Найти топ-5 показателей learning

attitude$learning[1:5]
[1] 39 54 69 47 66
  1. Найти номера наблюдений с топ-5 показателем learning
order(-attitude$learning)[1:5]
[1] 18 27 15 16 29
  1. Обратиться по логическому индексированию к части дата фрейма по топ-5 по learning
attitude[order(-attitude$learning)[1:5], ]
  1. Вывести часть дата фрейма по топ-5 в learning без столбца learning
attitude[order(-attitude$learning),][1:5,][c("complaints","raises","advance")]
  1. Посчитать сумму рядов по трем оставшимся показателям в выведенной части дата фрейма
rowSums(attitude[order(-attitude$learning)[1:5],c("complaints","raises","advance")])
 18  27  15  16  29 
175 204 202 186 217 
  1. Найти максимальное значение
which.max(rowSums(attitude[order(-attitude$learning)[1:5],c("complaints","raises","advance")]))
29 
 5 
# или
which.max(rowSums(attitude[order(-attitude$learning),][1:5,][c("complaints","raises","advance")]))
29 
 5 

Не очень пойму, как работает order и такое сложное логическое индексирование

Cпособы обращения к строкам, соответсвующие определенным условиям

Нижеуказанными способами можно выбрать только те строки, которые соответствуют департаментам с рейтингом (rating) ниже пятидесяти, при этом сохранив все столбцы, кроме rating
Способ 1 - алгоритм:
1. Используем функцию subset (подгруппа) к дата фрейму attitude,
2. аргументом указываем вывести определенные строки (rating < 50)

  1. исключаем столбец rating (-rating)
subset(attitude, rating < 50, -rating)

Способ 2 - алгоритм:
1. Используем функцию subset (подгруппа) к дата фрейму attitude (только выносим аргументом в конец)
2. Выбираем исключить столбец rating, сокращая select (sel = -rating)

subset(sel = -rating, attitude)
  1. Выводим строки подгруппой с rating < 50 (subset = rating < 50)
subset(sel = -rating, sub = rating < 50, attitude)

Способ 3 - алгоритм:
1. Обращаемся к определенному индексу дата фрейма attitude
2. Используем логическое индексирование 3. Выводим строки, соответсвующие логическому индексу [attitude$rating < 50] 4. Выводим строки без столбца rating [names(attitude) != “rating”]

attitude[attitude$rating < 50, ]
attitude[attitude$rating < 50, names(attitude) != "rating"]
