ДАТА ФРЕЙМЫ

Дата фреймы (data frame) - прямоугольная двумерная таблица с данными (Exctl spreadsheet, SQL-таблица).
По сути дата фреймы - это стандартный способ хранения данных в формате “наблюдения/переменные”: строки соотвествуют наблюдениям, а столбцы - изучаемым переменным.
Пример:

n <- 10
l <- list(rnorm(n), runif(n))
names(l) <- c("V1", "V2")
class(l) <- "data.frame"
rownames(l) <- 1:n
l

Этот способ создания таблицы намного эффективнее (быстрее) чем стандартный data.frame, но тут отсутствуют всевозможные проверки «от дурака», что может приводить к неожиданным результатам, если вы точно не контролируете входные данные.

Data frame наследует свойства матрицы (прямоугольная форма) и списка (перменные могут быть разных типов) - этакий гибрид матрица-список.

Формально, data.frame — это именованный список (см. typeof(data.frame)), все элементы которого имеют одинаковую длину и который имеет атрибут row.names

Создание data frame

Одноименная функция. Синтаксис напоминает синтаксис создания именованных списков или векторов:
* первый аргумент: имя = значения
* второй аргумент: имя = значения
* третий аргумент и т.д.
N.B! Как и в списке, здесь можем хранить данные разных типов

df <- data.frame(x = 1:4, y = LETTERS[1:4], z = c(T, F)); df

Обратите вниание на аргумент z - в качестве значений подается только два значения (True и False), а строк в дата фрейме задается 4 - значит сработают правила переписывания и значения будут повторены необходимое количество раз

Как получить краткую сводку об объекте?

О любом объекте в R можно получить краткую сводку с помощью функции str - сокр. от structure:
* тип объекта
* количество перменных
* краткая сводка по переменным

str(df)
'data.frame':   4 obs. of  3 variables:
 $ x: int  1 2 3 4
 $ y: chr  "A" "B" "C" "D"
 $ z: logi  TRUE FALSE TRUE FALSE

Имена строк и столбцов

При создании data frame по умолчанию задаем имена перменных, т.е. столбцов.
Чтобы установить имя наблюдения, т.е. ряда, есть аргумент row.names

df <- data.frame(x = 1:4, y = LETTERS[1:4], z = c(T,F),
      row.names = c("Alpha", "Bravo", "Charlie", "Delta")); df

Доступ к именам, как и для матрицы, можно получить функцией row.names и col.names

rownames(df)
[1] "Alpha"   "Bravo"   "Charlie" "Delta"  
colnames(df)
[1] "x" "y" "z"

Фукнция dimnames возвращает список из имен строк и столбцов

dimnames(df)
[[1]]
[1] "Alpha"   "Bravo"   "Charlie" "Delta"  

[[2]]
[1] "x" "y" "z"

Размерности

У дата фрейма есть определенная размерность:
* это прямоугольная двумерная таблица
* у нее есть определенное количество строк и столбцов

Доступ к количеству строк и столбцов

Как и в случае с матрицой, осуществляется через функции nrow, ncol, dim

nrow(df)
[1] 4
ncol(df)
[1] 3
dim(df) #Вектор из двух элементов
[1] 4 3

Особенности, чреватые ошибками

  1. length(df) - возвращает количество столбцов (переменных), а не общее количество элементов
length(df)
[1] 3

Если сравнивать с матрицей, то…

m <- matrix(0, 3, 2); m
     [,1] [,2]
[1,]    0    0
[2,]    0    0
[3,]    0    0
length(m)
[1] 6

length(m) - возвращает количество всех элементов матрицы.

Это происходит потому, что, по сути, дата фрейм - это список, уложенный по столбцам. А length(списка) - количество элементов списка

l <- list(a = 1:3, x = letters[1:2], "chap"); l
$a
[1] 1 2 3

$x
[1] "a" "b"

[[3]]
[1] "chap"
length(l)
[1] 3
  1. names(df) - также вернет имена столбцов
names(df)
[1] "x" "y" "z"
colnames(df)
[1] "x" "y" "z"
rownames(df)
[1] "Alpha"   "Bravo"   "Charlie" "Delta"  

Чтобы получить общее количетсво элементов в дата фрейме, нужно умножить nrow на ncol. Логично

length(df)
[1] 3
ncol(df)
[1] 3
nrow(df) * ncol(df)
[1] 12

Предостережение!

Чтобы избежать распространенных ошибок, следует избегать применения функции *length** и names на дата фрейме. Это убережет от ошибок и сделает код более удобочитаемым

Индексация data frame

Дата фрейм наследует некоторые особенности от списка, а некоторые от матрицы - это касается и правил индексирования.

А) Индексация в матричном стиле

  • положительная
  • отрицательная
  • логическая
  • по именам

Пример 1: хочу выбрать 3 и 4 ряд и все колонки, кроме первой - воспользуемся положительной и отрицательной индексацией

df[3:4, -1]

Пример 2: индексация по именам и логическая

df[c(F, T), c("z", "x")]

N.B! *Здесь также работает правило переписывания

Если хочу обратиться к конкретной колонке

df[ , 1]
[1] 1 2 3 4

То происходит то же, что и с матрицей - размерность схлопывается. Но схлопывание по умолчанию можно отменить - тогда получим дата фрейм из 1 столбца

df[ , 1, drop = FALSE]

Обращение в столбцу

Чаще всего самый удобный вариант в обращении к определенному столбцу - обращение через частичное дополнение (работает одинаково), т.е. значок $. Например:

df$z
[1]  TRUE FALSE  TRUE FALSE

Способы df[[3]] и df[["z]] будут работать, однако $ - самый удобный спооб

Фильтрация элементов по условию

Точно так же, как для матрицы, для дата фрейма возможен выбор элементов, соответсвующих определенным логическим условиям

df[df$x > 2, ]

subset

Иногда для таких фильтраций удобно ползоваться функцией subset. Чем примечательна эта функция? - не нужно дублировать название data frame, не нужно ничего заключать в кавычки. Такой же subset, что и выше, можно получить следующим образом

subset(df, x > 2)

У функции есть еще 1 доп аргумент - select - при помощи которого, можно указать условие на отбор столбцов, при этом также имена не труебуют кавычки

subset(df, x > 2, select = c(x, z))

Результат такой же, но с фильтрацией по колонкам

Комбинирование data frame

Как и для матриц, работают функции rbind, cbind. Например, хочу к дф присоединить еще 1 дф, который я создал на лету. Имена в df и нового df должны совпадать в точности

rbind(df, data.frame(x = 5:6, y = c("K", "Z"), z = TRUE, row.names = c("Kappa", "Zulu")))

Аналогично действует и функция cbind

cbind(df, data.frame(season = c("Summer", "Autumn", "Winter", "Spring"), temp = c(20, 5, -10, 5)))

Функция merge

Более сложный случай комбинирования дата фреймов - комбинирование по ключу.
Вспомним наш оригинальный дата фрейм

df

df = это 3 переменных и 4 наблюдения. Допустим, что переменная x - некий ключ, который однозначно определяет ту или ину запись.
Допустим, есть другой дата фрейм df_salary, который содержит набор ключей x в каком-то порядке и дополнительные колонки, как например, зарпалата (salary)

df_salary <- data.frame(x = c(3, 2, 6, 1), salary = c(100, 1000, 300, 500))
df_salary

Теперь хотим создать новый дата фрейм из двух старых, записи которых будут объединены по ключу x - воспользуемся функцией merge, в качестве первых двух аргументов укажем дата фреймы, из которых лепим новый, а третьим - обозначаем ключ

merge(df, df_salary, by = "x")

Результат - новый дата фрейм, со всеми полными записями из двух предыдущих дата фреймов, определяемых по ключу x.

Для тех, кто знаком с SQL - эта операция соответсвует inner join.

В R есть и остальные виды джоинов (left, right, outer, cross join), которые легко найти на stackoverflow по запросу “r joins”

#Глоссарий ?data.frame
?str
?rownames, ?colnames, ?dimnames, ?nrow, ?ncol, ? dim
?subset, ?rbind, ?cbind, ?merge

Задача

Дата фрейм attitude – встроенный массив данных, содержащий рейтинг департаментов одной финансовой компании, составленный сотрудниками. Представьте, что вы хотите устраиваться как раз в эту компанию, и дата фрейм (совершенно случайно!) оказался в вашем распоряжении.

Вы решили, что самое главное для вас – это возможность учиться новому (learning). Возьмите 5 топовых департаментов по этому показателю. Из этого набора вам более всего подойдёт тот департамент, который имеет наибольшую сумму баллов по трём показателям: реакция на жалобы работников (complaints), надбавки в зависимости от результатов работы (raises) и возможность продвижения (advance).

Какой же департамент вам выбрать? Напишите его номер XX (номер строки в дата фрейме)

head(attitude)

Алгоритм
1. Найти топ-5 показателей learning

attitude$learning[1:5]
[1] 39 54 69 47 66
  1. Найти номера наблюдений с топ-5 показателем learning
order(-attitude$learning)[1:5]
[1] 18 27 15 16 29
  1. Обратиться по логическому индексированию к части дата фрейма по топ-5 по learning
attitude[order(-attitude$learning)[1:5], ]
  1. Вывести часть дата фрейма по топ-5 в learning без столбца learning
attitude[order(-attitude$learning),][1:5,][c("complaints","raises","advance")]
  1. Посчитать сумму рядов по трем оставшимся показателям в выведенной части дата фрейма
rowSums(attitude[order(-attitude$learning)[1:5],c("complaints","raises","advance")])
 18  27  15  16  29 
175 204 202 186 217 
  1. Найти максимальное значение
which.max(rowSums(attitude[order(-attitude$learning)[1:5],c("complaints","raises","advance")]))
29 
 5 
# или
which.max(rowSums(attitude[order(-attitude$learning),][1:5,][c("complaints","raises","advance")]))
29 
 5 

Не очень пойму, как работает order и такое сложное логическое индексирование

Cпособы обращения к строкам, соответсвующие определенным условиям

Нижеуказанными способами можно выбрать только те строки, которые соответствуют департаментам с рейтингом (rating) ниже пятидесяти, при этом сохранив все столбцы, кроме rating
Способ 1 - алгоритм:
1. Используем функцию subset (подгруппа) к дата фрейму attitude,
2. аргументом указываем вывести определенные строки (rating < 50)

  1. исключаем столбец rating (-rating)
subset(attitude, rating < 50, -rating)

Способ 2 - алгоритм:
1. Используем функцию subset (подгруппа) к дата фрейму attitude (только выносим аргументом в конец)
2. Выбираем исключить столбец rating, сокращая select (sel = -rating)

subset(sel = -rating, attitude)
  1. Выводим строки подгруппой с rating < 50 (subset = rating < 50)
subset(sel = -rating, sub = rating < 50, attitude)

Способ 3 - алгоритм:
1. Обращаемся к определенному индексу дата фрейма attitude
2. Используем логическое индексирование 3. Выводим строки, соответсвующие логическому индексу [attitude$rating < 50] 4. Выводим строки без столбца rating [names(attitude) != “rating”]

attitude[attitude$rating < 50, ]
attitude[attitude$rating < 50, names(attitude) != "rating"]
---
title: "Дата фреймы"
output: html_notebook
---
# ДАТА ФРЕЙМЫ
Дата фреймы (data frame) - прямоугольная двумерная таблица с данными (Exctl spreadsheet, SQL-таблица).  
По сути дата фреймы - это стандартный способ хранения данных в формате "наблюдения/переменные": строки соотвествуют наблюдениям, а столбцы - изучаемым переменным.  
**Пример**:
```{r}
n <- 10
l <- list(rnorm(n), runif(n))
names(l) <- c("V1", "V2")
class(l) <- "data.frame"
rownames(l) <- 1:n
l
```
Этот способ создания таблицы намного эффективнее (быстрее) чем стандартный data.frame, но тут отсутствуют всевозможные проверки «от дурака», что может приводить к неожиданным результатам, если вы точно не контролируете входные данные.

  
Data frame наследует свойства матрицы (прямоугольная форма) и списка (перменные могут быть разных типов) - этакий гибрид матрица-список.  
  
Формально, data.frame — это именованный список (см. typeof(data.frame)),  все элементы которого имеют одинаковую длину и который имеет атрибут row.names

# Создание data frame 
Одноименная функция. Синтаксис напоминает синтаксис создания именованных списков или векторов:  
* первый аргумент: имя = значения  
* второй аргумент: имя = значения  
* третий аргумент и т.д.  
N.B! *Как и в списке, здесь можем хранить данные разных типов*
```{r}
df <- data.frame(x = 1:4, y = LETTERS[1:4], z = c(T, F)); df
```
*Обратите вниание на аргумент z - в качестве значений подается только два значения (True и False), а строк в дата фрейме задается 4 - значит сработают правила переписывания и значения будут повторены необходимое количество раз*  
  
## Как получить краткую сводку об объекте?
О любом объекте в R можно получить краткую сводку с помощью функции *str* - сокр. от structure:  
* тип объекта  
* количество перменных  
* краткая сводка по переменным
```{r}
str(df)
```
# Имена строк и столбцов
При создании data frame по умолчанию задаем имена перменных, т.е. столбцов.  
Чтобы установить имя наблюдения, т.е. ряда, есть аргумент *row.names*
```{r}
df <- data.frame(x = 1:4, y = LETTERS[1:4], z = c(T,F),
      row.names = c("Alpha", "Bravo", "Charlie", "Delta")); df
```
Доступ к именам, как и для матрицы, можно получить функцией *row.names* и *col.names*
```{r}
rownames(df)
colnames(df)
```
Фукнция *dimnames* возвращает список из имен строк и столбцов
```{r}
dimnames(df)
```
# Размерности
У дата фрейма есть определенная размерность:  
* это прямоугольная двумерная таблица  
* у нее есть определенное количество строк и столбцов  
  
### Доступ к количеству строк и столбцов 
Как и в случае с матрицой, осуществляется через функции *nrow*, *ncol*, *dim*
```{r}
nrow(df)
ncol(df)
dim(df) #Вектор из двух элементов
```
# Особенности, чреватые ошибками
1. *length(df)* - возвращает количество *столбцов* (переменных), а не общее количество элементов 
```{r}
length(df)
```
Если сравнивать с матрицей, то...
```{r}
m <- matrix(0, 3, 2); m
length(m)
```
length(m) - возвращает количество всех элементов матрицы.  
  
Это происходит потому, что, по сути, дата фрейм - это список, уложенный по столбцам. А *length(списка)* - количество элементов списка
```{r}
l <- list(a = 1:3, x = letters[1:2], "chap"); l
length(l)
```

  
2. names(df) - также вернет имена столбцов 
```{r}
names(df)
colnames(df)
rownames(df)
```
Чтобы получить общее количетсво элементов в дата фрейме, нужно умножить *nrow* на *ncol*. Логично
```{r}
length(df)
ncol(df)
nrow(df) * ncol(df)
```
### Предостережение!
Чтобы избежать распространенных ошибок, следует избегать применения функции *length** и *names* на дата фрейме. Это убережет от ошибок и сделает код более удобочитаемым

# Индексация data frame
Дата фрейм наследует некоторые особенности от списка, а некоторые от матрицы - это касается и правил индексирования.  
  
### А) Индексация в матричном стиле
* положительная  
* отрицательная 
* логическая  
* по именам  
  
  
**Пример 1**: хочу выбрать 3 и 4 ряд и все колонки, кроме первой - воспользуемся положительной и отрицательной индексацией
```{r}
df[3:4, -1]
```
**Пример 2**: индексация по именам и логическая
```{r}
df[c(F, T), c("z", "x")]
```
*N.B!* *Здесь также работает правило переписывания 
  
Если хочу обратиться к конкретной колонке
```{r}
df[ , 1]
```
То происходит то же, что и с матрицей - размерность схлопывается. Но схлопывание по умолчанию можно отменить - тогда получим дата фрейм из 1 столбца
```{r}
df[ , 1, drop = FALSE]
```
## Обращение в столбцу
Чаще всего самый удобный вариант в обращении к определенному столбцу - обращение через частичное дополнение (работает одинаково), т.е. значок **$**. Например:
```{r}
df$z
```
Способы *df[[3]]* и *df[["z]]* будут работать, однако *$* - самый удобный спооб 

# Фильтрация элементов по условию
Точно так же, как для матрицы, для дата фрейма возможен выбор элементов, соответсвующих определенным логическим условиям
```{r}
df[df$x > 2, ]
```

### subset
Иногда для таких фильтраций удобно ползоваться функцией *subset*. Чем примечательна эта функция?  - не нужно дублировать название data frame, не нужно ничего заключать в кавычки. Такой же subset, что и выше, можно получить следующим образом
```{r}
subset(df, x > 2)
```
У функции есть еще 1 доп аргумент - *select* - при помощи которого, можно указать условие на отбор столбцов, при этом также имена не труебуют кавычки
```{r}
subset(df, x > 2, select = c(x, z))
```
Результат такой же, но с фильтрацией по колонкам  
  
# Комбинирование data frame
Как и для матриц, работают функции rbind, cbind. Например, хочу к дф присоединить еще 1 дф, который я создал на лету. Имена в df и нового df должны совпадать в точности
```{r}
rbind(df, data.frame(x = 5:6, y = c("K", "Z"), z = TRUE, row.names = c("Kappa", "Zulu")))
```
Аналогично действует и функция cbind
```{r}
cbind(df, data.frame(season = c("Summer", "Autumn", "Winter", "Spring"), temp = c(20, 5, -10, 5)))
```
## Функция **merge**
Более сложный случай комбинирования дата фреймов - комбинирование по ключу.  
Вспомним наш оригинальный дата фрейм
```{r}
df
```
df = это 3 переменных и 4 наблюдения. Допустим, что переменная **x** - некий ключ, который однозначно определяет ту или ину запись.  
Допустим, есть другой дата фрейм *df_salary*, который содержит набор ключей x в каком-то порядке и дополнительные колонки, как например, зарпалата (salary)
```{r}
df_salary <- data.frame(x = c(3, 2, 6, 1), salary = c(100, 1000, 300, 500))
df_salary
```
Теперь хотим создать новый дата фрейм из двух старых, записи которых будут объединены по ключу **x** - воспользуемся функцией *merge*, в качестве первых двух аргументов укажем дата фреймы, из которых лепим новый, а третьим - обозначаем ключ
```{r}
merge(df, df_salary, by = "x")
```
Результат - новый дата фрейм, со всеми полными записями из двух предыдущих дата фреймов, определяемых по ключу **x**.  
  
Для тех, кто знаком с SQL - эта операция соответсвует *inner join*.  
  
В R есть и остальные виды джоинов (left, right, outer, cross join), которые легко найти на stackoverflow по запросу *"r joins"*

#Глоссарий
?data.frame  
?str  
?rownames, ?colnames, ?dimnames, ?nrow, ?ncol, ? dim  
?subset, ?rbind, ?cbind, ?merge

# Задача
Дата фрейм attitude -- встроенный массив данных, содержащий рейтинг департаментов одной финансовой компании, составленный сотрудниками. Представьте, что вы хотите устраиваться как раз в эту компанию, и дата фрейм (совершенно случайно!) оказался в вашем распоряжении. 

Вы решили, что самое главное для вас -- это возможность учиться новому (learning). Возьмите 5 топовых департаментов по этому показателю. Из этого набора вам более всего подойдёт тот департамент, который имеет наибольшую сумму баллов по трём показателям: реакция на жалобы работников (complaints), надбавки в зависимости от результатов работы (raises) и возможность продвижения (advance).

Какой же департамент вам выбрать? Напишите его номер XX (номер строки в дата фрейме)
```{r}
head(attitude)
```
**Алгоритм**  
1. Найти топ-5 показателей learning
```{r}
attitude$learning[1:5]
```
2. Найти номера наблюдений с топ-5 показателем learning
```{r}
order(-attitude$learning)[1:5]
```
3. Обратиться по логическому индексированию к части дата фрейма по топ-5 по learning
```{r}
attitude[order(-attitude$learning)[1:5], ]
```
4. Вывести часть дата фрейма по топ-5 в learning без столбца learning
```{r}
attitude[order(-attitude$learning),][1:5,][c("complaints","raises","advance")]
```
5. Посчитать сумму рядов по трем оставшимся показателям в выведенной части дата фрейма
```{r}
rowSums(attitude[order(-attitude$learning)[1:5],c("complaints","raises","advance")])
```
6. Найти максимальное значение

```{r}
which.max(rowSums(attitude[order(-attitude$learning)[1:5],c("complaints","raises","advance")]))
# или
which.max(rowSums(attitude[order(-attitude$learning),][1:5,][c("complaints","raises","advance")]))
```
Не очень пойму, как работает order и такое сложное логическое индексирование 

# Cпособы обращения к строкам, соответсвующие определенным условиям
Нижеуказанными способами можно выбрать только те строки, которые соответствуют департаментам с рейтингом (rating) ниже пятидесяти, при этом сохранив все столбцы, кроме rating  
**Способ 1** - алгоритм:  
1. Используем функцию subset (подгруппа) к дата фрейму attitude,  
2. аргументом указываем вывести определенные строки (rating < 50)
```{r}
subset(attitude, rating < 50)
```

3. исключаем столбец rating (-rating)
```{r}
subset(attitude, rating < 50, -rating)
```
**Способ 2** - алгоритм:  
1. Используем функцию subset (подгруппа) к дата фрейму attitude (только выносим аргументом в конец)  
2. Выбираем исключить столбец rating, сокращая select (sel = -rating)  
```{r}
subset(sel = -rating, attitude)
```

3. Выводим строки подгруппой с rating < 50 (subset = rating < 50)
```{r}
subset(sel = -rating, sub = rating < 50, attitude)
```
**Способ 3** - алгоритм:  
1. Обращаемся к определенному индексу дата фрейма attitude  
2. Используем логическое индексирование
3. Выводим строки, соответсвующие логическому индексу [attitude$rating < 50]
4. Выводим строки без столбца rating [names(attitude) != "rating"]
```{r}
attitude[attitude$rating < 50, ]
```
```{r}
attitude[attitude$rating < 50, names(attitude) != "rating"]
```

