ВЕКТОР - часть 1
- Ключевой объект языка R - вектор
- Вектор и векторизация - краеугольный камень R и ключ к написанию красивого и эффективного кода
- Идеи векторов и векторизации редко встречаются в других языках программирования
- Вектор - самая базовая структура данных в R
- На векторах основаны более сложные структуры (матрица, список, фактор, дата фрейм)
- Векторизация - ключевая концепция языка
Вектор - индексированный набор данных одного типа. Каждый элемент данных имеет свой индекс.
* R не делает различия между скалярными и векторными величинами, т.е. Скаляр - это вектор длины 1.
* Скаляр - всегда описывается одним числом
* Вектор - может описываться несколькими числами (2 и >)
Т.е. есть некий примитивный тип данных - например, целочисленный тип, после этого объявляется вектор, который уже состоит из этих целочисленный типов.
Но есть и целочисленный тип отдельно, например, число 3
Для R число 3 - это вектор. Т.е. если у R спросить, является ли 3 (тройка) вектором (тройка - скаляр), то он скажет, что да, является
is.vector(3)
[1] TRUE
Индексация векторов начинается с единицы (не с нуля, в отличие от того же Python). Для создания вектора можно использовать функцию vector Например:
x <- vector(length = 2)
x[1] <- 3
x[2] <- 26
x
[1] 3 26
Но в R такая запись используется крайне редко Вместо указания каждого элемента в отдельности, есть функция combine:
x <- c(23, 35)
x
[1] 23 35
Функция c (combine) может быть и вложенная, например:
y <- c(x, 1, c(3, 4), 18, 21)
y
[1] 23 35 1 3 4 18 21
Но все-таки функция combine требует перечисления всех элементов вектора. Часто элементы можно записать проще через последовательности
ПОСЛЕДОВАТЕЛЬНОСТИ ЧИСЕЛ (Оператор двуеточие :)
5:0
[1] 5 4 3 2 1 0
Сложные последовательности с произвольным шагом
Например, хочу создать вектор с началом 1, концом 2 и шагом 1/4
Синтаксис
seq(from = 1, to = 1, by = ((to - from)/(length.out - 1))
# 1 - начало, 2 - конец
seq(1, 2, by = 0.25)
[1] 1.00 1.25 1.50 1.75 2.00
Если я заранее не знаю шаг, но знаю сколько элементов должно быть на промежутке, то можно сделать следующую запись:
seq(3, 4, length.out = 5) # где length.out = количество элементов на промежутке, тогда шаг рассчитается автоматически
[1] 3.00 3.25 3.50 3.75 4.00
N.B! В некоторых случаях необязательно указывать имя аргумента целиком для именнованных аргументов, можно просто указать именнованный префикс. Например:
seq(3,4, length = 5) # результат будет такой же, как и в предыдущем примере.
[1] 3.00 3.25 3.50 3.75 4.00
Когда аргументы перечисляются строго в соотвествии с внутренним порядком аргументов функции, то их имена указывать вообще не обязательно, но важно следить за последовательностью. Иначе функция может и сработает, но не так, как мы ожидаем. Аргументы и их последовательность можно всегда посмотреть в справке по функции
Повторение векторов:
Первый аргумент тот, который хотим повторить, затем количество повторений
rep(1:3, times = 3)
[1] 1 2 3 1 2 3 1 2 3
Если я хочу, чтобы каждый элемент вектора повторился несколько раз, то выполняем функцию немного по-другому:
rep(1:3, each = 4)
[1] 1 1 1 1 2 2 2 2 3 3 3 3
Например:
rep(1:3, times = 3)
[1] 1 2 3 1 2 3 1 2 3
rep(1:3, each = 2)
[1] 1 1 2 2 3 3
Как и функции seq, здесь тоже есть аргумент length.out:
rep(1:3, length = 6)
[1] 1 2 3 1 2 3
При этом, если указать длину, не кратную длине повторяемого вектора, то повторится ровно столько элементов вектора, сколько “влазит” в указанную длину
rep(1:3, length = 4)
[1] 1 2 3 1
rep(1:3, length = 5)
[1] 1 2 3 1 2
ТИПЫ ВЕКТОРОВ
Атомарные (atomic) вектора: все элементы одного типа в 1 векторе
6 основных типов векторов:
* logical: True or False
* integer (целые числа)
* numeric/double (числа с плавающей точкой)
* complex (комплексные числа) - есть по умолчанию
* character (строки)
* raw (байтовые последовательности)
Как определить тип вектора?
Функция typeof
y <- c("Дуб - дерево", "Роза - цветок")
typeof(y)
[1] "character"
Функция is.(тип вектора):
is.character(y)
[1] TRUE
is.logical(y)
[1] FALSE
ПРИВЕДЕНИЕ ТИПОВ
- “Естественное приведение” типов по цепочке: logical - integer - double - character
- При чем, если приведение выполняется в процессе программы, то это норма
Т.е. иерархия среди 4 типов векторов от самого “узкого” к самому “широкому” следующая:
1/ logical
2/ integer
3/ double/numeric
4/ character
Например:
b <- c(FALSE, 1.5)
typeof(b)
[1] "double"
b
[1] 0.0 1.5
Т.е. программа никак не предупреждает о том, что в вектор записывается два разных типа элементы. Значение FALSE “естественным” образом привелось к нулю и добавилось к 1.5 -> b получил общий единый тип double
Другой пример:
b <- c(5,b, "abc")
typeof(b)
[1] "character"
Поскольку строка abc самая правая в этой цепочке, самый широкий тип, то весь вектор приводится к типу abc - character. Если мы еще раз посмотрим на b, то увидим:
b
[1] "5" "0" "1.5" "abc"
“Принудительное приведение” типов осуществляется при помощи функции as.* N.B! as.double() = as.numeric()
b <- c(FALSE, 1.5)
b
[1] 0.0 1.5
as.double(b)
[1] 0.0 1.5
Другой пример:
b <- c("Дерево", "Дуб")
as.double(b)
NAs introduced by coercion
[1] NA NA
Пример float в integer
b <- c(1.5, 6.7, 6.9)
as.integer(b)
[1] 1 6 6
У вектора есть тип, и этот тип в каждый момент времени однозначно определен
Но также у вектора есть длина
Параметры вектора: * тип
* длина
При этом в R работа с векторами достаточно гибкая
Длина вектора:
x <- 1:100
length(x)
[1] 100
Длина определяется автоматически, но ее можно принудительно изменить:
length(x) <- 4; x
[1] 1 2 3 4
Т.е. 4 элемента остаются без изменений, а остальные принимают значение по умолчанию, т.е. пропущены
ИМЕНОВАННЫЕ ВЕКТОРА
Элементы вектора могут быть проименованы
- 1й СПОСОБ проименования элементов вектора:
a <- c(uno = 1, dos = 2, "universal answer" = 42, 99)
a
uno dos universal answer
1 2 42 99
При этом непроименнованные элементы будут отображаться корректно
Некоторые имена не могут быть использованы без кавычек, например, начинающиеся с цифры или словосочетания. Чтобы их использовать, нужно заключать их в кавычки, как в примере выше.
Функция names позволяет посмотреть на имена вектора
names(a)
[1] "uno" "dos" "universal answer"
[4] ""
- 2й СПОСОБ именования - переприсвоить вектору names некоторое значение для уже существующей переменной а:
names(a) <- c("one", "two", "forty two", "ninety nine")
a
one two forty two ninety nine
1 2 42 99
Как избавиться от имен в векторе? - присвоить NULL
names(a) <- NULL; a
[1] 1 2 42 99
ВЕКТОРИЗАЦИЯ
1Й аспект - ВЕКТОРНАЯ АРИФМЕТИКА
В R важен негласный принцип “наименьшего удивления”, т.е. мы должны понимать, какой резульат мы ожидаем получить в каждом действии
Арифметические операторы векторизованы (т.е. Применяются поэлементно). ### CЛОЖЕНИЕ
1:3 + c(-1, 2, 0)
[1] 0 4 3
Поэлементное выполнение арифметики верно не только для сложения, но и для всех остальных арифметических действий
1:3 * c(-1, 2, 0)
Верно, в том числе для логических операторов, например & (AND):
c(TRUE, TRUE, TRUE) & c(0, 1, 999)
[1] FALSE TRUE TRUE
При этом не явным образом сработало приведение типов, для численного вектора 0 - превратился в FALSE, все остальное в TRUE
ФУНКЦИОНАЛЬНАЯ ВЕКТОРИЗОВАННОСТЬ R
Многие функции в R имеют встроенную поддержку векторизации.
Например, функция квадратного корня sqrt - векторизована, т.е. как мы и ожидаем действие функции будет применяться поэлементно - в этом суть векторизации функции.
sqrt(a)
[1] 1.000000 1.414214 6.480741 9.949874
Никаких дополнительных действий от нас не требуется
Другая векторизованная функция floor, которая приводит float вниз до ближайшего целого
seq(0, 3, by = 0.25)
[1] 0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00
floor(seq(0 ,3, by = 0.25))
[1] 0 0 0 0 1 1 1 1 2 2 2 2 3
Мне не обязательно создавать промежуточные функции, вектор можно вкидывать в функцию на лету
Невекторизованные функции
Для некоторых в этом может большого смысла и нет, но такие есть. Например, функция sum
sum(1:100)
[1] 5050
Т.е. Здесь мы получаем по сути 1 число, хотя применяли функцию к вектору.
N.B! Операция с векторами разной длины
Как оказалось, R ведёт себя достаточно нетривиально при операциях с векторами разной длины. Выравнивание длин происходит по более длинному вектору, а когда короткий вектор заканчивается, он просто зацикливается.
1:3 + 1:6
[1] 2 4 6 5 7 9
Ещё можно представить, что короткий вектор выравнивается с длинным с помощью вызова rep(vec_short, length=size_long)
Eсли длина большего вектора не делится без остатка на длину меньшего, то выскакивает предупреждение.
1:3 + 1:7
longer object length is not a multiple of shorter object length
[1] 2 4 6 5 7 9 8
Предупреждение: длина большего объекта не является произведением длины меньшего объекта
Глоссарий по уроку векторы
---
title: "Векторы"
output: html_notebook
---

# ВЕКТОР - часть 1
* Ключевой объект языка R - *вектор* 
* Вектор и векторизация - краеугольный камень R и ключ к написанию красивого и эффективного кода  
* Идеи векторов и векторизации редко встречаются в других языках программирования  
* Вектор - самая базовая структура данных в R  
* На векторах основаны более сложные структуры (матрица, список, фактор, дата фрейм)  
* Векторизация - ключевая концепция языка  

**Вектор** - индексированный набор данных одного типа. Каждый элемент данных имеет свой индекс.  
* R не делает различия между скалярными и векторными величинами, т.е. Скаляр - это вектор длины 1.  
* *Скаляр* - всегда описывается одним числом  
* *Вектор* - может описываться несколькими числами (2 и >)  
  

Т.е. есть некий примитивный тип данных - например, *целочисленный тип*, после этого объявляется вектор, который уже состоит из этих целочисленный типов.  

Но есть и целочисленный тип отдельно, например, число 3  

Для R *число 3 - это вектор*. Т.е. если у R спросить, является ли 3 (тройка) вектором (тройка - скаляр), то он скажет, что да, является
```{r}
is.vector(3)
```
Индексация векторов начинается с единицы (не с нуля, в отличие от того же Python). Для создания вектора можно использовать функцию vector 
Например:
```{r}
x <- vector(length = 2)
x[1] <- 3
x[2] <- 26
x
# Так это обычно выглядит в традиционных языках
```
Но в R *такая запись* используется **крайне редко** 
Вместо указания каждого элемента в отдельности, есть функция *combine*:
```{r}
x <- c(23, 35)
x
```
Функция c (combine) может быть и вложенная, например:
```{r}
y <- c(x, 1, c(3, 4), 18, 21)
y
```
Но все-таки функция combine требует перечисления всех элементов вектора. Часто элементы можно записать проще через последовательности

### ПОСЛЕДОВАТЕЛЬНОСТИ ЧИСЕЛ (Оператор двуеточие :)
```{r}
5:0
```
### Сложные последовательности с произвольным шагом 
Например, хочу создать вектор с началом 1, концом 2 и шагом 1/4  
*Синтаксис*  
seq(from = 1, to = 1, by = ((to - from)/(length.out - 1))
```{r}
# 1 - начало, 2 - конец
seq(1, 2, by = 0.25)
```
Если я заранее не знаю шаг, но знаю сколько элементов должно быть на промежутке, то можно сделать следующую запись:
```{r}
seq(3, 4, length.out = 5) # где length.out = количество элементов на промежутке, тогда шаг рассчитается автоматически
```
N.B! В некоторых случаях необязательно указывать имя аргумента целиком для именнованных аргументов, можно просто указать именнованный префикс. Например:
```{r}
seq(3,4, length = 5) # результат будет такой же, как и в предыдущем примере
```
  Когда аргументы перечисляются строго в соотвествии с внутренним порядком аргументов функции, то их имена указывать вообще не обязательно, но важно следить за последовательностью. Иначе функция может и сработает, но не так, как мы ожидаем. Аргументы и их последовательность можно всегда посмотреть в справке по функции

### Повторение векторов:
Первый аргумент тот, который хотим повторить, затем количество повторений
```{r}
rep(1:3, times = 3)
```

Если я хочу, чтобы каждый элемент вектора повторился несколько раз, то выполняем функцию немного по-другому:
```{r}
rep(1:3, each = 4)
```

Например:
```{r}
rep(1:3, times = 3)
rep(1:3, each = 2)
```
Как и функции seq, здесь тоже есть аргумент length.out:
```{r}
rep(1:3, length = 6)
```
При этом, если указать длину, не кратную длине повторяемого вектора, то повторится ровно столько элементов вектора, сколько *"влазит"* в указанную длину
```{r}
rep(1:3, length = 4)
rep(1:3, length = 5)
```
## ТИПЫ ВЕКТОРОВ
### Атомарные (atomic) вектора: все элементы одного типа в 1 векторе
**6 основных типов векторов:**  
* **logical**: True or False  
* **integer** (целые числа)  
* **numeric/double** (числа с плавающей точкой)  
* **complex** (комплексные числа) - есть по умолчанию  
* **character** (строки)  
* **raw** (байтовые последовательности)

### Как определить тип вектора?
Функция *typeof*
```{r}
y <- c("Дуб - дерево", "Роза - цветок")
typeof(y)
```
Функция is.(*тип вектора*):
```{r}
is.character(y)
is.logical(y)
```
### ПРИВЕДЕНИЕ ТИПОВ
* “Естественное приведение” типов по цепочке:  logical - integer - double - character  
* При чем, если приведение выполняется в процессе программы, то это норма  
Т.е. иерархия среди 4 типов векторов от самого “узкого” к самому “широкому” следующая:  
1/ logical  
2/ integer  
3/ double/numeric  
4/ character 

Например:
```{r}
b <- c(FALSE, 1.5)
typeof(b)
b
```
Т.е. программа никак не предупреждает о том, что в вектор записывается два разных типа элементы. Значение FALSE “естественным” образом привелось к нулю и добавилось к 1.5 -> b получил общий единый тип double 

Другой пример:
```{r}
b <- c(5,b, "abc")
typeof(b)
```
Поскольку строка abc самая правая в этой цепочке, самый широкий тип, то весь вектор приводится к типу abc - character. Если мы еще раз посмотрим на b, то увидим:
```{r}
b
```
### “Принудительное приведение” типов осуществляется при помощи функции as.*
N.B! as.double() = as.numeric()
```{r}
b <- c(FALSE, 1.5)
b
as.double(b)
```
Другой пример:
```{r}
b <- c("Дерево", "Дуб")
as.double(b)
```
Пример float в integer
```{r}
b <- c(1.5, 6.7, 6.9)
as.integer(b)
```

У вектора есть **тип**, и этот тип в каждый момент времени однозначно определен  
  
  
Но также у вектора есть **длина**  
  
  

**Параметры вектора**:
* тип  
* длина   
При этом в R работа с векторами достаточно гибкая  


**Длина вектора**:
```{r}
x <- 1:100
length(x)
```
Длина определяется автоматически, но ее можно принудительно изменить:
```{r}
length(x) <- 4; x
```
Т.е. 4 элемента остаются без изменений, а остальные принимают значение по умолчанию, т.е. пропущены

# ИМЕНОВАННЫЕ ВЕКТОРА
Элементы вектора могут быть проименованы  
  
* **1й СПОСОБ проименования элементов вектора**:
```{r}
a <- c(uno = 1, dos = 2, "universal answer" = 42, 99)
a
```
При этом непроименнованные элементы будут отображаться корректно  
  


Некоторые имена не могут быть использованы без кавычек, например, начинающиеся с цифры или словосочетания. Чтобы их использовать, нужно заключать их в кавычки, как в примере выше.  
  
  
Функция names позволяет посмотреть на имена вектора
```{r}
names(a)
```
* **2й СПОСОБ именования - переприсвоить вектору names некоторое значение для уже существующей переменной а**:
```{r}
names(a) <- c("one", "two", "forty two", "ninety nine")
a
```
**Как избавиться от имен в векторе? - присвоить NULL**
```{r}
names(a) <- NULL; a
```

   
     
  
  
##  ВЕКТОРИЗАЦИЯ 
### 1Й аспект - ВЕКТОРНАЯ АРИФМЕТИКА
В R важен негласный принцип “наименьшего удивления”, т.е. мы должны понимать, какой резульат мы ожидаем получить в каждом действии  
  
  
Арифметические операторы векторизованы (т.е. Применяются поэлементно). 
### CЛОЖЕНИЕ
```{r}
1:3 + c(-1, 2, 0)
```
Поэлементное выполнение арифметики верно не только для сложения, но и для всех остальных арифметических действий 
```{r}
1:3 * c(-1, 2, 0)
```

Верно, в том числе для логических операторов, например & (AND):
```{r}
c(TRUE, TRUE, TRUE) & c(0, 1, 999)
```
При этом не явным образом сработало приведение типов, для численного вектора 0 - превратился в FALSE, все остальное в TRUE

### ФУНКЦИОНАЛЬНАЯ ВЕКТОРИЗОВАННОСТЬ R
Многие функции в R имеют встроенную поддержку векторизации.  
  
  
Например, функция квадратного корня sqrt - векторизована, т.е. как мы и ожидаем действие функции будет применяться поэлементно - в этом суть векторизации функции. 
```{r}
sqrt(a)
```
Никаких дополнительных действий от нас не требуется   
  
Другая векторизованная функция floor, которая приводит float вниз до ближайшего целого
```{r}
seq(0, 3, by = 0.25)
floor(seq(0 ,3, by = 0.25))
```
Мне не обязательно создавать промежуточные функции, вектор можно вкидывать в функцию на лету


### Невекторизованные функции
Для некоторых в этом может большого смысла и нет, но такие есть.
Например, функция sum
```{r}
sum(1:100)
```
Т.е. Здесь мы получаем по сути 1 число, хотя применяли функцию к вектору.

### N.B! Операция с векторами разной длины
Как оказалось, R ведёт себя достаточно нетривиально при операциях с векторами разной длины. Выравнивание длин происходит по более длинному вектору, а когда короткий вектор заканчивается, он просто зацикливается.
```{r}
1:3 + 1:6
```
Ещё можно представить, что короткий вектор выравнивается с длинным с помощью вызова rep(vec_short, length=size_long)  
  
  
Eсли длина большего вектора не делится без остатка на длину меньшего, то выскакивает предупреждение.
```{r}
1:3 + 1:7
```
**Предупреждение**: длина большего объекта не является произведением длины меньшего объекта


### Глоссарий по уроку векторы
```{r}
help()
?c
?":"

?seq
?rep

?print
?all.equal
?typeof

?is.logical
?as.logical

?length
?names
```


