ВЕКТОР - часть 1
- Ключевой объект языка R - вектор
- Вектор и векторизация - краеугольный камень R и ключ к написанию красивого и эффективного кода
- Идеи векторов и векторизации редко встречаются в других языках программирования
- Вектор - самая базовая структура данных в R
- На векторах основаны более сложные структуры (матрица, список, фактор, дата фрейм)
- Векторизация - ключевая концепция языка
Вектор - индексированный набор данных одного типа. Каждый элемент данных имеет свой индекс.
* R не делает различия между скалярными и векторными величинами, т.е. Скаляр - это вектор длины 1.
* Скаляр - всегда описывается одним числом
* Вектор - может описываться несколькими числами (2 и >)
Т.е. есть некий примитивный тип данных - например, целочисленный тип, после этого объявляется вектор, который уже состоит из этих целочисленный типов.
Но есть и целочисленный тип отдельно, например, число 3
Для R число 3 - это вектор. Т.е. если у R спросить, является ли 3 (тройка) вектором (тройка - скаляр), то он скажет, что да, является
is.vector(3)
[1] TRUE
Индексация векторов начинается с единицы (не с нуля, в отличие от того же Python). Для создания вектора можно использовать функцию vector Например:
x <- vector(length = 2)
x[1] <- 3
x[2] <- 26
x
[1] 3 26
Но в R такая запись используется крайне редко Вместо указания каждого элемента в отдельности, есть функция combine:
x <- c(23, 35)
x
[1] 23 35
Функция c (combine) может быть и вложенная, например:
y <- c(x, 1, c(3, 4), 18, 21)
y
[1] 23 35 1 3 4 18 21
Но все-таки функция combine требует перечисления всех элементов вектора. Часто элементы можно записать проще через последовательности
ПОСЛЕДОВАТЕЛЬНОСТИ ЧИСЕЛ (Оператор двуеточие :)
5:0
[1] 5 4 3 2 1 0
Сложные последовательности с произвольным шагом
Например, хочу создать вектор с началом 1, концом 2 и шагом 1/4
Синтаксис
seq(from = 1, to = 1, by = ((to - from)/(length.out - 1))
# 1 - начало, 2 - конец
seq(1, 2, by = 0.25)
[1] 1.00 1.25 1.50 1.75 2.00
Если я заранее не знаю шаг, но знаю сколько элементов должно быть на промежутке, то можно сделать следующую запись:
seq(3, 4, length.out = 5) # где length.out = количество элементов на промежутке, тогда шаг рассчитается автоматически
[1] 3.00 3.25 3.50 3.75 4.00
N.B! В некоторых случаях необязательно указывать имя аргумента целиком для именнованных аргументов, можно просто указать именнованный префикс. Например:
seq(3,4, length = 5) # результат будет такой же, как и в предыдущем примере.
[1] 3.00 3.25 3.50 3.75 4.00
Когда аргументы перечисляются строго в соотвествии с внутренним порядком аргументов функции, то их имена указывать вообще не обязательно, но важно следить за последовательностью. Иначе функция может и сработает, но не так, как мы ожидаем. Аргументы и их последовательность можно всегда посмотреть в справке по функции
Повторение векторов:
Первый аргумент тот, который хотим повторить, затем количество повторений
rep(1:3, times = 3)
[1] 1 2 3 1 2 3 1 2 3
Если я хочу, чтобы каждый элемент вектора повторился несколько раз, то выполняем функцию немного по-другому:
rep(1:3, each = 4)
[1] 1 1 1 1 2 2 2 2 3 3 3 3
Например:
rep(1:3, times = 3)
[1] 1 2 3 1 2 3 1 2 3
rep(1:3, each = 2)
[1] 1 1 2 2 3 3
Как и функции seq, здесь тоже есть аргумент length.out:
rep(1:3, length = 6)
[1] 1 2 3 1 2 3
При этом, если указать длину, не кратную длине повторяемого вектора, то повторится ровно столько элементов вектора, сколько “влазит” в указанную длину
rep(1:3, length = 4)
[1] 1 2 3 1
rep(1:3, length = 5)
[1] 1 2 3 1 2
ТИПЫ ВЕКТОРОВ
Атомарные (atomic) вектора: все элементы одного типа в 1 векторе
6 основных типов векторов:
* logical: True or False
* integer (целые числа)
* numeric/double (числа с плавающей точкой)
* complex (комплексные числа) - есть по умолчанию
* character (строки)
* raw (байтовые последовательности)
Как определить тип вектора?
Функция typeof
y <- c("Дуб - дерево", "Роза - цветок")
typeof(y)
[1] "character"
Функция is.(тип вектора):
is.character(y)
[1] TRUE
is.logical(y)
[1] FALSE
ПРИВЕДЕНИЕ ТИПОВ
- “Естественное приведение” типов по цепочке: logical - integer - double - character
- При чем, если приведение выполняется в процессе программы, то это норма
Т.е. иерархия среди 4 типов векторов от самого “узкого” к самому “широкому” следующая:
1/ logical
2/ integer
3/ double/numeric
4/ character
Например:
b <- c(FALSE, 1.5)
typeof(b)
[1] "double"
b
[1] 0.0 1.5
Т.е. программа никак не предупреждает о том, что в вектор записывается два разных типа элементы. Значение FALSE “естественным” образом привелось к нулю и добавилось к 1.5 -> b получил общий единый тип double
Другой пример:
b <- c(5,b, "abc")
typeof(b)
[1] "character"
Поскольку строка abc самая правая в этой цепочке, самый широкий тип, то весь вектор приводится к типу abc - character. Если мы еще раз посмотрим на b, то увидим:
b
[1] "5" "0" "1.5" "abc"
“Принудительное приведение” типов осуществляется при помощи функции as.* N.B! as.double() = as.numeric()
b <- c(FALSE, 1.5)
b
[1] 0.0 1.5
as.double(b)
[1] 0.0 1.5
Другой пример:
b <- c("Дерево", "Дуб")
as.double(b)
NAs introduced by coercion
[1] NA NA
Пример float в integer
b <- c(1.5, 6.7, 6.9)
as.integer(b)
[1] 1 6 6
У вектора есть тип, и этот тип в каждый момент времени однозначно определен
Но также у вектора есть длина
Параметры вектора: * тип
* длина
При этом в R работа с векторами достаточно гибкая
Длина вектора:
x <- 1:100
length(x)
[1] 100
Длина определяется автоматически, но ее можно принудительно изменить:
length(x) <- 4; x
[1] 1 2 3 4
Т.е. 4 элемента остаются без изменений, а остальные принимают значение по умолчанию, т.е. пропущены
ИМЕНОВАННЫЕ ВЕКТОРА
Элементы вектора могут быть проименованы
- 1й СПОСОБ проименования элементов вектора:
a <- c(uno = 1, dos = 2, "universal answer" = 42, 99)
a
uno dos universal answer
1 2 42 99
При этом непроименнованные элементы будут отображаться корректно
Некоторые имена не могут быть использованы без кавычек, например, начинающиеся с цифры или словосочетания. Чтобы их использовать, нужно заключать их в кавычки, как в примере выше.
Функция names позволяет посмотреть на имена вектора
names(a)
[1] "uno" "dos" "universal answer"
[4] ""
- 2й СПОСОБ именования - переприсвоить вектору names некоторое значение для уже существующей переменной а:
names(a) <- c("one", "two", "forty two", "ninety nine")
a
one two forty two ninety nine
1 2 42 99
Как избавиться от имен в векторе? - присвоить NULL
names(a) <- NULL; a
[1] 1 2 42 99
ВЕКТОРИЗАЦИЯ
1Й аспект - ВЕКТОРНАЯ АРИФМЕТИКА
В R важен негласный принцип “наименьшего удивления”, т.е. мы должны понимать, какой резульат мы ожидаем получить в каждом действии
Арифметические операторы векторизованы (т.е. Применяются поэлементно). ### CЛОЖЕНИЕ
1:3 + c(-1, 2, 0)
[1] 0 4 3
Поэлементное выполнение арифметики верно не только для сложения, но и для всех остальных арифметических действий
1:3 * c(-1, 2, 0)
Верно, в том числе для логических операторов, например & (AND):
c(TRUE, TRUE, TRUE) & c(0, 1, 999)
[1] FALSE TRUE TRUE
При этом не явным образом сработало приведение типов, для численного вектора 0 - превратился в FALSE, все остальное в TRUE
ФУНКЦИОНАЛЬНАЯ ВЕКТОРИЗОВАННОСТЬ R
Многие функции в R имеют встроенную поддержку векторизации.
Например, функция квадратного корня sqrt - векторизована, т.е. как мы и ожидаем действие функции будет применяться поэлементно - в этом суть векторизации функции.
sqrt(a)
[1] 1.000000 1.414214 6.480741 9.949874
Никаких дополнительных действий от нас не требуется
Другая векторизованная функция floor, которая приводит float вниз до ближайшего целого
seq(0, 3, by = 0.25)
[1] 0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00
floor(seq(0 ,3, by = 0.25))
[1] 0 0 0 0 1 1 1 1 2 2 2 2 3
Мне не обязательно создавать промежуточные функции, вектор можно вкидывать в функцию на лету
Невекторизованные функции
Для некоторых в этом может большого смысла и нет, но такие есть. Например, функция sum
sum(1:100)
[1] 5050
Т.е. Здесь мы получаем по сути 1 число, хотя применяли функцию к вектору.
N.B! Операция с векторами разной длины
Как оказалось, R ведёт себя достаточно нетривиально при операциях с векторами разной длины. Выравнивание длин происходит по более длинному вектору, а когда короткий вектор заканчивается, он просто зацикливается.
1:3 + 1:6
[1] 2 4 6 5 7 9
Ещё можно представить, что короткий вектор выравнивается с длинным с помощью вызова rep(vec_short, length=size_long)
Eсли длина большего вектора не делится без остатка на длину меньшего, то выскакивает предупреждение.
1:3 + 1:7
longer object length is not a multiple of shorter object length
[1] 2 4 6 5 7 9 8
Предупреждение: длина большего объекта не является произведением длины меньшего объекта
Глоссарий по уроку векторы
