Перший етап будь-якого аналізу даних – це створення набору даних, у якому міститься інформація для вивчення, у потрібному форматі. В R ця задача розподіляється на такі підзадачі:
Поточна та наступна за нею лекції містять опис базових типів даних, що використовуються в R, а саме вектори, фактори, матриці, масиви даних, таблиці даних і списки. Ця лекція присвячена типам даних вектори, фактори та матриці. Дані можна вводити або вручну, або з зовнішнього джерела. Таким джерелом можуть бути текстові файли, електронні таблиці, статистичні програми й системи управління базами даних.
Структури даних
R працює з різними структурами даних, включно з скалярами, векторами, матрицями, масивами даних, таблицями даних і списками. Вони відрізняються типами даних, способом створення, складністю пристрою, а також способом позначати і витягувати їхні окремі елементи. Ці структури даних схематично зображено на рис. 3.1.
Є кілька властивих тільки R термінів, які бентежать нових користувачів. В R об’єктом (object) називається все, що може бути представлено у вигляді змінних, констант, різних типів даних, функцій й діаграм. В об’єктів є вид (визначає, у якому вигляді об’єкт зберігається в пам’яті) і клас (який вказує загальних функцій типу print
, як із ним звертатися).
Таблиця даних (data frame) – це тип структури даних в R, аналогічний тому виду, у якому зберігаються дані у звичайних статистичних програмах (наприклад, в SAS, SPSS та STATA). Стовпці – це змінні, а рядки – це спостереження. В одній таблиці даних можуть міститися змінні різних типів (наприклад, числові й текстові). Таблиці даних – це основний тип структури даних.
Фактори – це номінальні або порядкові змінні. В R вони зберігаються й обробляються особливим чином.
Далі розглянемо всі типи структури даних послідовно, починаючи з векторів.
Вектори
Вектори (vector) – це одномірні масиви даних, які можуть містити числові, текстові або логічні значення. Для створення вектора застосовується функція об’єднання c()
. Нижче наведено приклади векторів кожного типу:
a <- c(1, 2, 5, 3, 6, -2, 4)
b <- c("one", "two", "three")
c <- c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE)
Тут a
– числовий вектор, b
– текстовий вектор, c
– логічний вектор. Зверніть увагу на те, що всі елементи вектора повинні бути одного типу (числові, текстові або логічні). Не можна змішувати дані різних типів в одному векторі. Скаляри – це вектори, що складаються з одного елемента, наприклад, f <- 3
, g <- "US"
і h <- TRUE
. Вони використовуються для позначення констант.
Окремі елементи вектора можна викликати з допомогою числового вектора, що складається з номерів елементів і укладеного у квадратні дужки. Наприклад, a[c(2, 4)]
позначає другий і четвертий елементи вектора a
. Ось ще приклади:
A <- c(1, 2, 5, 3, 6, -2, 4)
A[3]
[1] 5
A[c(1, 3, 5)]
[1] 1 5 6
A[2:6]
[1] 2 5 3 6 -2
Знак двокрапки в останньому прикладі використаний для створення послідовності чисел. Наприклад, a <- c(2:6)
– це те ж саме, що a <- c(2, 3, 4, 5, 6)
.
Матриці
Матриця (matrix) – це двовимірний масив даних, у якому кожен елемент має однаковий тип (числовий, текстовий або логічний). Матриці створюють з допомогою функції matrix()
. Загальний формат такий:
mymatrix <- matrix(vector, nrow=число_рядків, ncol=число_стовпців,
Error: unexpected input in "mymatrix <- matrix(vector, nrow=\"
де vector
містить елементи матриці; nrow
і ncol
визначають число рядків і стовпців у матриці; dimnames
містить назви рядків і стовпців (їх вказувати не обов’язково), які зберігаються у вигляді текстових векторів; параметр byrow
визначає, як повинна заповнюватися матриця – за рядками (byrow=TRUE
) або за стовпцями (byrow=FALSE
). За замовчуванням матриця заповнюється за стовпцями. Наведений нижче програмний код ілюструє застосування функції matrix.
Y <- matrix(1:20, nrow=5, ncol=4)
Y
[,1] [,2] [,3] [,4]
[1,] 1 6 11 16
[2,] 2 7 12 17
[3,] 3 8 13 18
[4,] 4 9 14 19
[5,] 5 10 15 20
cells <- c(1,26,24,68)
rnames <- c("R1", "R2")
cnames <- c("C1", "C2")
mymatrix <- matrix(cells, nrow=2, ncol=2, byrow=TRUE,
dimnames=list(rnames, cnames))
mymatrix
C1 C2
R1 1 26
R2 24 68
mymatrix <- matrix(cells, nrow=2, ncol=2, byrow=FALSE,
dimnames=list(rnames, cnames))
mymatrix
C1 C2
R1 1 24
R2 26 68
Спочатку ви створюєте матрицю 5×4
. Потім ви робите матрицю 2×2
з назвами рядків і стовпців та заповнюєте її за рядками. Нарешті, ви створюєте матрицю 2×2
і заповнюєте її за стовпцями.
Ви можете позначати рядки, стовпці й елементи матриці з допомогою індексів і квадратних дужок. Наприклад, X[i,]
позначає i-й рядок матриці X
, X[, j]
– позначає її j-ий стовпець, а X[i, j]
відповідає елементу цієї матриці, розташованому на перетині цього рядка й цього стовпчика. У якості індексів i
та j
можна використовувати числові вектори, щоби позначити відразу кілька рядків або стовпців, як це показано нижче.
X <- matrix(1:10, nrow=2)
X
[,1] [,2] [,3] [,4] [,5]
[1,] 1 3 5 7 9
[2,] 2 4 6 8 10
X[2,]
[1] 2 4 6 8 10
X[, 2]
[1] 3 4
X[1,4]
[1] 7
X[1, c(4,5)]
[1] 7 9
Спочатку створено матрицю 2×5
, що містить цифри від 1 до 10. За замовчуванням матриця заповнена цифрами за стовпцями. Потім обрано всі елементи в другому рядку, а далі – усі елементи в другому стовпці. Потім обрано елемент, який розташовується в першому рядку й у четвертому стовпці. Нарешті, обрано елементи першого рядка, які містяться в четвертому і п’ятому стовпчиках.
Матриці мають два виміри і, як і вектори, можуть складатися тільки з одного типу даних. Якщо є більше за два виміри, потрібно використовувати масиви даних. Дані різних типів можна зберігати в таблицях.
Масиви даних
Масиви даних (array) схожі з матрицями, але можуть мати понад два виміри. Масиви даних створюються з допомогою функції array()
за таким зразком:
myarray <- array(vector, dimensions, dimnames)
де vector
містить лише дані; dimensions
– це числовий вектор із зазначенням розмірності для кожного вимірювання; dimnames
– це необов’язковий список назв вимірювань. Нижче в якості прикладу представлений програмний код, з допомогою якого створено тривимірний (2×3×4
) масив чисел.
dim1 <- c("A1", "A2")
dim2 <- c("B1", "B2", "B3")
dim3 <- c("C1", "C2", "C3", "C4")
z <- array(1:24, c(2, 3, 4), dimnames=list(dim1, dim2, dim3))
z
, , C1
B1 B2 B3
A1 1 3 5
A2 2 4 6
, , C2
B1 B2 B3
A1 7 9 11
A2 8 10 12
, , C3
B1 B2 B3
A1 13 15 17
A2 14 16 18
, , C4
B1 B2 B3
A1 19 21 23
A2 20 22 24
Очевидно, що масиви даних – це просто розширені матриці. Вони можуть бути корисні у разі створення програм для реалізації нових статистичних методів. Як і в матрицях, усі елементи масиву даних повинні мати однаковий тип. Система позначення елементів тут така ж, як для матриць. У наведеному вище прикладі елемент z[1,2,3]
– це 15.
Таблиці даних
Таблиця даних (data frame) – це більш широко використовуваний у порівнянні з матрицею об’єкт, оскільки різні стовпці можуть містити різні типи даних (числовий, текстовий та ін.). Таблиця даних – найбільш часто використовувана структура даних в R. Набір даних про пацієнтів (табл. 2.1) складається з числових і текстових даних. Ці дані потрібно представити у вигляді таблиці даних, а не матриці, оскільки таблиця містить у собі дані різних типів. Таблиця даних створюється з допомогою функції data.frame()
:
mydata <- data.frame(col1, col2, col3, ...)
де col1, col2, col3, ...
– це вектори будь-якого типу (текстового, числового або логічного), які стануть стовпцями таблиці. Назви кожному стовпчику можна оголосити з допомогою функції names()
. Проілюструємо сказане на прикладі програмного коду.
patientID <- c(1, 2, 3, 4)
age <- c(25, 34, 28, 52)
diabetes <- c("Type1", "Type2", "Type1", "Type1")
status <- c("Poor", "Improved", "Excellent", "Poor")
patientdata <- data.frame(patientID, age, diabetes, status)
patientdata
Кожен стовпець повинен містити дані тільки одного типу, водночас в одній таблиці даних можуть бути стовпчики з даними різного типу. Оскільки таблиці даних дуже близькі до того, що аналітики називають наборами даних, під час обговоренні таблиць даних ми будемо використовувати терміни стовпці та змінні в якості синонімів.
Існує кілька способів позначити елементи таблиці даних. Можна використовувати індекси, як ми робили це раніше (наприклад, для матриць), або можна вказувати номери стовпців. Наведений нижче програмний код на прикладі створеної раніше таблиці даних patientdata
демонструє обидва способи.
patientdata[1:2]
patientdata[c("diabetes", "status")]
patientdata$age
[1] 25 34 28 52
Знак $
з третього прикладу використовується для позначення певної змінної в таблиці даних. Наприклад, якщо вам потрібно створити зведену таблицю типів діабету залежно від стану хворого, ви можете використовувати такий програмний код:
table(patientdata$diabetes, patientdata$status)
Excellent Improved Poor
Type1 1 0 2
Type2 0 1 0
Оскільки додавання patientdata$ перед назвою кожної змінної може швидко набриднути, наявні команди для швидкого виклику змінної. Для спрощення програмного коду можна використовувати функції attach()
і detach()
або with()
.
Attach(), detach() і with()
Функція attach()
додає зазначену таблицю даних до шляху пошуку R. Коли вказується ім’я змінної, програма шукає цю змінну в таблицях даних, що входять у траєкторію пошуку. У якості прикладу розглянемо таблицю даних mtcars
з лекції 2, використовуючи додатковийпрограмний код, щоби дізнатися основні статистичні дані витрат палива (mpg
), а також відобразити значення цієї змінної на діаграмі залежно від робочого об’єму циліндрів двигуна (disp
) і ваги машини (wt
).
summary(mtcars$mpg)
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.40 15.43 19.20 20.09 22.80 33.90
plot(mtcars$mpg, mtcars$disp)

plot(mtcars$mpg, mtcars$wt)

Це можна також записати у вигляді
attach(mtcars)
summary(mpg)
plot(mpg, disp)
plot(mpg, wt)
detach(mtcars)
Функція detach()
видаляє таблицю даних зі шляху пошуку. Зазначимо, що ця функція нічого не робить із самим об’єктом. Введення цієї команди необов’язкове, але воно корисне в процесі програмуванні, і про нього не слід забувати.
Обмеження даного методу стає очевидним, якщо в нас є кілька об’єктів з однаковими назвами. Розглянемо такий програмний код:
mpg <- c(25, 36, 47)
attach(mtcars)
The following object is masked _by_ .GlobalEnv:
mpg
plot(mpg, wt)
Error in xy.coords(x, y, xlabel, ylabel, log) :
'x' and 'y' lengths differ
mpg
[1] 25 36 47
Коли ми додали до траєкторії пошуку таблицю даних mtcars
, у робочому просторі вже був об’єкт із назвою mpg
. У подібних випадках перевагу отримує об’єкт, який був створений першим, а це не те, чого ми хотіли. Команда plot()
не виконується, тому що mpg
тепер складається з трьох елементів, а disp
– з 32 елементів. Функції attach()
і detach()
найкраще використовувати в процесі роботи з однією таблицею даних, і ймовірність того, що у вас буде кілька об’єктів з однаковими іменами, мала. У будь-якому випадку звертайте увагу на попередження щодо маскування об’єктів однойменними об’єктами (objects are masked
); іншими словами, об’єкти стають недоступними для безпосереднього виклику.
Альтернативний підхід полягає у використанні функції with()
. Попередній приклад можна записати так:
with(mtcars, {
summary(mpg, disp, wt)
plot(mpg, disp)
plot(mpg, wt)
})


В цьому випадку команди всередині фігурних дужок належать таблиці даних mtcars
. Тепер нам не доведеться піклуватися про конфлікт назв. Якщо потрібно виконати тільки одну команду (наприклад, summary(mpg)
), фігурні дужки необов’язкові.
Обмеження функції with()
полягає в тому, що вона не діє за межами фігурних дужок. Розглянемо такий приклад:
with(mtcars, {
stats <- summary(mpg)
stats
})
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.40 15.43 19.20 20.09 22.80 33.90
stats
Error: object 'stats' not found
Якщо потрібно створити об’єкти, які перебуватимуть поза конструкцією with()
, використовуйте спеціальний символ присвоєння <<-
замість звичайного <-
. Цей прийом дозволить зберегти створений об’єкт у робочому просторі поза конструкцією with()
. Це можна показати на прикладі такого програмного коду:
with(mtcars, {
nokeepstats <- summary(mpg)
keepstats <<- summary(mpg)
})
nokeepstats
Error: object 'nokeepstats' not found
keepstats
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.40 15.43 19.20 20.09 22.80 33.90
Здебільшого у посібниках з R рекомендується використовувати with()
, а не attach()
, проте вибір залежить від індивідуальних переваг і повинен ґрунтуватися на тому, чого ви хочете досягти.
Назви рядків
У прикладі з даними про хворих стовпець patientID
використовувався для позначення окремих людей у наборі даних. В R назви рядків можуть бути призначені з допомогою параметра rowname
функції створення таблиці даних. Наприклад, програмний код
patientdata <- data.frame(patientID, age, diabetes,
status, row.names=patientID)
призначає patientID
змінній, яка використовуватиметься для позначення рядків під час виведення даних і створення діаграм в R.
