Таблиці даних
Таблиця даних (data frame) – це більш широко використовуваний у порівнянні з матрицею об’єкт, оскільки різні стовпці можуть містити різні типи даних (числовий, текстовий та ін.). Таблиця даних – найбільш часто використовувана структура даних в R. Набір даних про пацієнтів (табл. 2.1) складається з числових і текстових даних. Ці дані потрібно представити у вигляді таблиці даних, а не матриці, оскільки таблиця містить у собі дані різних типів. Таблиця даних створюється з допомогою функції data.frame():
mydata <- data.frame(col1, col2, col3, ...)
де col1, col2, col3, ... – це вектори будь-якого типу (текстового, числового або логічного), які стануть стовпцями таблиці. Назви кожному стовпчику можна оголосити з допомогою функції names(). Проілюструємо сказане на прикладі програмного коду.
patientID <- c(1, 2, 3, 4)
age <- c(25, 34, 28, 52)
diabetes <- c("Type1", "Type2", "Type1", "Type1")
status <- c("Poor", "Improved", "Excellent", "Poor")
patientdata <- data.frame(patientID, age, diabetes, status)
patientdata
Кожен стовпець повинен містити дані тільки одного типу, водночас в одній таблиці даних можуть бути стовпчики з даними різного типу. Оскільки таблиці даних дуже близькі до того, що аналітики називають наборами даних, під час обговоренні таблиць даних ми будемо використовувати терміни стовпці та змінні в якості синонімів.
Існує кілька способів позначити елементи таблиці даних. Можна використовувати індекси, як ми робили це раніше (наприклад, для матриць), або можна вказувати номери стовпців. Наведений нижче програмний код на прикладі створеної раніше таблиці даних patientdata демонструє обидва способи.
patientdata[1:2]
patientdata[c("diabetes", "status")]
patientdata$age
[1] 25 34 28 52
Знак $ з третього прикладу використовується для позначення певної змінної в таблиці даних. Наприклад, якщо вам потрібно створити зведену таблицю типів діабету залежно від стану хворого, ви можете використовувати такий програмний код:
table(patientdata$diabetes, patientdata$status)
Excellent Improved Poor
Type1 1 0 2
Type2 0 1 0
Оскільки додавання patientdata$ перед назвою кожної змінної може швидко набриднути, наявні команди для швидкого виклику змінної. Для спрощення програмного коду можна використовувати функції attach() і detach() або with().
Attach(), detach() і with()
Функція attach() додає зазначену таблицю даних до шляху пошуку R. Коли вказується ім’я змінної, програма шукає цю змінну в таблицях даних, що входять у траєкторію пошуку. У якості прикладу розглянемо таблицю даних mtcars з глави 1, використовуючи такий програмний код, щоби дізнатися основні статистичні дані витрат палива (mpg), а також відобразити значення цієї змінної на діаграмі залежно від робочого об’єму циліндрів двигуна (disp) і ваги машини (wt).
summary(mtcars$mpg)
plot(mtcars$mpg, mtcars$disp)
plot(mtcars$mpg, mtcars$wt)
Це можна також записати у вигляді
attach(mtcars)
summary(mpg)
plot(mpg, disp)
plot(mpg, wt)
detach(mtcars)
Функція detach() видаляє таблицю даних зі шляху пошуку. Зазначимо, що ця функція нічого не робить із самим об’єктом. Введення цієї команди необов’язкове, але воно корисне в процесі програмуванні, і про нього не слід забувати.
Обмеження даного методу стає очевидним, якщо в нас є кілька об’єктів з однаковими назвами. Розглянемо такий програмний код:
mpg <- c(25, 36, 47)
attach(mtcars)
The following object is masked _by_ .GlobalEnv:
mpg
plot(mpg, wt)
Error in xy.coords(x, y, xlabel, ylabel, log) :
'x' and 'y' lengths differ
mpg
[1] 25 36 47
Коли ми додали до траєкторії пошуку таблицю даних mtcars, у робочому просторі вже був об’єкт із назвою mpg. У подібних випадках перевагу отримує об’єкт, який був створений першим, а це не те, чого ми хотіли. Команда plot() не виконується, тому що mpg тепер складається з трьох елементів, а disp – з 32 елементів. Функції attach() і detach() найкраще використовувати в процесі роботи з однією таблицею даних, і ймовірність того, що у вас буде кілька об’єктів з однаковими іменами, мала. У будь-якому випадку звертайте увагу на попередження щодо маскування об’єктів однойменними об’єктами (objects are masked); іншими словами, об’єкти стають недоступними для безпосереднього виклику.
Альтернативний підхід полягає у використанні функції with(). Попередній приклад можна записати так:
with(mtcars, {
summary(mpg, disp, wt)
plot(mpg, disp)
plot(mpg, wt)
})


В цьому випадку команди всередині фігурних дужок належать таблиці даних mtcars. Тепер нам не доведеться піклуватися про конфлікт назв. Якщо потрібно виконати тільки одну команду (наприклад, summary(mpg)), фігурні дужки необов’язкові.
Обмеження функції with() полягає в тому, що вона не діє за межами фігурних дужок. Розглянемо такий приклад:
with(mtcars, {
stats <- summary(mpg)
stats
})
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.40 15.43 19.20 20.09 22.80 33.90
stats
Error: object 'stats' not found
Якщо потрібно створити об’єкти, які перебуватимуть поза конструкцією with(), використовуйте спеціальний символ присвоєння <<- замість звичайного <-. Цей прийом дозволить зберегти створений об’єкт у робочому просторі поза конструкцією with(). Це можна показати на прикладі такого програмного коду:
with(mtcars, {
nokeepstats <- summary(mpg)
keepstats <<- summary(mpg)
})
nokeepstats
Error: object 'nokeepstats' not found
keepstats
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.40 15.43 19.20 20.09 22.80 33.90
Здебільшого у посібниках з R рекомендується використовувати with(), а не attach(), проте вибір залежить від індивідуальних переваг і повинен ґрунтуватися на тому, чого ви хочете досягти.
Назви рядків
У прикладі з даними про хворих стовпець patientID використовувався для позначення окремих людей у наборі даних. В R назви рядків можуть бути призначені з допомогою параметра rowname функції створення таблиці даних. Наприклад, програмний код
patientdata <- data.frame(patientID, age, diabetes,
status, row.names=patientID)
призначає patientID змінній, яка використовуватиметься для позначення рядків під час виведення даних і створення діаграм в R.
Фактори
Як ми вже дізналися, змінні бувають номінальними, порядковими або неперервними. Номінальні змінні – це категоріальні дані, які неможливо впорядкувати. Змінна Diabetes – це приклад номінальних даних. Навіть якщо ми позначимо Type 1 (тип 1) одиницею, а Type 2 (тип 2) – двійкою, однаково ці цифри неможливо порівнювати в термінах «більше – менше». Порядкові дані можна впорядкувати, але не оцінити кількісно. Змінна Status – хороший приклад порядкових даних. Зрозуміло, що у хворого з поганим (poor) самопочуттям справи йдуть не так добре, як у хворого, чий стан покращився (improved), але не ясно, наскільки. Неперервні змінні можуть приймати будь-яке значення в межах певного діапазону. Їхнє значення можна впорядкувати і зрозуміти, наскільки одне з них більше іншого. Вік, виражений у роках, є неперервною змінною й може приймати такі значення, як 14.5 або 22.8, а також будь-які значення між цими двома. Ви знаєте, що п’ятнадцятирічний підліток старше чотирнадцятирічного на один рік.
Категоріальні (номінальні й порядкові) дані називаються в R факторами. Фактори дуже важливі в R, оскільки вони визначають, як дані будуть проаналізовані і графічно представлені.
Функція factor() зберігає категоріальні дані у вигляді вектора з цілих чисел у діапазоні від одного до k (де k – число унікальних значень категоріальної змінної) й у вигляді внутрішнього вектора з ланцюжка символів (початкових значень змінної), що відповідають цим цілим числам.
Наприклад, уявіть, що у вас є вектор
diabetes <- c("Type1", "Type2", "Type1", "Type1").
Команда diabetes <- factor(diabetes) перетворює цей вектор в (1, 2, 1, 1) і встановлює внутрішню відповідність 1=Type 1 і 2=Type 2 (оголошення числових значень відбувається в алфавітному порядку). Будь-який аналіз, який ви проводитимете з вектором diabetes, сприйматиме цю змінну як номінальну й обиратиме статистичні методи, які підходять для цього типу даних.
При роботі з векторами, представленими порядковими даними, для функції factor() потрібно додавати параметр ordered=TRUE. Використана до вектора
status <- c("Poor", "Improved", "Excellent", "Poor")
команда status <- factor(status, ordered=TRUE) перетворить цей вектор у вигляд (3, 2, 1, 3) і встановить внутрішню відповідність як 1=Excellent, 2=Improved, 3=Poor. Під час будь-якої обробки цього вектора він буде сприйнятий як порядкова змінна із застосуванням відповідних статистичних методів.
За замовчуванням рівні фактора оголошуються значенням вектора в алфавітному порядку. Це спрацювало для фактора status, оскільки порядок "Excellent", "Improved", "Poor" має сенс. Якби замість "Poor" стояло "Ailing", то виникли б труднощі, оскільки тоді порядок був би таким: "Ailing", "Excellent", "Improved". Схожа проблема виникла б, якби нам був потрібен такий порядок: "Poor", "Improved", "Excellent". Для впорядкованих факторів зрідка підходить алфавітний порядок рівнів, що пропонується за замовчуванням. Порядок можна змінити з допомогою параметра levels. Наприклад,
status <- factor(status, order=TRUE,
levels=c("Poor", "Improved", "Excellent"))
присвоїть рівні значень вектора у такий спосбі: 1=Poor, 2=Improved, 3=Excellent. Перевірте, що всі присвоєні рівні відповідають реальним значенням даних. Усі значення даних, які не були зазначені, будуть позначені як відсутні.
Наведений нижче програмний код показує, як призначення факторів і впорядкованих факторів впливає на аналіз даних.
patientID <- c(1, 2, 3, 4)
age <- c(25, 34, 28, 52)
diabetes <- c("Type1", "Type2", "Type1", "Type1")
status <- c("Poor", "Improved", "Excellent", "Poor")
diabetes <- factor(diabetes)
status <- factor(status, order=TRUE)
patientdata <- data.frame(patientID, age, diabetes, status)
str(patientdata)
'data.frame': 4 obs. of 4 variables:
$ patientID: num 1 2 3 4
$ age : num 25 34 28 52
$ diabetes : Factor w/ 2 levels "Type1","Type2": 1 2 1 1
$ status : Ord.factor w/ 3 levels "Excellent"<"Improved"<..: 3 2 1 3
summary(patientdata)
patientID age diabetes status
Min. :1.00 Min. :25.00 Type1:3 Excellent:1
1st Qu.:1.75 1st Qu.:27.25 Type2:1 Improved :1
Median :2.50 Median :31.00 Poor :2
Mean :2.50 Mean :34.75
3rd Qu.:3.25 3rd Qu.:38.50
Max. :4.00 Max. :52.00
Спочатку ви вводите дані, як вектори. Потім ви вказуєте, що diabetes – це фактор, а status – це впорядкований фактор. Нарешті, ви об’єднуєте дані в таблицю. Функція str(object) виводить інформацію про об’єкт (в нашому випадку – таблиця даних). Ясно видно, що diabetes – це фактор, а status – це впорядкований фактор; також зазначено, як він закодований усередині програми. Зверніть увагу, що функція summary() обробляє змінні усіляко. Для неперервної змінної age обчислено мінімум (minimum, min.), максимум (maximum, max.), середнє (mean) і квартили (first and third quartiles: 1st Qu., 3rd Qu.), а для категоріальних змінних diabetes і status підрахована частота зустрічі кожного значення.
Списки
Списки – це найскладніший тип даних в R. Фактично список – це впорядкований набір об’єктів (компонентів). Список може об’єднувати різні (можливо, не пов’язані між собою) об’єкти під одним ім’ям. Наприклад, список може бути поєднанням векторів, матриць, таблиць даних або інших списків.
Список можна створити з допомогою функції list():
mylist <- list(object_1, object_2, ...)
де об’єкти – це будь-які структури даних, що обговорювалися до цього. Об’єктам у списку можна присвоювати імена:
mylist <- list(name_1=object_1, name_2=object_2, ...).
Приклад роботи зі списками наведено нижче.
g <- "My First List"
h <- c(25, 26, 18, 39)
j <- matrix(1:10, nrow=5)
k <- c("one", "two", "three")
mylist <- list(title=g, ages=h, j, k)
mylist
$title
[1] "My First List"
$ages
[1] 25 26 18 39
[[3]]
[,1] [,2]
[1,] 1 6
[2,] 2 7
[3,] 3 8
[4,] 4 9
[5,] 5 10
[[4]]
[1] "one" "two" "three"
mylist[[2]]
[1] 25 26 18 39
mylist[["ages"]]
[1] 25 26 18 39
У наведеному прикладі ми створили список із чотирьох компонентів: тестовий рядок, числовий вектор, матриця й текстовий вектор. У вигляді списку можна зберігати будь-яке число об’єктів.
Можна позначати елементи списку, вказавши їхній номер або назву всередині подвійних квадратних дужок. У цьому прикладі і mylist[[2]], і mylist[["ages"]] позначають один і той же числовий вектор із чотирьох елементів. Списки – це важливий тип структури даних в R з двох причин. По-перше, вони дозволяють вам без проблем впорядкувати і викликати на екран розрізнену інформацію. По-друге, результати виконання багатьох команд є списками. У цьому випадку користувач отримує з таких списків потрібну інформацію. Ви зможете побачити численні приклади функцій, що повертають списки, у наступних лекціях.
Відзначимо кілька особливостей мови R, про які вам слід пам’ятати: * точка (.) у назвах об’єктів не має ніякого спеціального значення. Однак знак долара ($) має приблизно таке ж значення, як точка в інших мовах програмування, позначаючи частину об’єкта. Наприклад, A$x позначає змінну x в таблиці даних A; * в R немає можливості створювати багаторядкові або блокові коментарі. Кожен рядок коментаря потрібно починати знаком #. Під час налагодження програмного коду можна укладати ділянку коду, що повинна бути пропущеною програмним інтерпретатором, всередину конструкції if (FALSE) {...}. Заміна FALSE на TRUE зробить можливим виконання коду; * присвоєння значень неіснуючого елементу вектора, матриці, масиву даних або списку розширить наявний об’єкт задля вміщення нового значення. Розглянемо приклад:
x <- c(8, 6, 4)
x[7] <- 10
x
[1] 8 6 4 NA NA NA 10
В результаті привласнення розмір вектора x збільшився з трьох до семи елементів; * в R немає скалярів. Вони представлені у вигляді вектора, що складається з одного елемента; * нумерація в R починається з 1, а не з 0. У наведеному вище векторі елемент x[1] – це 8.
