Робота в R
R – це чутлива до регістру клавіатури інтерпретована мова програмування. Ви можете або вводити команди почергово в полі введення команди (>), або запускати набір команд із вхідного файлу. Типи даних, що використовується мовою R: вектори, матриці, таблиці даних і списки (сукупність кількох об’єктів).
Основний функціонал програми реалізується з допомогою вбудованих і створюваних користувачем функцій, і всі об’єкти (набори даних) містяться в пам’яті програми до завершення інтерактивної сесії. Основні функції доступні за замовчуванням. Решта функцій містяться в пакетах, які можуть активуватися під час роботи з програмою за потреби.
Командні рядки складаються з функцій і присвоєнь. R використовує символ <- для присвоєнь замість звичайного знаку рівності. Наприклад, командний рядок
x <- rnorm(5)
створює об’єкт типу вектор, який називається x і містить п’ять випадкових елементів нормального розподілу.
В R можна використовувати знак рівності для присвоєнь. Однак мало які функції написані в такий спосіб. Оскільки це нестандартний синтаксис, у деяких ситуаціях він не буде працювати, і програмісти вас просто засміють. Можна писати присвоєння у зворотному порядку. Наприклад, вираз rnorm(5) -> x еквівалентний вишевказаному командному рядку. Проте так писати не рекомендовано.
Початок роботи
Якщо ви використовуєте Windows, запустіть R зі стартового меню. В операційній системі Mac двічі клацніть на значок R в директорії додатків. У Linux наберіть «R» в командному рядку терміналу. Будь-яка з цих дій запустить R (див. рис. 2.1, як приклад).
Задля освоєння з інтерфейсом, потренуймось на простому вигаданому прикладі. Уявіть, що ви вивчаєте фізичний розвиток, і зібрали дані про вік і вагу 10 немовлят першого року життя (див. табл. 1.1). Ви цікавитеся розподілом значень ваги і їхньою залежністю від віку.
Таблиця 1.1. Вік і вага 10 немовлят
|
Вік (місяці)
|
Вага (кг)
|
Вік (місяці)
|
Вага (кг)
|
|
0.1
|
4.4
|
0.9
|
7.3
|
|
0.3
|
5.3
|
0.3
|
6.0
|
|
0.5
|
7.2
|
0.9
|
10.4
|
|
0.2
|
5.2
|
12.0
|
10.2
|
|
11.0
|
8.5
|
0.3
|
6.1
|
Спочатку ви вводите дані про вік і вагу у вигляді векторів, використовуючи функцію с(), що перетворює свої аргументи у вектор або список. Потім обчислюєте середнє арифметичне і стандартне відхилення для значень ваги, а також коефіцієнт кореляції між віком і вагою, і графічно зображуєте взаємозв’язок між цими двома змінними для візуального вивчення тренду. Функція q(), як показано в наведеному нижче програмному коді, завершує сесію й дозволяє вийти з програми.
age <- c(1,3,5,2,11,9,3,9,12,3)
weight <- c(4.4,5.3,7.2,5.2,8.5,7.3,6.0,10.4,10.2,6.1)
mean(weight)
sd(weight)
cor(age, weight)
plot(age, weight)
З програмного коду видно, що середня вага цих 10 немовлят становить 7.06 кг, а стандартне відхилення дорівнює 2.08 кг і є сильний лінійний взаємозв’язок між віком і вагою (коефіцієнт кореляції дорівнює 0.91). Цей взаємозв’язок також видно на діаграмі розсіювання на рис. 2.2. Не дивно, що в міру дорослішання немовлята в середньому стають важчими.
Діаграма розсіювання на рис. 2.2 інформативна, але виглядає не дуже привабливою. В навчальному курсі “Візуалізація даних” Ви дізнаєтеся, як модифікувати графіки відповідно до ваших потреб.
Щоб отримати уявлення щодо графічних можливостях R, наберіть у командному рядку demo(graphics). Деякі з графіків, що з’являться, представлені на рис. 2.3.
Інші демонстраційні набори графіків можна отримати, надрукувавши demo(Hershey), demo(persp) і demo(image). Для того щоби побачити повний набір демонстраційних графіків, введіть demo() без параметрів.
Як отримати допомогу
R володіє великими довідковими матеріалами. Навчіться орієнтуватися в них, і це допоможе вам у разі роботи з програмою. Вбудована система допомоги містить докладні роз’яснення, посилання на літературу і приклади для кожної функції зі встановлених пакетів. Довідку можна викликати з викорастанням функцій, перерахованих у табл. 1.2.
Таблиця 1.2. Функції виклику довідки в R
|
Вік (місяці)
|
Вага (кг)
|
help.start()
|
Загальна довідка
|
help(func) або ??func
|
Довідка щодо функції func
|
help.search(func) або ??func
|
Пошук в довідці записів, що містять func
|
example(func)
|
Приклади використання функції func
|
RSiteSearch(func)
|
Пошук записів, що містять func в онлайн-довідниках і заархівованих розсилках
|
apropos(func, mode='function')
|
Список всіх доступних функцій, в назві яких є func
|
data()
|
Список всіх демонстраційних даних, що містяться в завантажених пакетах
|
vignette()
|
Список всіх доступних інструкцій щодо завантажених пакетів
|
vignette(func)
|
Список інструкцій за темою func
|
Функція help.start() відкриває вікно браузера з переліком доступних посібників різного рівня складності, що часто ставляться, і посилань на джерела. Функція RSiteSearch() здійснює пошук на задану тему в онлайн-довідниках і архівах розсилок і представляє результати у вікні браузера. Функція vignette() викликає список вступних статей у форматі PDF. Такі статті написані не для всіх пакетів. Як ви могли переконатися, R надає великі довідкові матеріали, і вміння орієнтуватися в них піде вам на користь.
Робочий простір
Робочий простір – це поточне робоче середовище R в пам’яті вашого комп’ютера, яке містить будь-які створені користувачем об’єкти (вектори, матриці, функції, таблиці даних або списки). Наприкінці кожної сесії ви можете зберегти робочий простір, і він автоматично завантажиться під час наступного запуску програми. Команди інтерактивно вводяться у відповідь на запрошення до їхнього введення. Можна використовувати стрілки вгору і вниз для переміщення між введеними раніше командами. Це дозволяє викликати попередню команду, відредагувати і знову її виконати, натиснувши клавішу Enter.
Поточна робоча директорія – це та директорія, де містяться файли даних і куди за замовчуванням зберігаються результати. Функція getwd() дозволяє дізнатися, яка директорія в даний момент є робочою. Ви можете призначити робочу директорію з допомогою функції setwd(). Якщо з’являється необхідність імпортувати файл, який перебуває не в робочій директорії, потрібно написати повний шлях до нього. Завжди укладайте в лапки назви файлів і директорій. Деякі стандартні команди для управління робочим простором наведені в табл. 1.3.
Щоби побачити ці команди в дії, розглянемо такий програмний код.
setwd("C:/myprojects/project1")
options()
options(digits=3)
x <- runif(20)
summary(x)
hist(x)
savehistory()
save.image()
q()
Спочатку призначена поточна робоча директорія, виведені на екран чинні значення параметрів і зазначено, що числа мають виводитися з трьома знаками після десяткового роздільника. Потім створено вектор із 20 випадкових чисел, для нього обчислені основні статистики й побудована гістограма. Нарешті, історія команд збережена у файл .Rhistory, робочий простір (включно з об’єктом x) збережено у файл .Rdata і сесія завершена.
Зверніть увагу на те, що в разу вказівки шляху до директорії в команді setwd() використано прямий слеш (/). R сприймає зворотний слеш (\), як знак екранування символів. Навіть якщо ви використовуєте R на базі Windows, використовуйте прямий слеш у вказівці шляхів до файлів і тек. Зазначимо також, що команда setwd() не створюватиме вказану директорію, якщо вона відсутня. У разі необхідності ви можете використовувати функцію dir.create() для створення директорії, а вже потім – setwd() для того, щоби призначити цю директорію робочою.
Доцільно мати окрему директорію для кожного проекту. Варто починати будь-яку сесію R з вказівки потрібної робочої директорії з використанням функції setwd(), а потім ввести команду load() без аргументів. Це означає закінчення попередньої сесії й допомагає не змішувати дані і встановлені параметри різних проектів. В операційних системах Windows і Mac OS X все ще простіше. Потрібно всього лише знайти файл зі збереженим робочим простором і двічі клацнути на нього. Ця дія запустить R, завантажить збережений робочий простір і призначить директорію, де мітився цей файл, робочою.
Введення і виведення
За замовчуванням запуск R починає інтерактивну сесію, де введення здійснюється з клавіатури, а результати виводяться на екран. Однак можна також запустити команди з так званого скрипта (файлу, який містить функції R), а виведення можливе безпосередньо в різні пристрої.
Введення
Функція source("filename") запускає скрипт. Якщо не прописаний шлях до файлу, мається на увазі, що він міститься в поточній робочій директорії. Наприклад, команда source("myscript.R") запускає серію команд R, які записані у файлі myscript.R. Прийнято, щоби файли скриптів мали розширення .R, але це не обов’язкова умова.
Текстовий висновок
Функція sink("ім'я_файлу") виводить усі результати у файл із назвою ім'я_файлу. За замовчуванням, якщо цей файл уже наявний, нова версія записується поверх старої. Параметр append=TRUE дозволяє додавати новий текст у файл, а не записувати його замість старого тексту. Параметр split=TRUE дозволяє виводити результати й на екран, і в текстовий файл. Виконання команди sink() без аргументів відновить виведення результатів тільки на екран.
Графічний висновок
Хоча команда sink() управляє висновком тексту, вона не робить ніякого впливу на виведення графіки. Для управління виводу зображень використовуйте одну з функцій, зазначених у табл. 1.4. Функція dev.off() направляє виведення графіки назад на екран.
Тепер розглянемо все це в одному прикладі. Уявіть, що у вас є три файли-скрипти, у яких міститься програмний код R (Script1.R, script2.R і script3.R). Команда source("script1.R") запустить програмний код, що міститься у файлі script1.R, і виведе результати на екран.
Якщо ви наберете такі команди:
sink("myoutput", append=TRUE, split=TRUE)
pdf("mygraphs.pdf")
source("script2.R")
буде виконаний програмний код із файлу script2.R, і результати знову з’являться на екрані. Крім того, текстове виведення буде додано до вмісту файлу myoutput, а графічне виведення – збережено у файлі mygraphs.pdf.
Нарешті, якщо ви введете такі команди:
sink()
dev.off()
source("script3.R")
буде виконаний програмний код із файлу script3.R і результати з’являться на екрані. Ні текстове, ні графічне виведення не будуть збережені у файли. Уся послідовність дій представлена на рис. 2.4.
R надає досить багато можливостей для контролю введення даних і виведення результатів. Далі піде мова про запуск програм у пакетному режимі (batch mode).
Пакети
R в базовій установці вже володіє великими можливостями. Однак деякі найбільш разючі опції програми реалізовані в додаткових модулях, які можна завантажити і встановити.
Є більш як 2500 створених користувачами модулів, що називаються пакетами (packages), які ви можете завантажити з http://cran.r-project.org/web/packages. У них укладені майже безмежні можливості – від аналізу геостатистичних даних до мас-спектроскопії білків і аналізу психологічних тестів!
Що таке пакети?
Пакети – це зібрання функцій R, даних і скомпільованого програмного коду в певному форматі. Директорія, у якій пакети містяться на вашому комп’ютері, називається бібліотекою. Функція .libPath() показує, де розташована ваша бібліотека, а функція library() виводить на екран назви всіх наявних у бібліотеці пакетів.
R поставляється вже зі стандартним набором пакетів (включно з base, datasets, utils, grDevices, graphics і methods). У них уже містяться різні функції й набори даних, що доступні за замовчуванням. Інші пакети потрібно завантажувати і встановлювати. Після встановлення вони завантажуються під час сесії в разі потреби потребі. Команда search() виводить на екран назви завантажених і готових до використання пакетів.
Установка пакета
В R є безліч функцій, що призначені для управління пакетами. Для завантаження пакета використовуйте команду install.packages(). Ця команда, введена без аргументів, викличе список дзеркал сайту CRAN. Після вибору дзеркала ви побачите список усіх доступних пакетів. Виберіть один із них, і він буде завантажений. Якщо ви знаєте назву пакета, який хочете встановити, то повідомте функції цю назву у вигляді аргументу. Наприклад, пакет gclus містить функції для створення удосконалених діаграм розсіювання. Цей пакет можна завантажити і встановити з допомогою команди install.packages("gclus").
Пакет потрібно встановити тільки один раз. Однак, як і будь-які інші програми, пакети часто оновлюються їхніми розробниками. Використовуйте команду update.package() для оновлення всіх встановлених пакетів. Для отримання докладної інформації щодо встановлених пакетів можна використати команду installed.packages(). Вона виводить на екран список усіх наявних пакетів із номерами їхніх версій, назвами пакетів, від яких вони залежать, та іншою інформацією.
Завантаження пакета
Коли ви встановлюєте пакет, він завантажується із сайту CRAN і завантажується у вашу бібліотеку. Для використання цього пакету в поточній сесії програми вам потрібно завантажити його з допомогою команди library(). Наприклад, для того щоби використовувати пакет gclus, введіть команду library(gclus). Зрозуміло, перш ніж завантажити пакет, необхідно його встановити. Протягом сесії досить завантажити пакет один раз. За необхідності можна налаштувати робочий простір так, щоби часто використовувані пакети автоматично завантажувалися на початку кожної сесії.
Отримання інформації про пакет
Після завантаження пакета стають доступні нові функції й набори даних. Невеликі набори даних надаються разом із демонстраційним програмним кодом, що дозволяє протестувати нові можливості. Довідкова система містить опис кожної функції (з прикладами) й інформацію про кожний вбудований набір даних. Функція help(package="назва_пакета") виводить короткий опис цього пакета та алфавітний покажчик усіх наявних у ньому функцій і наборів даних. Використання команди help() для назви кожної з цих функцій або наборів даних дозволить з’ясувати нові деталі. Цю ж інформацію можна завантажити із сайту CRAN у вигляді керівництва у форматі PDF.
Є низка поширених помилок, які часто допускають і новачки, і досвідчені програмісти на мові R. Якщо програма видає повідомлення про помилку, перевірте, чи не зробили ви щось із нижченаведеного:
- використовували неправильний регістр:
help(), Help() і HELP() – це три різні функції (тільки перша працюватиме);
- забули поставити лапки там, де вони необхідні:
install.packages(“gclus") працює, а install.packages(gclus) видає повідомлення про помилку;
- забули поставити дужки в разі звернення до функції: наприклад, потрібно набирати
help(), а не help. Навіть якщо аргументи відсутні, дужки однаково необхідні;
- використовували
\ у вказівці шляху до файлу в операційній системі Windows: R сприймає зворотний слеш, як знак екранування символів. setwd("c:\mydata") породжує повідомлення про помилку. Натомість використовуйте setwd("c:/mydata") або setwd("c:\\mydata");
- ввели функцію з пакета, який ще не завантажили. Функція
order.clusters() міститься в пакеті gclus. Якщо ви спробуєте використовувати її до того, як завантажили цей пакет, з’явиться повідомлення про помилку.
Повідомлення про помилки в R можуть бути незрозумілими, однак появі багатьох із них можна запобігти, якщо уважно слідувати перерахованим вище правилам.
Пакетна обробка
Як правило, ви працюєте в R інтерактивно, тобто набираєте команди у відповідь на запрошення на введення й бачите результат виконання кожної команди. У якийсь момент у вас може з’явитися бажання запустити R в періодичному стандартному автоматичному режимі. Наприклад, якщо один раз у місяць вам потрібно здавати один і той же звіт, ви можете написати програму на мові R і запускати її в пакетному режимі.
Спосіб запуску програми в пакетному режимі залежить від типу операційної системи. У Linux або Mac OS X це можна робити з допомогою введення такої команди у вікні терміналу:
R CMD BATCH options infile outfile
де infile – ім’я файлу c програмним кодом R, який повинен бути виконаний; outfile – ім’я файлу, у який будуть записані результати; у файлі options перераховані опції, які визначають параметри виконання коду. Прийнято, щоб infile мав розширення .R, а outfile – .Rout.
У Windows використовуйте команду
"C:\Program Files\R\R-2.13.0\bin\R.exe" CMD BATCH
--vanilla --slave "c:\my projects\myscript.R",
в якій прописані шляхи до файлу R.exe і до файлу з програмним кодом. Додаткова інформація щодо цієї теми, у тому числі використання опцій у командному рядку, міститься в посібнику «Введення в R» на сайті CRAN (http://cran.r-project.org).
Використання виведення в якості введення – повторне використання результатів
Одна з найбільш корисних характеристик R – можливість легко зберегти результат аналізу даних і використовувати його, як введення для подальшого аналізу. Розгляньмо це на прикладі з використанням вбудованого набору даних. Якщо ви не розумієте, які статистичні методи тут застосовані, не хвилюйтеся. Зараз для нас важливий загальний принцип.
Для початку розрахуємо просту лінійну регресію, яка описує залежність витрати палива в милях на галон (miles per gallon – mpg) від ваги машини (weight – wt) для вбудованого набору даних mtcars. Це робиться з використанням функції:
lm(mpg~wt, data=mtcars).
Результати виводяться на екран, але не зберігаються. Потім виконаємо ту ж операцію, зберігши результати у вигляді об’єкта:
lmfit <- lm(mpg~wt, data=mtcars).
Це привласнення створило об’єкт типу список із назвою lmfit, у якому записані докладні результати аналізу (включно з передбаченими значеннями, залишки, коефіцієнти регресії та ін.). Хоча на екрані нічого не з’явилося, результати можна переглядати й піддавати подальшій обробці.
Команда summary(lmfit) виводить на екран зведену інформацію (summary) про результати, з допомогою команди plot(lmfit) можна побудувати діагностичні графіки. Команда cook <-cooks.distance(lmfit) розраховує статистики впливу (influence statistics), а команда plot(cook) зображає їх графічно. Для того щоби передбачити витрата палива, знаючи вагу машини, за новими даними, потрібно використовувати predict(lmfit, mynewdata).
Для того щоби дізнатися, які значення повертає функція, загляньте в розділ «значення» (Value) онлайн-довідки для цієї функції. У командному рядку можна набрати help(lm) або ?lm. Так ви дізнаєтеся, що було збережено, коли ви присвоїли результати функції об’єкту.
У цій лекції ми розглянули деякі сильні сторони R, які роблять цю програму привабливою для студентів, статистиків і аналітиків, які хочуть зрозуміти, що означають їхні дані. Ми обговорили, як встановити програму і як розширити її можливості з допомогою додаткових пакетів. Ми досліджували основні характеристики інтерфейсу, запустили програму інтерактивно й у пакетному режимі, а також створили кілька графіків для прикладу. Ми також дізналися, як зберігати результати роботи в текстових і графічних файлах. Щоби розібратися з можливими труднощами, ми витратили деякий час на знайомство зі способами отримання доступу до великої довідкової інформації.
Тепер, коли у вас встановлена готова до використання програма R, настав час попрацювати з вашими даними. У наступних лекціях ми розглянемо типи даних, з якими працює R, дізнаємось, як імпортувати дані з текстових файлів, інших програм і систем управління базами даних.
