Основна робота з R полягає в написанні функцій. Функціями називають іменований програмний код, складений із певного набору змінних, констант, операторів або інших функцій, і призначений для виконання конкретних операцій та завдань. Як правило (але не завжди), функції повертають результат свого виконання у вигляді об’єкта мови R – змінної певного класу: вектору, списку, таблиці тощо.

       За своїм призначенням функції поділяють на характерні групи: арифметичні, символьні, статистичні та ін. Функції можуть бути вбудованими, тобто представленими в базових пакетах мови R з необхідністю додаткового завантаження, і власними – написаними безпосередньо самим користувачем. Деякі найбільш вживані вбудовані функції представлені нижче:

       Виклик функції та опис | Приклад і результат ————- | ————-

abs(x) - модуль величини x | abs(-1)=1 Cell 3 | Cell 4

Створення власних функцій

       Трьома характерними рисами мови R, як мови високого рівня програмування є модульність побудови, орієнтація на об’єкти, і векторизація обчислень. Під модульністю розуміється широке використання груп виразів і функцій. Вирази expr, що складаються з об’єктів даних, викликів функцій і інших операторів мови групуються у фігурних дужках: {expr_1; ...; expr_m}, і значення, яке повертає ця група, є результатом виконання останнього виразу. Оскільки така група є також виразом, то вона може бути, скажімо, включена в круглі дужки і використовуватися, як частина ще більш загального виразу.Наприклад, група команд нижче виконує обрахунок середнього і стандартного відхилень натурального ряду чисел від 1 до 10 і повертає вектор цих значень:

{aver <- mean(1:10);
stdev <- sd(1:10);
c(MEAN=aver, SD=stdev)
}
   MEAN      SD 
5.50000 3.02765 

       Однак якщо цю операцію необхідно виконувати неодноразово для різних наборів початкових даних, то її варто оформити у вигляді функції. Загальний синтаксис оформлення власної функції користувача такий:

function_name <- function(arg1, arg2, ...) {
  statement
  return(object)
}

де function_name – ім’я створюваної функції; argl, arg2, ... – формальні аргументи функції. Оператор return() потрібен у випадках, коли функція проводить обрахунки над заданими аргументами, але не повертає цільового результату.

       Перед першим виконанням, функцію оголошують у поточному скрипті, або завантажують із допомогою команди source() зі скриптового файлу, де вона була попередньо підготовлена. Тоді виклик функції здійснюється в такий спосіб:

function_name(arg1, arg2, ...)

де argl, arg2, ... – фактичні аргументи, пов’язані з формальними параметрами функції або послідовно, або за найменуванням.

       Для представленого вище прикладу можна оформити функцію:

stat_param <- function(x) {
  aver <- mean(x)
  stdev <- sd(x)
  c(MEAN=aver, SD=stdev)
}

і включити її в колекцію власних функцій, розташованих у файлі my_func.R.

       Тоді необхідний нам результат можна отримати, виконавши

source("my_func.R")
stat_param(1:10)

       Компоненти списку аргументів у заголовку функцій є або обов’язковими, або приймають необов’язкові значення. Наприклад, така функція зводить числовий об’єкт x в степінь n, проте якщо степінь не вказана, то автоматично відбувається зведення в куб:

power <- function(x, n=3) {
  x^n
  }

       Аргументами функцій можуть бути об’єкти різного типу, наприклад, назви інших функцій. Так, функція, наведена нижче, виконує довільні перетворення випадкових рівномірно розподілених величин:

my_example <- function(n, func_trans) {
  X <- runif(n)
  abs(func_trans(x))
  }

       Тоді згенерувати 10 прологарифмованих значень можна, якщо записати:

my_example(10, log)
[1] 2.079442 1.791759 1.386294       NA       NA       NA 2.302585

       Розглянемо в якості прикладу функцію оцінки довірчого інтервалу середнього значення для вибірки розміром n з використанням непараметричного бутстрепу. Варто зазначити, що немає усталеного перекладу терміну “bootstrap” з англійської мови на українську. Використовуються різні варіанти: “бутстреп”, “бутстрап”, “розмноження вибірок”, “метод псевдовибірок”, “ресамплінг” (з англ. “resampling”). Незважаючи на складнощі з україномовною назвою, суть методу, тим не менш, досить просто та докладно викладено в оригінальних роботах Б. Ефрона (1979-1988).

       Припустимо, що ми маємо вибірку деякого обмеженого обсягу, і вважаємо цю вибірку репрезентативною (тобто вибірка задовільно відображає властивості генеральної сукупності, з якої вона була взята). Ідея бутстреп-методу полягає в тому, що ми можемо вилучити велику кількість випадкових вибірок із цієї сукупності для обрахунку шуканого параметру (або параметрів). Очевидно, що завдяки випадковому процесу формування цих нових вибірок, буде спостерігатися певна варіація значень оцінюваного параметру. Іншими словами, ми отримаємо деякий розподіл значень цього параметру. Розрахувавши стандартне відхилення розподілу, ми отримаємо оцінку стандартної помилки параметру, яка за великої кількості спостережень асимптотично наближатиметься до істинної стандартної помилки. Аналогічно отримують оцінки границь довірчого інтервалу.

       Отже, будемо генерувати з початкової вибірки множину псевдовибірок того ж розміру, складених із випадкових комбінацій початкового набору елементів. За такої умови використовуємо алгоритм “випадкового вибору з поверненням” (з англ. “random sampling with replacement”), тобто вилучений елемент повертається в початкову сукупність і має шанс бути обраним знову. У результаті деякі члени в кожній окремій псевдовиборці можуть повторюватися двічі або більше разів, водночас інші – бути відсутніми взагалі. Цей алгоритм в R реалізований у функції sample(data, replace=T). Для кожної псевдовибірки ми розрахуємо значення середнього, а в якості границь 95%-ого довірчого інтервалу приймемо 2.5% і 97.5% квантилі бутстреп-розподілу (квантиль – значення, яке задана випадкова величина не перевищує з фіксованою ймовірністю):

boot_np <- function(data, Nboot=5000) {
  boots <- numeric(Nboot) # Порожній вектор для зберігання результатів
  for(i in 1: Nboot) {
    boots[i] <- mean(sample(data, replace=T))
    }
  CI <- quantile(boots, prob=c(0.025,0.975))
  return(c(m=mean(data), CI))
}
x <- c(5, 5, 8, 10, 10, 10, 19, 20, 20, 20, 30, 40, 42, 50, 50)
boot_np(x)
       m     2.5%    97.5% 
22.60000 15.26667 30.80000 

       У прикладі конструкція for() здійснює формування Nboot=5000 значень середніх для генерованих псевдовибірок.

       Проведемо оцінювання вибіркового довірчого інтервалу звичайним параметричним методом на основі процентилей розподілу Стьюдента (процентиль – міра, у якій процентне значення загальних значень дорівнює цій мірі, або менше за неї):

param_CI <- function(data) {
  n = length(data)
  m = mean(data)
  SE = sd(data) / sqrt (n)
  E = qt(.975, df=n - 1) * SE
  CI <- m + c(-E, E)
  return(c(m, CI))
}
param_CI(x)
[1] 22.60000 13.74741 31.45259
