На попередніх лекціях ми ознайомились із роботою безпосередньо в системі R та можливістю створення невеликих за обсягом об’єктів для збереження даних (вектори, матриці, списки, таблиці даних). Слід зазначити, однак, що можливості системи R щодо введення й редагування даних навмисне обмежені її творцями, які припускали, що для цього будуть використовуватися інші засоби (наприклад, програма Microsoft Excel або бази даних). Тому об’ємні таблиці даних, що підлягають аналізу, зазвичай готуються з допомогою сторонніх додатків, і тільки потім завантажуються в робоче середовище R із зовнішніх файлів.
Зазвичай аналітики стикаються з даними, які надходять із різних джерел і в різних форматах. За такої умови основне завдання полягає у введенні даних у програму, їхньому аналізі і представленні звіту про результати. У мові R реалізовані різні способи введення даних. Як видно на рис. 8.1, в R можна вводити дані з клавіатури, з текстових файлів, з Microsoft Excel і Access, з поширених статистичних програм, спеціалізованих форматів, а також із різних систем управління базами даних. Оскільки ніколи не можна вгадати, звідки ви отримаєте дані, ми розглянемо в лекції всі джерела послідовно.
Введення даних із клавіатури
Напевно, найпростіший спосіб введення даних – це введення з клавіатури. Функція edit() відкриє текстовий редактор, куди ви зможете ввести свої дані. Ось покрокова інструкція:
- Створіть порожню таблицю даних (або матрицю), вказавши назви й типи змінних.
- Відкрийте текстовий редактор із цим об’єктом, введіть ваші дані і збережіть результат у вигляді об’єкта з даними.
У наведеному нижче прикладі ви створите таблицю даних із назвою mydata з трьома змінними: age (вік, числова), gender (стать, текстова) і weight (вага, числова). Потім ви відкриєте текстовий редактор, введете дані і збережете результат.
mydata <- data.frame(age=numeric(0),
gender=character(0), weight=numeric(0))
mydata <- edit(mydata)
Присвоєння типу age=numeric(0) створюють порожню (без даних) змінну заданого типу. Зверніть увагу на те, що результат редагування знову присвоєно початковому об’єкту. Функція edit() працює з копією об’єкту. Якщо ви не присвоїте результат її роботи будь-якому об’єкту, усі ваші зміни пропадуть. Результат роботи функції edit() під Windows показаний на рис. 8.2.
На рисунку видно, що автор узяв на себе сміливість додати трохи даних. Натиснувши назву стовпців, можна змінити назву й тип відповідної змінної. Можна додавати додаткові змінні, клацаючи на назви невикористаних стовпців. Після закриття текстового редактору, результати зберігають у вигляді обраного об’єкта (у даному випадку об’єкт mydata). Повторне введення функції mydata <- edit(mydata) дозволяє редагувати введені дані й додавати нові. Скорочена версія команди mydata <- edit(mydata) – це просто fix(mydata).
Цей метод добре працює для невеликих обсягів даних. Для наборів даних більшого розміру вам варто звернутися до описаних нижче методів: введення даних із наявних текстових файлів, електронних таблиць Excel, статистичних програм або систем управління базами даних.
Введення даних із текстового файлу з роздільниками
Введення даних із текстових файлів із роздільниками можливий із допомогою команди read.table(), функції, що зберігає дані у вигляді таблиці. Ось приклад використання функції:
mydataframe <- read.table(file, header=logic_value,
sep="роздільник", row.names="назва")
де file – це ASCII (з англ. American Standard Code for Information Interchange – американський стандартний код обміну інформацією) файл із роздільниками; header – це логічне значення, що визначає, чи містить перший рядок назви змінних (TRUE – так, FALSE – немає); sep вказує, яким символом розділені елементи даних; row.names – необов’язковий параметр для вказівки стовпця (стовпців), у якому містяться назви рядків. Наприклад, програмний код
grades <- read.table("studentgrades.csv", header=TRUE, sep=",",
row.names="STUDENTID")
дозволяє прочитати файл із роздільниками-комами, який називається studentgrades.csv, з поточної робочої директорії і зберегти його у вигляді таблиці даних із назвою grades. У цьому файлі назви змінних містилися в першому рядку, а назви рядків – у стовпці з назвою STUDENTID.
Зверніть увагу на те, що використання параметра sep дозволяє використовувати файли з будь-якими символами в якості роздільників. Файли із символом табуляції, як роздільник, можна вводити, вказавши sep="\t". За замовчуванням використовується sep="", що позначає один або кілька пробілів, символів табуляції або символів нового рядка.
За замовчуванням текстові змінні перетворюються у фактори, проте це не завжди доречно (наприклад, для змінної, що містить коментарі респондента). Таке перетворення можна заблокувати різними способами. Додавання параметра stringsAsFactors=FALSE не дозволить перетворювати в чинники всі текстові змінні. У якості альтернативи можна використовувати параметр colClasses, для того щоби вказати формат (наприклад, логічний, числовий, текстовий, фактор) кожного стовпчика.
У функції read.table() є багато додаткових параметрів, з допомогою яких можна стежити за введенням даних. Докладніше про це можна прочитати, виконавши команду help(read.table).
Багато прикладів у цій лекції ґрунтуються на роботі з уже наявними на комп’ютері файлами. У мові R також реалізовано кілька алгоритмів отримання даних з інтернету. Наприклад, замість імені файлу можна використовувати функції file(), gzfile(), bzfile(), xzfile(), unz() і url(). Функція file() дозволяє отримувати доступ до файлів, буферу обміну та до стандартних потоків введення-виведення. Функції gzfile(), bzfile(), xzfile() і unz() дають можливість доступу до стисненим файлів. Функція url() надає доступ до файлів в інтернеті через повну URL-адресу, яка включає https://, ftp:// або file://. Для HTTPS або FTP можна призначити програми-посередники (proxy). Повні URL-адреси (укладені в прямі лапки) можна використовувати також замість назв файлів. Більш детальну інформацію можна отримати, ввівши команду help(file).
Введення даних з Excel
Кращий спосіб прочитати файл у форматі Excel – це зберегти його у форматі текстового файлу з роздільниками і ввести в R, як це описано вище. Під Windows для доступу до файлів Excel також можна використовувати пакет RODBC. У першому рядку електронної таблиці повинні міститися назви змінних (стовпців).
Насамперед закачайте і встановіть пакет RODBC.
Тепер ви можете використовувати такий програмний код для введення даних:
library(RODBC)
channel <- odbcConnectExcel("myfile.xls")
mydataframe <- sqlFetch(channel, "mysheet")
odbcClose(channel)
Тут myfile.xls – це файл Excel, mysheet – це назва потрібного листа з робочої книги Excel, channel – це допоміжний об’єкт RODBC, створений функцією odbcConnectExcel(), і mydataframe – це отримана таблиця даних. Цей пакет також можна використовувати для введення даних з Microsoft Access. Подробиці вказані у файлі довідки: help(RODBC).
В Excel використовуються файли формату XLSX, які фактично є стислим набором XML-файлів. Для введення електронних таблиць у цьому форматі можна використовувати пакет xlsx. Переконайтеся, що перед першим використанням ви завантажили і встановили цей пакет. Функція read.xlsx() здійснює введення потрібного листа XLSX-файлу в таблицю даних. Найпростіше використовувати цю функцію за такою схемою: read.xlsx(file, n), де file – це шлях до файлу книги Excel, а n – число листів, які потрібно ввести. Наприклад, під Windows програмний код
library(xlsx)
workbook <- "c:/myworkbook.xlsx"
mydataframe <- read.xlsx(workbook, 1)
вводить перший лист книги myworkbook.xlsx, що міститься на диску C:, і зберігає його у вигляді таблиці даних mydataframe. Пакет xlsx може не тільки вводити листи XLSX-файлів, а також створювати файли цього формату й управляти ними.
Введення даних з XML-файлів
Останнім часом усе більше даних з’являється у вигляді файлів формату XML. В R є кілька пакетів для роботи з такими файлами. Наприклад, пакет XML, створений Дунканом Темпл Лангом (Duncan Temple Lang), дозволяє користувачам читати, записувати й перетворювати XML-файли.
Одерження даних із веб-сторінок
У процесі роботи в мережі (webscrapping) користувачі отримують дані з веб-сторінок, доступних в інтернеті, і зберігають їх у вигляді об’єктів R для подальшого аналізу. Один зі способів – закачати веб-сторінку з допомогою функції readLines() і далі працювати з нею з використанням функцій grep() і gsub(). Для одержання потрібної інформації з багаторівневих веб-сторінок можна використовувати пакети RCurl і XML. Більш повну інформацію, включно з прикладами, буде надано в наступному модулі.
Введення даних з SPSS
Набори даних у форматі SPSS можна вводити в R з допомогою функції read.spss() з пакету foreign. Інший варіант – використовувати функцію spss.get() з пакету Hmisc. Це функція з інтерфейсом, яка автоматично визначає багато параметрів функції read.spss(), що робить перетворення файлів простішим і більш ефективним. По-перше, завантажте і встановіть пакет Hmisc (пакет foreign входить у базову комплектацію):
install.packages("Hmisc")
Потім використовуйте програмний код для введенняу даних:
У даному випадку mydata.sav – це файл даних SPSS, який потрібно ввести, параметр use.value.labels=TRUE означає, що змінні з підписаними значеннями будуть перетворені в чинники з відповідними рівнями, а mydataframe – це вихідна таблиця даних.
Введення даних з SAS
В R є низка функцій для введення SAS-файлів, включно з read.ssd () у пакеті foreign і sas.get () у пакеті Hmisc. Якщо ви використовуєте останню версію SAS (SAS 9.1 і вище), найімовірніше, ці функції не будуть працювати, оскільки структура файлів SAS була змінена. Відомо два способи вирішення цієї проблеми.
По-перше, можна зберегти набір даних SAS у вигляді текстового файлу з роздільниками-комами з допомогою команди PROC EXPORT, і прочитати одержаний текстовий файл, як це описано вище в лекції. Ось приклад:
Програма SAS:
proc export data = mydata
outfile = "mydata.csv"
dbms = csv;
run;
Програма R:
У якості альтернативи можна використовувати комерційний продукт під назвою Stat Transfer. Ця програма чудово поряється зі збереженням даних SAS (з урахуванням формату змінних) у вигляді таблиць даних R.
Введення даних із систем управління базами даних
Мова програмування R може взаємодіяти з різними системами управління базами даних (з англ. Database Management Systems, DBMS), включно з Microsoft SQL Server, Microsoft Access, MySQL, Oracle, PostgreSQL, DB2, Sybase, Teradata і SQLite. Деякі пакети надають доступ через оригінальні драйвери баз даних, водночас інші забезпечують доступ до даних через відкритий інтерфейс взаємодії з базами даних (з анг. Open Database Connectivity interface, ODBC) або Java-інтерфейс взаємодії з базами даних (з англ. Java Database Connectivity, JDBC). Використання R для доступу до даних, що містяться в зовнішніх DBMS, може бути ефективним способом роботи з великими наборами даних. Це збільшує ефективність використання мови структурованих запитів (з англ. Structured Query Language, SQL) і R.
Інтерфейс ODBC
Найпоширеніший спосіб доступу до DBMS в R – це використання пакету RODBC, який дозволяє R підключитися до будь-якої DBMS, у якій є драйвер OBMS. До таких систем належать усі перераховані вище DBMS. Перший крок – це встановлення й конфігурація відповідного ODBC драйвера для конкретної операційної системи й бази даних, оскільки вони не є частиною R. Якщо потрібні драйвери ще не встановлені на вашому комп’ютері, їх можна знайти в інтернеті. Після установки й конфігурації драйверів встановіть пакет RODBC. Це можна зробити з допомогою команди install.packages("RODBC"). Основні функції цього пакета перераховані в табл. 2.2.
Пакет RODBC забезпечує двостороннє з’єднання між R і з’єднаною через ODBC базою даних SQL. Це означає, що ви можете не тільки завантажувати дані в R з приєднаної бази даних, але і змінювати вміст бази даних мовою R. Припустимо, вам потрібно зберегти дві таблиці (Crime – злочин і Punishment – покарання) з DBMS у вигляді двох таблиць даних із назвами crimedat і pundat відповідно. Це можна зробити таким програмним кодом:
Тут ви завантажуєте пакет RODBC і відкриваєте з’єднання з базою даних ODBC через зареєстровану назву джерела (mydsn) з ідентифікатором користувача (user identifier – UID: rob) і паролем (aardvark). Результат з’єднання обробляється функцією sqlFetch, яка зберігає таблицю Crime у вигляді таблиці даних R crimedat. Потім ви запускаєте оператор SQL select для таблиці Punishment і зберігаєте результат у таблиці даних pundat. Нарешті, ви закриваєте з’єднання.
Функція sqlQuery() відкриває багато можливостей, оскільки в неї можна вставити будь-який діючий оператор SQL. Ця гнучка система дозволяє вибирати окремі змінні, створювати підмножини даних, створювати нові змінні, а також перекодувати й перейменовувати наявні змінні.
Пакети, пов’язані з DBI
Пакет DBI надає широко застосовуваний і послідовний інтерфейс для DBMS. Створений на його основі пакет RJDBC надає доступ до DBMS через драйвер JDBC. Переконайтеся, що перед його використанням на вашому комп’ютері встановлено драйвери JDBC для відповідної операційної системи й бази даних. Інші корисні пакети, створені на базі DBI, – це RMySQL, ROracle, RPostgreSQL і RSQLite. Ці пакети надають драйвери, призначені для конкретних баз даних, однак вони можуть працювати не на всіх операційних системах.
