Me kasutame praktikumides .RData fromaadis olevaid andmefaile, mida on kõige lihtsam RStudiosse importida. See formaat viitab sellele, et tegu on salvestatud R’i töökeskkonnaga (töökeskkonna saab salvestada käsuga save.image(“nimi.RData”)). See juhend annab lühikese ülevaate teistsuguses formaadis olevate andmete improtimise kohta.
RStudiosse saab andmeid importida kahel viisil. Esimene ja lihtsam viis on kasutada Environment paneelil olevat menüüriba Import Dataset. Teine viis on kasutada andmete sisselugemiseks loodud funktsioone (nt. read.csv(), read.xslx()). Funktsioonidele antakse argumendiks andmete asukoht arvutis (nt. minu arvutis on andmed kaustas “andmed”, mis asub C kettal; funktsiooni kasutades peame märkima ära terve asukoha: read.csv(“C:/Users/Martin/Teaching/2018-19/ST2018_AU/andmed/andmefail.csv”)).
Andmete importimise hõlbustamiseks on RStudios Environment paneelis selleks eraldi nupp (Joonis 1.). See võimaldab laadida erinevas formaadis olevaid andmeid (csv, xls, xlsx, sav, dta, por, sas ja stata).
Joonis 1. Import Dataset
Vaatame lähemalt, kuidas importida csv-formaadis olevaid andmeid. Üritage laadida ka enda arvutisse andmestik titanic_data.csv.
Joonis 2. Data Preview
Exceli failide importimisega võib mõnes arvutis probleeme tekkida. Kõige lihtsam viis neid vältida on salvestada Excelis olev andmefail csv-formaadis.
Proovige seda teha andmefailiga ANDMED.xls. Teeme sellest failist koopia ja salvestame uue faili csv-formaadis (nimetus tuleb sõnadest comma separated variable). Salvestame fail käsklusega Save As… ja paneme faili nimeks ANDMED_R.csv (Joonis 3.). Proovige see andmestik nüüd RStudiosse importida.
Joonis 3. Exceli faili salvestamine csv-formaadis.
Paljude andmeformaatide jaoks on R-is olemas spetsiifilised funktsioonid.
Näiteks saame kasutada csv-formaadis andmete sisselugemiseks funktsiooni read.csv(). Funktsiooni esimeseks arugmendiks pange andmestiku asukoht koos andmestiku nimega (minu arvutis on andmed C kettal olevas kaustas “andmed” “C:/Users/Martin/Teaching/2018-19/ST2018_AU/andmed/ANDMED_R.csv”).
andmed <- read.csv("C:/Users/Martin/Teaching/2018-19/ST2018_AU/andmed/titanic_data.csv", header=TRUE, sep =";")
#lisaargumendiga "header" anname teada, et esimesel real on muutujate nimed
#lisaargumendiga "sep" anname teada, missuguse tähistusega eraldatakse veerge (peamised võimalused: sep = "," - eraldajaks koma, sep = " " - erldajaks tühik, sep = ";" - eraldajaks semikoolon, sep = "\t" - eraldajaks TABiga(tabulaatoriga))
Ka Exceli failide importimiseks on eraldi funktsioon. Esialgu peame installeerima RStudiosse uue pakti. Meil on vaja paketti xlsx, kus on meid huvitav funktsioon. Kirjutage konsoolile järgmine rida:
install.packages("xlsx")
Nüüd saame kasutada funktsiooni read.xlsx(). Esimeseks argumendiks paneme jälle andmestiku asukoha koos andmestiku nimega.
library(xlsx)#teeb paketis olevad funktsioonid aktiivseks.
andmed <- read.xlsx("C:/Users/Martin/Teaching/2018-19/ST2018_AU/andmed/ANDMED.xls", sheetIndex = 1) #argumendiga "sheetIndex" anname teada, millisel exceli lehel antud andmed on