Import Data

Universitas : UIN Malang

Jurusan : Teknik Informatika

Dosen Pengampu : Prof. Dr. Suhartono, M.Kom

Kita dapat melakukan import data dalam berbagai format pada R. Namun, pada sub-chapter ini hanya akan dibahas bagaimana cara mengimport data dari file dengan format .csvdan .txt. Secara umum fungsi-fungsi yang digunakan untuk membaca data pada file

file : lokasi dan nama file yang akan dibaca diakhiri dengan format file. Secara default fungsi akan membaca file yang ada pada working directory. Untuk mengetahui lokasi working directory, jalankan fungsi getwd(). Salin file yang akan dibaca pada lokasi working directory. header : nilai logik yang menunjukkan apakah baris pertama pada file yang dibaca akan dibaca sebagai nama kolom. sep : simbol yang menujukkan pemisah antar data. Pemisah antar data dapat berupa ““,”;“,”.“, dll. dec : simbol yang menujukkan desimal. Pemisah desimal dapat berupa “.” atau “,”. stringsAsFactors : nilai logik yang menunjukkan apakah jenis data string akan dikonversi menjadi factor.

Kelima fungsi tersebut digunakan untuk membaca data tabular atau data yang disusun kedalam format tabel. Fungsi read.table() merupakan bentuk umum dari keempat fungsi lainnya. Fungsi tersebut dapat digunakan untuk membaca data dalam kedua format yang telah disebutkan sebelumnya. Fungsi lainnya lebih spesifi, dimana fungsi read.csv() dan read.csv2() digunakan untuk membaca data dengan ekstensi .csv, sedangkan read.delim() dan read.delim2() untuk membaca data dengan ekstensi .txt. Berikut adalah contoh bagaimana cara membaca data dengan nama data.csv yang ada pada working directory dengan pemisah antar data berupa ; dan tanda koma berupa ,:

Membaca Data Dari Library

Untuk keperluan pendidikan atau pengujian sebuah fungsi biasanya dalam sebuah library disediakan dataset yang siap digunakan. R melalui library datasets menyediakan sejumlah data yang dapat digunakan untuk berlatih menggunakan R. Berikut adalah fungsi yang digunakan untuk mengecek dataset apa saja yang tersedia pada sebuah library:

data(package=.packages(all.available = TRUE))

Berikut adalah contoh cara melakukan pengecekan pada dataset yang tersedia pada library datasets:

data(package="datasets")

# cek seluruh dataset dari seluruh library yg telah dimuat
data()

Ringkasan Data

Terdapat sejumlah fungsi yang akan pembaca sering gunakan untuk mengecek dataset yang akan pembaca analisa. Fungsi-fungsi tersebut antara lain:

head(): mengecek
n (default 6) observasi teratas. tail(): mengecek
n (default 6) observasi terbawah. str(): mengecek struktur data atau jenis data pada masing-masing kolom. Jenis data yang ada pada R dapat berupa num (numerik), int (integer), Factor(factor), date (tanggal), dan chr (karakter atau string). summary(): ringkasan data. Berikut adalah contoh penerapan fungsi-fungsi tersebut pada dataset iris:

# cek 10 observasi teratas
head(iris, 10)

##    Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1           5.1         3.5          1.4         0.2  setosa
## 2           4.9         3.0          1.4         0.2  setosa
## 3           4.7         3.2          1.3         0.2  setosa
## 4           4.6         3.1          1.5         0.2  setosa
## 5           5.0         3.6          1.4         0.2  setosa
## 6           5.4         3.9          1.7         0.4  setosa
## 7           4.6         3.4          1.4         0.3  setosa
## 8           5.0         3.4          1.5         0.2  setosa
## 9           4.4         2.9          1.4         0.2  setosa
## 10          4.9         3.1          1.5         0.1  setosa

# cek 10 observasi terbawah
tail(iris, 10)

##     Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
## 141          6.7         3.1          5.6         2.4 virginica
## 142          6.9         3.1          5.1         2.3 virginica
## 143          5.8         2.7          5.1         1.9 virginica
## 144          6.8         3.2          5.9         2.3 virginica
## 145          6.7         3.3          5.7         2.5 virginica
## 146          6.7         3.0          5.2         2.3 virginica
## 147          6.3         2.5          5.0         1.9 virginica
## 148          6.5         3.0          5.2         2.0 virginica
## 149          6.2         3.4          5.4         2.3 virginica
## 150          5.9         3.0          5.1         1.8 virginica

# cek struktur data
str(iris)

## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

# ringkasan data
summary(iris)

##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
##

Fungsi-fungsi lainnya yang dapat digunakan untuk melakukan analisis statistika deskriptif adalah sebagai berikut:

mean() : menghitung nilai rata-rata variabel numerik. sd() : menghitung simpangan baku variabel numerik. var() : menghitung varians variabel numerik. median() : menghitung median suatu variabel numerik. range() : memperoleh nilai minimum dan maksimum suatu variabel numerik. IQR() : memperoleh nilai jarak antar kuartil. quantile() : memperoleh kuantil variabel numerik.

Berikut adalah contoh penerapan fungsi-fungsi tersebut:

attach(airquality)

# rata-rata konsentrasi ozon
mean(Ozone, na.rm = TRUE)

## [1] 42.12931

# median konsentrasi ozon
median(Ozone, na.rm = TRUE)

## [1] 31.5

# simpangan baku konsentrasi ozon
sd(Ozone, na.rm = TRUE)

## [1] 32.98788

# varians konsentrasi ozon
var(Ozone, na.rm = TRUE)

## [1] 1088.201

# range konsentrasi ozon
range(Ozone, na.rm = TRUE)

## [1]   1 168

# range konsentrasi ozon
range(Ozone, na.rm = TRUE)

## [1]   1 168

# range konsentrasi ozon
range(Ozone, na.rm = TRUE)

## [1]   1 168

Import Data

Sarah Arelia Rahmah

12/3/2021

Membaca Data Dari Library

Ringkasan Data