Universitas : UIN Malang
Jurusan : Teknik Informatika
Dosen Pengampu : Prof. Dr. Suhartono, M.Kom
Kita dapat melakukan import data dalam berbagai format pada R. Namun, pada sub-chapter ini hanya akan dibahas bagaimana cara mengimport data dari file dengan format .csvdan .txt. Secara umum fungsi-fungsi yang digunakan untuk membaca data pada file
file : lokasi dan nama file yang akan dibaca diakhiri dengan format file. Secara default fungsi akan membaca file yang ada pada working directory. Untuk mengetahui lokasi working directory, jalankan fungsi getwd(). Salin file yang akan dibaca pada lokasi working directory. header : nilai logik yang menunjukkan apakah baris pertama pada file yang dibaca akan dibaca sebagai nama kolom. sep : simbol yang menujukkan pemisah antar data. Pemisah antar data dapat berupa ““,”;“,”.“, dll. dec : simbol yang menujukkan desimal. Pemisah desimal dapat berupa “.” atau “,”. stringsAsFactors : nilai logik yang menunjukkan apakah jenis data string akan dikonversi menjadi factor.
Kelima fungsi tersebut digunakan untuk membaca data tabular atau data yang disusun kedalam format tabel. Fungsi read.table() merupakan bentuk umum dari keempat fungsi lainnya. Fungsi tersebut dapat digunakan untuk membaca data dalam kedua format yang telah disebutkan sebelumnya. Fungsi lainnya lebih spesifi, dimana fungsi read.csv() dan read.csv2() digunakan untuk membaca data dengan ekstensi .csv, sedangkan read.delim() dan read.delim2() untuk membaca data dengan ekstensi .txt. Berikut adalah contoh bagaimana cara membaca data dengan nama data.csv yang ada pada working directory dengan pemisah antar data berupa ; dan tanda koma berupa ,:
Untuk keperluan pendidikan atau pengujian sebuah fungsi biasanya dalam sebuah library disediakan dataset yang siap digunakan. R melalui library datasets menyediakan sejumlah data yang dapat digunakan untuk berlatih menggunakan R. Berikut adalah fungsi yang digunakan untuk mengecek dataset apa saja yang tersedia pada sebuah library:
data(package=.packages(all.available = TRUE))
Berikut adalah contoh cara melakukan pengecekan pada dataset yang tersedia pada library datasets:
data(package="datasets")
# cek seluruh dataset dari seluruh library yg telah dimuat
data()
Terdapat sejumlah fungsi yang akan pembaca sering gunakan untuk mengecek dataset yang akan pembaca analisa. Fungsi-fungsi tersebut antara lain:
head(): mengecek
n (default 6) observasi teratas. tail(): mengecek
n (default 6) observasi terbawah. str(): mengecek struktur data atau jenis data pada masing-masing kolom. Jenis data yang ada pada R dapat berupa num (numerik), int (integer), Factor(factor), date (tanggal), dan chr (karakter atau string). summary(): ringkasan data. Berikut adalah contoh penerapan fungsi-fungsi tersebut pada dataset iris:
# cek 10 observasi teratas
head(iris, 10)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1 5.1 3.5 1.4 0.2 setosa
## 2 4.9 3.0 1.4 0.2 setosa
## 3 4.7 3.2 1.3 0.2 setosa
## 4 4.6 3.1 1.5 0.2 setosa
## 5 5.0 3.6 1.4 0.2 setosa
## 6 5.4 3.9 1.7 0.4 setosa
## 7 4.6 3.4 1.4 0.3 setosa
## 8 5.0 3.4 1.5 0.2 setosa
## 9 4.4 2.9 1.4 0.2 setosa
## 10 4.9 3.1 1.5 0.1 setosa
# cek 10 observasi terbawah
tail(iris, 10)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 141 6.7 3.1 5.6 2.4 virginica
## 142 6.9 3.1 5.1 2.3 virginica
## 143 5.8 2.7 5.1 1.9 virginica
## 144 6.8 3.2 5.9 2.3 virginica
## 145 6.7 3.3 5.7 2.5 virginica
## 146 6.7 3.0 5.2 2.3 virginica
## 147 6.3 2.5 5.0 1.9 virginica
## 148 6.5 3.0 5.2 2.0 virginica
## 149 6.2 3.4 5.4 2.3 virginica
## 150 5.9 3.0 5.1 1.8 virginica
# cek struktur data
str(iris)
## 'data.frame': 150 obs. of 5 variables:
## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
# ringkasan data
summary(iris)
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
Fungsi-fungsi lainnya yang dapat digunakan untuk melakukan analisis statistika deskriptif adalah sebagai berikut:
mean() : menghitung nilai rata-rata variabel numerik. sd() : menghitung simpangan baku variabel numerik. var() : menghitung varians variabel numerik. median() : menghitung median suatu variabel numerik. range() : memperoleh nilai minimum dan maksimum suatu variabel numerik. IQR() : memperoleh nilai jarak antar kuartil. quantile() : memperoleh kuantil variabel numerik.
Berikut adalah contoh penerapan fungsi-fungsi tersebut:
attach(airquality)
# rata-rata konsentrasi ozon
mean(Ozone, na.rm = TRUE)
## [1] 42.12931
# median konsentrasi ozon
median(Ozone, na.rm = TRUE)
## [1] 31.5
# simpangan baku konsentrasi ozon
sd(Ozone, na.rm = TRUE)
## [1] 32.98788
# varians konsentrasi ozon
var(Ozone, na.rm = TRUE)
## [1] 1088.201
# range konsentrasi ozon
range(Ozone, na.rm = TRUE)
## [1] 1 168
# range konsentrasi ozon
range(Ozone, na.rm = TRUE)
## [1] 1 168
# range konsentrasi ozon
range(Ozone, na.rm = TRUE)
## [1] 1 168