1. Packages
Package adalah satu set fungsi yang bisa kita install dan panggil di dalam R untuk melakukan hal-hal spesifik. Saat kita baru menginstall R, sudah ada beberapa package yang otomatis terinstall, dan package-package yang sudah terinstall dapat dilihat di panel berjudul packages.
Selain package-package bawaan ini, banyak package lain yang tersebar di internet yang dapat kita install dan gunakan di R. Seiring berjalannya waktu, kita akan terus menambah dan memperbarui package yang kita punya di R kita.
1.1. Menginstall package
Sebagai contoh kita sekarang akan menginstall tidyverse, sebuah package omnibus yang berisi banyak package lain.tidyverse adalah package yang sangat penting untuk berbagai macam penggunaan, dan kebanyakan data wrangling yang dilakukan sudah bisa dilakukan dengan package ini (https://www.tidyverse.org/).
Untuk menginstall sebuah package, kita menggunakan fungsi install.packages(). Hal ini cukup dilakukan sekali saja, karena untuk seterusnya package tersebut sudah tersimpan di dalam memori R kita.
install.packages("tidyverse")
WARNING: Rtools is required to build R packages but is not currently installed. Please download and install the appropriate version of Rtools before proceeding:
https://cran.rstudio.com/bin/windows/Rtools/
Installing package into ‘C:/Users/annas/OneDrive/Documents/R/win-library/4.1’
(as ‘lib’ is unspecified)
trying URL 'https://cran.rstudio.com/bin/windows/contrib/4.1/tidyverse_1.3.1.zip'
Content type 'application/zip' length 430187 bytes (420 KB)
downloaded 420 KB
package ‘tidyverse’ successfully unpacked and MD5 sums checked
The downloaded binary packages are in
C:\Users\annas\AppData\Local\Temp\RtmpAVgPck\downloaded_packages
Sekarang tidyverse akan sudah terinstall di dalam R kita, dalam versi terbarunya. Hal ini bisa dilihat di panel packages di sebelah kanan bawah.
1.2.Menyalakan package
Package yang sudah terinstall tidak akan otomatis ‘nyala’ dan bisa digunakan. Untuk melakukan hal ini, di setiap sesi R baru kita harus menyalakan package tersebut. Gunakan fungsi library().
library(tidyverse)
Registered S3 methods overwritten by 'dbplyr':
method from
print.tbl_lazy
print.tbl_sql
-- Attaching packages ------------------------------------------------------------ tidyverse 1.3.1 --
v ggplot2 3.3.5.9000 v purrr 0.3.4
v tibble 3.1.6 v dplyr 1.0.7
v tidyr 1.1.4 v stringr 1.4.0
v readr 2.1.0 v forcats 0.5.1
-- Conflicts --------------------------------------------------------------- tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag() masks stats::lag()
Sekarang tidyverse sudah bisa digunakan. Seperti yang sudah disebut tadi, hal ini perlu dilakukan di setiap sesi. Oleh karena itu setiap kita membuat script baru, kita harus menulis lagi perintah untuk menyalakan package (bisa di awal script atau sebelum script tersebut mengeksekusi fungsi dari package yang relevan).
2. Membaca tabel
2.1. Set working directory
Sebelum kita membaca data eksternal, ada baiknya kita melakukan penyetingan working directory terlebih dahulu. Working directory adalah folder atau alamat di dalam komputer kita tempat R melakukan penyimpanan secara default. Hal ini akan berguna jika kita ingin membaca maupun menulis file baru.
Pertama, kita bisa periksa terlebih dahulu, apa working directory kita dengan getwd()
getwd()
[1] "D:/Temp/R Tutoring/Jan 21"
Kita bisa mengganti working directory kita dengan menggunakan setwd. Silahkan ganti alamatnya dengan alamat folder yang Anda inginkan!
setwd("D:/Temp/R Tutoring/Jan 21")
Kalau kita coba cek lagi di getwd(), kita akan melihat bahwa perubahan alamat working directory telah berhasil.(Belum dikasih contoh di sini karena Rnotebook, yang digunakan untuk menulis modul ini, tidak bisa menyimpan setting dari setwd() secara konsisten).
2.2. Data dari CSV dan Excel
Untuk mengambil data dari file .csv, kita bisa menggunakan fungsi read.csv. Perintah yang kita masukkan adalah seperti berikut:
jajan_csv <- read.csv("./Session 2/Jajan Q1 - Sheet1.csv")
jajan_csv
Bagian dari sintaks yang ditulis di dalam kurung menunjukkan bahwa kita sedang mengambil data dari directory tertentu. Singkatnya, "./Session 2/" menunjukkan kita sedang merujuk sesuatu di folder “Session 2”, dan Jajan Q1 - Sheet1.csv menunjukkan nama dari filenya.
Ingat kembali ke pembahasan tentang setwd. Perintah di dalam read.csv akan merujuk ke sub-folder yang dijadikan working directory untuk menentukan path ke file yang dituju, sehingga kita tidak perlu menuliskan "D:/Temp/R Tutoring/Jan 21/Session 2/Jajan Q1 - Sheet1.csv". Bagian awal hingga ‘Jan 21’ sudah cukup di setting working directory, dan tidak perlu dituliskan lagi.
Untuk file-file excel seperti ‘.xlsx’, kita perlu menggunakan fungsi yang berbeda, yaitu readxl. Package ini sudah termasuk di dalam tidyverse jadi kita cukup menginstall tidyverse saja, dan seterusnya sudah bisa menggunakan package ini. Tetapi, kita tetap harus memanggil package readxl di tiap sesi jika ingin menggunakannya.
library(readxl)
Perintah untuk memanggil file excel tidak jauh berbeda dengan file, csv, yang bisa dilihat di contoh di bawah ini dengan dataset yang sama.
jajan_xlsx <- read_xlsx("./Session 2/Jajan Q1.xlsx", sheet = "Sheet1")
jajan_xlsx
Perbedaan yang paling terlihat di sini adalah kita bisa memberikan spesifikasi sheet mana yang harus diambil. Hal ini dilakukan menggunakan sheet =. Jika tidak dispesifikasi, maka secara default read_xlsx. Akan mengambil sheet pertama.
Perlu diperhatikan juga ketika kita membaca data dari tabel, format tabel tersebut harus sederhana; satu sheet = satu tabel yang konsisten. R juga cenderung otomatis mengambil row pertama dari tabel apapun sebagai header. Namun, jika format data tidak sesuai, bisa dilakukan data wrangling. Hal ini bisa dilakukan dengan cara misalnya, kita gunakan opsi header = FALSE, yang akan membuat R otomatis membuat header baru di atas tabel kita.
Setelahnya, kita bisa menggunakan list lain, yang kita gunakan untuk me-replace nama kolom yang otomatis dibuat oleh R. Replace dengan menggunakan colnames
# Membuat list baru untuk nama kolom
nama_kolom <- c("kol_1", "kol_2", "kol_3", "kol_4", "kol_5", "kol_6")
nama_kolom
[1] "kol_1" "kol_2" "kol_3" "kol_4" "kol_5" "kol_6"
# Mengganti nama kolom dengan 'colnames'
colnames(jajan_csv_noheader) <- nama_kolom
jajan_csv_noheader
Tentunya setelahnya, rows yang berisi nama kolom sebelumnya harus di-delete. Mendelete kolom dan rows akan dibahas di bagian selanjutnya.
3. Data screening dan cleaning dasar
Umumnya, hal pertama yang kita lakukan setelah meng-ekspor tabel adalah untuk melihat apakah ada permasalahan di data. Oleh karena itu, sekarang mari kita bahas secara singkat mengenai data screening, utamanya mengecek accuracy dari data. Accuracy di sini artinya
Untungnya cukup mudah di R untuk secara cepat mendapatkan gambaran keseluruhan tentang data kita. Fungsi summary memberikan gambaran tersebut, seperti yang bisa dilihat di bawah.
summary(jajan_csv)
nama bulan jajan jumlah harga
Length:25 Length:25 Length:25 Min. :1.000 Min. : 30000
Class :character Class :character Class :character 1st Qu.:1.000 1st Qu.: 30000
Mode :character Mode :character Mode :character Median :1.000 Median : 57500
Mean :2.083 Mean : 206667
3rd Qu.:2.250 3rd Qu.: 88750
Max. :8.000 Max. :1200000
NA's :1 NA's :1
pengeluaran
Min. : 30000
1st Qu.: 75000
Median : 112500
Mean : 243958
3rd Qu.: 195000
Max. :1200000
NA's :1
Dari summary kita bisa melihat beberapa hal:
- Class dari
nama, bulan, dan jajan adalah character, sedangkan jumlah, harga, dan pengeluaran adalah numeric, karena yang langsung muncul adalah data-data summary statistics dari kolom tersebut.
- Untuk variabel yang
numeric, kita langsung bisa melihat mean, median, quantile, serta nilai min da maks-nya.
- Terdapat mising data (
NA's) di beberapa kolom
Dengan informasi ini, kita bisa tahu apa saja yang harus diubah (dibersihkan). Lebih lanjut, kita akan bahas cara-cara membersihkannya di bagian selanjutnya.
4. Manipulasi tabel (lanjut)
4.1. Menghapus row
Terdapat banyak fungsi untuk bisa menghapus row tertentu. Cara yang paling sederhana adalah dengan menggunakan operator - untuk membuat slice dari dataset yang tidak memiliki row di urutan tersebut. Ingatlah bahwa di dataset jajan_csv row kedua adalah catatan bahwa Alvin jajan burger di bulan Januari. Mari kita coba hilangkan row tersebut dengan menggunakan metode ini.
jajan_baru <- jajan_csv[-c(2), ]
jajan_baru
Beberapa fungsi lain memiliki kegunaan yang sama. Misalnya dengan fungsi slice yang merupakan bagian dari tidyverse. Sintaksnya tidak jauh beda dengan menggunakan operator -.
slice(jajan_csv, -c(2))
Kita juga bisa menghapus row berdasarkan nilai di dalam row tersebut. Misalnya, kita ingin menghapus semua catatan tentang Alvin dengan melakukan subsetting biasa, dengan operator !=.
jajan_csv[(jajan_csv$nama == "Alvin"), ]
atau menggunakan operator ! sebelum kita menspesifikasi value yang ingin dihilangkan. (perhatikan tanda != diubah menjadi ==). Kali ini kita coba untuk menghilangkan semua yang bernama Alvin dan Bene.
jajan_csv[!(jajan_csv$nama == "Alvin" | jajan_csv$nama == "Bene"), ]
Kita bisa melakukan omission menggunakan dua kondisi, dengan operator boolean &. Untuk contoh kali ini, kita coba hilangkan semua catatan tentang Alvin membeli jajan kopi, tapi kita ingin semua catatan tentang Alvin tetap ada, di luar dari jajan kopinya. Artinya, kita ingin menghapus row dengan nama = Alvin DAN jajan = kopi.
jajan_csv[!(jajan_csv$nama == "Alvin" & jajan_csv$jajan == "kopi"), ]
4.2. Menghapus kolom
Sama seperti menghapus row, kolom dapat dihapus dengan merefer ke indeksnya. Sintaksnya pun tidak begitu berbeda dengan menghapus row. Contoh, mari kita hapus kolom nama.
jajan_csv[, -c(1)]
Karena kolom memiliki nama variabel yang jelas, kita bisa menggunakan nama tersebut untuk memanggil atau menghapus kolom itu. Untuk melakukan hal ini, kita bisa menggunakan fungsi subset, fungsi yang tersedia di base R. Sintaksnya cukup simpel, cukup spesifikasikan data dan kolom yang ingin dihilangkan di dalam variabel select, di-wrap dengan -().
Selain menghapus kolom, kita juga bisa melakukan sebaliknya, yaitu membuat dataset baru yang isinya hanya kolom yang ingin kita gunakan. Tentu ini kurang lebih sama saja dengan menghapus kolom biasa, maka dari itu kita bisa menggunakan pilihan menghapus atau menyeleksi kolom, tergantung dengan kondisi. Di metode di bawah ini, kita membuat list dari nama kolom yang ingin kita simpan, lalu menggunakan list tersebut di dalam [] untuk memanggil kolom tersebut dari nama-namanya.
keep
[1] "nama" "bulan" "jajan"
Package tidyverse menyediakan opsi yang sangat fleksibel dengan fungsi select. Di fungsi ini kita bisa menyeleksi variabel berdasarkan matching parsial (mis. hanya kolom yang memiliki string tertentu di namanya), menggunakan regex, atau menggunakan fungsi. Lihatlah dokumentasinya untuk penjelasan lebih lengkap (?select)
Salah satu contoh, kita bisa mengambil hanya variabel yang bersifat numeric. Untuk melakukan ini, kita gunakan fungsi di dalam select where() untuk memberi perintah bahwa kita mencari kolom dengan kondisi tertentu.
4.3. Missing data
Missing data biasanya kita tangani dengan dua cara, yaitu menghapus atau menggantinya. Kita akan bahas cara pertama terlebih dahulu.
Menghapus missing data di sini bisa dengan dua cara, yaitu menghapus row atau kolom. Sebuah rule of thumb, jika jumlah missing data tersebar atau tidak terlalu banyak, kita bisa menggunakan opsi pertama, menghapus row. Cara yang mudah untuk melakukan ini adalah dengan na.omit, yang akan menghapus semua row yang memiliki missing data tanpa terkecuali.
na.omit(jajan_csv)
Namun, jika missing data terkonsentrasi di satu variabel, kita bisa menghapus kolom yang relevan. Untuk contoh di bawah ini, kita coba gunakan dataset yang merfleksikan kondisi tersebut. Ingat bahwa kita bisa mendapatkan jumlah missing data dengan menggunakan summary terlebih dahulu.
jajan_missing <- read.csv("./Session 2/Jajan Q1 - Sheet1 (missing).csv")
summary(jajan_missing)
nama bulan jajan jumlah harga
Length:25 Length:25 Length:25 Min. :1.000 Min. : 30000
Class :character Class :character Class :character 1st Qu.:1.000 1st Qu.: 30000
Mode :character Mode :character Mode :character Median :1.000 Median : 57500
Mean :2.083 Mean : 206667
3rd Qu.:2.250 3rd Qu.: 88750
Max. :8.000 Max. :1200000
NA's :1 NA's :1
pengeluaran
Min. : 30000
1st Qu.: 80000
Median : 120000
Mean : 245714
3rd Qu.: 225000
Max. :1200000
NA's :11
Kita lihat bahwa kita memiliki jumlah missing data yang banyak di pengeluaran. Jumlah itu mencakup sampel yang signifikan, hampir setengah dari sampel kita. Sehingga, lebih bijak untuk kita drop saja kolomnya, daripada harus menghabisi sampel.
subset(jajan_missing, select= -(pengeluaran))
Lalu, kita bisa mengkombinasikan cara tersebut untuk membuat dataset kita benar-benar bersih dari missing data:
na.omit(subset(jajan_missing, select= -(pengeluaran)))
Jika kita lebih ingin mengganti missing data dengan nilai lain, kita bisa melakukan assignment biasa, dengan cara seperti contoh di bawah ini.
jajan_csv[is.na(jajan_csv)] <- 0
jajan_csv
4.4. Membuat kolom baru berdasarkan value di kolom lain
Kadang kita butuh membuat kategori atau nilai baru di dalam data, di luar dari hal yang kita dapat di dataset mentah.Umumnya, bisa digunakan fungsi ifelse().
Katakanlah kita ingin mengkategorisasi pengeluaran menjadi tinggi atau rendah, berdasarkan dia di atas 500 ribu rupiah atau tidak.Lalu, jika di antara 500 ribu dan 250 ribu, kita anggap ‘sedang’, dan di bawah 250 ribu kita anggap ‘rendah’.
jajan_csv$tinggi_rendah <- ifelse(jajan_csv$pengeluaran >= 500000, "Tinggi",
ifelse(jajan_csv$pengeluaran >= 250000, "Sedang",
"Rendah"))
jajan_csv
Fungsi ifelse seringkali cukup intuitif, tetapi bisa membingungkan jika kondisinya banyak. Strukturnya yang harus bersifat nested membuat mudah untuk fungsi ini menjadi terlalu banyak fungsi-di-dalam-fungsi yang membingungkan. Alternatif dari ifelse yang sering digunakan adalah mutate, bagian dari tidyverse.
Mari kita coba mutate untuk tujuan yang sama dengan contoh sebelumnya, kali ini di dataset yang berbeda.
Perhatikan bahwa di sini kita menggunakan operator %>%, yang disebut sebagai pipe. Operator ini merupakan bagian dari tidyverse, di mana artinya, setelah operator pipe ditulis, perintah selanjutnya akan merefer ke dataset yang dituju (dalam hal ini jajan_xlsx).
Selain itu, terdapat juga baris bertulisan TRUE ~ "Lainnya". Baris ini artinya “Jika nilainya tidak masuk di dalam kondisi yang disebutkan di atas, maka tulislah”Lainnya”.
jajan_xlsx %>% mutate(tinggi_rendah = case_when(
pengeluaran >= 500000 ~ "Tinggi",
pengeluaran < 500000 & pengeluaran >= 250000 ~ "Sedang",
pengeluaran < 250000 ~ "Rendah",
TRUE ~ "Lainnya"
))
4.5. Mengganti jenis variabel
Data yang kita ambil dari sumber eksternal akan secara otomatis di-assign oleh R ke jenis variabel yang paling masuk akal untuk data tersebut. Tetapi, kadang jenis data tersebut tidak sesuai dengan yang kita inginkan. Sebagai contoh, mari kita lihat lagi struktur data yang kita miliki.
summary(jajan_csv)
nama bulan jajan jumlah harga
Length:25 Length:25 Length:25 Min. :0 Min. : 0
Class :character Class :character Class :character 1st Qu.:1 1st Qu.: 30000
Mode :character Mode :character Mode :character Median :1 Median : 55000
Mean :2 Mean : 198400
3rd Qu.:2 3rd Qu.: 80000
Max. :8 Max. :1200000
pengeluaran tinggi_rendah
Min. : 0 Length:25
1st Qu.: 60000 Class :character
Median : 110000 Mode :character
Mean : 234200
3rd Qu.: 180000
Max. :1200000
Kita lihat di situ nama, bulan, dan jajan adalah character. Ini tidak ideal, karena kita mengetahui bahwa setiap Alvin misalnya, merupakan orang yang sama. Variabel jenis character tidak memperhatikan hal tersebut. Oleh karena itu, di dalam kasus ini kita lebih baik mengubah variabel-variabel tersebut menjadi factor, menggunakan perintah as.factor.
summary(jajan_csv)
nama bulan jajan jumlah harga pengeluaran
1:11 Length:25 Length:25 Min. :0 Min. : 0 Min. : 0
2: 8 Class :character Class :character 1st Qu.:1 1st Qu.: 30000 1st Qu.: 60000
3: 6 Mode :character Mode :character Median :1 Median : 55000 Median : 110000
Mean :2 Mean : 198400 Mean : 234200
3rd Qu.:2 3rd Qu.: 80000 3rd Qu.: 180000
Max. :8 Max. :1200000 Max. :1200000
tinggi_rendah
Length:25
Class :character
Mode :character
Fungsi as.factor adalah turunan dari fungsi dalam base r, yaitu as. dan factor. Sama dengan fungsi is., kita bisa menggunakan fungsi ini untuk berbagai jenis variabel, yang sering digunakan adalah sebagai berikut:
as.factor |
Mengubah variabel menjadi faktor |
as.numeric |
Mengubah variabel menjadi numerik |
as.character |
Mengubah variabel menjadi karakter |
