Apa yang akan dipelajari hari ini?

Di sesi ini kita akan mempraktekkan cara untuk menggunakan data eksternal di R, dan beberapa operasi dasar untuk analisis data. Untuk itu, sesi kali ini dibagi dalam beberapa topik, dimulai dengan mengenal fungsi dan packages. Dilanjutkan dengan cara membaca berbagai jenis tabel, dan beberapa metode manipulasi tabel lanjutan. Terakhir, kita akan mempraktekkan cara untuk menyimpan tabel di R dalam bentuk eksternal.

1. Packages

Package adalah satu set fungsi yang bisa kita install dan panggil di dalam R untuk melakukan hal-hal spesifik. Saat kita baru menginstall R, sudah ada beberapa package yang otomatis terinstall, dan package-package yang sudah terinstall dapat dilihat di panel berjudul packages.

Selain package-package bawaan ini, banyak package lain yang tersebar di internet yang dapat kita install dan gunakan di R. Seiring berjalannya waktu, kita akan terus menambah dan memperbarui package yang kita punya di R kita.

1.1. Menginstall package

Sebagai contoh kita sekarang akan menginstall tidyverse, sebuah package omnibus yang berisi banyak package lain.tidyverse adalah package yang sangat penting untuk berbagai macam penggunaan, dan kebanyakan data wrangling yang dilakukan sudah bisa dilakukan dengan package ini (https://www.tidyverse.org/).

Untuk menginstall sebuah package, kita menggunakan fungsi install.packages(). Hal ini cukup dilakukan sekali saja, karena untuk seterusnya package tersebut sudah tersimpan di dalam memori R kita.

install.packages("tidyverse")
WARNING: Rtools is required to build R packages but is not currently installed. Please download and install the appropriate version of Rtools before proceeding:

https://cran.rstudio.com/bin/windows/Rtools/
Installing package into ‘C:/Users/annas/OneDrive/Documents/R/win-library/4.1’
(as ‘lib’ is unspecified)
trying URL 'https://cran.rstudio.com/bin/windows/contrib/4.1/tidyverse_1.3.1.zip'
Content type 'application/zip' length 430187 bytes (420 KB)
downloaded 420 KB
package ‘tidyverse’ successfully unpacked and MD5 sums checked

The downloaded binary packages are in
    C:\Users\annas\AppData\Local\Temp\RtmpAVgPck\downloaded_packages

Sekarang tidyverse akan sudah terinstall di dalam R kita, dalam versi terbarunya. Hal ini bisa dilihat di panel packages di sebelah kanan bawah.

1.2.Menyalakan package

Package yang sudah terinstall tidak akan otomatis ‘nyala’ dan bisa digunakan. Untuk melakukan hal ini, di setiap sesi R baru kita harus menyalakan package tersebut. Gunakan fungsi library().

library(tidyverse)
Registered S3 methods overwritten by 'dbplyr':
  method         from
  print.tbl_lazy     
  print.tbl_sql      
-- Attaching packages ------------------------------------------------------------ tidyverse 1.3.1 --
v ggplot2 3.3.5.9000     v purrr   0.3.4     
v tibble  3.1.6          v dplyr   1.0.7     
v tidyr   1.1.4          v stringr 1.4.0     
v readr   2.1.0          v forcats 0.5.1     
-- Conflicts --------------------------------------------------------------- tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()

Sekarang tidyverse sudah bisa digunakan. Seperti yang sudah disebut tadi, hal ini perlu dilakukan di setiap sesi. Oleh karena itu setiap kita membuat script baru, kita harus menulis lagi perintah untuk menyalakan package (bisa di awal script atau sebelum script tersebut mengeksekusi fungsi dari package yang relevan).

2. Membaca tabel

2.1. Set working directory

Sebelum kita membaca data eksternal, ada baiknya kita melakukan penyetingan working directory terlebih dahulu. Working directory adalah folder atau alamat di dalam komputer kita tempat R melakukan penyimpanan secara default. Hal ini akan berguna jika kita ingin membaca maupun menulis file baru.

Pertama, kita bisa periksa terlebih dahulu, apa working directory kita dengan getwd()

getwd()
[1] "D:/Temp/R Tutoring/Jan 21"

Kita bisa mengganti working directory kita dengan menggunakan setwd. Silahkan ganti alamatnya dengan alamat folder yang Anda inginkan!

setwd("D:/Temp/R Tutoring/Jan 21")

Kalau kita coba cek lagi di getwd(), kita akan melihat bahwa perubahan alamat working directory telah berhasil.(Belum dikasih contoh di sini karena Rnotebook, yang digunakan untuk menulis modul ini, tidak bisa menyimpan setting dari setwd() secara konsisten).

2.2. Data dari CSV dan Excel

Untuk mengambil data dari file .csv, kita bisa menggunakan fungsi read.csv. Perintah yang kita masukkan adalah seperti berikut:

jajan_csv <- read.csv("./Session 2/Jajan Q1 - Sheet1.csv")
jajan_csv

Bagian dari sintaks yang ditulis di dalam kurung menunjukkan bahwa kita sedang mengambil data dari directory tertentu. Singkatnya, "./Session 2/" menunjukkan kita sedang merujuk sesuatu di folder “Session 2”, dan Jajan Q1 - Sheet1.csv menunjukkan nama dari filenya.

Ingat kembali ke pembahasan tentang setwd. Perintah di dalam read.csv akan merujuk ke sub-folder yang dijadikan working directory untuk menentukan path ke file yang dituju, sehingga kita tidak perlu menuliskan "D:/Temp/R Tutoring/Jan 21/Session 2/Jajan Q1 - Sheet1.csv". Bagian awal hingga ‘Jan 21’ sudah cukup di setting working directory, dan tidak perlu dituliskan lagi.

Untuk file-file excel seperti ‘.xlsx’, kita perlu menggunakan fungsi yang berbeda, yaitu readxl. Package ini sudah termasuk di dalam tidyverse jadi kita cukup menginstall tidyverse saja, dan seterusnya sudah bisa menggunakan package ini. Tetapi, kita tetap harus memanggil package readxl di tiap sesi jika ingin menggunakannya.

library(readxl)

Perintah untuk memanggil file excel tidak jauh berbeda dengan file, csv, yang bisa dilihat di contoh di bawah ini dengan dataset yang sama.

jajan_xlsx <- read_xlsx("./Session 2/Jajan Q1.xlsx", sheet = "Sheet1")
jajan_xlsx

Perbedaan yang paling terlihat di sini adalah kita bisa memberikan spesifikasi sheet mana yang harus diambil. Hal ini dilakukan menggunakan sheet =. Jika tidak dispesifikasi, maka secara default read_xlsx. Akan mengambil sheet pertama.

Perlu diperhatikan juga ketika kita membaca data dari tabel, format tabel tersebut harus sederhana; satu sheet = satu tabel yang konsisten. R juga cenderung otomatis mengambil row pertama dari tabel apapun sebagai header. Namun, jika format data tidak sesuai, bisa dilakukan data wrangling. Hal ini bisa dilakukan dengan cara misalnya, kita gunakan opsi header = FALSE, yang akan membuat R otomatis membuat header baru di atas tabel kita.

Setelahnya, kita bisa menggunakan list lain, yang kita gunakan untuk me-replace nama kolom yang otomatis dibuat oleh R. Replace dengan menggunakan colnames

# Membuat list baru untuk nama kolom 
nama_kolom <- c("kol_1", "kol_2", "kol_3", "kol_4", "kol_5", "kol_6")
nama_kolom
[1] "kol_1" "kol_2" "kol_3" "kol_4" "kol_5" "kol_6"
# Mengganti nama kolom dengan 'colnames'
colnames(jajan_csv_noheader) <- nama_kolom
jajan_csv_noheader

Tentunya setelahnya, rows yang berisi nama kolom sebelumnya harus di-delete. Mendelete kolom dan rows akan dibahas di bagian selanjutnya.

3. Data screening dan cleaning dasar

Umumnya, hal pertama yang kita lakukan setelah meng-ekspor tabel adalah untuk melihat apakah ada permasalahan di data. Oleh karena itu, sekarang mari kita bahas secara singkat mengenai data screening, utamanya mengecek accuracy dari data. Accuracy di sini artinya

Untungnya cukup mudah di R untuk secara cepat mendapatkan gambaran keseluruhan tentang data kita. Fungsi summary memberikan gambaran tersebut, seperti yang bisa dilihat di bawah.

summary(jajan_csv)
     nama              bulan              jajan               jumlah          harga        
 Length:25          Length:25          Length:25          Min.   :1.000   Min.   :  30000  
 Class :character   Class :character   Class :character   1st Qu.:1.000   1st Qu.:  30000  
 Mode  :character   Mode  :character   Mode  :character   Median :1.000   Median :  57500  
                                                          Mean   :2.083   Mean   : 206667  
                                                          3rd Qu.:2.250   3rd Qu.:  88750  
                                                          Max.   :8.000   Max.   :1200000  
                                                          NA's   :1       NA's   :1        
  pengeluaran     
 Min.   :  30000  
 1st Qu.:  75000  
 Median : 112500  
 Mean   : 243958  
 3rd Qu.: 195000  
 Max.   :1200000  
 NA's   :1        

Dari summary kita bisa melihat beberapa hal:

Dengan informasi ini, kita bisa tahu apa saja yang harus diubah (dibersihkan). Lebih lanjut, kita akan bahas cara-cara membersihkannya di bagian selanjutnya.

4. Manipulasi tabel (lanjut)

4.1. Menghapus row

Terdapat banyak fungsi untuk bisa menghapus row tertentu. Cara yang paling sederhana adalah dengan menggunakan operator - untuk membuat slice dari dataset yang tidak memiliki row di urutan tersebut. Ingatlah bahwa di dataset jajan_csv row kedua adalah catatan bahwa Alvin jajan burger di bulan Januari. Mari kita coba hilangkan row tersebut dengan menggunakan metode ini.

jajan_baru <- jajan_csv[-c(2), ]
jajan_baru

Beberapa fungsi lain memiliki kegunaan yang sama. Misalnya dengan fungsi slice yang merupakan bagian dari tidyverse. Sintaksnya tidak jauh beda dengan menggunakan operator -.

slice(jajan_csv, -c(2))

Kita juga bisa menghapus row berdasarkan nilai di dalam row tersebut. Misalnya, kita ingin menghapus semua catatan tentang Alvin dengan melakukan subsetting biasa, dengan operator !=.

jajan_csv[(jajan_csv$nama == "Alvin"), ]

atau menggunakan operator ! sebelum kita menspesifikasi value yang ingin dihilangkan. (perhatikan tanda != diubah menjadi ==). Kali ini kita coba untuk menghilangkan semua yang bernama Alvin dan Bene.

jajan_csv[!(jajan_csv$nama == "Alvin" | jajan_csv$nama == "Bene"), ]

Kita bisa melakukan omission menggunakan dua kondisi, dengan operator boolean &. Untuk contoh kali ini, kita coba hilangkan semua catatan tentang Alvin membeli jajan kopi, tapi kita ingin semua catatan tentang Alvin tetap ada, di luar dari jajan kopinya. Artinya, kita ingin menghapus row dengan nama = Alvin DAN jajan = kopi.

jajan_csv[!(jajan_csv$nama == "Alvin" & jajan_csv$jajan == "kopi"), ]

4.2. Menghapus kolom

Sama seperti menghapus row, kolom dapat dihapus dengan merefer ke indeksnya. Sintaksnya pun tidak begitu berbeda dengan menghapus row. Contoh, mari kita hapus kolom nama.

jajan_csv[, -c(1)]

Karena kolom memiliki nama variabel yang jelas, kita bisa menggunakan nama tersebut untuk memanggil atau menghapus kolom itu. Untuk melakukan hal ini, kita bisa menggunakan fungsi subset, fungsi yang tersedia di base R. Sintaksnya cukup simpel, cukup spesifikasikan data dan kolom yang ingin dihilangkan di dalam variabel select, di-wrap dengan -().

Selain menghapus kolom, kita juga bisa melakukan sebaliknya, yaitu membuat dataset baru yang isinya hanya kolom yang ingin kita gunakan. Tentu ini kurang lebih sama saja dengan menghapus kolom biasa, maka dari itu kita bisa menggunakan pilihan menghapus atau menyeleksi kolom, tergantung dengan kondisi. Di metode di bawah ini, kita membuat list dari nama kolom yang ingin kita simpan, lalu menggunakan list tersebut di dalam [] untuk memanggil kolom tersebut dari nama-namanya.

keep
[1] "nama"  "bulan" "jajan"

Package tidyverse menyediakan opsi yang sangat fleksibel dengan fungsi select. Di fungsi ini kita bisa menyeleksi variabel berdasarkan matching parsial (mis. hanya kolom yang memiliki string tertentu di namanya), menggunakan regex, atau menggunakan fungsi. Lihatlah dokumentasinya untuk penjelasan lebih lengkap (?select)

Salah satu contoh, kita bisa mengambil hanya variabel yang bersifat numeric. Untuk melakukan ini, kita gunakan fungsi di dalam select where() untuk memberi perintah bahwa kita mencari kolom dengan kondisi tertentu.

4.3. Missing data

Missing data biasanya kita tangani dengan dua cara, yaitu menghapus atau menggantinya. Kita akan bahas cara pertama terlebih dahulu.

Menghapus missing data di sini bisa dengan dua cara, yaitu menghapus row atau kolom. Sebuah rule of thumb, jika jumlah missing data tersebar atau tidak terlalu banyak, kita bisa menggunakan opsi pertama, menghapus row. Cara yang mudah untuk melakukan ini adalah dengan na.omit, yang akan menghapus semua row yang memiliki missing data tanpa terkecuali.

na.omit(jajan_csv)

Namun, jika missing data terkonsentrasi di satu variabel, kita bisa menghapus kolom yang relevan. Untuk contoh di bawah ini, kita coba gunakan dataset yang merfleksikan kondisi tersebut. Ingat bahwa kita bisa mendapatkan jumlah missing data dengan menggunakan summary terlebih dahulu.

jajan_missing <- read.csv("./Session 2/Jajan Q1 - Sheet1 (missing).csv")
summary(jajan_missing)
     nama              bulan              jajan               jumlah          harga        
 Length:25          Length:25          Length:25          Min.   :1.000   Min.   :  30000  
 Class :character   Class :character   Class :character   1st Qu.:1.000   1st Qu.:  30000  
 Mode  :character   Mode  :character   Mode  :character   Median :1.000   Median :  57500  
                                                          Mean   :2.083   Mean   : 206667  
                                                          3rd Qu.:2.250   3rd Qu.:  88750  
                                                          Max.   :8.000   Max.   :1200000  
                                                          NA's   :1       NA's   :1        
  pengeluaran     
 Min.   :  30000  
 1st Qu.:  80000  
 Median : 120000  
 Mean   : 245714  
 3rd Qu.: 225000  
 Max.   :1200000  
 NA's   :11       

Kita lihat bahwa kita memiliki jumlah missing data yang banyak di pengeluaran. Jumlah itu mencakup sampel yang signifikan, hampir setengah dari sampel kita. Sehingga, lebih bijak untuk kita drop saja kolomnya, daripada harus menghabisi sampel.

subset(jajan_missing, select= -(pengeluaran))

Lalu, kita bisa mengkombinasikan cara tersebut untuk membuat dataset kita benar-benar bersih dari missing data:

na.omit(subset(jajan_missing, select= -(pengeluaran)))

Jika kita lebih ingin mengganti missing data dengan nilai lain, kita bisa melakukan assignment biasa, dengan cara seperti contoh di bawah ini.

jajan_csv[is.na(jajan_csv)] <- 0
jajan_csv

4.4. Membuat kolom baru berdasarkan value di kolom lain

Kadang kita butuh membuat kategori atau nilai baru di dalam data, di luar dari hal yang kita dapat di dataset mentah.Umumnya, bisa digunakan fungsi ifelse().

Katakanlah kita ingin mengkategorisasi pengeluaran menjadi tinggi atau rendah, berdasarkan dia di atas 500 ribu rupiah atau tidak.Lalu, jika di antara 500 ribu dan 250 ribu, kita anggap ‘sedang’, dan di bawah 250 ribu kita anggap ‘rendah’.

jajan_csv$tinggi_rendah <- ifelse(jajan_csv$pengeluaran >= 500000, "Tinggi", 
                                  ifelse(jajan_csv$pengeluaran >= 250000, "Sedang",
                                         "Rendah"))
jajan_csv

Fungsi ifelse seringkali cukup intuitif, tetapi bisa membingungkan jika kondisinya banyak. Strukturnya yang harus bersifat nested membuat mudah untuk fungsi ini menjadi terlalu banyak fungsi-di-dalam-fungsi yang membingungkan. Alternatif dari ifelse yang sering digunakan adalah mutate, bagian dari tidyverse.

Mari kita coba mutate untuk tujuan yang sama dengan contoh sebelumnya, kali ini di dataset yang berbeda.

Perhatikan bahwa di sini kita menggunakan operator %>%, yang disebut sebagai pipe. Operator ini merupakan bagian dari tidyverse, di mana artinya, setelah operator pipe ditulis, perintah selanjutnya akan merefer ke dataset yang dituju (dalam hal ini jajan_xlsx).

Selain itu, terdapat juga baris bertulisan TRUE ~ "Lainnya". Baris ini artinya “Jika nilainya tidak masuk di dalam kondisi yang disebutkan di atas, maka tulislah”Lainnya”.

jajan_xlsx %>%  mutate(tinggi_rendah = case_when(
  pengeluaran >= 500000 ~ "Tinggi", 
  pengeluaran < 500000 & pengeluaran >= 250000 ~ "Sedang", 
  pengeluaran < 250000 ~ "Rendah", 
  TRUE ~ "Lainnya"
))

4.5. Mengganti jenis variabel

Data yang kita ambil dari sumber eksternal akan secara otomatis di-assign oleh R ke jenis variabel yang paling masuk akal untuk data tersebut. Tetapi, kadang jenis data tersebut tidak sesuai dengan yang kita inginkan. Sebagai contoh, mari kita lihat lagi struktur data yang kita miliki.

summary(jajan_csv)
     nama              bulan              jajan               jumlah      harga        
 Length:25          Length:25          Length:25          Min.   :0   Min.   :      0  
 Class :character   Class :character   Class :character   1st Qu.:1   1st Qu.:  30000  
 Mode  :character   Mode  :character   Mode  :character   Median :1   Median :  55000  
                                                          Mean   :2   Mean   : 198400  
                                                          3rd Qu.:2   3rd Qu.:  80000  
                                                          Max.   :8   Max.   :1200000  
  pengeluaran      tinggi_rendah     
 Min.   :      0   Length:25         
 1st Qu.:  60000   Class :character  
 Median : 110000   Mode  :character  
 Mean   : 234200                     
 3rd Qu.: 180000                     
 Max.   :1200000                     

Kita lihat di situ nama, bulan, dan jajan adalah character. Ini tidak ideal, karena kita mengetahui bahwa setiap Alvin misalnya, merupakan orang yang sama. Variabel jenis character tidak memperhatikan hal tersebut. Oleh karena itu, di dalam kasus ini kita lebih baik mengubah variabel-variabel tersebut menjadi factor, menggunakan perintah as.factor.

summary(jajan_csv)
 nama      bulan              jajan               jumlah      harga          pengeluaran     
 1:11   Length:25          Length:25          Min.   :0   Min.   :      0   Min.   :      0  
 2: 8   Class :character   Class :character   1st Qu.:1   1st Qu.:  30000   1st Qu.:  60000  
 3: 6   Mode  :character   Mode  :character   Median :1   Median :  55000   Median : 110000  
                                              Mean   :2   Mean   : 198400   Mean   : 234200  
                                              3rd Qu.:2   3rd Qu.:  80000   3rd Qu.: 180000  
                                              Max.   :8   Max.   :1200000   Max.   :1200000  
 tinggi_rendah     
 Length:25         
 Class :character  
 Mode  :character  
                   
                   
                   

Fungsi as.factor adalah turunan dari fungsi dalam base r, yaitu as. dan factor. Sama dengan fungsi is., kita bisa menggunakan fungsi ini untuk berbagai jenis variabel, yang sering digunakan adalah sebagai berikut:

Fungsi Deskripsi
as.factor Mengubah variabel menjadi faktor
as.numeric Mengubah variabel menjadi numerik
as.character Mengubah variabel menjadi karakter
---
title: "2. Data Eksternal, Screening, dan Data Cleaning"
output: html_notebook
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

## Apa yang akan dipelajari hari ini?
Di sesi ini kita akan mempraktekkan cara untuk menggunakan data eksternal di R, dan beberapa operasi dasar untuk analisis data. Untuk itu, sesi kali ini dibagi dalam beberapa topik, dimulai dengan mengenal fungsi dan packages. Dilanjutkan dengan cara membaca berbagai jenis tabel, dan beberapa metode manipulasi tabel lanjutan. Terakhir, kita akan mempraktekkan cara untuk menyimpan tabel di R dalam bentuk eksternal.


## 1. Packages
Package adalah satu set fungsi yang bisa kita install dan panggil di dalam R untuk melakukan hal-hal spesifik. Saat kita baru menginstall R, sudah ada beberapa package yang otomatis terinstall, dan package-package yang sudah terinstall dapat dilihat di panel berjudul `packages`. 

Selain package-package bawaan ini, banyak package lain yang tersebar di internet yang dapat kita install dan gunakan di R. Seiring berjalannya waktu, kita akan terus menambah dan memperbarui package yang kita punya di R kita. 

### 1.1. Menginstall package
Sebagai contoh kita sekarang akan menginstall `tidyverse`, sebuah package omnibus yang berisi banyak package lain.`tidyverse` adalah package yang sangat penting untuk berbagai macam penggunaan, dan kebanyakan data wrangling yang dilakukan sudah bisa dilakukan dengan package ini (https://www.tidyverse.org/).

Untuk menginstall sebuah package, kita menggunakan fungsi `install.packages()`. Hal ini cukup dilakukan sekali saja, karena untuk seterusnya package tersebut sudah tersimpan di dalam memori R kita. 

```{r echo=TRUE}
install.packages("tidyverse")
```

Sekarang `tidyverse` akan sudah terinstall di dalam R kita, dalam versi terbarunya. Hal ini bisa dilihat di panel `packages` di sebelah kanan bawah. 

### 1.2.Menyalakan package
Package yang sudah terinstall tidak akan otomatis 'nyala' dan bisa digunakan. Untuk melakukan hal ini, di setiap sesi R baru kita harus menyalakan package tersebut. Gunakan fungsi `library()`.
```{r echo=TRUE}
library(tidyverse)
```

Sekarang `tidyverse` sudah bisa digunakan. Seperti yang sudah disebut tadi, hal ini perlu dilakukan di setiap sesi. Oleh karena itu setiap kita membuat script baru, kita harus menulis lagi perintah untuk menyalakan package (bisa di awal script atau sebelum script tersebut mengeksekusi fungsi dari package yang relevan).


## 2. Membaca tabel
### 2.1. Set working directory
Sebelum kita membaca data eksternal, ada baiknya kita melakukan penyetingan working directory terlebih dahulu. *Working directory* adalah folder atau alamat di dalam komputer kita tempat R melakukan penyimpanan secara default. Hal ini akan berguna jika kita ingin membaca maupun menulis file baru.

Pertama, kita bisa periksa terlebih dahulu, apa working directory kita dengan `getwd()`
```{r echo=TRUE}
getwd()
```
Kita bisa mengganti working directory kita dengan menggunakan `setwd`. Silahkan ganti alamatnya dengan alamat folder yang Anda inginkan!
```{r echo=TRUE}
setwd("D:/Temp/R Tutoring/Jan 21")
```

Kalau kita coba cek lagi di `getwd()`, kita akan melihat bahwa perubahan alamat working directory telah berhasil.(Belum dikasih contoh di sini karena Rnotebook, yang digunakan untuk menulis modul ini, tidak bisa menyimpan setting dari `setwd()` secara konsisten).

### 2.2. Data dari CSV dan Excel
Untuk mengambil data dari file **.csv**, kita bisa menggunakan fungsi `read.csv`. Perintah yang kita masukkan adalah seperti berikut:
```{r echo=TRUE}
jajan_csv <- read.csv("./Session 2/Jajan Q1 - Sheet1.csv")
jajan_csv
```
Bagian dari sintaks yang ditulis di dalam kurung menunjukkan bahwa kita sedang mengambil data dari directory tertentu. Singkatnya, `"./Session 2/"` menunjukkan kita sedang merujuk sesuatu di folder "Session 2", dan `Jajan Q1 - Sheet1.csv` menunjukkan nama dari filenya. 

Ingat kembali ke pembahasan tentang `setwd`. Perintah di dalam `read.csv` akan merujuk ke sub-folder yang dijadikan working directory untuk menentukan path ke file yang dituju, sehingga kita tidak perlu menuliskan `"D:/Temp/R Tutoring/Jan 21/Session 2/Jajan Q1 - Sheet1.csv"`. Bagian awal hingga 'Jan 21' sudah cukup di setting working directory, dan tidak perlu dituliskan lagi. 

Untuk file-file excel seperti '.xlsx', kita perlu menggunakan fungsi yang berbeda, yaitu `readxl`. Package ini sudah termasuk di dalam `tidyverse` jadi kita cukup menginstall `tidyverse` saja, dan seterusnya sudah bisa menggunakan package ini. Tetapi, kita tetap harus memanggil package `readxl` di tiap sesi jika ingin menggunakannya.
```{r echo=TRUE}
library(readxl)
```

Perintah untuk memanggil file excel tidak jauh berbeda dengan file, csv, yang bisa dilihat di contoh di bawah ini dengan dataset yang sama. 
```{r echo=TRUE}
jajan_xlsx <- read_xlsx("./Session 2/Jajan Q1.xlsx", sheet = "Sheet1")
jajan_xlsx
```
Perbedaan yang paling terlihat di sini adalah kita bisa memberikan spesifikasi sheet mana yang harus diambil. Hal ini dilakukan menggunakan `sheet = `. Jika tidak dispesifikasi, maka secara default `read_xlsx`. Akan mengambil sheet pertama.

Perlu diperhatikan juga ketika kita membaca data dari tabel, format tabel tersebut harus sederhana; satu sheet = satu tabel yang konsisten. R juga cenderung otomatis mengambil row pertama dari tabel apapun sebagai `header`. Namun, jika format data tidak sesuai, bisa dilakukan data wrangling. Hal ini bisa dilakukan dengan cara misalnya, kita gunakan opsi `header = FALSE`, yang akan membuat R otomatis membuat header baru di atas tabel kita.
```{r echo=TRUE}
jajan_csv_noheader <- read.csv("./Session 2/Jajan Q1 - Sheet1.csv", header = FALSE)
jajan_csv_noheader
```
Setelahnya, kita bisa menggunakan `list` lain, yang kita gunakan untuk me-replace nama kolom yang otomatis dibuat oleh R. Replace dengan menggunakan `colnames`
```{r echo=TRUE}
# Membuat list baru untuk nama kolom 
nama_kolom <- c("kol_1", "kol_2", "kol_3", "kol_4", "kol_5", "kol_6")
nama_kolom
```
```{r echo=TRUE}
# Mengganti nama kolom dengan 'colnames'
colnames(jajan_csv_noheader) <- nama_kolom
jajan_csv_noheader
```
Tentunya setelahnya, rows yang berisi nama kolom sebelumnya harus di-delete. Mendelete kolom dan rows akan dibahas di bagian selanjutnya. 

## 3. Data screening dan cleaning dasar
Umumnya, hal pertama yang kita lakukan setelah meng-ekspor tabel adalah untuk melihat apakah ada permasalahan di data. Oleh karena itu, sekarang mari kita bahas secara singkat mengenai data screening, utamanya mengecek **accuracy** dari data. **Accuracy** di sini artinya 

Untungnya cukup mudah di R untuk secara cepat mendapatkan gambaran keseluruhan tentang data kita. Fungsi `summary` memberikan gambaran tersebut, seperti yang bisa dilihat di bawah.
```{r echo=TRUE}
summary(jajan_csv)
```
Dari `summary` kita bisa melihat beberapa hal: 

- Class dari `nama`, `bulan`, dan `jajan` adalah `character`, sedangkan `jumlah`, `harga`, dan `pengeluaran` adalah `numeric`, karena yang langsung muncul adalah data-data summary statistics dari kolom tersebut. 
- Untuk variabel yang `numeric`, kita langsung bisa melihat mean, median, quantile, serta nilai min da maks-nya.
- Terdapat mising data (`NA's`) di beberapa kolom

Dengan informasi ini, kita bisa tahu apa saja yang harus diubah (dibersihkan). Lebih lanjut, kita akan bahas cara-cara membersihkannya di bagian selanjutnya.

## 4. Manipulasi tabel (lanjut)
### 4.1. Menghapus row
Terdapat banyak fungsi untuk bisa menghapus row tertentu. Cara yang paling sederhana adalah dengan menggunakan operator `-` untuk membuat slice dari dataset yang tidak memiliki row di urutan tersebut. Ingatlah bahwa di dataset `jajan_csv` row kedua adalah catatan bahwa Alvin jajan burger di bulan Januari. Mari kita coba hilangkan row tersebut dengan menggunakan metode ini.

```{r echo=TRUE}
jajan_csv[-c(2), ]
```
Beberapa fungsi lain memiliki kegunaan yang sama. Misalnya dengan fungsi `slice` yang merupakan bagian dari `tidyverse`. Sintaksnya tidak jauh beda dengan menggunakan operator `-`.
```{r echo=TRUE}
slice(jajan_csv, -c(2))
```
Kita juga bisa menghapus row berdasarkan nilai di dalam row tersebut. Misalnya, kita ingin menghapus semua catatan tentang Alvin dengan melakukan subsetting biasa, dengan operator `!=`. 
```{r echo=TRUE}
jajan_csv[(jajan_csv$nama != "Alvin"), ]
```
atau menggunakan operator `!` sebelum kita menspesifikasi value yang ingin dihilangkan. (perhatikan tanda `!=` diubah menjadi `==`). Kali ini kita coba untuk menghilangkan semua yang bernama Alvin dan Bene.
```{r echo=TRUE}
jajan_csv[!(jajan_csv$nama == "Alvin" | jajan_csv$nama == "Bene"), ]
```

Kita bisa melakukan omission menggunakan dua kondisi, dengan operator boolean `&`. Untuk contoh kali ini, kita coba hilangkan semua catatan tentang Alvin membeli jajan kopi, tapi kita ingin semua catatan tentang Alvin tetap ada, di luar dari jajan kopinya. Artinya, kita ingin menghapus row dengan nama = Alvin DAN jajan = kopi.

```{r echo=TRUE}
jajan_csv_2 <- jajan_csv[!(jajan_csv$nama == "Alvin" & jajan_csv$jajan == "kopi"), ]
```
### 4.2. Menghapus kolom
Sama seperti menghapus row, kolom dapat dihapus dengan merefer ke indeksnya. Sintaksnya pun tidak begitu berbeda dengan menghapus row. Contoh, mari kita hapus kolom `nama`.
```{r echo=TRUE}
jajan_csv[, -c(1)]
```
Karena kolom memiliki nama variabel yang jelas, kita bisa menggunakan nama tersebut untuk memanggil atau menghapus kolom itu. Untuk melakukan hal ini, kita bisa menggunakan fungsi `subset`, fungsi yang tersedia di base R. Sintaksnya cukup simpel, cukup spesifikasikan data dan kolom yang ingin dihilangkan di dalam variabel `select`, di-wrap dengan `-()`.
```{r echo=TRUE}
subset(jajan_csv, select = -(nama))
```

Selain menghapus kolom, kita juga bisa melakukan sebaliknya, yaitu membuat dataset baru yang isinya hanya kolom yang ingin kita gunakan. Tentu ini kurang lebih sama saja dengan menghapus kolom biasa, maka dari itu kita bisa menggunakan pilihan menghapus atau menyeleksi kolom, tergantung dengan kondisi. Di metode di bawah ini, kita membuat list dari nama kolom yang ingin kita simpan, lalu menggunakan list tersebut di dalam `[]` untuk memanggil kolom tersebut dari nama-namanya. 

```{r echo=TRUE}
keep <- c("nama", "bulan", "jajan")
keep
```

```{r echo=TRUE}
jajan_csv[keep]
```
Package `tidyverse` menyediakan opsi yang sangat fleksibel dengan fungsi `select`. Di fungsi ini kita bisa menyeleksi variabel berdasarkan matching parsial (mis. hanya kolom yang memiliki string tertentu di namanya), menggunakan regex, atau menggunakan fungsi. Lihatlah dokumentasinya untuk penjelasan lebih lengkap (`?select`)

Salah satu contoh, kita bisa mengambil hanya variabel yang bersifat `numeric`. Untuk melakukan ini, kita gunakan fungsi di dalam select `where()` untuk memberi perintah bahwa kita mencari kolom dengan kondisi tertentu.
```{r echo=TRUE}
select(jajan_csv, where(is.numeric))
```


### 4.3. Missing data
Missing data biasanya kita tangani dengan dua cara, yaitu menghapus atau menggantinya. Kita akan bahas cara pertama terlebih dahulu.

Menghapus missing data di sini bisa dengan dua cara, yaitu menghapus row atau kolom. Sebuah rule of thumb, jika jumlah missing data tersebar atau tidak terlalu banyak, kita bisa menggunakan opsi pertama, menghapus row. Cara yang mudah untuk melakukan ini adalah dengan `na.omit`, yang akan menghapus semua row yang memiliki missing data tanpa terkecuali.

```{r echo=TRUE}
na.omit(jajan_csv)
```
Namun, jika missing data terkonsentrasi di satu variabel, kita bisa menghapus kolom yang relevan. Untuk contoh di bawah ini, kita coba gunakan dataset yang merfleksikan kondisi tersebut. Ingat bahwa kita bisa mendapatkan jumlah missing data dengan menggunakan `summary` terlebih dahulu. 
```{r echo=TRUE}
jajan_missing <- read.csv("./Session 2/Jajan Q1 - Sheet1 (missing).csv")
summary(jajan_missing)
```
Kita lihat bahwa kita memiliki jumlah missing data yang banyak di `pengeluaran`. Jumlah itu mencakup sampel yang signifikan, hampir setengah dari sampel kita. Sehingga, lebih bijak untuk kita drop saja kolomnya, daripada harus menghabisi sampel.
```{r echo=TRUE}
subset(jajan_missing, select= -(pengeluaran))
```
Lalu, kita bisa mengkombinasikan cara tersebut untuk membuat dataset kita benar-benar bersih dari missing data:
```{r echo=TRUE}
na.omit(subset(jajan_missing, select= -(pengeluaran)))
```
Jika kita lebih ingin mengganti missing data dengan nilai lain, kita bisa melakukan assignment biasa, dengan cara seperti contoh di bawah ini.
```{r echo=TRUE}
jajan_csv[is.na(jajan_csv)] <- 0
jajan_csv
```
### 4.4. Membuat kolom baru berdasarkan value di kolom lain 
Kadang kita butuh membuat kategori atau nilai baru di dalam data, di luar dari hal yang kita dapat di dataset mentah.Umumnya, bisa digunakan fungsi `ifelse()`. 

Katakanlah kita ingin mengkategorisasi pengeluaran menjadi tinggi atau rendah, berdasarkan dia di atas 500 ribu rupiah atau tidak.Lalu, jika di antara 500 ribu dan 250 ribu, kita anggap 'sedang', dan di bawah 250 ribu kita anggap 'rendah'.
```{r echo=TRUE}
jajan_csv$tinggi_rendah <- ifelse(jajan_csv$pengeluaran >= 500000, "Tinggi", 
                                  ifelse(jajan_csv$pengeluaran >= 250000, "Sedang",
                                         "Rendah"))
jajan_csv
```
Fungsi `ifelse` seringkali cukup intuitif, tetapi bisa membingungkan jika kondisinya banyak. Strukturnya yang harus bersifat nested membuat mudah untuk fungsi ini menjadi terlalu banyak fungsi-di-dalam-fungsi yang membingungkan. Alternatif dari `ifelse` yang sering digunakan adalah `mutate`, bagian dari `tidyverse`. 

Mari kita coba `mutate` untuk tujuan yang sama dengan contoh sebelumnya, kali ini di dataset yang berbeda. 

Perhatikan bahwa di sini kita menggunakan operator ` %>% `, yang disebut sebagai pipe. Operator ini merupakan bagian dari `tidyverse`, di mana artinya, setelah operator pipe ditulis, perintah selanjutnya akan merefer ke dataset yang dituju (dalam hal ini `jajan_xlsx`).

Selain itu, terdapat juga baris bertulisan `TRUE ~ "Lainnya"`. Baris ini artinya "Jika nilainya tidak masuk di dalam kondisi yang disebutkan di atas, maka tulislah "Lainnya".
```{r echo=TRUE}
jajan_xlsx %>%  mutate(tinggi_rendah = case_when(
  pengeluaran >= 500000 ~ "Tinggi", 
  pengeluaran < 500000 & pengeluaran >= 250000 ~ "Sedang", 
  pengeluaran < 250000 ~ "Rendah", 
  TRUE ~ "Lainnya"
))
```




### 4.5. Mengganti jenis variabel
Data yang kita ambil dari sumber eksternal akan secara otomatis di-assign oleh R ke jenis variabel yang paling masuk akal untuk data tersebut. Tetapi, kadang jenis data tersebut tidak sesuai dengan yang kita inginkan. Sebagai contoh, mari kita lihat lagi struktur data yang kita miliki.
```{r}
summary(jajan_csv)
```

Kita lihat di situ `nama`, `bulan`, dan `jajan` adalah `character`. Ini tidak ideal, karena kita mengetahui bahwa setiap `Alvin` misalnya, merupakan orang yang sama. Variabel jenis `character` tidak memperhatikan hal tersebut. Oleh karena itu, di dalam kasus ini kita lebih baik mengubah variabel-variabel tersebut menjadi `factor`, menggunakan perintah `as.factor`. 

```{r}
jajan_csv$nama <- as.factor(jajan_csv$nama)
summary(jajan_csv)
```
Fungsi `as.factor` adalah turunan dari fungsi dalam base r, yaitu `as.` dan `factor`. Sama dengan fungsi `is.`, kita bisa menggunakan fungsi ini untuk berbagai jenis variabel, yang sering digunakan adalah sebagai berikut:

| Fungsi | Deskripsi |
| ----------- | ----------- |
| `as.factor` | Mengubah variabel menjadi faktor |
| `as.numeric` | Mengubah variabel menjadi numerik |
| `as.character` | Mengubah variabel menjadi karakter |

## 5. Menulis dan menyimpan tabel
Terakhir, kita bisa menyimpan ulang data dari tabel apapun di dalam R ke format lain, seperti .csv. Untuk menulis di .csv, kita bisa menggunakan `write.csv`, sebuah fungsi dari base R. Perhatikan perintah `row.names = FALSE`. Perintah ini penting agar kita tidak memiliki satu kolom tersendiri yang isinya adalah indeks dari tabel.  
```{r}
write.csv(jajan_csv, "./Session 2/jajan_csv_copy.csv", row.names = FALSE)
```

```{r}
# contoh jika row.names = TRUE
write.csv(jajan_csv, "jajan_csv_copy_rownames.csv", row.names = TRUE)
```

