0. Apa itu R

R adalah bahasa pemrograman yang umumnya digunakan untuk analisis data. R populer digunakan oleh profesional di data science, business analytics, atau di bidang penelitian akademik. R bersifat open source, dan terdapat berbagai komunitas pengembang yang memperbarui R dengan berbagai package dengan fungsi yang beragam.

Mengapa menggunakan R daripada SPSS?

  • R bersifat gratis, tidak perlu menghabiskan uang atau khawatir dengan software bajakan
  • R bersifat open source. Artinya, R memiliki banyak package yang kemungkinan bisa menyelesaikan problem apapun yang Anda temui.
  • Troubleshooting lebih mudah. Karena gratis dan banyak dipakai, permasalahan yang Anda temui kemungkinan besar pernah dibahas di stackoverflow atau situs lain. Karena itu, umumnya lebih mudah untuk mencari solusi di R dibanding SPSS.
  • Cukup mudah dipelajari. Karena penggunanya banyak ada banyak sekali resource gratis yang dapat digunakan untuk mencoba mempelajari R. Selain itu, proses set-up dan maintenance yang sederhana membuat barrier to entry ke R tidak terlalu tinggi. Secara logika bahasa, R juga relatif lebih mudah dipahami.

Apa yang akan dipelajari hari ini?

Tujuan dari sesi hari ini adalah mengenal building block paling dasar dari penggunaan R: variabel. Memahami jenis, operasi, dan cara untuk menavigasi variabel di R adalah prasyarat dari menggunakan R untuk hal lain yang lebih kompleks, seperti memanipulasi tabel-tabel, membersihkan data, dan menggunakan function.

Topik yang akan dibahas:

Catatan: Sumber utama tutorial adalah buku Danielle Navarro: Learning Statistics with R (https://learningstatisticswithr.com/)

1. Jenis-jenis variabel

Umumnya R memiliki 3 jenis variabel: Numeric, Character, dan Logical. Sepanjang kita menggunakan R, kita mostly akan menggunakan tiga variabel ini.

  1. Numeric

Variabel angka. Angka-angka yang termasuk di dalam variabel ini adalah angka rasional, yang bisa bersifat negatif, integer, maupun desimal.

1
[1] 1
class(1)
[1] "numeric"
  1. Character

Variabel berbentuk teks, yang adapat terdiri dari elemen alfabetik, numerik, maupun simbol. Seringkali juga disebut dengan ‘string’. Ditandai dengan tanda kutip di antara teks tersebut(“” atau ’’).

"halo"
[1] "halo"
class("halo") 
[1] "character"
  1. Logical

Variabel berbentuk pernyataan TRUE atau FALSE. Variabel ini dibentuk dari komparasi nilai menggunakan operator-operator relasi.

2+2 == 4
[1] TRUE
class(2+2 == 4)
[1] "logical"

Berikut adalah tabel operator yang digunakan untuk membuat variabel logical:

Operator Deskripsi
< Kurang dari
> Lebih dari
== Sama dengan
!= Tidak sama dengan
>= Lebih dari atau sama dengan
<= Kurang dari atau sama dengan

2. Operasi dengan numeric variables

Salah satu hal yang paling mendasar yang bisa dilakukan di R adalah menggunakan program ini sebagai kalkulator.


# Penjumlahan
1 + 1
[1] 2
# Pengurangan  
2 - 1
[1] 1
  # Perkalian
3 * 2
[1] 6
  # Pembagian
3/2
[1] 1.5
  # Pangkat
5 ** 2
[1] 25
5 ^ 2
[1] 25
  # Akar (menggunakan operasi pangkat)
9 ** 0.5
[1] 3

Kalkulasi di dalam R menggunakan prinsip BEDMAS, yang menunjukkan urutan kalkulasi dalam rumus yang memiliki lebih dari satu jenis kalkulasi.

Urutan BEDMAS: Brackets (), Exponents ** atau ^, Division /, Multiplication *, Addition +, lalu Subtraction -.

5**2+2*(5-2)
[1] 31

Beberapa kalkulasi dapat dilakukan menggunakan fungsi.Hal ini akan dibahas lebih lanjut di diskusi tentang summary statistics pada pertemuan kedua.

sqrt(9)
[1] 3

3. Operasi Variabel

Variabel-variabel seperti yang kita telah buat di atas dapat disimpan sebagai sebuah objek. Objek dibuat dengan memberikan tanda panah <-, yang akan menandai suatu nilai sebagai objek tersebut mengeksekusi objek akan memunculkan nilainya.

 # objek numeric
bulan_numeric <- 2
bulan_numeric
[1] 2
  # objek character
bulan_char <- "Februari"
bulan_char
[1] "Februari"
  # objek logical
bulan_logic <- bulan_char == "Februari"
bulan_logic
[1] TRUE

Satu object bisa memiliki satu nilai saja. Jika nilai lain disimpan dengan nama objek yang sama maka nilai lama akan terhapus dan digantikan dengan nilai yang baru disimpan. Dengan kata lain, objek memiliki sifat ekslusif.

bulan_numeric
[1] 2
bulan_numeric <- 1
bulan_numeric
[1] 1

4. Vector

Walau suatu objek dapat menyimpan hanya satu nilai, elemen di dalam suatu objek dapat berbentuk deret, atau menyimpan lebih dari satu angka, teks, atau logic. Hal ini disebut sebagai vector.

  # vector berisi nilai numeric
month_num <- c(1, 2, 3)
sales_permonth <- c(150, 200, 125)

  # vector berisi nilai character
month_cha <- c("Januari", "Februari", "Maret")

  # vector berisi nilai logical
sales_underperform <- sales_permonth < 150

Khusus untuk vektor numerik, ada berbagai cara yang bisa kita lakukan untuk membuat deret angka. Pertama dengan tanda :

  # membuat deret dengan ":"
c(1:10)
 [1]  1  2  3  4  5  6  7  8  9 10
c(10:1) #Bisa dilakukan secara terbalik
 [1] 10  9  8  7  6  5  4  3  2  1

Dan, jika kita ingin membuat deret yang memiliki interval tertentu, bisa dengan menggunakan fungsi seq()

seq(from=1, to=10, by=3)
[1]  1  4  7 10

Karena bentuknya adalah deret, elemen di dalam vector memiliki urutan. Urutan atau indeks ini adalah hal yang bisa digunakan untuk memanipulasi atau memanggil suatu elemen di dalam vector secara spesifik.

  # Misalnya kita ingin mengambil elemen dengan urutan ke-3 saja di nama bulan di quartal 1
month_cha[3]
[1] "Maret"
  # Atau kita ingin mengambil nama bulan pertama dan ketiga
month_cha[c(1, 3)]
[1] "Januari" "Maret"  
  # Atau hanya dua bulan pertama
month_cha[c(1:2)]
[1] "Januari"  "Februari"

Fungsi indexing ini dapat digunakan untuk jenis vector apapun, bahkan untuk vector berisi data logical. Misalnya kita ingin tahu apakah sales di bulan Maret underperform dengan cara indexing:

sales_underperform[3]
[1] TRUE

5. Tabel dan dataframe

Setelah memahami apa itu vector, kita sekarang akan membahas tentang tabel. Pada dasarnya, tabel atau matrix adalah objek yang terdiri dari beberapa vector. Di bagian ini kita akan mencoba membuat tabel dari vector yang telah kita buat sebelumnya.

# Kita memiliki beberapa vector yang sama panjang (jumlah elemennya sama)
month_cha
[1] "Januari"  "Februari" "Maret"   
sales_permonth
[1] 150 200 125
sales_underperform
[1] FALSE FALSE  TRUE

Kita bisa memeriksa ukuran dari vector dengan menggunakan beberapa cara berikut

  # Melihat panjang vector spesifik
length(month_cha)
[1] 3
  # Melihat karakteristik seluruh vector di dalam environment
lsr::who()
   -- Name --           -- Class --   -- Size --
   bulan_char           character     1         
   bulan_logic          logical       1         
   bulan_numeric        numeric       1         
   month_cha            character     3         
   month_num            numeric       3         
   sales_permonth       numeric       3         
   sales_underperform   logical       3         

Karena ketiga vector di atas sama panjang, kita bisa membuat tabel dari vector-vector tersebut. Di dalam R suatu tabel umumnya disimpan dalam objek dengan tipe dataframe. Untuk membuat sebuah dataframe, kita gunakan fungsi data.frame().

df_salesq1 <- data.frame(month_cha, sales_permonth, sales_underperform)
df_salesq1

Kita bisa mengakses lagi tiap variabel yang sudah masuk di dalam dataframe menggunakan beberapa cara. Utamanya, memanggil nama dari variabel tersebut dan menggunakan indeks kolom.

  # menggunakan nama dari variabel
df_salesq1$sales_permonth
[1] 150 200 125
  # atau menggunakan indeks dari kolom (urutan kolom ke berapa variabel yang kita inginkan)
df_salesq1[, 2]
[1] 150 200 125

Menggunakan fungsi logic, kita juga bisa memanggil tabel dengan data yang kita inginkan berdasarkan kriteria tertentu.

  # Misalkan, kita ingin mengambil tabel untuk bulan Januari saja
df_salesq1[(df_salesq1$month_cha == "Januari"), ]

  # Atau kita ingin mengambil tabel yang tidak underperform
df_salesq1[(df_salesq1$sales_underperform == FALSE), ]

Sama seperti variabel, setelah kita melakukan slicing, kita bisa menyimpan tabel menjadi objek baru

  # Contoh, kita membuat tabel khusus untuk bulan yang tidak underperform
df_salesq1_nonunderperform <- df_salesq1[(df_salesq1$sales_underperform == FALSE), ]
df_salesq1_nonunderperform

6. Manipulasi dataframe dasar

Kita akan pelajari beberapa manipulasi dasar yang sering dilakukan di tabel.

Menambah kolom baru

Pertama, menambah kolom baru, yang dapat dilakukan menggunakan beberapa fungsi.

  • fungsi cbind: digunakan untuk melakukan merger dari dua vector, bisa untuk menambahkan kolom baru dari vektor yang ada. Di fungsi ini cukup masukan nama kedua tabel yang ingin digabungkan.

df_salesq1_merged <- cbind(df_salesq1, month_num)
df_salesq1_merged
  • Menggunakan $: kita bisa memaksakan kolom baru dengan langsung membuat kolom yang Mebelumnya tidak ada dan memberikan nilai untuk kolom tersebut. Kurang lebih,Metode ini seperti membuat sebuah vector di dalam kolom.
df_salesq1_merged$spendings <- c(160, 170, 150)
df_salesq1_merged

Menambah row

Sebelum demonstrasi, mari kita buat satu dataframe lain terlebih dahulu untuk nantinya ditambahkan ke tabel. Perlu diperhatikan bahwa dataframe baru ini perlu memiliki kolom-kolom yang sama dengan data yang ingin di-merge dengannya

df_salesq2to3 <- 
  data.frame(
    month_cha=c("April", "Mei", "Juni", "Juli", "Agustus", "September"), 
    sales_permonth=c(180, 210, 230, 200, 190, 240), 
    sales_underperform=c(FALSE, FALSE, FALSE, FALSE, FALSE, FALSE), 
    month_num=c(4, 5, 6, 7, 8, 9), 
    spendings=c(170, 180, 140, 140, 170, 150)
  )
df_salesq2to3

Sekarang kita bisa menambahkan tabel tersebut menggunakan fungsi rbind. Sama seperti cbind, cukup masukkan nama tabel yang ingin ditambahkan di dalam fungsi tersebut, lalu simpan dengan <-.

df_sales_merged <- rbind(df_salesq1_merged, df_salesq2to3)
df_sales_merged
