1 Objective

Menggunakan model yang sudah dibuat di R untuk kebutuhan prediksi.

2 Load Package

Untuk pembahasan kali ini kita tidak akan menggunakan package tambahan selain base dan stats.

3 Background

Saya pernah mengikuti sebuah training tentang Machine Learning. Kemudian pada suatu ketika setelah trainer menjelaskan dan peserta ikut mempraktikan, trainer mengatakan hal yang menurut saya agak menggelitik. Kurang lebih begini yang disampaikan.

“Inilah kelebihan software **** ini (bukan menggunakan R waktu itu trainingnya), hasil modelnya dapat disimpan dalam sebuah external file. Kalau nanti mau digunakan untuk melakukan prediksi data baru cukup load saja model di external file ini. Software lain (saya lupa dia menyebutkan nama software lain atau tidak) tidak bisa begini.”

Selesai trainer mengatakan itu, otak saya merasa greget. Ingin sekali mengatakan “Hey! R juga bisa keles!”. Bagaimana caranya? Mari kita bahas.

4 Save Object

Seperti yang kita tahu, jika kita mengerjakan sebuah pekerjaan di R, kemudian kita tutup session R tersebut maka semua objek yang sudah dibuat akan hilang. Untuk tetap dapat menggunakan kembali objek yang sudah dibuat maka kita perlu menyimpannya. Saya sangat menyarankan untuk tidak menggunakan pilihan save ketika menutup R atau RStudio.

Di R ada 2 (dua) fungsi yang paling dikenal untuk menyimpan objek ke dalam file eksternal. File eksternal ini bukan berupa *.txt, *.csv atau format menyimpan data yang lain. File ini yang nantinya akan dipanggil oleh R untuk digunakan kembali. Objek yang disimpan ini tidak terbatas pada objek berupa model saja, tapi juga data.frame dan semua objek pada session R tersebut.

5 Function save() and saveRDS()

Hadley Wickham pernah membuat sebuah cuitan di Twitter tentang menyimpan objek di R dan dia lebih menyarankan menggunakan fungsi saveRDS() dan readRDS().

5.1 What is the difference of save() and saveRDS()?

Perbedaan yang paling mendasar antara fungsi save() dan saveRDS() adalah

  • save() dapat menyimpan banyak objek sekaligus dalam sebuah file eksternal.
  • saveRDS() hanya menyimpan satu objek saja dalam sebuah file eksternal.

Perbedaan lainnya adalah save() akan secara otomatis mengganti objek yang ada pada sessio R berjalan dengan objek yang ada pada file eksternal jika ada nama objek yang sama tanpa pemberitahuan. Resiko ditanggung pengguna!

Tidak seperti fungsi save() yang menyimpan objek dengan namanya, saveRDS() hanya menyimpan struktur objek tanpa namanya. Ketika kita ingin memanggil objek yang disimpan menggunakan fungsi saveRDS() harus dimasukkan ke sebuah objek baru.

Perbedaan selanjutnya kita bahas dengan contoh.

5.2 save()

iris_df <- iris
dim(iris_df)
[1] 150   5
save(list = "iris_df", file = "iris_df.rda")

Data iris_df awalnya berisi 150 baris data. Sekarang kita akan kurangi menjadi 100 baris data misalnya, dengan nama yang sama.

iris_df <- iris_df[1:100,]
dim(iris_df)
[1] 100   5

Kita ingat bahwa data iris_df yang kita simpan berisi 150 baris dan data iris_df saat ini berisi 100 baris data. Sekarang kita panggil lagi data iris_df yang tadi disimpan dengan fungsi load() dan perhatikan banyaknya baris di data iris_df setelah dipanggil ini.

load("iris_df.rda")
dim(iris_df)
[1] 150   5

Lihat? Data iris_df yang ada di session sebelum dipanggil sudah digantikan dengan iris_df yang dipanggil tadi menjadi 150 baris data kembali.

5.3 saveRDS()

Bagaimana dengan fungsi saveRDS()?

saveRDS(object = iris_df, file = "iris_df.rds")
dim(iris_df)
[1] 150   5

Data iris_df masih 150 baris data. Kita kurangi lagi menjadi 100 baris data.

iris_df <- iris_df[1:100,]
dim(iris_df)
[1] 100   5

Selanjutnya kita panggil hasil penyimpanan tadi menggunakan fungsi readRDS().

iris_df_loaded <- readRDS("iris_df.rds")
dim(iris_df_loaded)
[1] 150   5
dim(iris_df)
[1] 100   5

Dengan saveRDS() tidak akan mengganti objek yang saat ini ada di session R jika nama objeknya dibedakan.

6 Build Pretrained Model

Itu tadi pengantar dari tulisan ini. Selanjutnya kita akan membuat sebuah model sederhana menggunakan fungsi lm() untuk membuat model regresi linier. Gunakan data mtcars dengan peubah mpg sebagai peubah respon dan peubah hp dan wt sebagai peubah penjelas atau prediktor. Sebelum membuat model, kita bagi data secara acak untuk data training dan testing.

set.seed(1001)
idx <- sample(1:nrow(mtcars), 0.8*nrow(mtcars))
training <- mtcars[idx, ]
dim(training)
[1] 25 11
testing <- mtcars[-idx, ]
dim(testing)
[1]  7 11
model.lm <- lm(mpg ~ hp + wt, data = training)
summary(model.lm)

Call:
lm(formula = mpg ~ hp + wt, data = training)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.6761 -1.8869 -0.4377  1.1040  5.7707 

Coefficients:
            Estimate Std. Error t value            Pr(>|t|)    
(Intercept) 37.86424    2.00683  18.868 0.00000000000000449 ***
hp          -0.03080    0.01033  -2.982             0.00687 ** 
wt          -4.18265    0.78565  -5.324 0.00002414035741766 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.597 on 22 degrees of freedom
Multiple R-squared:  0.8227,    Adjusted R-squared:  0.8066 
F-statistic: 51.06 on 2 and 22 DF,  p-value: 0.000000005427
AIC(model.lm)
[1] 123.4608

Anggap saja ini adalah model terbaik yang kita peroleh dan akan digunakan dalam memprediksi. Selanjutnya kita simpan objek model ini dalam file eksternal.

saveRDS(object = model.lm, file = "best_model.rds")
file.exists("best_model.rds")
[1] TRUE

7 Use Pretrained Model

Kita panggil model yang sudah dibuat dari file eksternal tadi untuk melakukan prediksi.

mymodel <- readRDS("best_model.rds")
testing$predicted <- predict(mymodel, newdata = testing)
head(testing)

Sebagai tambahan, mari kita hitung RMSE dari hasil prediksi ini.

sqrt(mean((testing$predicted - testing$mpg)^2))
[1] 2.675454
plot(testing$mpg, testing$predicted, pch = 19)

8 Conclusion

Menyimpan model atau objek lain dari R ke dalam file eksternal dapat menggunakan fungsi saveRDS() dan save(). Sebaiknya gunakan saveRDS() dan readRDS() jika Anda hanya ingin menyimpan satu objek saja di dalam sebuah file eksternal dan tidak ingin ada objek yang diganti tanpa sepengetahuan Anda ketika memanggil kembali objek tersebut. GUnakan save() dan load() jika banyak objek yg ingin disimpan dengan nama yang sama dan tidak ada objek lain yang akan diganti, atau ketika Anda yakin tidak ada masalah jika ada objek di session R saat ini yang akan diganti. Gunakan salah satu dari fungsi ini untuk menggunakan model yang sudah dibuat.

