Summary day 1

  1. Klasifikasi adalah suatu metode supervised machine learning yang digunakan untuk melakukan prediksi variabel target dengan sifat kategorik
  2. Proses klasifikasi merupakan proses perhitungan peluang (seberapa mungkin suatu kategori terjadi)
  3. Logistic regression menggunakan regresi linear untuk memprediksi peluang (sehingga dapat digunakan untuk klasifikasi)
  4. ada 3 bentuk probability hyang harus kita pahami

bentuk umum dari model logistic regression Y= B0 + B1x1 + B2x2+….. log of odds : nilai Y, B0, B1 odds : ketika ingin menginterpretasikan nilai koef (B0, B1, B2, ..), bisa menggunakan fungsi exp() probability : ketika ingin mengetahui label dari data yang diprediksi, biasanya yang diubah menjadi probability adalah nilai Y.

  1. function yang digunakan untuk membuat model logistic adalah glm()

Summary day 2&3

  1. Melakukan model selection -> deviance, AIC
  1. Asumsi
  1. Classification Workflow *1. Read data & Data understanding
    • baca deskripsi datanya, gali informasinya
    • tentukan variable targetnya 2. Data wrangling (ubah tipe data) 3. EDA
    • cek missing value
    • cek class imbalance
    • cek distribusi data (statistika deskriptifnya)
    • cek indikasi multikol berdasarkan deskripsi data *4. Cross Validation
    • memisahkan data untuk dijadikan data train (melatih model) dan data test (evaluasi model)
    • cek class imbalance lagi *5. Data Preprocessing
    • terutama terhadap data train 6. Build model 7. Prediksi hasil model
    • Fungsi predict():
      • object: model yang digunakan untuk memprediksi
      • newdata: data yang ingin kita prediksi
      • type: link untuk log of odds, response untuk probability *8. Evaluasi (confusion matrix)
    • Akurasi - ditinjau true positive dan true negative
    • Recall/Sensitivity - ditinjau positivenya dari yang actualnya positive
    • Precision/Pos Pred Value - ditinjau positivenya dari yang prediksinya positive
    • Specificity - ditinjau negatifnya *9. Model Tuning
    • mengatur threshold untuk meningkatkan metrics yang ditinjau *10. Final Model

Summary day 3&4

  1. Model KNN (k-nearest neighbour)
  1. Scaling
  1. Prediksi dengan fungsi knn() dari library class, parameter yang digunakan: