Panduan Persiapan Kuliah Pengantar Sains Data 2024

Author

Aep Hidayatuloh

Tujuan dan Skema Perkuliahan

Tujuan

Perkuliahan Pengantar Sains Data 2024 bertujuan agar mahasiswa mendapatkan pengetahuan dan pengalaman dalam sebuah project sains data. Hasil akhir dari project ini dapat digunakan oleh mahasiswa untuk membuat portofolio keahlian atau pengalaman dalam bidang sains data.

Skema

Perkuliahan ini akan dilakukan dengan pendekatan praktik, sehingga akan lebih banyak proporsi sesi praktik dibanding teori. Perkuliahan ini akan mensimulasikan sebuah project sains data mulai dari awal hingga akhir (end-to-end) seperti memperoleh data, memproses data, eksplorasi data, membuat model statistika dan machine learning, evaluasi model, deployment model menjadi API yang siap digunakan dan terakhir memanfaatkan API tersebut. Mahasiswa diharapkan ikut aktif selama perkuliahan terutama ketika diminta mencoba untuk praktik.

Data

Data yang akan digunakan berasal dari sektor industri telekomunikasi selular (telco). Salah satu kasus sains data yang ada di industri telco adalah customer churn prevention.

Software

Software utama yang akan digunakan untuk praktik pada perkuliahan ini adalah bahasa pemrograman R dan RStudio. Mahasiswa dipersilahkan jika ingin menggunakan software atau bahasa pemrograman lain seperti Python atau Visual Studio Code sebagai code editor atau yang lainnya.

Berikut ini software yang perlu Anda install jika Anda ingin mengerjakan di local computer:

Akun

Anda juga akan diminta untuk membuat akun pada website berikut ini.

  • Kaggle: https://www.kaggle.com/
    Disini Anda dapat berlatih dan mengikuti kompetisi sains data. Data yang akan digunakan dalam perkuliahan juga diambil dari Kaggle. Anda dapat memperoleh data dari sini https://www.kaggle.com/datasets/aephidayatuloh/telco-customer-churn
  • Hugging Face: https://huggingface.co/
    API model prediktif yang Anda buat akan di-deploy ke Docker Space di Hugging Face sehingga model Anda dapat digunakan untuk melakukan prediksi secara online dan gratis. Hugging Face hampir sama dengan GitHub dengan tambahan Data dan Model yang tersedia dan terbuka.
  • Posit Cloud (opsional): https://posit.cloud
    Jika Anda tidak ingin menggunakan R/RStudio di local computer, Anda dapat membuat akun di Posit.Cloud dan menggunakan RStudio Cloud secara gratis. Namun perlu diingat versi gratis dari posit.cloud memiliki keterbatasan diantaranya adalah hanya diberikan 1 CPU dan 1 GB RAM.
  • GitHub (opsional): https://github.com/

R Packages

Berikut ini R package yang dibutuhkan untuk dapat mengikuti praktik perkuliahan berdasarkan penggunaannya.

Penyiapan data dan eksplorasi data

  • pak
  • tidyverse
  • readxl
  • janitor
  • skimr
  • ggcorrplot

Pembuatan Model Machine Learning

  • tidymodels
  • glmnet
  • rpart.plot
  • finetune

Evaluasi Model (Interpretable Machine Learning)

  • DALEX
  • DALEXtra
  • modelStudio

API Model Deployment

  • plumber
  • pins
  • vetiver

Untuk dapat mengikuti kegiatan praktik pada perkuliahan ini Anda perlu install R packages berikut.

install.packages("pak")
pak::pak(c("tidyverse", "readxl", "skimr", "ggcorrplot", "janitor", 
           "tidymodels", "glmnet", "rpart.plot", "finetune", "modelStudio", 
           "pins", "plumber", "vetiver"))

Agenda

  • Pertemuan 1: Pengantar Sains Data dan R Programming (Tidyverse) (120 menit)
    • Pengenalan Sains Data
    • Peran Data Analytics
    • Pengenalan Data dan Kasus
    • Membuat GitHub Repository/HuggingFace Space
  • Pertemuan 2: Eksplorasi & Penyiapan Data untuk Machine Learning (120 menit)
    • Membuat RStudio Project
    • Import Data
    • Eksplorasi Data
    • Menyiapkan Data untuk kebutuhan pembuatan Model Machine Learning
  • Pertemuan 3: Pemodelan Machine Learning Klasifikasi (120 menit)
    • Pengenalan Model Machine Learning
    • Pembagian Data
    • Pembuatan Model Machine Learning Regresi Logistic dan Decision Tree
    • Hyperparameter Tunning
    • Pemilihan Model dengan Parameter Terbaik
  • Pertemuan 4: Evaluasi Model (120 menit)
    • Pengenalan Metriks Penentuan Performa Model
    • Perhitungan Performa Model Klasifikasi
  • Pertemuan 5: Model Deployment (120 menit)
    • Pengantar Model Deployment
    • Model Deployment dengan Docker
    • Deployment ke Hugging Face

Apabila ada pertanyaan dari semua persiapan di atas Anda dapat email ke aephidayatuloh.mail@gmail.com.

Terima kasih.