install.packages("pak")
pak::pak(c("tidyverse", "readxl", "skimr", "ggcorrplot", "janitor",
"tidymodels", "glmnet", "rpart.plot", "finetune", "modelStudio",
"pins", "plumber", "vetiver"))Panduan Persiapan Kuliah Pengantar Sains Data 2024
Tujuan dan Skema Perkuliahan
Tujuan
Perkuliahan Pengantar Sains Data 2024 bertujuan agar mahasiswa mendapatkan pengetahuan dan pengalaman dalam sebuah project sains data. Hasil akhir dari project ini dapat digunakan oleh mahasiswa untuk membuat portofolio keahlian atau pengalaman dalam bidang sains data.
Skema
Perkuliahan ini akan dilakukan dengan pendekatan praktik, sehingga akan lebih banyak proporsi sesi praktik dibanding teori. Perkuliahan ini akan mensimulasikan sebuah project sains data mulai dari awal hingga akhir (end-to-end) seperti memperoleh data, memproses data, eksplorasi data, membuat model statistika dan machine learning, evaluasi model, deployment model menjadi API yang siap digunakan dan terakhir memanfaatkan API tersebut. Mahasiswa diharapkan ikut aktif selama perkuliahan terutama ketika diminta mencoba untuk praktik.
Data
Data yang akan digunakan berasal dari sektor industri telekomunikasi selular (telco). Salah satu kasus sains data yang ada di industri telco adalah customer churn prevention.
Software
Software utama yang akan digunakan untuk praktik pada perkuliahan ini adalah bahasa pemrograman R dan RStudio. Mahasiswa dipersilahkan jika ingin menggunakan software atau bahasa pemrograman lain seperti Python atau Visual Studio Code sebagai code editor atau yang lainnya.
Berikut ini software yang perlu Anda install jika Anda ingin mengerjakan di local computer:
R 4.3.3/terbaru
Dowload R dari https://cran.r-project.org/ dan install hingga selesai.
RTools
Ikutin petunjuk instalasi RTools dari halaman ini https://cran.r-project.org/bin/windows/Rtools/rtools43/rtools.htmlRStudio/Posit latest
Download RStudio dari halaman https://posit.co/Git
Jika Anda pengguna Windows, install git dari halaman berikut https://git-scm.com/download/win. Buka halaman berikut jika Anda pengguna Linux https://git-scm.com/book/en/v2/Getting-Started-Installing-Git atau MacOS https://git-scm.com/download/macDocker (opsional)
Pada perkuliahan ini Anda akan “membungkus” API model yang sudah dibuat menggunakan Docker. Jika Anda ingin belajar lebih jauh menggunakan Docker atau Anda ingin mencoba di local computer, Anda dapat download docker desktop dari halaman https://www.docker.com/products/docker-desktop/
Akun
Anda juga akan diminta untuk membuat akun pada website berikut ini.
- Kaggle: https://www.kaggle.com/
Disini Anda dapat berlatih dan mengikuti kompetisi sains data. Data yang akan digunakan dalam perkuliahan juga diambil dari Kaggle. Anda dapat memperoleh data dari sini https://www.kaggle.com/datasets/aephidayatuloh/telco-customer-churn
- Hugging Face: https://huggingface.co/
API model prediktif yang Anda buat akan di-deploy ke Docker Space di Hugging Face sehingga model Anda dapat digunakan untuk melakukan prediksi secara online dan gratis. Hugging Face hampir sama dengan GitHub dengan tambahan Data dan Model yang tersedia dan terbuka.
- Posit Cloud (opsional): https://posit.cloud
Jika Anda tidak ingin menggunakan R/RStudio di local computer, Anda dapat membuat akun di Posit.Cloud dan menggunakan RStudio Cloud secara gratis. Namun perlu diingat versi gratis dari posit.cloud memiliki keterbatasan diantaranya adalah hanya diberikan 1 CPU dan 1 GB RAM.
- GitHub (opsional): https://github.com/
R Packages
Berikut ini R package yang dibutuhkan untuk dapat mengikuti praktik perkuliahan berdasarkan penggunaannya.
Penyiapan data dan eksplorasi data
- pak
- tidyverse
- readxl
- janitor
- skimr
- ggcorrplot
Pembuatan Model Machine Learning
- tidymodels
- glmnet
- rpart.plot
- finetune
Evaluasi Model (Interpretable Machine Learning)
- DALEX
- DALEXtra
- modelStudio
API Model Deployment
- plumber
- pins
- vetiver
Untuk dapat mengikuti kegiatan praktik pada perkuliahan ini Anda perlu install R packages berikut.
Agenda
- Pertemuan 1: Pengantar Sains Data dan R Programming (Tidyverse) (120 menit)
- Pengenalan Sains Data
- Peran Data Analytics
- Pengenalan Data dan Kasus
- Membuat GitHub Repository/HuggingFace Space
- Pertemuan 2: Eksplorasi & Penyiapan Data untuk Machine Learning (120 menit)
- Membuat RStudio Project
- Import Data
- Eksplorasi Data
- Menyiapkan Data untuk kebutuhan pembuatan Model Machine Learning
- Pertemuan 3: Pemodelan Machine Learning Klasifikasi (120 menit)
- Pengenalan Model Machine Learning
- Pembagian Data
- Pembuatan Model Machine Learning Regresi Logistic dan Decision Tree
- Hyperparameter Tunning
- Pemilihan Model dengan Parameter Terbaik
- Pengenalan Model Machine Learning
- Pertemuan 4: Evaluasi Model (120 menit)
- Pengenalan Metriks Penentuan Performa Model
- Perhitungan Performa Model Klasifikasi
- Pengenalan Metriks Penentuan Performa Model
- Pertemuan 5: Model Deployment (120 menit)
- Pengantar Model Deployment
- Model Deployment dengan Docker
- Deployment ke Hugging Face
- Pengantar Model Deployment
Apabila ada pertanyaan dari semua persiapan di atas Anda dapat email ke aephidayatuloh.mail@gmail.com.
Terima kasih.