Selamat atas keberhasilannya melewati Data Visualization dan Machine Learning specialization. Bersamaan dengan berakhirnya pembelajaran ini, kami sangat menyarankan Bapak/Ibu untuk mengerjakan Learning-By-Building (LBB) dari setiap modul. Adapun pengerjaan LBB bertujuan untuk mengoptimalkan hasil pembelajaran yang telah didapat di kelas dan mengulas kembali materi yang Bapak/Ibu belum pahami. Berikut kami sertakan instruksi LBB untuk tiap modul, dataset dan contoh LBB yang tepat.
Pada LBB Programming for Data Science dan Practical Statistics, Bapak/Ibu diminta untuk membuat suatu laporan menggunakan R markdown beserta analisis sederhana dari data yang digunakan.
Berikut beberapa contoh laporan menggunakan R yang dapat Bapak/Ibu gunakan sebagai bahan acuan:
Bapak/Ibu dapat menggunakan dataset retail.csv
yang ada pada materi Programming for Data Science atau data yang Bapak/Ibu miliki. Berikut beberapa referensi dataset yang dapat Bapak/Ibu gunakan pada modul ini:
Bank Telemarketing dataset merupakan data kampanye pemasaran langsung produk deposito dari sebuah bank di Portugal yang dilakukan melalui telepon. Terdapat beberapa variabel dari data calon nasabah dalam data tersebut seperti umur, pekerjaan, status perkawinan, hingga variabel yang menyatakan nasabah tersebut membeli produk yang ditawarkan atau tidak.
Spotify dataset memuat banyak lagu dari berbagai genre yang ada di spotify music streaming platform. Dataset ini merekam karakteristik audio dari tiap lagu seperti acousticness
, danceability
, instrumentalness
dll. Sehingga, Bapak/Ibu dapat menganalisa karakterisitik audio apa yang paling berpengaruh untuk setiap genrenya.
Titanic dataset memuat informasi dari penumpang kapal titanic. Data ini memiliki beberapa variabel seperti nama penumpang, umur, lokasi kamar pada kapal, posisi awal, hingga status penumpang (selamat atau tidak) saat kapal titanic tenggelam.
Adapun dalam pembuatan laporan, hal-hal penting yang diperlu diperhatikan adalah sebagai berikut:
Memberikan markdown title, author name, dan date.
Melakukan formating style sesuai preferensi Bapak/Ibu.
Memberikan heading pada setiap bab dan sub bab yang dibuat dalam masing-masing pembahasannya.
Melakukan import pada data yang digunakan.
Memberikan penjelasan terhadap data yang digunakan.
Melakukan cleansing dan exploratory data berdasarkan business problem yang ingin dicapai.
Pada LBB Data Visualization ini, Bapak/Ibu diminta untuk membuat setidaknya satu visualisasi yang estetik dan insightful.
Berikut merupakan beberapa contoh visualisasi yang dapat Bapak/Ibu gunakan sebagai bahan referensi:
Bapak/Ibu dapat menggunakan dataset USvideos.csv
yang ada pada materi Data Visualization atau dapat menggunakan dataset yang Bapak/Ibu miliki. Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:
https://www.kaggle.com/rubenssjr/brasilian-houses-to-rent
Houses Rent Dataset memuat fasilitas yang disediakan sebuah rumah yang ingin disewakan di daerah Brazil. Variabel-variabel yang tersedia yakni jumlah kamar, jumlah lantai, ada atau tidaknya garasi kendaraan, hingga harga sewa dari tiap rumah tersebut. Berdasarkan hal teserbut, Bapak/Ibu dapat memvisualisasi keterhubungan antar setiap variabel yang ada.
Titanic dataset memuat informasi dari penumpang kapal titanic. Data ini memiliki beberapa variabel seperti nama penumpang, umur, lokasi kamar pada kapal, posisi awal, hingga status penumpang (selamat atau tidak) saat kapal titanic tenggelam.
Australia Fires Dataset menyimpan data-data lokasi kebakaran yang terjadi di Australia. Adapun beberapa data yang dapat divisualisasikan seperti temperatur, curah hujan, serta lokasi kebakaran. Selain itu, Bapak/Ibu juga dapat menggunakan leaflet
untuk memvisualisasikan daerah-daerah terjadinya kebakaran dalam bentuk peta.
Adapun dalam pembuatan laporan, hal-hal penting yang diperlu diperhatikan adalah sebagai berikut:
Tahapan data pre-processing yang dilakukan sebelum membuat visualisasi
Insight yang ingin disampaikan
Kesesuaian antara jenis plot yang digunakan dan tujuan yang ingin dicapai
Estetika visualisasi yang wajib ditampilkan:
Penggunaan warna (fill/color) dan penyesuaian tema (theme)
Pemberian label yang sesuai dengan informasi:
Label dari sumbu x / y
Title/Subtitle
Legend, dll.
Pada LBB Interactive Plotting, Bapak/Ibu diminta untuk membuat sebuah interactive dashboard (flexdashboard/shiny/shinydashboard) yang memiliki nilai estetika dan insightful.
Berikut merupakan beberapa contoh dashboard yang dapat Bapak/Ibu gunakan sebagai bahan referensi:
Bapak/Ibu dapat menggunakan dataset youtubetrends.csv
yang ada pada materi interactive plotting atau dapat menggunakan data yang Bapak Ibu miliki. Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:
https://www.kaggle.com/rubenssjr/brasilian-houses-to-rent
Houses Rent Dataset memuat fasilitas yang disediakan sebuah rumah yang ingin disewakan di daerah Brazil. Variabel-variabel yang tersedia yakni jumlah kamar, jumlah lantai, ada atau tidaknya garasi kendaraan, hingga harga sewa dari tiap rumah tersebut. Berdasarkan hal teserbut, Bapak/Ibu dapat memvisualisasi keterhubungan antar setiap variabel yang ada.
Titanic dataset memuat informasi dari penumpang kapal titanic. Data ini memiliki beberapa variabel seperti nama penumpang, umur, lokasi kamar pada kapal, posisi awal, hingga status penumpang (selamat atau tidak) saat kapal titanic tenggelam.
Australia Fires Dataset menyimpan data-data lokasi kebakaran yang terjadi di Australia. Adapun beberapa data yang dapat divisualisasikan seperti temperatur, curah hujan, serta lokasi kebakaran. Selain itu, Bapak/Ibu juga dapat menggunakan leaflet
untuk memvisualisasikan daerah-daerah terjadinya kebakaran dalam bentuk peta.
Berikut beberapa referensi mengenai dashboard untuk mempermudah pembuatan LBB:
Adapun dalam pembuatan dashboard, hal-hal penting yang diperlu diperhatikan adalah sebagai berikut:
Tahapan data pre-processing menggunakan dplyr
Plot yang ditampilkan pada dashboard sudah interaktif
Setiap plot yang ditampilkan menampilkan informasi yang relevan dari dashboard
Pada LBB Regression Model, Bapak/Ibu diminta untuk berlatih dalam menyelesaikan studi kasus model regresi.
Berikut merupakan beberapa contoh analisis regresi yang bisa dijadikan acuan dan inspirasi Bapak/Ibu dalam menyelesaikan studi kasus model regresi:
Bapak/Ibu dapat menggunakan dataset crime.csv
yang ada pada materi Regression Model atau dapat menggunakan data yang Bapak Ibu miliki. Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:
Crime dataset telah tersedia pada folder materi Regression Model. Bapak/Ibu dapat menggunakan crime_rate
sebagai target variabel, sehingga dapat dianalisis bagaimana pengaruh variabel-variabel socio-demographic yang ada terhadap tingkat kejahatan di suatu daerah.
House Pricing Dataset merupakan data simulasi harga rumah berdasarkan atribut-atribut propertinya.
Adapun dalam pembuatan laporan, hal-hal penting yang perlu diperhatikan adalah sebagai berikut:
Pemilihan target variabel berdasarkan perspektif kasus yang diambil
Analisis data dan proses pemilihan variabel prediktor / feature selection
Melakukan uji asumsi terhadap model yang dibuat
Evaluasi model berdasarkan nilai Error (RMSE,MSE,MAE)
Interpretasi model dan rekomendasi terkait tujuan awal pembuatan model
Pada LBB Classification in Machine Learning 1, Bapak/Ibu diminta untuk menyelesaikan studi kasus terkait analisis klasifikasi.
Berikut merupakan beberapa contoh analisis klasifikasi yang bisa dijadikan acuan dan inspirasi Bapak/Ibu dalam menyelesaikan studi kasus klasifikasi:
Klasifikasi penyakit Jantung menggunakan KNN dan Logistic regression
User Score Classification With Sentiment Analysis: Logistic Regression and K-NN
Berikut beberapa saran dataset yang bisa Bapak/Ibu gunakan untuk kasus klasifikasi pada modul ini:
Bapak/Ibu dapat menggunakan dataset wholesale.csv
yang ada pada materi Classification in Machine Learning 1 atau dapat menggunakan data yang Bapak Ibu miliki. Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:
Wholesale Dataset atau wholesale.csv
sudah tersedia pada folder materi Classification in Machine Learning 1. Bapak/Ibu dapat mengeksplorasi channel
sebagai target variabel untuk menganalisis bagaimana pengaruh variabel-variabel terhadap sebuah data yang telah dikelompokan sebagai channel
tertentu.
Heart Disease Dataset merupakan dataset pasien-pasien di sebuah rumah sakit. Pada dataset ini, Bapak/Ibu dapat mengklasifikasikan apakah seseorang memiliki penyakit jantung atau tidak berdasarkan ciri - ciri tertentu.
Titanic dataset memuat informasi dari penumpang kapal titanic. Data ini memiliki beberapa variabel seperti nama penumpang, umur, lokasi kamar pada kapal, posisi awal, hingga status penumpang (selamat atau tidak) saat kapal titanic tenggelam.
Adapun dalam pembuatan laporan, hal-hal penting yang perlu diperhatikan adalah sebagai berikut:
Pemilihan target variabel berdasarkan perspektif tujuan yang ingin dicapai
Analisis data dan proses pemilihan variabel prediktor / feature selection
Pre-processing, cleansing data, hingga cross validation.
Penjelasan mengenai evaluasi dari model seperti metrik apa yang digunakan, dan mengapa metrik tersebut yang dipilih
Mendokumentasikan analisa tentang cara meningkatkan performa dari model (Misal: proses pemilihan k optimum pada model knn) dan/atau perbandingan dari model logistic dan knn.
Pada LBB Classification in Machine Learning 2, Bapak/Ibu diminta untuk menyelesaikan analisa kasus klasifikasi menggunakan menggunakan metode Naive Bayes / Decision Tree / Random Forest.
Berikut merupakan beberapa contoh analisis klasifikasi yang bisa dijadikan acuan dan inspirasi Bapak/Ibu dalam menyelesaikan studi kasus klasifikasi:
Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:
Bank Telemarketing dataset merupakan data kampanye pemasaran langsung produk deposito dari sebuah bank di Portugal yang dilakukan melalui telepon. Terdapat beberapa variabel dari data calon nasabah dalam data tersebut seperti umur, pekerjaan, status perkawinan, hingga variabel yang menyatakan nasabah tersebut membeli produk yang ditawarkan atau tidak.
Telco Customer Churn Dataset merupakan dataset tingkah laku pelanggan telekomunikasi. Pada data ini Bapak/Ibu dapat memprediksi apakah customer akan churn dari produk yang digunakan atau tidak berdasarkan kebiasaan di dalam menggunakan produk.
Titanic dataset memuat informasi dari penumpang kapal titanic. Data ini memiliki beberapa variabel seperti nama penumpang, umur, lokasi kamar pada kapal, posisi awal, hingga status penumpang (selamat atau tidak) saat kapal titanic tenggelam.
Adapun dalam pembuatan laporan, hal-hal penting yang perlu diperhatikan adalah sebagai berikut:
Pemilihan target variabel berdasarkan perspektif tujuan yang ingin dicapai
Analisis data dan proses pemilihan variabel prediktor / feature selection
Pre-processing, cleansing data, hingga cross validation.
Penjelasan mengenai evaluasi dari model seperti metrik apa yang digunakan, dan mengapa metrik tersebut yang dipilih
Mendokumentasikan analisa tentang cara meningkatkan performa dari model (Misal: proses pruning tree) dan/atau perbandingan dari model naive bayes dan tree.
Pada LBB Unsupervised Learning, Bapak/Ibu diminta untuk menyelesaikan analisa kasus unsupervised learning menggunakan metode Principal Component Analysis (PCA) atau K-means clustering.
Berikut merupakan beberapa contoh kasus yang dapat diselesaikan menggunakan unsupervised learning yang bisa dijadikan acuan dan inspirasi Bapak/Ibu dalam menyelesaikan LBB ini:
Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:
Wholesale Dataset atau wholesale.csv
sudah tersedia pada folder materi Classification in Machine Learning 1. Bapak/Ibu dapat mengeksplorasi channel
sebagai target variabel untuk menganalisis bagaimana pengaruh variabel-variabel terhadap sebuah data yang telah dikelompokan sebagai channel
tertentu.
Spotify dataset memuat banyak lagu dari berbagai genre yang ada di spotify music streaming platform. Penjelasan terkait dataset dapat dilihat pada link berikut : https://developer.spotify.com/documentation/web-api/reference/tracks/get-audio-features/ . Bapak Ibu dapat melakukan analisis clustering pada lagu-lagu tersebut dan menganalisa fitur audio apa yang paling berpengaruh dalam popularitas sebuah lagu.
Flower Recognition Dataset merupakan data gambar bunga. Bapak Ibu dapat mencoba untuk menggunakan PCA untuk melakukan image compression dan membandingkan hasil reduksi dengan original berdasarkan dari visualisasi gambar dan ukuran file.
Adapun dalam pembuatan laporan, hal-hal penting yang perlu diperhatikan adalah sebagai berikut:
Proses pre-processing data berupa cleansing dan eksplorasi data analisis
Penjelasan mengenai pemilihan parameter (Misal: pemilihan k pada k-means clustering atau jumlah PC yang digunakan pada PCA)
Sertakan beberapa visualisasi yang memberikan insight tambahan yang berguna untuk menarik kesimpulan pada case tersebut
Pada LBB Time Series, Bapak/Ibu diminta untuk menyelesaikan kasus terkait Time Series and Forecasting.
Berikut merupakan beberapa contoh kasus yang dapat diselesaikan menggunakan time series yang bisa dijadikan acuan dan inspirasi Bapak/Ibu dalam menyelesaikan LBB ini:
Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:
Chicago Crime Dataset merupakan data-data kejahatan di Chicago sejak tahun 2001. Namun, dikarenakan ukuran data yang amat besar, Bapak/Ibu dapat memilih untuk melakukan analisis time series untuk salah satu jenis kejahatan yang terjadi saja.
Data pada tsdl packages berisi banyak data time series dari berbagai domain bisnis. Versi development dari package tersebut dapat diinstall dari GitHub dengan terlebih dahulu menginstall package devtools
kemudian menggunakan install_github()
seperti dibawah ini:
Adapun dalam pembuatan laporan, hal-hal penting yang perlu diperhatikan adalah sebagai berikut:
Data pre-processing berupa data cleansing dan melengkapi data (apabila ada yang data yang tidak lengkap)
Proses Exploratory Data Analysis berupa analisis trend dan seasonality menggunakan plot sederhana
Penjelasan pemilihan model time series dan asumsinya.
Evaluasi model dan pemilihan model terbaik.
Pada LBB Neural Network and Deep Learning, Bapak/Ibu diminta untuk menyelesaikan kasus yang dapat diselesaikan menggunakan Neural Network and Deep Learning.
Berikut merupakan beberapa contoh kasus yang dapat diselesaikan menggunakan Neural Network and Deep Learning yang bisa dijadikan acuan dan inspirasi Bapak/Ibu dalam menyelesaikan LBB ini:
Pada modul ini, Bapak/Ibu dapat menggunakan dataset yang Bapak/Ibu cari sendiri, atau menggunakan dataset referensi dari kami. Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:
Sumber data didapat dari https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset atau
https://www.ibm.com/communities/analytics/watson-analytics-blog/hr-employee-attrition/
MNIST dataset merupakan data gambar dari angka yang ditulis tangan. Sumber data didapat dari https://www.kaggle.com/scolianni/mnistasjpg#img_10071.jpg
Adapun dalam pembuatan laporan, hal-hal penting yang perlu diperhatikan adalah sebagai berikut:
Pre-processing data, terutama bagian di mana data dipersiapkan agar dapat digunakan dalam framework keras.
Pembuatan arsitektur neural network, dan penjelasan singkat terkait arsitektur yang digunakan
Persiapan model menggunakan “compile” dan fitting model
Evaluasi model, seperti evaluasi machine learning pada umumnya.
Hasil LBB yang telah dikerjakan, silahkan diunggah ke dalam salah satu situs publikasi pilihan Bapak/Ibu (Github / Rpubs / Kaggle Kernel / Website pribadi), kemudian silahkan mencantumkan linknya saat melakukan submit LBB. Link situs publikasi pilihan Bapak/Ibu akan kami cantumkan di CV Algoritma (nantinya akan kami buatkan sebagai salah satu bagian dari Algoritma Career Support). Kami akan memberikan feedback terkait pekerjaan Bapak/Ibu setelah modul Learn by Building disubmit. Feedback yang didapat berupa komentar tentang hal-hal yang dirasa bisa dikembangkan.
Jika ada pertanyaan yang ingin Bapak/Ibu tanyakan, silahkan dikirim ke mentor@algorit.ma. Kami akan dengan senang hati membantu.
Terima kasih dan good luck!