Selamat atas keberhasilannya melewati Data Visualization dan Machine Learning specialization. Bersamaan dengan berakhirnya pembelajaran ini, kami sangat menyarankan Bapak/Ibu untuk mengerjakan Learning-By-Building (LBB) dari setiap modul. Adapun pengerjaan LBB bertujuan untuk mengoptimalkan hasil pembelajaran yang telah didapat di kelas dan mengulas kembali materi yang Bapak/Ibu belum pahami. Berikut kami sertakan instruksi LBB untuk tiap modul, dataset dan contoh LBB yang tepat.

Data Visualization Specialization

Programming for Data Science

Pada LBB Programming for Data Science dan Practical Statistics, Bapak/Ibu diminta untuk membuat suatu laporan menggunakan R markdown beserta analisis sederhana dari data yang digunakan.

Contoh

Berikut beberapa contoh laporan menggunakan R yang dapat Bapak/Ibu gunakan sebagai bahan acuan:

Dataset

Bapak/Ibu dapat menggunakan dataset retail.csv yang ada pada materi Programming for Data Science atau data yang Bapak/Ibu miliki. Berikut beberapa referensi dataset yang dapat Bapak/Ibu gunakan pada modul ini:

Bank Telemarketing Dataset

Bank Telemarketing dataset merupakan data kampanye pemasaran langsung produk deposito dari sebuah bank di Portugal yang dilakukan melalui telepon. Terdapat beberapa variabel dari data calon nasabah dalam data tersebut seperti umur, pekerjaan, status perkawinan, hingga variabel yang menyatakan nasabah tersebut membeli produk yang ditawarkan atau tidak.

Spotify Dataset

Spotify dataset memuat banyak lagu dari berbagai genre yang ada di spotify music streaming platform. Dataset ini merekam karakteristik audio dari tiap lagu seperti acousticness, danceability, instrumentalness dll. Sehingga, Bapak/Ibu dapat menganalisa karakterisitik audio apa yang paling berpengaruh untuk setiap genrenya.

Titanic Dataset

Titanic dataset memuat informasi dari penumpang kapal titanic. Data ini memiliki beberapa variabel seperti nama penumpang, umur, lokasi kamar pada kapal, posisi awal, hingga status penumpang (selamat atau tidak) saat kapal titanic tenggelam.

Poin Penilaian

Adapun dalam pembuatan laporan, hal-hal penting yang diperlu diperhatikan adalah sebagai berikut:

  • Memberikan markdown title, author name, dan date.

  • Melakukan formating style sesuai preferensi Bapak/Ibu.

  • Memberikan heading pada setiap bab dan sub bab yang dibuat dalam masing-masing pembahasannya.

  • Melakukan import pada data yang digunakan.

  • Memberikan penjelasan terhadap data yang digunakan.

  • Melakukan cleansing dan exploratory data berdasarkan business problem yang ingin dicapai.

Data Visualization

Pada LBB Data Visualization ini, Bapak/Ibu diminta untuk membuat setidaknya satu visualisasi yang estetik dan insightful.

Contoh

Berikut merupakan beberapa contoh visualisasi yang dapat Bapak/Ibu gunakan sebagai bahan referensi:

Dataset

Bapak/Ibu dapat menggunakan dataset USvideos.csv yang ada pada materi Data Visualization atau dapat menggunakan dataset yang Bapak/Ibu miliki. Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:

Houses Rent Dataset

https://www.kaggle.com/rubenssjr/brasilian-houses-to-rent

Houses Rent Dataset memuat fasilitas yang disediakan sebuah rumah yang ingin disewakan di daerah Brazil. Variabel-variabel yang tersedia yakni jumlah kamar, jumlah lantai, ada atau tidaknya garasi kendaraan, hingga harga sewa dari tiap rumah tersebut. Berdasarkan hal teserbut, Bapak/Ibu dapat memvisualisasi keterhubungan antar setiap variabel yang ada.

Titanic Dataset

Titanic dataset memuat informasi dari penumpang kapal titanic. Data ini memiliki beberapa variabel seperti nama penumpang, umur, lokasi kamar pada kapal, posisi awal, hingga status penumpang (selamat atau tidak) saat kapal titanic tenggelam.

Australia Fires Dataset

Australia Fires Dataset menyimpan data-data lokasi kebakaran yang terjadi di Australia. Adapun beberapa data yang dapat divisualisasikan seperti temperatur, curah hujan, serta lokasi kebakaran. Selain itu, Bapak/Ibu juga dapat menggunakan leaflet untuk memvisualisasikan daerah-daerah terjadinya kebakaran dalam bentuk peta.

Poin Penilaian

Adapun dalam pembuatan laporan, hal-hal penting yang diperlu diperhatikan adalah sebagai berikut:

  • Tahapan data pre-processing yang dilakukan sebelum membuat visualisasi

  • Insight yang ingin disampaikan

  • Kesesuaian antara jenis plot yang digunakan dan tujuan yang ingin dicapai

  • Estetika visualisasi yang wajib ditampilkan:

    1. Penggunaan warna (fill/color) dan penyesuaian tema (theme)

    2. Pemberian label yang sesuai dengan informasi:

  • Label dari sumbu x / y

  • Title/Subtitle

  • Legend, dll.

Interactive Plotting

Pada LBB Interactive Plotting, Bapak/Ibu diminta untuk membuat sebuah interactive dashboard (flexdashboard/shiny/shinydashboard) yang memiliki nilai estetika dan insightful.

Contoh

Berikut merupakan beberapa contoh dashboard yang dapat Bapak/Ibu gunakan sebagai bahan referensi:

Dataset

Bapak/Ibu dapat menggunakan dataset youtubetrends.csv yang ada pada materi interactive plotting atau dapat menggunakan data yang Bapak Ibu miliki. Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:

Houses Rent Dataset

https://www.kaggle.com/rubenssjr/brasilian-houses-to-rent

Houses Rent Dataset memuat fasilitas yang disediakan sebuah rumah yang ingin disewakan di daerah Brazil. Variabel-variabel yang tersedia yakni jumlah kamar, jumlah lantai, ada atau tidaknya garasi kendaraan, hingga harga sewa dari tiap rumah tersebut. Berdasarkan hal teserbut, Bapak/Ibu dapat memvisualisasi keterhubungan antar setiap variabel yang ada.

Titanic Dataset

Titanic dataset memuat informasi dari penumpang kapal titanic. Data ini memiliki beberapa variabel seperti nama penumpang, umur, lokasi kamar pada kapal, posisi awal, hingga status penumpang (selamat atau tidak) saat kapal titanic tenggelam.

Australia Fires Dataset

Australia Fires Dataset menyimpan data-data lokasi kebakaran yang terjadi di Australia. Adapun beberapa data yang dapat divisualisasikan seperti temperatur, curah hujan, serta lokasi kebakaran. Selain itu, Bapak/Ibu juga dapat menggunakan leaflet untuk memvisualisasikan daerah-daerah terjadinya kebakaran dalam bentuk peta.

Poin Penilaian

Adapun dalam pembuatan dashboard, hal-hal penting yang diperlu diperhatikan adalah sebagai berikut:

  • Tahapan data pre-processing menggunakan dplyr

  • Plot yang ditampilkan pada dashboard sudah interaktif

  • Setiap plot yang ditampilkan menampilkan informasi yang relevan dari dashboard

Machine Learning Specialization

Regression Model

Pada LBB Regression Model, Bapak/Ibu diminta untuk berlatih dalam menyelesaikan studi kasus model regresi.

Contoh

Berikut merupakan beberapa contoh analisis regresi yang bisa dijadikan acuan dan inspirasi Bapak/Ibu dalam menyelesaikan studi kasus model regresi:

Dataset

Bapak/Ibu dapat menggunakan dataset crime.csv yang ada pada materi Regression Model atau dapat menggunakan data yang Bapak Ibu miliki. Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:

Crime Dataset

Crime dataset telah tersedia pada folder materi Regression Model. Bapak/Ibu dapat menggunakan crime_rate sebagai target variabel, sehingga dapat dianalisis bagaimana pengaruh variabel-variabel socio-demographic yang ada terhadap tingkat kejahatan di suatu daerah.

House Pricing Dataset

House Pricing Dataset merupakan data simulasi harga rumah berdasarkan atribut-atribut propertinya.

Poin Penilaian

Adapun dalam pembuatan laporan, hal-hal penting yang perlu diperhatikan adalah sebagai berikut:

  • Pemilihan target variabel berdasarkan perspektif kasus yang diambil

  • Analisis data dan proses pemilihan variabel prediktor / feature selection

  • Melakukan uji asumsi terhadap model yang dibuat

  • Evaluasi model berdasarkan nilai Error (RMSE,MSE,MAE)

  • Interpretasi model dan rekomendasi terkait tujuan awal pembuatan model

Classification in Machine Learning 1

Pada LBB Classification in Machine Learning 1, Bapak/Ibu diminta untuk menyelesaikan studi kasus terkait analisis klasifikasi.

Contoh

Berikut merupakan beberapa contoh analisis klasifikasi yang bisa dijadikan acuan dan inspirasi Bapak/Ibu dalam menyelesaikan studi kasus klasifikasi:

Berikut beberapa saran dataset yang bisa Bapak/Ibu gunakan untuk kasus klasifikasi pada modul ini:

Dataset

Bapak/Ibu dapat menggunakan dataset wholesale.csv yang ada pada materi Classification in Machine Learning 1 atau dapat menggunakan data yang Bapak Ibu miliki. Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:

Wholesale Dataset

Wholesale Dataset atau wholesale.csv sudah tersedia pada folder materi Classification in Machine Learning 1. Bapak/Ibu dapat mengeksplorasi channel sebagai target variabel untuk menganalisis bagaimana pengaruh variabel-variabel terhadap sebuah data yang telah dikelompokan sebagai channel tertentu.

Heart Disease Dataset

Heart Disease Dataset merupakan dataset pasien-pasien di sebuah rumah sakit. Pada dataset ini, Bapak/Ibu dapat mengklasifikasikan apakah seseorang memiliki penyakit jantung atau tidak berdasarkan ciri - ciri tertentu.

Titanic Dataset

Titanic dataset memuat informasi dari penumpang kapal titanic. Data ini memiliki beberapa variabel seperti nama penumpang, umur, lokasi kamar pada kapal, posisi awal, hingga status penumpang (selamat atau tidak) saat kapal titanic tenggelam.

Point penilaian

Adapun dalam pembuatan laporan, hal-hal penting yang perlu diperhatikan adalah sebagai berikut:

  • Pemilihan target variabel berdasarkan perspektif tujuan yang ingin dicapai

  • Analisis data dan proses pemilihan variabel prediktor / feature selection

  • Pre-processing, cleansing data, hingga cross validation.

  • Penjelasan mengenai evaluasi dari model seperti metrik apa yang digunakan, dan mengapa metrik tersebut yang dipilih

  • Mendokumentasikan analisa tentang cara meningkatkan performa dari model (Misal: proses pemilihan k optimum pada model knn) dan/atau perbandingan dari model logistic dan knn.

Classification in Machine Learning 2

Pada LBB Classification in Machine Learning 2, Bapak/Ibu diminta untuk menyelesaikan analisa kasus klasifikasi menggunakan menggunakan metode Naive Bayes / Decision Tree / Random Forest.

Dataset

Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:

Bank Telemarketing Dataset

Bank Telemarketing dataset merupakan data kampanye pemasaran langsung produk deposito dari sebuah bank di Portugal yang dilakukan melalui telepon. Terdapat beberapa variabel dari data calon nasabah dalam data tersebut seperti umur, pekerjaan, status perkawinan, hingga variabel yang menyatakan nasabah tersebut membeli produk yang ditawarkan atau tidak.

Telco Customer Churn Dataset

Telco Customer Churn Dataset merupakan dataset tingkah laku pelanggan telekomunikasi. Pada data ini Bapak/Ibu dapat memprediksi apakah customer akan churn dari produk yang digunakan atau tidak berdasarkan kebiasaan di dalam menggunakan produk.

Titanic Dataset

Titanic dataset memuat informasi dari penumpang kapal titanic. Data ini memiliki beberapa variabel seperti nama penumpang, umur, lokasi kamar pada kapal, posisi awal, hingga status penumpang (selamat atau tidak) saat kapal titanic tenggelam.

Point Penilaian

Adapun dalam pembuatan laporan, hal-hal penting yang perlu diperhatikan adalah sebagai berikut:

  • Pemilihan target variabel berdasarkan perspektif tujuan yang ingin dicapai

  • Analisis data dan proses pemilihan variabel prediktor / feature selection

  • Pre-processing, cleansing data, hingga cross validation.

  • Penjelasan mengenai evaluasi dari model seperti metrik apa yang digunakan, dan mengapa metrik tersebut yang dipilih

  • Mendokumentasikan analisa tentang cara meningkatkan performa dari model (Misal: proses pruning tree) dan/atau perbandingan dari model naive bayes dan tree.

Unsupervised Learning

Pada LBB Unsupervised Learning, Bapak/Ibu diminta untuk menyelesaikan analisa kasus unsupervised learning menggunakan metode Principal Component Analysis (PCA) atau K-means clustering.

Contoh

Berikut merupakan beberapa contoh kasus yang dapat diselesaikan menggunakan unsupervised learning yang bisa dijadikan acuan dan inspirasi Bapak/Ibu dalam menyelesaikan LBB ini:

Dataset

Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:

Wholesale Dataset

Wholesale Dataset atau wholesale.csv sudah tersedia pada folder materi Classification in Machine Learning 1. Bapak/Ibu dapat mengeksplorasi channel sebagai target variabel untuk menganalisis bagaimana pengaruh variabel-variabel terhadap sebuah data yang telah dikelompokan sebagai channel tertentu.

Spotify Dataset

Spotify dataset memuat banyak lagu dari berbagai genre yang ada di spotify music streaming platform. Penjelasan terkait dataset dapat dilihat pada link berikut : https://developer.spotify.com/documentation/web-api/reference/tracks/get-audio-features/ . Bapak Ibu dapat melakukan analisis clustering pada lagu-lagu tersebut dan menganalisa fitur audio apa yang paling berpengaruh dalam popularitas sebuah lagu.

Flower Recognition Dataset

Flower Recognition Dataset merupakan data gambar bunga. Bapak Ibu dapat mencoba untuk menggunakan PCA untuk melakukan image compression dan membandingkan hasil reduksi dengan original berdasarkan dari visualisasi gambar dan ukuran file.

Point Penilaian

Adapun dalam pembuatan laporan, hal-hal penting yang perlu diperhatikan adalah sebagai berikut:

  • Proses pre-processing data berupa cleansing dan eksplorasi data analisis

  • Penjelasan mengenai pemilihan parameter (Misal: pemilihan k pada k-means clustering atau jumlah PC yang digunakan pada PCA)

  • Sertakan beberapa visualisasi yang memberikan insight tambahan yang berguna untuk menarik kesimpulan pada case tersebut

Time Series and Forecasting

Pada LBB Time Series, Bapak/Ibu diminta untuk menyelesaikan kasus terkait Time Series and Forecasting.

Contoh

Berikut merupakan beberapa contoh kasus yang dapat diselesaikan menggunakan time series yang bisa dijadikan acuan dan inspirasi Bapak/Ibu dalam menyelesaikan LBB ini:

Dataset

Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:

Chicago Crime Dataset

Chicago Crime Dataset merupakan data-data kejahatan di Chicago sejak tahun 2001. Namun, dikarenakan ukuran data yang amat besar, Bapak/Ibu dapat memilih untuk melakukan analisis time series untuk salah satu jenis kejahatan yang terjadi saja.

tsdl Packages

Data pada tsdl packages berisi banyak data time series dari berbagai domain bisnis. Versi development dari package tersebut dapat diinstall dari GitHub dengan terlebih dahulu menginstall package devtools kemudian menggunakan install_github() seperti dibawah ini:

Point Penilaian

Adapun dalam pembuatan laporan, hal-hal penting yang perlu diperhatikan adalah sebagai berikut:

  • Data pre-processing berupa data cleansing dan melengkapi data (apabila ada yang data yang tidak lengkap)

  • Proses Exploratory Data Analysis berupa analisis trend dan seasonality menggunakan plot sederhana

  • Penjelasan pemilihan model time series dan asumsinya.

  • Evaluasi model dan pemilihan model terbaik.

Neural Network

Pada LBB Neural Network and Deep Learning, Bapak/Ibu diminta untuk menyelesaikan kasus yang dapat diselesaikan menggunakan Neural Network and Deep Learning.

Contoh

Berikut merupakan beberapa contoh kasus yang dapat diselesaikan menggunakan Neural Network and Deep Learning yang bisa dijadikan acuan dan inspirasi Bapak/Ibu dalam menyelesaikan LBB ini:

Dataset

Pada modul ini, Bapak/Ibu dapat menggunakan dataset yang Bapak/Ibu cari sendiri, atau menggunakan dataset referensi dari kami. Berikut beberapa referensi dataset yang bisa Bapak/Ibu gunakan pada modul ini:

MNIST Dataset (Image)

MNIST dataset merupakan data gambar dari angka yang ditulis tangan. Sumber data didapat dari https://www.kaggle.com/scolianni/mnistasjpg#img_10071.jpg

Point Penilaian

Adapun dalam pembuatan laporan, hal-hal penting yang perlu diperhatikan adalah sebagai berikut:

  • Pre-processing data, terutama bagian di mana data dipersiapkan agar dapat digunakan dalam framework keras.

  • Pembuatan arsitektur neural network, dan penjelasan singkat terkait arsitektur yang digunakan

  • Persiapan model menggunakan “compile” dan fitting model

  • Evaluasi model, seperti evaluasi machine learning pada umumnya.

Catatan

Hasil LBB yang telah dikerjakan, silahkan diunggah ke dalam salah satu situs publikasi pilihan Bapak/Ibu (Github / Rpubs / Kaggle Kernel / Website pribadi), kemudian silahkan mencantumkan linknya saat melakukan submit LBB. Link situs publikasi pilihan Bapak/Ibu akan kami cantumkan di CV Algoritma (nantinya akan kami buatkan sebagai salah satu bagian dari Algoritma Career Support). Kami akan memberikan feedback terkait pekerjaan Bapak/Ibu setelah modul Learn by Building disubmit. Feedback yang didapat berupa komentar tentang hal-hal yang dirasa bisa dikembangkan.

Jika ada pertanyaan yang ingin Bapak/Ibu tanyakan, silahkan dikirim ke . Kami akan dengan senang hati membantu.

Terima kasih dan good luck!