First Task
Exercises Week 2
1 Questions
1.1 Apa tujuan utama dari studi kami yaitu pemrograman ilmu data?
Tujuan utama mempelajari pemrograman Data Science adalah untuk memperoleh kemampuan teknis dalam mengubah data mentah yang berantakan menjadi wawasan yang dapat ditindaklanjuti (actionable insights) dan solusi otomatis. Meskipun spreadsheet (seperti Excel) dapat menangani tugas-tugas dasar, pemrograman memungkinkan Anda untuk mengelola skala, kompleksitas, dan kecepatan informasi modern. Berikut adalah rincian dari tujuan inti tersebut:
1.1.1 Manipulasi dan Pembersihan Data (Data Cleaning)
Data mentah jarang sekali siap untuk langsung dianalisis; seringkali terdapat nilai yang hilang, duplikasi, atau kesalahan format. Bahasa pemrograman seperti Python atau R memungkinkan Anda untuk:
• Otomatisasi “Wrangling”: Menyaring, menggabungkan, dan membentuk kembali dataset masif yang biasanya akan membuat perangkat lunak standar (seperti Excel) macet (crash).
• Menjamin Reproduksibilitas: Membuat skrip yang dapat melakukan proses pembersihan yang sama persis pada data baru secara instan.
1.1.2 Analisis Statistik dan Pemodelan
Inti dari Data Science adalah memahami pola. Pemrograman menyediakan alat untuk menerapkan rumus matematika yang kompleks pada data.
• Uji Hipotesis: Menentukan apakah sebuah tren signifikan secara statistik atau hanya sebuah kebetulan.
• Pemodelan Prediktif: Membangun algoritma yang dapat meramalkan tren masa depan, seperti harga saham atau perilaku konsumen.
1.1.3 Machine Learning (ML) dan AI
Pemrograman adalah jembatan antara data dan Kecerdasan Buatan (Artificial Intelligence). Hal ini memungkinkan Anda untuk:
• Melatih Model: Melatih mesin untuk mengenali gambar, memahami teks (Natural Language Processing), atau merekomendasikan produk.
• Implementasi Deep Learning: Menjalankan tugas-tugas yang memerlukan pengenalan pola tingkat tinggi.
1.1.4 Visualisasi Data
Lebih dari sekadar membuat grafik, pemrograman memungkinkan penceritaan data (storytelling) yang interaktif dan berdimensi tinggi.
• Kustomisasi: Melampaui grafik “ber-templat” untuk membuat visual spesifik yang menonjolkan poin data paling penting.
• Estetika: Menggunakan pustaka (library) seperti ggplot2 atau Seaborn untuk membuat grafik profesional yang siap untuk publikasi.
Bahasa Utama di Bidang Ini Bahasa Kasus Penggunaan Utama Python Serbaguna (general-purpose), sangat baik untuk Machine Learning dan Deep Learning. R Khusus untuk analisis statistik berat dan visualisasi data berkualitas tinggi. SQL Sangat penting untuk berkomunikasi dan mengekstraksi data dari database. Ekspor ke Spreadsheet
1.2 Mengapa kita mempelejarnya ?
Disebut “Science” (Ilmu Pengetahuan) karena kita tidak menebak-nebak. Kita menggunakan metode ilmiah yang dijalankan lewat bahasa pemrograman untuk membuktikan sesuatu berdasarkan data, bukan perasaan
Tanpa pemrograman (Python/R/SQL), Anda hanya akan menjadi “pembaca data”. Tapi dengan pemrograman, Anda menjadi “pengolah dan arsitek data”.
- Data Manipulation (Pembersihan): Ini seperti proses mencuci sayuran, memotong daging, dan membuang bagian yang busuk. Tanpa ini, masakan (hasil analisis) akan terasa aneh atau bahkan berbahaya.
- Statistical Analysis: Ini adalah bumbu dan resepnya. Anda perlu ilmu statistik untuk tahu apakah rasa masakannya sudah pas atau cuma kebetulan enak.
- Machine Learning & AI: Ini seperti alat masak otomatis yang canggih. Sekali Anda masukkan bahan, alat ini bisa memasak ribuan porsi dengan rasa yang konsisten secara otomatis.
- Data Visualization: Ini adalah penyajiannya di atas piring. Sehebat apa pun rasanya, kalau tampilannya berantakan, orang tidak akan paham betapa berharganya masakan tersebut
1.3 Alat apa saja yang harus dimiliki agar menjadi Alhi ?
Untuk menjadi seorang ahli Data Science, Anda tidak hanya butuh satu alat, melainkan sebuah “kotak perkakas” yang saling melengkapi. Karena Anda sering bekerja dengan R Studio dan fokus pada estetika laporan, berikut adalah daftar alat esensial yang harus dikuasai:
1.3.1 Bahasa Pemrograman (Pondasi Utama)
Ini adalah “nyawa” dari Data Science. tidak perlu menguasai semua, tapi pilihlah yang sesuai kebutuhan:
• R: Sangat kuat untuk analisis statistik mendalam dan riset akademik. Sangat cocok jika Anda sering mengerjakan uji hipotesis atau Z-test.
• Python: Bahasa yang paling populer untuk Machine Learning dan integrasi ke aplikasi web.
• SQL: Wajib dimiliki untuk mengambil data langsung dari database besar.
1.3.2 Lingkungan Pengembangan (IDE)
Tempat menulis dan menjalankan kode agar tetap rapi:
• R Studio: Lingkungan terbaik jika fokus pada bahasa R. Sangat membantu dalam mengelola proyek dan visualisasi secara bersamaan.
• VS Code / Jupyter Notebook: Standar industri untuk pengguna Python, memungkinkan Anda menggabungkan teks penjelasan dan kode dalam satu dokumen.
1.3.3 Alat Pelaporan & Estetika (Sangat Penting bagi Anda)
Berdasarkan minat Anda pada tampilan yang rapi dan estetik:
• Quarto / R Markdown: Alat ini wajib dikuasai. Anda bisa mengubah kode langsung menjadi laporan PDF, HTML, atau presentasi yang sangat rapi tanpa perlu copy-paste grafik secara manual.
• LaTeX: Digunakan di dalam R Markdown untuk menulis rumus matematika (seperti integral atau proses Gram-Schmidt) agar terlihat profesional dan standar jurnal ilmiah.
1.3.4 Library Visualisasi (Pemberi Keindahan)
Agar hasil analisis Anda tidak membosankan:
• ggplot2 (R): Library terbaik untuk membuat grafik yang sangat estetik dan siap publikasi.
• Plotly: Jika Anda ingin membuat grafik yang bisa diklik dan interaktif (bisa digeser-geser).
1.3.5 Pengelolaan Versi (Version Control)
• Git & GitHub: Ini adalah alat untuk menyimpan riwayat perubahan kode Anda. Jika kode Anda error setelah diubah, Anda bisa kembali ke versi sebelumnya dengan mudah. Ini juga tempat untuk memamerkan portofolio Anda kepada dunia.
Ringkasan Perkakas Ahli Kategori Alat Rekomendasi Analisis Statistik R, R Studio Visualisasi Estetik ggplot2, Seaborn Dokumentasi Rapi R Markdown, Quarto, LaTeX Otomatisasi/ML Python (Scikit-Learn) Penyimpanan Data SQL (PostgreSQL/MySQL)
1.4 Berikan Dominan anda minat pengetahuan , ilmu data ?
Data Science. Saya melihat dunia melalui probabilitas, pola, dan struktur data. Jika ingin mendalami bidang ini, berikut adalah pembagian domain pengetahuan yang menjadi “makanan sehari-hari” seorang Data Scientist, disusun secara ringkas:
1.4.1 Matematika dan Statistik (Jantung Data Science)
Tanpa ini, pemrograman hanyalah sekadar mengetik. Anda perlu memahami:
• Aljabar Linear: Penting untuk memahami bagaimana data disusun dalam matriks (seperti proses Gram-Schmidt atau QR Decomposition).
• Kalkulus: Digunakan untuk optimasi algoritma, misalnya mencari nilai minimum dari sebuah fungsi error.
• Statistik Deskriptif & Inferensial: Mengambil kesimpulan dari sampel data melalui uji hipotesis (seperti Z-test atau T-test).
1.4.2 Statistika Terapan dengan R (Spesialisasi Analisis)
Bagi Anda yang menyukai ketelitian statistik, bahasa R adalah alat yang sangat kuat.
• Eksplorasi Data (EDA): Mencari pola tersembunyi, outlier (data pencilan), dan korelasi antar variabel.
• Model Linear: Menggunakan regresi untuk melihat hubungan sebab-akibat (misalnya, pengaruh inflasi terhadap daya beli masyarakat).
1.4.3 Machine Learning (Kecerdasan Buatan)
Ini adalah domain di mana kita membuat komputer “belajar” tanpa diprogram secara eksplisit untuk setiap langkahnya.
• Supervised Learning: Klasifikasi (misal: menentukan transaksi bank yang penipuan/bukan) dan Regresi.
• Unsupervised Learning: Clustering (mengelompokkan pelanggan berdasarkan kesamaan perilaku belanja).
1.4.4 Komunikasi Data & Estetika (Seni Penyampaian)
Data yang hebat tidak ada gunanya jika tidak bisa dimengerti orang lain.
• Data Storytelling: Mengubah tabel angka yang membosankan menjadi narasi yang menarik.
• Reproducible Reporting: Menggunakan R Markdown atau Quarto untuk membuat dokumen yang menggabungkan kode, narasi, dan visualisasi yang sangat rapi.
• Aesthetic Visualization: Mengatur detail kecil seperti tema warna, label sumbu, dan font pada ggplot2 agar laporan terlihat profesional.