First Task
Exercises Week 2
Carol Dupino Pereira
NIM: 52250051
1 QUESTIONS
1.1 What is the main purpose of our study Data Sains Programming?
Tujuan utama dari mempelajari pemrograman Data Science adalah untuk mengekstrak wawasan (insights) yang bermakna dan menemukan pola dari kumpulan data yang sangat besar dan kompleks. Karena data sering kali dianggap sebagai “emas” atau “minyak” baru, pemrograman diperlukan untuk menyaring dan mengolah data mentah tersebut agar memiliki nilai guna bagi organisasi.
Berikut adalah beberapa tujuan utama lainnya dari studi ini berdasarkan sumber yang tersedia:
Pengambilan Keputusan Berbasis Data: Membantu organisasi membuat keputusan yang lebih cerdas dan strategis melalui analisis data, perkiraan bisnis, dan pemahaman perilaku pelanggan.
Membangun Model Prediktif: Menggunakan algoritma matematika dan statistik yang kompleks untuk membangun model yang dapat memprediksi tren masa depan, seperti deteksi penipuan, risiko keuangan, atau hasil kesehatan.
Otomatisasi dan Efisiensi: Pemrograman memungkinkan otomatisasi tugas-tugas berulang yang memiliki margin kesalahan tinggi, sehingga menghemat waktu dan tenaga kerja manusia.
Implementasi Algoritma yang Fleksibel: Meskipun tersedia alat otomatis, keahlian dalam pemrograman (seperti Python atau R) memungkinkan seorang Data Scientist untuk menyesuaikan algoritma sesuai kebutuhan spesifik yang tidak dapat ditangani oleh alat siap pakai.
Menyelesaikan Masalah Dunia Nyata: Mengaplikasikan teknik data untuk isu-isu global, seperti penelitian medis (misalnya deteksi kanker atau MRI), perencanaan pedesaan, hingga upaya penanggulangan perubahan iklim.
Keamanan dan Deteksi Anomali: Mengidentifikasi penyimpangan atau aktivitas mencurigakan secara real-time, seperti dalam kasus deteksi penipuan kartu kredit atau keamanan siber.
Karier dan Relevansi Profesional: Mengingat tingginya permintaan pasar, studi ini bertujuan untuk membangun keterampilan teknis yang bernilai tinggi agar tetap kompetitif dan mendapatkan peluang karier dengan potensi penghasilan yang besar.
Singkatnya, pemrograman dalam Data Science bukan sekadar menulis kode, melainkan sarana untuk mengubah data mentah menjadi pengetahuan yang dapat ditindaklanjuti guna membawa perubahan positif bagi bisnis maupun kemanusiaan.
1.2 Why do we lear about it?
Mempelajari pemrograman Data Science sangat penting karena bidang ini memungkinkan kita untuk mengubah data mentah menjadi wawasan yang berharga, yang sering diibaratkan sebagai “emas” atau “minyak” baru di era digital saat ini. Berikut adalah alasan-alasan utama mengapa kita mempelajarinya berdasarkan sumber yang tersedia:
Prospek Karier dan Finansial yang Tinggi: Permintaan akan ilmuwan data diproyeksikan tumbuh sebesar 36% hingga tahun 2031, jauh lebih cepat dibandingkan rata-rata pekerjaan lainnya. Hal ini diikuti dengan potensi penghasilan yang besar, di mana gaji rata-rata seorang ilmuwan data di Amerika Serikat diperkirakan mencapai $162.200 per tahun.
Data Menjalankan Dunia Modern: Saat ini, hampir semua industri, mulai dari kesehatan, pendidikan, hingga pemerintahan, beroperasi berdasarkan data. Mempelajari bidang ini memberikan fleksibilitas untuk bekerja di sektor apa pun yang Anda minati.
Kemampuan Memecahkan Masalah Kompleks: Kita mempelajarinya untuk menangani, mengatur, dan menafsirkan volume informasi yang sangat besar guna mengekstrak pola yang tidak terlihat oleh mata manusia. Pemrograman diperlukan untuk memproses kumpulan data besar secara efisien dan membangun model prediksi yang akurat.
Otomatisasi dan Efisiensi: Melalui pengodean (coding), kita dapat mengotomatiskan tugas-tugas berulang yang memiliki margin kesalahan tinggi, sehingga menghemat waktu dan meningkatkan produktivitas.
Memberikan Dampak Nyata bagi Dunia: Data Science memungkinkan kita berkontribusi pada isu-isu kemanusiaan global, seperti mendukung riset kanker, melacak perubahan iklim dari luar angkasa, hingga meningkatkan keselamatan kota bagi pejalan kaki.
Integrasi Pengetahuan Domain: Mempelajari Data Science bukan hanya soal teknis, tetapi juga tentang bagaimana menggabungkan keahlian komputer dan statistik dengan pemahaman bidang tertentu (domain knowledge). Tanpa pemahaman domain, analisis data mungkin menjadi tidak presisi atau sulit diinterpretasikan dengan benar.
Pembelajaran Seumur Hidup: Karena industri ini terus berkembang seiring kemajuan teknologi, mempelajarinya memberikan peluang untuk menjadi pembelajar seumur hidup yang selalu relevan dengan perkembangan zaman.
1.3 what tools to have to expert about?
Untuk menjadi seorang ahli (expert) di bidang Data Science, Anda perlu menguasai berbagai kategori alat yang mendukung seluruh alur kerja data, mulai dari pengumpulan hingga implementasi model AI. Berdasarkan sumber yang tersedia, berikut adalah rincian alat yang harus Anda kuasai:
1. Fondasi Pemrograman: Bahasa pemrograman adalah alat paling dasar untuk mengolah data dan membangun algoritma. Python: Bahasa yang paling dominan karena ekosistem pustakanya yang luas untuk analisis data, AI, dan otomatisasi.
R: Sangat penting bagi mereka yang berfokus pada statistik mendalam, riset akademik, dan visualisasi data yang canggih.
SQL (Structured Query Language): Alat wajib untuk mengelola, memfilter, dan mengekstrak data dari database relasional.
Julia, Java, dan C/C++: Digunakan untuk aplikasi yang membutuhkan performa tinggi atau skalabilitas tingkat sistem.
2. Manipulasi dan Pemrosesan Data: Setelah data dikumpulkan, Anda memerlukan alat untuk membersihkan dan mengaturnya. Pandas dan NumPy: Pustaka utama di Python untuk manipulasi dan analisis data. Tidyverse: Kumpulan paket di R yang memudahkan pembersihan dan visualisasi data secara intuitif.
Apache Spark (PySpark): Alat standar untuk pemrosesan Big Data secara terdistribusi dan real-time stream processing.
DuckDB, Snowflake, dan BigQuery: Alat untuk kueri analitik cepat dan pengelolaan data berbasis cloud.
3. Machine Learning dan AI: Untuk membangun model cerdas, Anda harus menguasai kerangka kerja (framework) berikut: Scikit-learn: Untuk algoritma machine learning klasik.
PyTorch dan TensorFlow: Standar industri untuk Deep Learning dan pengembangan model AI generatif.
Hugging Face: Platform utama untuk mengakses model bahasa besar (LLM) dan alur kerja AI open-source.
LangChain dan LlamaIndex: Alat krusial untuk membangun aplikasi berbasis AI generatif dan agen AI.
4. Visualisasi Data dan Intelijen Bisnis (BI): Menjadi ahli berarti mampu mengomunikasikan temuan data secara visual.
- Pustaka Visualisasi: Matplotlib, Seaborn, dan Plotly (untuk Python) serta ggplot2 (untuk R).
- Alat BI: Tableau dan Power BI untuk membuat dasbor interaktif yang mudah dipahami oleh pemangku kepentingan bisnis.
5. MLOps dan Deployment: Seorang ahli harus bisa membawa model dari tahap eksperimen ke tahap produksi.
MLflow: Alat terpenting untuk pelacakan eksperimen dan manajemen versi model.
Docker dan Kubernetes: Digunakan untuk mengemas alur kerja machine learning ke dalam lingkungan yang dapat direproduksi dan mendistribusikannya dalam skala besar.
6. Integrasi Pengetahuan Domain: Selain alat teknis, sumber menekankan bahwa keahlian sejati terletak pada Pengetahuan Domain (Domain Knowledge). Alat-alat di atas hanya akan efektif jika Anda memahami konteks masalah yang sedang diselesaikan, baik itu di bidang kesehatan, keuangan, maupun teknologi
1.4 Give your interest Domain knowledge Data Science?
Bagi saya Pengetahuan domain (domain knowledge) adalah keahlian atau pemahaman spesifik mengenai bidang atau industri tertentu di mana analisis data diterapkan. Bagi saya Data Science sering digambarkan sebagai titik temu antara ilmu komputer, matematika/statistik, dan keahlian spesifik domain tersebut.Peran penting pengetahuan domain dalam Data Science beserta domain-domain yang menarik untuk dieksplorasi, seperti yang kita tau domian konwledge itu sangat luas bisa di bidang apa aja, jadi bagi seorang data sains Pengetahuan domain sangat membantu untuk mendalami setiap tahapan yang di ambil sebagai seorang data science:
1. Minat (Interest): “Minat utama saya terletak pada ekstraksi wawasan (insight) dari data mentah. Saya sangat menikmati proses mengubah kumpulan angka yang terlihat acak menjadi sebuah narasi yang bermakna. Secara spesifik, saya tertarik pada Analisis Prediktif—bagaimana kita bisa menggunakan data masa lalu untuk memodelkan kemungkinan yang akan terjadi di masa depan.”
2. Pengetahuan Domain (Domain Knowledge): “Sebagai mahasiswa, saya sedang memperdalam pengetahuan domain sabagi seorang data sains karena domain data sains itu sangat luas untuk sekarang saya berminat di bidang Sektor keuangan dan Pendidikan.
3. Ilmu Data (Data Science): “Dalam aspek teknis, saya harus memiliki fondasi yang kuat dalam:
Pemrograman: Saya aktif menggunakan R dan Python untuk pengolahan data.
Statistik & Matematika: Saya menguasai konsep Aljabar Linear dan Statistik Inferensial, termasuk pengujian hipotesis seperti Mann-Whitney U test yang sering digunakan dalam analisis data non-parametrik.
Visualisasi: Saya mampu menyajikan data melalui dashboard atau presentasi yang komunikatif untuk audiens non-teknis.”
2 REFERENCE
- The Importance of Domain Knowledge - CMU Blog
- Reasons to Study Data Science - Indeed
- Video: 16 Data Science Project Ideas - upGrad
- Video: Data Science in 5 Minutes - Simplilearn
- Data Science Roadmap 2026 - Naresh IT
- ITDS Publications - Old Dominion University
- WJARR Scientific Journal (PDF)
- Data Science Tools 2026 - Codebasics
- Data Science & Coding - KLU Online
- Why Study Data Science - Harvard Extension