Kartu Branding Naifah (Interaktif) - Revisi Jarak & Ukuran Box
Data Science | ITSB
Naifah Edria Arta
"Digging into data, uncovering stories, and shaping the future—one insight at a time."
Skill Focus
R ProgramData VisualizationData AnalysisStatistics
Course
Basic Statistics
Academic Advisor
Bakti Siregar, M.Sc., CDS
Introduction
Statistika inferensial modern didirikan di atas pemahaman tentang
variabel acak (random variables), yang dapat diklasifikasikan menjadi
diskrit dan kontinu. Variabel acak kontinu, yang meliputi ukuran seperti
waktu, berat, dan tinggi, adalah inti dari banyak aplikasi dunia nyata
karena nilainya dapat mengambil angka apa pun dalam suatu rentang tak
terhingga. Dalam konteks kontinu, probabilitas tidak lagi dihitung pada
titik tunggal (\(P(X=x) = 0\)),
melainkan diukur sebagai area di bawah kurva yang didefinisikan oleh
Fungsi Kepadatan Probabilitas (PDF). Penguasaan konsep ini, termasuk
kemampuan untuk menghitung probabilitas dalam suatu interval (\(P(a \leq X \leq b)\)), menjadi langkah
krusial dalam menganalisis data terukur.
Meskipun data populasi sering kali tidak dapat diakses secara
keseluruhan, inferensi statistik dimungkinkan melalui penggunaan
distribusi sampling. Distribusi ini adalah distribusi dari statistik
sampel (seperti rata-rata sampel \(\bar{x}\) atau proporsi sampel \(\hat{P}\)) yang dikumpulkan dari banyak
sampel acak berulang. Perbedaan mendasar antara distribusi populasi,
distribusi sampel, dan distribusi sampling sangat penting untuk
dipahami. Hal ini membawa kita pada Teorema Batas Pusat (Central Limit
Theorem atau CLT), sebuah prinsip revolusioner yang menyatakan bahwa,
terlepas dari bentuk asli distribusi populasi, distribusi sampling
rata-rata akan mendekati distribusi normal asalkan ukuran sampel (\(n\)) cukup besar (\(n \geq 30\) untuk rata-rata, atau \(n \cdot P \geq 10\) dan \(n \cdot (1-P) \geq 10\) untuk proporsi).
Dengan memastikan distribusi sampling mendekati normal berkat CLT, ahli
statistik dapat secara efektif menggunakan rumus Z-score standar untuk
menghitung probabilitas yang terkait dengan statistik sampel. Baik itu
menghitung probabilitas rata-rata sampel \(\bar{x}\) atau proporsi sampel \(\hat{P}\), metode ini memungkinkan kita
untuk membuat perkiraan yang akurat tentang parameter populasi (\(\mu\) atau \(P\)) hanya berdasarkan informasi dari
sampel. Integrasi dari pemahaman variabel kontinu, distribusi sampling,
dan kekuatan CLT adalah dasar dari semua teknik inferensi statistik,
memberikan fondasi yang kokoh untuk pengujian hipotesis, interval
kepercayaan, dan pada akhirnya, pengambilan keputusan yang terinformasi
dan berbasis bukti.
video 1 : Continuous Random
Perbedaan Variabel Diskrit dan Kontinu
Karakteristik
Variabel Diskrit
Variabel Kontinu
Definisi
Nilai yang dapat dihitung (countable) dan terpisah.
Nilai yang dapat mengambil angka apa pun dalam suatu rentang
(uncountable/tak terhingga).
Cara Mendapatkan Data
Dengan menghitung (counting).
Dengan mengukur (measuring).
Contoh
Jumlah mobil, skor ujian, lemparan koin.
Berat, tinggi, suhu, waktu, jarak.
Representasi Grafik
Grafik Batang (Bar Chart) — memiliki celah.
Histogram / Kurva Kepadatan (Density Curve) — tanpa celah.
Probabilitas pada Nilai Tunggal (\(P(X=x)\))
Dapat dihitung.
Sama dengan nol.
Perhitungan Probabilitas
Penjumlahan probabilitas nilai-nilai spesifik.
Dihitung sebagai Area di Bawah Kurva untuk suatu
rentang.
2.1.1 Variabel Acak
Suatu variabel acak dikatakan kontinu jika dapat mengambil nilai apa
pun dalam suatu interval pada garis bilangan rill. Contohnya meliputi:
tinggi, waktu, suhu, usia, tekanan, dan kecepatan.
Karakteristik utama:
– Variabel mengambil nilai dalam interval seperti \((a, b)\) atau bahkan \((-\infty, +\infty)\).
– Probabilitas setiap titik tunggal selalu nol: \(P(X = x) = 0\) – Probabilitas hanya
bermakna pada interval:\(P(a \leq X \leq b) =
\int_{a}^{b} f(x) \,dx\)
2.1.2 Fungsi Kepadatan Probabilitas
Sebuah fungsi f(x) adalah Fungsi Kepadatan Probabilitas (PDF) yang
valid jika memenuhi:
1.Non-negatif:
\(f(x)≥0∀xf(x)≥0∀x\)
2.Luas Totalnya Sama dengan 1:
\(\int_{-\infty}^{\infty} f(x) \,dx =
1\)
Interpretasi:
– Nilai yang lebih besar dari \(f(x)\) menunjukkan kepadatan probabilitas
yang lebih tinggi di sekitar nilai tersebut.
– Namun, \(f(x)\) bukan merupakan
probabilitas; probabilitas berasal dari area di bawah kurva.Contoh PDF:
\(f(x) = 3x^2\) pada \([0, 1]\)
Pertimbangkan fungsi kepadatan probabilitas: \(f(x) = 3x^2, \quad 0 \leq x \leq 1\)\(Validasi:\)\(\int_{0}^{1} 3x^2 \,dx = 1\)
2.1.3 Probabilitas pada Interval
Untuk menghitung probabilitas dalam suatu interval: \(P(a \leq X \leq b) = \int_{a}^{b} 3x^2
\,dx\) Contoh: \(P(0.5 \leq X \leq
1)\)
Tiga konsep utama dalam statistika berdasarkan video:
1.Distribusi Populasi (Population Distribution):
Distribusi yang dibuat dengan mengukur setiap individu dalam populasi.
Memiliki Rata-rata (\(\mu\)) dan
Standar Deviasi(\(\sigma\)).
2.Distribusi Sampel (Sample Distribution):
Distribusi yang dibuat dari satu sampel tunggal yang diambil dari
populasi.
3.Distribusi Sampling (Sampling Distribution):
Distribusi dari statistik (misalnya, rata-rata \(\bar{x}\)) yang dibuat dari berbagai sampel
acak sederhana yang diambil berulang kali dari populasi tertentu.
Distribusi sampling rata-rata sampel (\(\bar{x}\)) memiliki properti yang berbeda
dari distribusi populasi aslinya:
Karakteristik Distribusi
Perbandingan Variabel Diskrit dan Kontinu (Warna Revisi)
Karakteristik
Variabel Diskrit
Variabel Kontinu
Definisi
Nilai yang dapat dihitung (countable) dan terpisah.
Nilai yang dapat mengambil angka apa pun dalam suatu rentang
(uncountable/tak terhingga).
Cara Mendapatkan Data
Dengan menghitung (counting).
Dengan mengukur (measuring).
Contoh
Jumlah mobil, skor ujian, lemparan koin.
Berat, tinggi, suhu, waktu, jarak.
Representasi Grafik
Grafik Batang (Bar Chart) — memiliki celah.
Histogram / Kurva Kepadatan (Density Curve) — tanpa celah.
Probabilitas pada Nilai Tunggal (\(P(X=x)\))
Dapat dihitung.
Sama dengan nol.
Perhitungan Probabilitas
Penjumlahan probabilitas nilai-nilai spesifik.
Dihitung sebagai Area di Bawah Kurva untuk suatu
rentang.
2.2.3. Pentingnya Distribusi Sampling
Tujuan utama menggunakan Distribusi Sampling adalah:
– Efisiensi: Memberikan perkiraan tentang nilai rata-rata populasi
(\(\mu\)) tanpa perlu mengukur setiap
individu, yang menghemat waktu dan biaya.
– Probabilitas: Memungkinkan perhitungan probabilitas untuk
mendapatkan rata-rata sampel tertentu berdasarkan ukuran sampel \(n\) yang digunakan.
2.2.4 Contoh Perhitungan Probabilitas
Dua contoh yang menunjukkan perbedaan penggunaan rumus standardisasi
Z-score untuk populasi vs. distribusi sampling:
Contoh Perhitungan Probabilitas:
Contoh
Pertanyaan
Rumus Z-score yang Digunakan
Hasil
Distribusi Sampling
Probabilitas rata-rata tinggi 10 orang Kanada kurang
dari 157 cm (\(\mu=160,
\sigma=7\))?
\(Z = \frac{\bar{x} -
\mu}{\sigma/\sqrt{n}}\)
\(P(\bar{x} < 157) =
0.0869\) (atau 8.69%).
Distribusi Populasi
Proporsi semua orang yang memiliki tinggi lebih dari
170 cm (\(\mu=160, \sigma=7\))?
\(Z = \frac{x -
\mu}{\sigma}\)
\(P(x > 170) =
0.0764\) (atau 7.64%).
Video 3: Teorema Limit Pusat
2.3.1 Inti Teorema
Prinsip utama CLT menyatakan bahwa jika ukuran sampel (\(n\)) cukup besar, maka distribusi sampling
rata-rata sampel (\(\bar{x}\)) akan
mendekati distribusi normal.
Hal ini berlaku terlepas dari bentuk distribusi populasi aslinya.
Artinya, meskipun data populasi awalnya miring (skewed) atau tidak
normal, distribusi rata-rata dari sampel-sampel yang diambil akan
menjadi normal.
2.3.2. Aturan Penerapan
Untuk menentukan apakah \(n\)
dianggap “cukup besar,” digunakan aturan praktis sebagai berikut:
– Syarat Umum: CLT dapat diterapkan dengan aman ketika ukuran sampel
(\(n\)) lebih besar atau sama dengan 30
(\(n \geq 30\)).
– Pengecualian: Jika distribusi populasi yang dijadikan sumber
pengambilan sampel sudah normal sejak awal, maka distribusi samplingnya
akan normal bahkan dengan ukuran sampel yang kecil (\(n < 30\)).
2.3.3. Manfaat CLT
CLT sangat penting karena dengan mengetahui bahwa distribusi sampling
akan normal, ahli statistik dapat:
Menggunakan formula dan metode analisis yang terkait dengan
distribusi normal untuk menginterpretasikan data sampel.
Membuat kesimpulan (inferensi) yang andal dan akurat tentang populasi
berdasarkan data sampel besar.
Visualisasi
Interpretasi Singkat
Visualisasi tersebut menunjukkan histogram rata-rata sampel yang
dihasilkan dari 1000 sampel acak berukuran 30. Meskipun populasi asalnya
tidak normal (eksponensial dan miring), distribusi rata-rata sampel
tampak lebih simetris dan mendekati bentuk normal. Nilai-nilai rata-rata
juga terkumpul di sekitar mean populasi (garis merah).
Artinya, grafik ini memperlihatkan bahwa Central Limit Theorem
bekerja: rata-rata sampel akan mengikuti distribusi normal ketika jumlah
sampel cukup banyak, meskipun populasi aslinya tidak normal.
Video 4: Proporsi Sampel
2.4.1 Definisi Proporsi dan Simbol
Proporsi dalam statistika menjelaskan pecahan dari hasil yang
menguntungkan (favorable outcomes) dibandingkan dengan keseluruhan
total.
Konsep Proporsi Sampel dan Populasi:
Konsep Proporsi dalam Statistika
Konsep
Simbol
Definisi
Proporsi Populasi
\(P\)
Proporsi hasil yang menguntungkan dalam seluruh populasi.
Proporsi Sampel
\(\hat{P}\) (P-hat)
Proporsi hasil yang menguntungkan yang dihitung dari satu sampel.
Rumus Proporsi
\(\frac{\text{Jumlah Hasil
Menguntungkan}}{\text{Total Jumlah Hasil}}\)
Proporsi adalah perbandingan antara jumlah keberhasilan dibagi total
observasi.
2.4.2. Distribusi Sampling Proporsi Sampel
Distribusi Sampling Proporsi Sampel adalah distribusi dari statistik
\(\hat{P}\) yang dibuat dengan
mengambil sampel acak berulang kali dari populasi dan menghitung \(\hat{P}\) untuk setiap sampel, lalu memplot
semua nilai \(\hat{P}\) tersebut.
2.4.3. Karakteristik Distribusi \(\hat{P}\)
Jika distribusi sampling proporsi sampel ( \(\hat{P}\) ) berdistribusi normal (sesuai
CLT), ia memiliki tiga karakteristik utama:
Karakteristik Distribusi Sampling Proporsi Sampel
Karakteristik
Rumus
Keterangan
Rata-rata (\(\mu_{\hat{P}}\))
\(\mu_{\hat{P}} = P\)
Rata-rata dari semua proporsi sampel (\(\hat{P}\)) adalah sama dengan proporsi
populasi (\(P\)).
Standar Deviasi (Standard Error)
\(\sigma_{\hat{P}} =
\sqrt{\frac{P(1-P)}{n}}\)
\(\sigma_{\hat{P}}\) disebut
Standard Error. Di sini, \(Q
= 1-P\) (proporsi hasil yang tidak berhasil), dan \(n\) adalah ukuran sampel.
Z-score
\(Z = \frac{\hat{P} -
P}{\sigma_{\hat{P}}}\)
Rumus ini digunakan untuk menstandardisasi nilai \(\hat{P}\) dan menghitung area
(probabilitas) menggunakan tabel Z-score.
2.4.4 Syarat Penerapan Teorema Batas Pusat (CLT)
Berbeda dengan distribusi rata-rata sampel (di mana syaratnya adalah
\(n \geq 30\)), Distribusi Sampling
Proporsi Sampel harus memenuhi dua kondisi agar dapat dianggap normal
dan CLT dapat diterapkan:
– \(n \cdot P \geq 10\) (Jumlah
perkiraan keberhasilan dalam sampel harus minimal 10).
– \(n \cdot (1-P) \geq 10\) (Jumlah
perkiraan kegagalan dalam sampel juga harus minimal 10).
Jika kedua syarat ini terpenuhi, distribusi \(\hat{P}\) dapat dianggap normal, dan rumus
Z-score di atas dapat digunakan.
Video 5: Tinjauan Distribusi Sampel
2.5.1 Probabilitas Dasar (Menggunakan Ruang Sampel)
Metode ini digunakan ketika jumlah percobaan (\(n\)) sangat kecil dan mudah untuk
didaftarkan semua kemungkinan hasilnya (ruang sampel).
– Contoh Soal: Mengambil 3 kelereng secara acak dari stoples (200
hijau, 300 biru). Berapa probabilitas mendapatkan setidaknya 2 kelereng
hijau?
– Penyelesaian: Karena \(n=3\)
kecil, probabilitas dihitung dengan mendaftarkan semua kombinasi yang
mungkin (misalnya, Hijau-Hijau-Biru atau HHB) dan menjumlahkan
probabilitasnya.
– Kelemahan: Metode ini menjadi tidak praktis jika jumlah percobaan
(\(n\)) meningkat.
Metode ini digunakan ketika jumlah percobaan (\(n\)) sedang dan terlalu besar untuk
mendaftarkan ruang sampel, tetapi masih terlalu kecil untuk menggunakan
aproksimasi normal (CLT).
– Rumus Binomial: Menghitung probabilitas mendapatkan jumlah
keberhasilan (\(k\)) yang tepat dari
\(n\) percobaan.
– Contoh Soal: Mengambil 5 kelereng secara acak. Berapa probabilitas
mendapatkan setidaknya 2 kelereng hijau?
– Penyelesaian: Probabilitas yang dicari adalah \(P(k=2) + P(k=3) + P(k=4) + P(k=5)\). Setiap
bagian probabilitas harus dihitung secara terpisah menggunakan rumus
binomial.
– Kelemahan: Metode ini menjadi tidak praktis (membutuhkan
perhitungan berulang) jika \(n\) sangat
besar.
2.5.3 Distribusi Sampling Proporsi Sampel (Aproksimasi
Normal/CLT)
Metode ini digunakan ketika jumlah percobaan (\(n\)) sangat besar, sehingga metode Binomial
menjadi tidak efisien. Metode ini memberikan probabilitas perkiraan
(approximate probability).
– Contoh Soal: Mengambil 100 kelereng. Berapa perkiraan probabilitas
mendapatkan setidaknya 35 kelereng hijau?
– Penyelesaian:
1.Cek Syarat CLT: Harus memenuhi \(n \cdot
P \geq 10\) dan \(n \cdot (1-P) \geq
10\). Dalam contoh ini, \(n=100\) dan \(P=0.4\), sehingga kedua syarat terpenuhi
(\(40 \geq 10\) dan \(60 \geq 10\)).
3.Cari Probabilitas: Gunakan nilai Z-score yang dihasilkan dan tabel
Z-score untuk menemukan area (probabilitas) yang diinginkan.
– Keunggulan: Metode tercepat dan paling efisien untuk \(n\) yang besar, tetapi perlu diingat bahwa
hasilnya adalah perkiraan, bukan nilai probabilitas yang eksak.