Distribusi Probabilitas
Februari 23, 2025
Bab 1 Distribusi Probabilitas
1.1 Perbedaan 3\(\sigma\) vs 6\(\sigma\)
3 Sigma (3σ) dan 6 Sigma (6σ) → konsep dalam statistik yang digunakan untuk mengukur seberapa jauh data menyebar dari rata-rata.
3σ (Tiga Sigma)
- Cakupan data: 99,73%
- Masih ada 0,27% data yang berada di luar batas ini.
- Karena dalam banyak kasus, kalau ada data di luar 3σ, biasanya dianggap outlier atau kesalahan.
6σ (Enam Sigma)
- Cakupan data: 99,99966%
- Hanya 0,00034% data yang berada di luar batas ini (atau sekitar 3,4 kejadian cacat per 1 juta kasus).
- Konsep Six Sigma dipakai buat mengurangi error seminimal mungkin, terutama dalam industri dan manufaktur.
Perbandingan 3σ vs 6σ
Sigma | Cakupan Data | Persentase Error |
---|---|---|
\(1\sigma\) | 68% | 32% |
\(2\sigma\) | 95% | 5% |
\(3\sigma\) | 99,73% | 0,27% |
\(3\sigma\) | 99,99966% | 0,00034% (3,4 cacat per 1 juta) |
Dengan kata lain, semakin tinggi sigma, semakin kecil kemungkinan kesalahan terjadi.
1.2 Definisi \(3\sigma\) (Tiga Sigma)
1.2.1 Apa itu \(3\sigma\)?
\(3\sigma\) → batas dalam distribusi normal yang mencakup 99,73% dari semua data.
Artinya, kalau kita punya sekumpulan data yang mengikuti distribusi normal, hampir semua data akan berada dalam batas tiga kali standar deviasi (\(\sigma\)) dari rata-rata (\(\mu\)).
1.2.2 Contoh Kasus \(3\sigma\)
Misalnya, kita punya pabrik yang memproduksi botol air mineral. Berat standar setiap botol yang diisi air adalah 500 ml, tapi karena proses produksi tidak selalu sempurna, ada sedikit variasi.
Setelah dianalisis, diketahui bahwa:
- Rata-rata berat botol berisi air (\(\mu\)) = 500 ml
- Standar deviasi (\(\sigma\)) = 5 ml
Jika kita menerapkan batas \(3\sigma\), maka:
\[ \text{Batas bawah} = 500 - (3 \times 5) = 485 \text{ ml} \]
\[ \text{Batas atas} = 500 + (3 \times 5) = 515 \text{ ml} \]
Artinya:
✅ 99,73% botol yang diproduksi akan memiliki berat antara 485 ml hingga 515 ml.
❌ Hanya 0,27% botol yang mungkin beratnya kurang dari 485 ml atau lebih dari 515 ml.
Jika ada botol yang beratnya di luar rentang ini (misalnya 480 ml atau 520 ml), botol tersebut bisa dianggap cacat produksi dan mungkin akan dibuang atau diperbaiki.
1.2.3 Kelebihan dan Kekurangan \(3\sigma\)
✅ Kelebihan \(3\sigma\):
- Cukup akurat untuk banyak proses umum – Bisa digunakan untuk mengecek apakah suatu data termasuk normal atau tidak.
- Mudah diterapkan – Banyak digunakan di industri, pendidikan, dan statistik.
- Mengidentifikasi kesalahan besar – Bisa membantu menemukan data yang tidak wajar atau outlier.
❌ Kekurangan \(3\sigma\):
Masih ada kesalahan – 0,27% data yang berada di luar batas bisa menjadi masalah jika akurasi sangat penting (misalnya dalam industri yang butuh ketepatan tinggi).
1.3 Definisi \(6\sigma\) (Enam Sigma)
1.3.1 Apa itu \(6\sigma\)?
\(6\sigma\) adalah batas dalam distribusi normal yang mencakup 99,99966% dari semua data.
Ini berarti hampir semua data akan berada dalam batas enam kali standar deviasi (\(\sigma\)) dari rata-rata (\(\mu\)).
1.3.2 Contoh Kasus \(6\sigma\)
Misalkan kita punya pabrik obat yang memproduksi kapsul dengan dosis 500 mg per butir.
Dalam produksi massal, pasti ada sedikit variasi dalam berat tiap kapsul, tapi harus tetap dalam batas yang aman.
Dari hasil pengukuran, diketahui bahwa:
- Rata-rata dosis kapsul (\(\mu\)) = 500 mg
- Standar deviasi (\(\sigma\)) = 1 mg
Jika kita menerapkan batas \(6\sigma\), maka:
\[ \text{Batas bawah} = 500 - (6 \times 1) = 494 \text{ mg} \]
\[ \text{Batas atas} = 500 + (6 \times 1) = 506 \text{ mg} \]
Artinya:
✅ 99,99966% kapsul yang diproduksi akan memiliki dosis antara 494 mg hingga 506 mg.
❌ Hanya 0,00034% kapsul (sekitar 3,4 butir per 1 juta kapsul) yang mungkin keluar dari batas ini.
Dalam industri farmasi, ini sangat penting karena dosis yang terlalu kecil atau terlalu besar bisa berbahaya bagi pasien.
1.3.3 Kelebihan dan Kekurangan \(6\sigma\)
✅ Kelebihan \(6\sigma\):
- Tingkat kesalahan sangat kecil – Hanya 3,4 cacat per 1 juta unit.
- Cocok untuk industri dengan standar tinggi – Seperti penerbangan, farmasi, dan manufaktur canggih.
- Meningkatkan kualitas produk dan efisiensi – Mengurangi barang cacat dan meningkatkan kepuasan pelanggan.
❌ Kekurangan \(6\sigma\):
- Sulit diterapkan – Memerlukan kontrol kualitas yang sangat ketat dan teknologi canggih.
- Biaya tinggi – Butuh investasi besar untuk mencapai standar \(6\sigma\).
- Tidak selalu diperlukan – Untuk beberapa industri, standar \(3\sigma\) sudah cukup dan lebih efisien.
Jadi, perbedaan utama antara \(3\sigma\) dan \(6\sigma\) adalah tingkat ketelitian dan jumlah kesalahan yang bisa ditoleransi.
\(3\sigma\) cukup baik untuk kebanyakan kasus, tapi kalau butuh tingkat akurasi tinggi, \(6\sigma\) lebih ideal.
1.3.4 Perbandingan \(3\sigma\) vs \(6\sigma\)
Setelah kita bahas satu per satu, sekarang kita lihat perbedaan utama antara \(3\sigma\) dan \(6\sigma\) dalam bentuk tabel supaya lebih mudah dipahami:
Aspek | 3σ (Tiga Sigma) | 6σ (Enam Sigma) |
---|---|---|
Cakupan Data | 99,73% data berada dalam rentang ±3σ dari rata-rata. | 99,99966% data berada dalam rentang ±6σ dari rata-rata. |
Kesalahan yang Dapat Terjadi | 0,27% data berada di luar batas, atau sekitar 2.700 cacat per 1 juta. | Hanya 3,4 cacat per 1 juta unit. |
Contoh Kasus | Produksi botol air mineral (masih bisa ada sedikit variasi dalam volume air). | Produksi obat atau komponen pesawat (harus sangat presisi, kesalahan sekecil apa pun bisa fatal). |
Kelebihan | Lebih mudah diterapkan, cukup akurat untuk banyak industri. | Tingkat kesalahan sangat kecil, cocok untuk industri dengan standar tinggi. |
Kekurangan | Masih ada kemungkinan kesalahan yang cukup besar. | Sulit dan mahal untuk diterapkan karena butuh kontrol kualitas ketat. |
Kapan Harus Menggunakan \(3\sigma\) atau \(6\sigma\)?
✅ Gunakan \(3\sigma\) jika kesalahan kecil masih bisa diterima dan tidak menyebabkan masalah besar.
Contohnya dalam produksi makanan, kalau berat satu bungkus snack agak berbeda sedikit, masih bisa ditoleransi.
✅ Gunakan \(6\sigma\) jika kesalahan sekecil apa pun bisa berakibat fatal
Contohnya dalam industri penerbangan dan farmasi, di mana perbedaan kecil dalam komponen atau dosis bisa berbahaya.
Jadi, semakin besar sigma yang digunakan, semakin kecil kemungkinan ada kesalahan dalam sistem.
Tapi, makin tinggi sigma, makin sulit dan mahal prosesnya.
1.4 Z-Score vs T-Score
1.4.1 Apa itu Z-Score?
Z-Score adalah ukuran yang menunjukkan seberapa jauh suatu nilai dari rata-rata dalam satuan standar deviasi.
Sederhananya, Z-Score memberi tahu kita apakah suatu nilai di atas atau di bawah rata-rata, serta seberapa jauh jaraknya dalam skala standar deviasi.
Bagaimana cara membacanya?
- Z-Score positif (\(+\)) → Nilai berada di atas rata-rata
- Z-Score negatif (\(-\)) → Nilai berada di bawah rata-rata
- Z-Score = 0 → Nilai sama dengan rata-rata
Semakin besar nilai absolut Z-Score (misalnya \(+2\) atau \(-3\)), semakin jauh nilai tersebut dari rata-rata.
Rumus Z-Score
Z-Score dapat dihitung dengan rumus berikut:
\[ Z = \frac{X - \mu}{\sigma} \]
di mana:
- \(Z\) = Z-Score (seberapa jauh nilai dari rata-rata dalam satuan standar deviasi)
- \(X\) = Nilai yang ingin dicari Z-Scorenya
- \(\mu\) = Rata-rata populasi
- \(\sigma\) = Standar deviasi populasi
Z-Score sering digunakan dalam statistik untuk standarisasi data, deteksi outlier, dan pengujian hipotesis.
1.4.2 Apa itu T-Score?
T-Score (atau disebut juga t-statistik) → ukuran yang mirip dengan Z-Score, tetapi digunakan saat ukuran sampel kecil (\(n < 30\)) atau standar deviasi populasi tidak diketahui.
Jika Z-Score digunakan untuk populas, maka T-Score lebih cocok untuk sampel kecil yang diambil dari populasi.
Perbedaan utama Z-Score vs T-Score
- Z-Score digunakan saat kita mengetahui standar deviasi populasi (\(\sigma\)) dan jumlah sampel besar.
- T-Score digunakan saat kita tidak mengetahui standar deviasi populasi dan hanya punya data dari sampel kecil.
Karena ukuran sampel kecil lebih rentan terhadap variasi, distribusi t lebih menyebar dibanding distribusi normal (Z).
Rumus T-Score
T-Score dihitung dengan rumus berikut:
\[ T = \frac{X - \bar{X}}{s / \sqrt{n}} \]
Di mana:
- \(T\) = T-Score (t-statistik)
- \(X\) = nilai individu yang diukur
- \(\bar{X}\) = rata-rata sampel
- \(s\) = standar deviasi sampel
- \(n\) = jumlah data dalam sampel
Langkah-langkah Perhitungan
- Hitung selisih antara nilai yang diukur (\(X\)) dengan rata-rata sampel (\(\bar{X}\)).
- Tentukan **standar error, yaitu standar deviasi sampel (\(s\)) dibagi dengan akar dari jumlah sampel (\(\sqrt{n}\)).
- Bagi selisih yang didapat pada langkah pertama dengan standar error dari langkah kedua.
Selain itu, perhitungan T-Score mempertimbangkan derajat kebebasan (degrees of freedom), yaitu:
\[ df = n - 1 \]
Ini penting saat mencari nilai kritis pada distribusi t-Student.
Contoh Perhitungan
Misalkan kita memiliki sampel kecil dengan data sebagai berikut:
- Rata-rata nilai sampel \(\bar{X} = 75\)
- Standar deviasi sampel \(s = 8\)
- Ukuran sampel \(n = 15\)
- Nilai yang diukur \(X = 85\)
Langkah perhitungannya:
Hitung selisih antara nilai yang diukur dengan rata-rata:
\[ 85 - 75 = 10 \]
Hitung standar error:
\[ SE = \frac{s}{\sqrt{n}} = \frac{8}{\sqrt{15}} \]
Hitung T-Score:
\[ T = \frac{10}{\frac{8}{\sqrt{15}}} \]
Nilai T-Score ini kemudian bisa dibandingkan dengan nilai kritis pada distribusi t-Student dengan derajat kebebasan:
\[ df = 15 - 1 = 14 \]
untuk menentukan apakah nilai tersebut signifikan.
1.4.3 Perbandingan Z-Score vs T-Score
Untuk memahami lebih jelas, kita buat tabel perbandingan antara Z-Score dan T-Score:
Aspek | Z-Score | T-Score |
---|---|---|
Kapan Digunakan? | Jika standar deviasi populasi diketahui dan sampel besar (n ≥ 30) | Jika standar deviasi populasi tidak diketahui dan sampel kecil (n < 30) |
Distribusi Data | Menggunakan distribusi normal (Z) | Menggunakan distribusi t-Student |
Ukuran Sampel | Cocok untuk sampel besar | Cocok untuk sampel kecil |
Bentuk Distribusi | Lebih ramping, tidak bergantung pada ukuran sampel | Lebih melebar karena dipengaruhi oleh ukuran sampel |
Derajat Kebebasan | Tidak bergantung pada derajat kebebasan (df) | Dipengaruhi oleh derajat kebebasan (df = n - 1) |
Kegunaan | Statistik inferensial, uji hipotesis untuk data besar | Uji hipotesis dengan data kecil, analisis sampel terbatas |
1.4.4 Kapan Menggunakan Z-Score atau T-Score?
Gunakan Z-Score jika:
✅ Sampel besar \(n ≥ 30\)
✅ Standar deviasi populasi (σ) diketahui
✅ Data mengikuti distribusi normal
Contoh:
- Menentukan apakah skor ujian seorang siswa lebih tinggi dari rata-rata nasional (karena ada banyak data).
- Menilai apakah tinggi rata-rata penduduk suatu negara berbeda dari standar global.
- Menentukan apakah skor ujian seorang siswa lebih tinggi dari rata-rata nasional (karena ada banyak data).
Gunakan T-Score jika:
✅ Sampel kecil \(n < 30\)
✅ Standar deviasi populasi tidak diketahui
✅ Data belum tentu berdistribusi normal
Contoh:
- Menentukan apakah rata-rata skor ujian dari kelas kecil (misalnya hanya 10 siswa) berbeda dari standar.
- Menguji efektivitas obat pada kelompok kecil pasien sebelum diuji ke populasi lebih besar.
- Menentukan apakah rata-rata skor ujian dari kelas kecil (misalnya hanya 10 siswa) berbeda dari standar.