Bab 1 Tugas Pertemuan 12 Statistika Dasar

1.1 STUDI KASUS 1

Penerapan Probabilitas dalam Prediksi Kualitas Produk:

Sebuah perusahaan manufaktur memproduksi barang elektronik dan ingin memprediksi apakah suatu produk akan cacat atau tidak. Data historis menunjukkan bahwa 5% dari produk yang diproduksi adalah cacat. Perusahaan menggunakan data tentang jenis komponen dan proses produksi untuk memprediksi cacat produk menggunakan teknik probabilitas.

1.2 Fitur Data

Studi kasus ini bertujuan untuk memprediksi apakah suatu produk akan cacat menggunakan Teorema Bayes berdasarkan data historis. Variabel yang digunakan adalah:

  • Komponen (C): Berkualitas tinggi atau rendah.

  • Proses Produksi (P): Dilakukan sesuai standar atau di bawah standar.

  • Cacat (D): Status cacat produk (ya/tidak).

Probabilitas awal diketahui sebagai berikut:

  • \(P(D = \text{Yes}) = 5\%\)

  • \(P(D = \text{No}) = 95\%\)

  • \(P(C = \text{Low}) = 30\%\)

  • \(P(C = \text{High}) = 70\%\)

  • \(P(P = \text{Below}) = 40\%\)

  • \(P(P = \text{Standard}) = 60\%\)


1.3 Data Historis

Berikut adalah distribusi probabilitas yang relevan:

1.3.1 Perhitungan Manual


1.3.1.1 Probabilitas Produk Cacat dan Tidak Cacat

Probabilitas awal:

\[ P(D = \text{Yes}) = 0.05 \] \[ P(D = \text{No}) = 0.95 \]

1.3.1.2 Probabilitas Komponen Berkualitas Rendah dan Tinggi

\[ P(C = \text{Low}) = 0.30 \] \[ P(C = \text{High}) = 0.70 \]

1.3.1.3 Probabilitas Proses Produksi di Bawah Standar dan Sesuai Standar

\[ P(P = \text{Below}) = 0.40 \] \[ P(P = \text{Standard}) = 0.60 \]

1.3.1.4 Probabilitas Total dan Bersyarat (Cacat dengan Kondisi Tertentu)


1.3.1.5 1. Teorema Bayes

Rumus:

\[ P(D = \text{Yes} \mid C = \text{Low}, P = \text{Below}) = \frac{P(C = \text{Low}, P = \text{Below} \mid D = \text{Yes}) \cdot P(D = \text{Yes})}{P(C = \text{Low}, P = \text{Below})} \]


1.3.1.6 2. Hitung Pembilang

\[ \text{Pembilang} = P(C = \text{Low}, P = \text{Below} \mid D = \text{Yes}) \cdot P(D = \text{Yes}) \] \[ \text{Pembilang} = 0.60 \cdot 0.05 = 0.03 \]


1.3.1.7 3. Hitung Penyebut (Probabilitas Total)

\[ P(C = \text{Low}, P = \text{Below}) = P(C = \text{Low}, P = \text{Below} \mid D = \text{Yes}) \cdot P(D = \text{Yes}) + P(C = \text{Low}, P = \text{Below} \mid D = \text{No}) \cdot P(D = \text{No}) \] \[ P(C = \text{Low}, P = \text{Below}) = (0.60 \cdot 0.05) + (0.20 \cdot 0.95) \] \[ P(C = \text{Low}, P = \text{Below}) = 0.03 + 0.19 = 0.22 \]

1.3.1.8 4. Hitung Probabilitas Bersyarat

\[ P(D = \text{Yes} \mid C = \text{Low}, P = \text{Below}) = \frac{\text{Pembilang}}{\text{Penyebut}} \] \[ P(D = \text{Yes} \mid C = \text{Low}, P = \text{Below}) = \frac{0.03}{0.22} \approx 0.1364 \]


1.3.2 Hasil Akhir

  • Probabilitas produk cacat: \(P(D = \text{Yes}) = 5\%\)

  • Probabilitas produk tidak cacat: \(P(D = \text{No}) = 95\%\)

  • Probabilitas menggunakan komponen berkualitas rendah: \(P(C = \text{Low}) = 30\%\)

  • Probabilitas menggunakan komponen berkualitas tinggi: \(P(C = \text{High}) = 70\%\)

  • Probabilitas proses produksi di bawah standar: \(P(P = \text{Below}) = 40\%\)

  • Probabilitas proses produksi sesuai standar: \(P(P = \text{Standard}) = 60\%\)

  • Probabilitas bersyarat (\(P(D = \text{Yes} \mid C = \text{Low}, P = \text{Below})\)): 13.64%


1.3.3 Implementasi dalam R

Berikut adalah implementasi lengkap dari langkah-langkah perhitungan probabilitas menggunakan teorema Bayes:

# Data historis
P_D_Yes <- 0.05  
P_D_No <- 0.95   

P_C_Low <- 0.30  
P_C_High <- 0.70 

P_P_Below <- 0.40  
P_P_Standard <- 0.60 

P_C_Low_given_D_No <- 0.20  
P_P_Below_given_D_No <- 0.20 

P_C_Low_given_D_Yes <- 0.60  
P_P_Below_given_D_Yes <- 0.60 
# Numerator: P(C = Low, P = Below | D = Yes) * P(D = Yes)
P_C_Low_P_Below_given_D_Yes <- P_C_Low_given_D_Yes * P_P_Below_given_D_Yes
Numerator <- P_C_Low_P_Below_given_D_Yes * P_D_Yes

cat("Numerator: ", Numerator, "\n")
## Numerator:  0.018
# Denominator: P(C = Low, P = Below) = P(C = Low, P = Below | D = Yes) * P(D = Yes) + P(C = Low, P = Below | D = No) * P(D = No)
P_C_Low_P_Below_given_D_No <- P_C_Low_given_D_No * P_P_Below_given_D_No
Denominator <- (P_C_Low_P_Below_given_D_Yes * P_D_Yes) + (P_C_Low_P_Below_given_D_No * P_D_No)

cat("Denominator: ", Denominator, "\n")
## Denominator:  0.056
# Probabilitas bersyarat P(D = Yes | C = Low, P = Below)
P_D_Yes_given_C_Low_P_Below <- Numerator / Denominator

cat("P(D = Yes | C = Low, P = Below): ", P_D_Yes_given_C_Low_P_Below * 100, "%\n")
## P(D = Yes | C = Low, P = Below):  32.14286 %

1.3.4 Interpretasi

  • Probabilitas cacat produk memberikan wawasan risiko untuk perbaikan kualitas.

  • Probabilitas total mengidentifikasi seberapa sering kombinasi kondisi tertentu terjadi.


1.3.5 Kesimpulan

Berdasarkan hasil perhitungan, perusahaan dapat mengambil langkah-langkah berikut:

  1. Menggunakan komponen berkualitas tinggi untuk mengurangi risiko cacat.

  2. Memastikan proses produksi sesuai standar.

  3. Melakukan pemantauan terhadap faktor-faktor yang memengaruhi cacat produk.

Dengan demikian, analisis ini membantu perusahaan dalam pengambilan keputusan berbasis data.

1.4 STUDI KASUS 2

Penerapan Probabilitas dalam Deteksi Penipuan Transaksi:

Sebuah perusahaan e-commerce ingin mendeteksi transaksi yang berpotensi penipuan. Berdasarkan data historis, 1% dari transaksi yang dilakukan adalah penipuan. Perusahaan ingin menggunakan fitur-fitur tertentu seperti lokasi transaksi, jumlah pembelian, dan metode pembayaran untuk memprediksi apakah suatu transaksi adalah penipuan atau tidak.

1.5 Fitur Data

  • Lokasi (L): Negara atau kota tempat transaksi dilakukan.

  • Jumlah Pembelian (A): Jumlah uang yang dibelanjakan.

  • Metode Pembayaran (M): Metode pembayaran yang digunakan (kartu kredit, dompet digital, dll).

  • Penipuan (F): Status transaksi apakah penipuan atau tidak.

1.6 Data Historis

  • Probabilitas transaksi adalah penipuan \(P(F = \text{Fraud}) = 0.01\)

  • Probabilitas transaksi bukan penipuan \(P(F = \text{Not Fraud}) = 0.99\)

  • Probabilitas lokasi tertentu adalah di luar negeri \(P(L = \text{Foreign}) = 0.20\)

  • Probabilitas jumlah pembelian lebih dari 500 \(P(A = \text{High}) = 0.10\)

  • Probabilitas menggunakan kartu kredit sebagai metode pembayaran \(P(M = \text{Credit Card}) = 0.50\)

1.6.1 Teorema Bayes

\[ P(F = \text{Fraud} \mid L = \text{Foreign}, A = \text{High}, M = \text{Credit Card}) = \] \[ \frac{ P(L = \text{Foreign} \mid F = \text{Fraud}) \cdot P(A = \text{High} \mid F = \text{Fraud}) \cdot P(M = \text{Credit Card} \mid F = \text{Fraud}) \cdot \\ P(F = \text{Fraud}) }{ P(L = \text{Foreign}) \cdot P(A = \text{High}) \cdot P(M = \text{Credit Card}) } \]

1.6.1.1 Rumus Utama

Untuk menghitung probabilitas transaksi penipuan dengan mempertimbangkan beberapa kriteria, kita akan menggunakan Teorema Bayes. Rumus yang digunakan adalah sebagai berikut:

\[ P(F = \text{Fraud} \mid L, A, M) = \frac{P(L, A, M \mid F = \text{Fraud}) \cdot P(F = \text{Fraud})}{P(L, A, M)} \]

Penjelasan dari komponen-komponen rumus di atas:

  • \(P(F = \text{Fraud} \mid L, A, M)\): Probabilitas bahwa transaksi adalah penipuan, mengingat bahwa transaksi tersebut memenuhi tiga kriteria (lokasi luar negeri, jumlah pembelian tinggi, dan metode pembayaran kartu kredit).

  • \(P(L, A, M \mid F = \text{Fraud})\): Probabilitas transaksi memenuhi tiga kriteria tersebut, jika kita menganggap transaksi tersebut adalah penipuan.

  • \(P(F = \text{Fraud})\): Probabilitas dasar bahwa suatu transaksi adalah penipuan.

  • \(P(L, A, M)\): Probabilitas gabungan dari tiga kriteria tersebut terjadi, tanpa mempertimbangkan apakah transaksi tersebut penipuan atau bukan.


1.6.1.2 Data yang Diberikan

Berikut adalah data yang diberikan dalam soal:

  • Probabilitas transaksi penipuan: \(P(F = \text{Fraud}) = 0.01\) (1%).

  • Probabilitas transaksi bukan penipuan: \(P(F = \text{Not Fraud}) = 0.99\) (99%).

  • Probabilitas lokasi transaksi di luar negeri: \(P(L = \text{Foreign}) = 0.20\) (20%).

  • Probabilitas jumlah pembelian lebih dari $500: \(P(A = \text{High}) = 0.10\) (10%).

  • Probabilitas menggunakan kartu kredit sebagai metode pembayaran: \(P(M = \text{Credit Card}) = 0.50\) (50%).


1.6.1.3 Hitung \(P(L, A, M \mid F = \text{Fraud})\)

Untuk menghitung peluang tiga kriteria tersebut terjadi pada transaksi yang merupakan penipuan, kita mengasumsikan bahwa ketiganya adalah kejadian independen. Oleh karena itu, kita kalikan probabilitas masing-masing kriteria:

\[ P(L, A, M \mid F = \text{Fraud}) = P(L \mid F = \text{Fraud}) \cdot P(A \mid F = \text{Fraud}) \cdot P(M \mid F = \text{Fraud}) \]

Karena kriteria-kriteria ini tidak bergantung pada apakah transaksi itu penipuan atau bukan, kita dapat menggunakan probabilitas dasar:

\[ P(L, A, M \mid F = \text{Fraud}) = 0.20 \cdot 0.10 \cdot 0.50 = 0.01 \]

Interpretasi: Jika transaksi itu adalah penipuan, probabilitas bahwa transaksi tersebut memenuhi ketiga kriteria adalah 1%.


1.6.1.4 Hitung \(P(L, A, M \mid F = \text{Not Fraud})\)

Sekarang, kita hitung peluang yang sama, tetapi untuk transaksi yang bukan penipuan. Dengan menggunakan asumsi yang serupa:

\[ P(L, A, M \mid F = \text{Not Fraud}) = 0.20 \cdot 0.10 \cdot 0.50 = 0.01 \]

Interpretasi: Jika transaksi bukan penipuan, probabilitas bahwa transaksi tersebut memenuhi ketiga kriteria juga 1%.


1.6.1.5 Hitung \(P(L, A, M)\)

Sekarang kita perlu menghitung probabilitas gabungan untuk tiga kriteria, terlepas dari apakah transaksi tersebut penipuan atau bukan. Ini melibatkan dua skenario, yaitu transaksi penipuan dan transaksi bukan penipuan:

\[ P(L, A, M) = P(F = \text{Fraud}) \cdot P(L, A, M \mid F = \text{Fraud}) + P(F = \text{Not Fraud}) \cdot P(L, A, M \mid F = \text{Not Fraud}) \]

Substitusi nilai-nilai yang sudah diketahui:

\[ P(L, A, M) = (0.01 \cdot 0.01) + (0.99 \cdot 0.01) = 0.0001 + 0.0099 = 0.01 \]

Interpretasi: Peluang bahwa ketiga kriteria tersebut terjadi (tanpa memperhatikan apakah transaksi itu penipuan atau bukan) adalah 1%.


1.6.1.6 Hitung Probabilitas Bersyarat

Sekarang, kita bisa menghitung probabilitas bersyarat bahwa suatu transaksi adalah penipuan, dengan menggunakan rumus Teorema Bayes:

\[ P(F = \text{Fraud} \mid L, A, M) = \frac{P(L, A, M \mid F = \text{Fraud}) \cdot P(F = \text{Fraud})}{P(L, A, M)} \]

Substitusi nilai yang sudah dihitung:

\[ P(F = \text{Fraud} \mid L, A, M) = \frac{0.01 \cdot 0.01}{0.01} = 0.01 \]


1.6.2 Implementasi dalam R

Untuk menghitung probabilitas bersyarat menggunakan R, berikut adalah kode yang dapat digunakan:

# Probabilitas yang diberikan
P_Penipuan <- 0.01
P_Bukan_Penipuan <- 0.99 
P_Lokasi_Luar_Negeri <- 0.20 
P_Jumlah_Tinggi <- 0.10 
P_Pembayaran_Kartu_Kredit <- 0.50 

# Menghitung P(L, A, M | F = Penipuan)
P_L_A_M_Dengan_Penipuan <- P_Lokasi_Luar_Negeri * P_Jumlah_Tinggi * P_Pembayaran_Kartu_Kredit

# Menghitung P(L, A, M | F = Bukan Penipuan)
P_L_A_M_Dengan_Bukan_Penipuan <- P_Lokasi_Luar_Negeri * P_Jumlah_Tinggi * P_Pembayaran_Kartu_Kredit

# Menghitung P(L, A, M)
P_L_A_M <- (P_Penipuan * P_L_A_M_Dengan_Penipuan) + (P_Bukan_Penipuan * P_L_A_M_Dengan_Bukan_Penipuan)
# Menghitung probabilitas bersyarat
P_Penipuan_Dengan_L_A_M <- (P_L_A_M_Dengan_Penipuan * P_Penipuan) / P_L_A_M

# Menampilkan hasil
cat("Hasil Probabilitas dari Perhitungan Manual:", P_Penipuan_Dengan_L_A_M, "\n")
## Hasil Probabilitas dari Perhitungan Manual: 0.01

1.6.3 Kesimpulan

Probabilitas bahwa suatu transaksi adalah penipuan, jika diketahui bahwa transaksi tersebut memenuhi ketiga kriteria (lokasi luar negeri, jumlah pembelian tinggi, dan menggunakan kartu kredit), adalah 1% (0.01).

Catatan: Meskipun transaksi tersebut memenuhi kriteria yang mencurigakan, hasil probabilitas tetap rendah, karena mayoritas transaksi (99%) bukan penipuan.

1.7 REFERENSI

https://bookdown.org/dsciencelabs/statistika_dasar/_book/Konsep_Dasar_Probabilitas.html

https://mathcyber1997.com/aturan-bayes/

Johnson, M., & Wang, T. (2022). Bayesian methods for quality control and risk detection in industrial processes. Journal of Applied Probability, 55(3), 234-249.