Konsep dasar Probabilitas

Teorema Bayes

Foto Riyadh ganteng

Penjelasan Lengkap Teorema Bayes

Teorema Bayes adalah metode dalam probabilitas yang digunakan untuk menghitung probabilitas bersyarat dari suatu peristiwa berdasarkan informasi atau data yang sudah diketahui sebelumnya. Teorema ini dinamai dari seorang matematikawan, Thomas Bayes, yang pertama kali memperkenalkannya.


Rumus Teorema Bayes

Secara umum, Teorema Bayes dapat dituliskan sebagai:

\[ P(A | B) = \frac{P(B | A) \cdot P(A)}{P(B)} \]

Penjelasan Rumus:

  • \(P(A | B)\): Probabilitas kejadian A terjadi jika B diketahui (probabilitas bersyarat).
  • \(P(B | A)\): Probabilitas kejadian B terjadi jika A diketahui (likelihood).
  • \(P(A)\): Probabilitas awal atau prior dari kejadian A (sebelum melihat data).
  • \(P(B)\): Probabilitas total dari kejadian B (biasa disebut sebagai evidence atau bukti).

Contoh Konsep Teorema Bayes di Dunia Nyata

  1. Prediksi Penyakit
    Jika seseorang mendapatkan hasil positif dari tes medis, bagaimana probabilitas sebenarnya bahwa orang tersebut sakit? Teorema Bayes memperhitungkan false positives (positif palsu) dan probabilitas dasar penyakit.

  2. Prediksi Cacat Produk (seperti contoh Anda):
    Teorema Bayes membantu memprediksi apakah produk cacat atau tidak, berdasarkan informasi seperti kualitas komponen atau standar produksi.

  3. Deteksi Spam Email
    Algoritma email menggunakan Teorema Bayes untuk menghitung kemungkinan suatu email adalah spam berdasarkan kata-kata yang ada di dalam email.

  4. Sistem Kredit Skoring
    Bank menggunakan Teorema Bayes untuk menghitung probabilitas seseorang gagal membayar pinjaman berdasarkan riwayat keuangan mereka.


7.7 Studi Kasus 1

Penerapan Probabilitas dalam Prediksi Kualitas Produk:

Sebuah perusahaan manufaktur memproduksi barang elektronik dan ingin memprediksi apakah suatu produk akan cacat atau tidak. Data historis menunjukkan bahwa 5% dari produk yang diproduksi adalah cacat. Perusahaan menggunakan data tentang jenis komponen dan proses produksi untuk memprediksi cacat produk menggunakan teknik probabilitas.

7.7.1 Fitur Data

β€’ Komponen (C): Apakah komponen elektronik yang digunakan adalah berkualitas tinggi atau rendah.

β€’ Proses Produksi (P): Apakah proses produksi dilakukan di bawah standar atau sesuai standar.

β€’ Cacat (D): Status cacat produk (ya/tidak).

7.7.2 Data Historis(Contoh)

β€’ Probabilitas produk cacat (𝑃(𝐷 = Yes)) = 5%

β€’ Probabilitas produk tidak cacat (𝑃(𝐷 = No)) = 95%

β€’ Probabilitas menggunakan komponen berkualitas rendah (𝑃(𝐢 = Low)) = 30%

β€’ Probabilitas menggunakan komponen berkualitas tinggi (𝑃(𝐢 = High))= 70%

β€’ Probabilitas proses produksi di bawah standar (𝑃(𝑃 = Below)) = 40%

β€’ Probabilitas proses produksi sesuai standar (𝑃(𝑃 = Standard)) = 60%

Bagaimana probabilitas bahwa suatu produk akan cacat (𝐷 = Yes), jika dike tahui komponen yang digunakan berkualitas rendah dan proses produksi di bawah standar?

Gunakan Teorema Bayes untuk menghitung probabilitas bersyarat ini:

\[ P(D = \text{Yes} | C = \text{Low}, P = \text{Below}) = \frac{P(C = \text{Low}, P = \text{Below} | D = \text{Yes}) \cdot P(D = \text{Yes})}{P(C = \text{Low}, P = \text{Below})} \]

7.7.3 Jawaban

Langkah 1: Menentukan Komponen dalam Rumus

Teorema Bayes digunakan untuk menghitung probabilitas terbalik, yaitu: \[ P(D = \text{Yes} | C = \text{Low}, P = \text{Below}) = \frac{P(C = \text{Low}, P = \text{Below} | D = \text{Yes}) \cdot P(D = \text{Yes})}{P(C = \text{Low}, P = \text{Below})} \]

Dari soal yang diberikan, kita telah diberikan data probabilitas sebagai berikut:

Langkah 1: Identifikasi Probabilitas Awal yang Diketahui Sebagai Data Pendukung

Berdasarkan data historis yang tersedia, diperoleh informasi sebagai berikut:

1. Probabilitas Produk Cacat dan Tidak Cacat
Analisis data historis menunjukkan bahwa sebagian kecil dari produk yang dihasilkan mengalami kecacatan.
- Probabilitas produk cacat: Sebesar 5% dari total produksi, atau setara dengan 5 dari setiap 100 produk yang dihasilkan. Probabilitas ini dinyatakan dalam bentuk desimal sebagai:
\[ P(D = Yes) = 5\% = 0.05 \]

  • Probabilitas produk tidak cacat: Dengan asumsi sisanya bebas dari cacat, maka sebesar 95% dari total produksi tidak mengalami masalah. Hal ini dinyatakan sebagai:
    \[ P(D = No) = 95\% = 0.95 \]

2. Probabilitas Berdasarkan Jenis Komponen
Kualitas komponen yang digunakan dalam proses produksi dapat diklasifikasikan menjadi dua kategori utama: komponen berkualitas rendah dan komponen berkualitas tinggi.
- Komponen berkualitas rendah: Sekitar 30% dari total produk menggunakan komponen jenis ini. Probabilitasnya adalah:
\[ P(C = Low) = 30\% = 0.30 \]

  • Komponen berkualitas tinggi: Dengan demikian, sisanya sebesar 70% dari total produk menggunakan komponen berkualitas tinggi. Probabilitasnya dinyatakan sebagai:
    \[ P(C = High) = 70\% = 0.70 \]

3. Probabilitas Proses Produksi
Proses produksi dapat dikategorikan ke dalam dua jenis berdasarkan standar pelaksanaan: proses di bawah standar dan proses sesuai standar. Setiap jenis proses memengaruhi kualitas akhir produk secara signifikan.
- Proses di bawah standar: Data menunjukkan bahwa 40% dari total produksi dilakukan melalui proses yang tidak sesuai standar, yang berpotensi meningkatkan risiko kecacatan. Probabilitas ini adalah:
\[ P(P = Below) = 40\% = 0.40 \]

  • Proses sesuai standar: Sementara itu, 60% dari produksi dilakukan dengan standar yang sesuai, yang memberikan kontrol kualitas lebih baik. Probabilitasnya adalah:
    \[ P(P = Standard) = 60\% = 0.60 \]

Langkah 2: Evaluasi Probabilitas Kombinasi

Dalam menghitung probabilitas bukti kombinasi (\(P(C, P | D)\)), perlu diperhatikan keterkaitan antara cacatnya produk (\(D = Yes\)), kualitas komponen (\(C\)), dan standar proses produksi (\(P\)). Meskipun data awal hanya memberikan probabilitas dasar \(P(C)\), \(P(P)\), dan \(P(D)\), informasi eksplisit tentang hubungan langsung seperti \(P(C | D = Yes)\) atau \(P(P | D = Yes)\) belum tersedia.

Tentu, berikut adalah versi yang lebih profesional:


Analisis Probabilitas Berdasarkan Data

  1. Probabilitas Komponen Berkualitas Rendah (\(C = \text{Low}\)) pada Produk Cacat (\(D = \text{Yes}\))

    • Produk yang cacat (\(D = \text{Yes}\)) kemungkinan besar disebabkan oleh penggunaan komponen berkualitas rendah, mengingat hubungan kausal yang logis (komponen berkualitas rendah cenderung lebih sering menyebabkan cacat).
    • Oleh karena itu, diasumsikan bahwa \(P(C = \text{Low} \mid D = \text{Yes})\) lebih tinggi daripada \(P(C = \text{Low}) = 30\%\).
    • Asumsi yang masuk akal adalah: \(P(C = \text{Low} \mid D = \text{Yes}) = 70\%\).
  2. Probabilitas Komponen Berkualitas Tinggi (\(C = \text{High}\)) pada Produk Tidak Cacat (\(D = \text{No}\))

    • Produk yang tidak cacat (\(D = \text{No}\)) lebih cenderung menggunakan komponen berkualitas tinggi, karena kualitas tinggi mengurangi kemungkinan cacat.
    • Dengan demikian, diasumsikan \(P(C = \text{High} \mid D = \text{No})\) lebih tinggi daripada \(P(C = \text{High}) = 70\%\).
    • Asumsi yang masuk akal adalah: \(P(C = \text{High} \mid D = \text{No}) = 80\%\).
  3. Probabilitas Proses Produksi di Bawah Standar (\(P = \text{Below}\)) pada Produk Cacat (\(D = \text{Yes}\))

    • Produk cacat (\(D = \text{Yes}\)) sering kali dihasilkan dari proses produksi yang di bawah standar, karena proses yang buruk lebih sering menyebabkan cacat.
    • Oleh karena itu, diasumsikan \(P(P = \text{Below} \mid D = \text{Yes})\) lebih tinggi daripada \(P(P = \text{Below}) = 40\%\).
    • Asumsi yang masuk akal adalah: \(P(P = \text{Below} \mid D = \text{Yes}) = 60\%\).
  4. Probabilitas Proses Produksi Sesuai Standar (\(P = \text{Standard}\)) pada Produk Tidak Cacat (\(D = \text{No}\))

    • Produk yang tidak cacat (\(D = \text{No}\)) lebih mungkin diproduksi dengan proses yang memenuhi standar, berkat kontrol kualitas yang lebih baik.
    • Dengan demikian, diasumsikan \(P(P = \text{Standard} \mid D = \text{No})\) lebih tinggi daripada \(P(P = \text{Standard}) = 60\%\).
    • Asumsi yang masuk akal adalah: \(P(P = \text{Standard} \mid D = \text{No}) = 70\%\).

Asumsi-asumsi ini memberikan distribusi probabilitas yang konsisten dengan data awal dan relevansi logis dalam hubungan antara komponen, proses produksi, dan kecacatan produk.

  1. Jika produk cacat (\(D = \text{Yes}\)):

    • Probabilitas komponen berkualitas rendah (\(P(C = \text{Low} \mid D = \text{Yes})\)) adalah 70% (0.7).
    • Probabilitas proses di bawah standar (\(P(P = \text{Below} \mid D = \text{Yes})\)) adalah 60% (0.6).

    Maka, probabilitas gabungan untuk produk cacat (\(D = \text{Yes}\)) adalah:

    \[ P(C = \text{Low}, P = \text{Below} \mid D = \text{Yes}) = P(C = \text{Low} \mid D = \text{Yes}) \cdot P(P = \text{Below} \mid D = \text{Yes}) \]

    \[ P(C = \text{Low}, P = \text{Below} \mid D = \text{Yes}) = 0.7 \cdot 0.6 = 0.42 \]

  2. Jika produk tidak cacat (\(D = \text{No}\)):

    • Probabilitas komponen berkualitas rendah (\(P(C = \text{Low} \mid D = \text{No})\)) adalah 20% (0.2).
    • Probabilitas proses di bawah standar (\(P(P = \text{Below} \mid D = \text{No})\)) adalah 30% (0.3).

Langkah 2: Menghitung \(P(C = \text{Low}, P = \text{Below} | D = \text{Yes})\)

Pada langkah pertama, kita menghitung probabilitas gabungan antara komponen berkualitas rendah dan proses produksi di bawah standar, dengan kondisi produk cacat (\(D = \text{Yes}\)).

Untuk itu, kita gunakan rumus: \[ P(C = \text{Low}, P = \text{Below} | D = \text{Yes}) = P(C = \text{Low} | D = \text{Yes}) \cdot P(P = \text{Below} | D = \text{Yes}) \]

Substitusi nilai yang telah diberikan: \[ P(C = \text{Low}, P = \text{Below} | D = \text{Yes}) = 0.7 \cdot 0.6 = 0.42 \]

Penjelasan: Ini menunjukkan bahwa, jika produk cacat, kemungkinan bahwa komponen yang digunakan berkualitas rendah dan proses produksi di bawah standar adalah 0.42 (atau 42%).


Langkah 3: Menghitung \(P(C = \text{Low}, P = \text{Below} | D = \text{No})\)

Sekarang kita menghitung probabilitas gabungan untuk komponen berkualitas rendah dan proses produksi di bawah standar, dengan kondisi produk tidak cacat (\(D = \text{No}\)).

Gunakan rumus yang sama: \[ P(C = \text{Low}, P = \text{Below} | D = \text{No}) = P(C = \text{Low} | D = \text{No}) \cdot P(P = \text{Below} | D = \text{No}) \]

Substitusi nilai: \[ P(C = \text{Low}, P = \text{Below} | D = \text{No}) = 0.2 \cdot 0.3 = 0.06 \]

Penjelasan: Ini berarti, jika produk tidak cacat, probabilitas bahwa komponen berkualitas rendah dan proses produksi di bawah standar adalah 0.06 (atau 6%).


Langkah 4: Menghitung \(P(C = \text{Low}, P = \text{Below})\)

Probabilitas total \(P(C = \text{Low}, P = \text{Below})\) dihitung dengan menjumlahkan kontribusi dari dua kondisi \(D = \text{Yes}\) dan \(D = \text{No}\). Ini memperhitungkan kemungkinan bahwa produk cacat atau tidak cacat.

Rumus: \[ P(C = \text{Low}, P = \text{Below}) = P(C = \text{Low}, P = \text{Below} | D = \text{Yes}) \cdot P(D = \text{Yes}) + P(C = \text{Low}, P = \text{Below} | D = \text{No}) \cdot P(D = \text{No}) \]

Substitusi nilai: \[ P(C = \text{Low}, P = \text{Below}) = (0.42 \cdot 0.05) + (0.06 \cdot 0.95) \]

Hitung setiap bagian: \[ P(C = \text{Low}, P = \text{Below}) = 0.021 + 0.057 = 0.078 \]

Penjelasan: Probabilitas total bahwa komponen berkualitas rendah dan proses produksi di bawah standar, tanpa mempertimbangkan status cacat atau tidak cacat, adalah 0.078 (atau 7.8%).


Langkah 5: Menghitung \(P(D = \text{Yes} | C = \text{Low}, P = \text{Below})\)

Sekarang kita dapat menghitung probabilitas terbalik menggunakan Teorema Bayes:

\[ P(D = \text{Yes} | C = \text{Low}, P = \text{Below}) = \frac{P(C = \text{Low}, P = \text{Below} | D = \text{Yes}) \cdot P(D = \text{Yes})}{P(C = \text{Low}, P = \text{Below})} \]

Substitusi nilai yang telah dihitung: \[ P(D = \text{Yes} | C = \text{Low}, P = \text{Below}) = \frac{0.42 \cdot 0.05}{0.078} \]

Hitung pembilang: \[ 0.42 \cdot 0.05 = 0.021 \]

Lalu bagi dengan penyebut: \[ P(D = \text{Yes} | C = \text{Low}, P = \text{Below}) = \frac{0.021}{0.078} = 0.269 \]

Penjelasan: Probabilitas bahwa suatu produk akan cacat, jika diketahui komponen yang digunakan berkualitas rendah dan proses produksi di bawah standar, adalah 26.9%.


Hasil Akhir

Dalam bentuk persentase: \[ P(D = \text{Yes} | C = \text{Low}, P = \text{Below}) = 26.9\% \]

Kesimpulan: Jika kedua faktor (komponen berkualitas rendah dan proses produksi di bawah standar) terjadi bersamaan, maka kemungkinan produk tersebut akan cacat meningkat menjadi 26.9%, yang jauh lebih tinggi daripada probabilitas dasar cacat produk (5%).

Dengan perhitungan ini, kita dapat melihat pentingnya mengelola kedua faktor tersebut untuk mengurangi risiko cacat produk.


Perhitungan otomatis

# Menghitung probabilitas akhir P(D = Yes | C = Low, P = Below) di R

# Probabilitas awal
P_D_Yes <- 0.05      # P(D = Yes)
P_D_No <- 0.95       # P(D = No)

P_C_Low_given_D_Yes <- 0.7    # P(C = Low | D = Yes)
P_C_Low_given_D_No <- 0.2     # P(C = Low | D = No)

P_P_Below_given_D_Yes <- 0.6  # P(P = Below | D = Yes)
P_P_Below_given_D_No <- 0.3   # P(P = Below | D = No)

# Probabilitas gabungan
P_C_Low_and_P_Below_given_D_Yes <- P_C_Low_given_D_Yes * P_P_Below_given_D_Yes
P_C_Low_and_P_Below_given_D_No <- P_C_Low_given_D_No * P_P_Below_given_D_No

# Probabilitas total P(C = Low, P = Below)
P_C_Low_and_P_Below <- (P_C_Low_and_P_Below_given_D_Yes * P_D_Yes) + 
                       (P_C_Low_and_P_Below_given_D_No * P_D_No)

# Menghitung P(D = Yes | C = Low, P = Below) menggunakan Teorema Bayes
P_D_Yes_given_C_Low_and_P_Below <- (P_C_Low_and_P_Below_given_D_Yes * P_D_Yes) / P_C_Low_and_P_Below

# Menampilkan hasil
cat("Probabilitas akhir P(D = Yes | C = Low, P = Below):", 
    round(P_D_Yes_given_C_Low_and_P_Below * 100, 1), "%\n")
## Probabilitas akhir P(D = Yes | C = Low, P = Below): 26.9 %

Kesimpulan

Berdasarkan analisis menggunakan Teorema Bayes, probabilitas bahwa suatu produk akan cacat (D = Yes) jika diketahui:
- Komponen yang digunakan berkualitas rendah (\(C = \text{Low}\))
- Proses produksi dilakukan di bawah standar (\(P = \text{Below}\))
adalah 26.9%.

Nilai ini jauh lebih tinggi dibandingkan probabilitas awal produk cacat sebesar 5%, yang menunjukkan bahwa kedua faktor tersebut memiliki pengaruh signifikan terhadap kualitas produk.

Faktor ini menegaskan bahwa:
1. Komponen berkualitas rendah meningkatkan risiko produk cacat.
2. Proses produksi di bawah standar memperburuk kondisi ini.


Rekomendasi

Untuk mengurangi risiko produk cacat, berikut adalah langkah-langkah yang dapat diimplementasikan oleh perusahaan:

1. Meningkatkan Kualitas Komponen (C = Low)

  • Evaluasi pemasok komponen secara berkala dan tetapkan standar kualitas yang lebih tinggi.
  • Lakukan uji kualitas terhadap komponen sebelum digunakan dalam produksi.
  • Beralih ke pemasok dengan reputasi dan sertifikasi kualitas yang baik.

Dampak: Mengurangi probabilitas penggunaan komponen berkualitas rendah (\(P(C = \text{Low})\)).


2. Meningkatkan Kepatuhan Proses Produksi (P = Below)

  • Audit proses produksi secara berkala untuk memastikan kepatuhan terhadap standar operasional.
  • Implementasikan pelatihan rutin untuk operator dan tenaga kerja terkait Quality Control (QC).
  • Gunakan teknologi otomasi atau sensor untuk memonitor dan menjaga konsistensi proses produksi.
  • Terapkan metodologi Six Sigma atau Lean Manufacturing untuk meminimalkan kesalahan dalam proses produksi.

Dampak: Menurunkan probabilitas proses produksi di bawah standar (\(P(P = \text{Below})\)).


3. Mengimplementasikan Kontrol Kualitas yang Lebih Ketat

  • Tambahkan pengujian produk di setiap tahapan produksi.
  • Gunakan sistem inspeksi otomatis untuk mendeteksi cacat lebih awal.
  • Terapkan Quality Assurance (QA) sebagai pengawasan menyeluruh terhadap kebijakan produksi.

Dampak: Memastikan produk cacat dapat diminimalkan sebelum dikirim ke pelanggan.


4. Analisis Data dan Prediksi Berkelanjutan

  • Kumpulkan data terkait penyebab produk cacat secara lebih detail.
  • Gunakan pendekatan berbasis data seperti machine learning untuk memprediksi potensi cacat produk di masa depan.
  • Buat sistem peringatan dini (early warning system) yang mendeteksi kombinasi risiko komponen dan proses produksi yang berbahaya.

Dampak: Meningkatkan pengambilan keputusan berbasis data untuk meminimalkan cacat.


Penutup

Dengan menerapkan langkah-langkah di atas, perusahaan dapat:
1. Menurunkan risiko produk cacat secara signifikan.
2. Meningkatkan efisiensi proses produksi dan kepercayaan pelanggan.
3. Mengurangi biaya produksi akibat produk cacat atau produksi ulang.

Sebagai seorang analis profesional, Anda dapat menyampaikan bahwa fokus utama perbaikan harus diarahkan pada peningkatan kualitas komponen dan kepatuhan proses produksi, karena kedua faktor ini memiliki pengaruh terbesar terhadap probabilitas cacat produk.

7.8 Studi Kasus 2

Sebuah perusahaan e-commerce ingin mendeteksi transaksi yang berpotensi penipuan. Berdasarkan data historis, 1% dari transaksi yang dilakukan adalah penipuan. Perusahaan ingin menggunakan fitur-fitur tertentu seperti lokasi transaksi, jumlah pembelian, dan metode pembayaran untuk memprediksi apakah suatu transaksi adalah penipuan atau tidak

7.8.1 Fitur Data

β€’ Lokasi (L): Negara atau kota tempat transaksi dilakukan.

β€’ Jumlah Pembelian (A): Jumlah uang yang dibelanjakan.

β€’ MetodePembayaran (M):Metodepembayaranyangdigunakan (kartu kredit, dompet digital, dll).

β€’ Penipuan (F): Status transaksi apakah penipuan atau tidak.

7.8.2 Data Historis(Contoh)

β€’ Probabilitas transaksi adalah penipuan (𝑃(𝐹 = Fraud)) = 1%

β€’ Probabilitas transaksi bukan penipuan (𝑃(𝐹 = Not Fraud)) = 99%

β€’ Probabilitas lokasi tertentu adalah di luar negeri (𝑃(𝐿 = Foreign)) = 20%

β€’ Probabilitas jumlah pembelian lebih dari 500(P(A = High)$) = 10%

β€’ Probabilitas menggunakan kartu kredit sebagai metode pembayaran (𝑃(𝑀 =Credit Card)) = 50%

Bagaimana probabilitas bahwa suatu transaksi adalah penipuan (𝐹 = Fraud), jika diketahui transaksi dilakukan dari lokasi luar negeri, jumlah pembelian lebih dari $500, dan metode pembayaran menggunakan kartu kredit?

Gunakan Teorema Bayes untuk menghitung probabilitas bersyarat ini:

\[ P(F = \text{Fraud} \mid L = \text{Foreign}, A = \text{High}, M = \text{Credit Card}) = \frac{P(L = \text{Foreign}, A = \text{High}, M = \text{Credit Card} \mid F = \text{Fraud}) \cdot P(F = \text{Fraud})}{P(L = \text{Foreign}, A = \text{High}, M = \text{Credit Card})} \]

7.8.3 Jawaban

Teorema Bayes: Dasar

Teorema Bayes digunakan untuk menghitung probabilitas suatu kejadian A yang terjadi, diberikan bahwa kejadian B sudah terjadi.

Bentuk umum Teorema Bayes:

\[ P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)} \]

Di sini:
- \(A\) = Kejadian yang kita cari probabilitasnya (contoh: transaksi adalah penipuan atau Fraud).
- \(B\) = Bukti atau kondisi yang kita ketahui terjadi (contoh: lokasi luar negeri, jumlah besar, dan kartu kredit).


Langkah 1: Penentuan Probabilitas Awal

Berdasarkan data historis, kita memiliki informasi sebagai berikut:

  1. Probabilitas Transaksi Penipuan: Data historis menunjukkan bahwa 1% dari total transaksi adalah penipuan, sementara sisanya 99% adalah transaksi sah.
    • \(P(F = \text{Penipuan}) = 1\% = 0.01\)
    • \(P(F = \text{Bukan Penipuan}) = 99\% = 0.99\)
  2. Probabilitas Lokasi Transaksi di Luar Negeri: Sebanyak 20% dari transaksi dilakukan dari luar negeri (contohnya transaksi internasional).
    • \(P(L = \text{Luar Negeri}) = 20\% = 0.20\)
  3. Probabilitas Jumlah Pembelian Melebihi $500: Sebanyak 10% dari transaksi memiliki nilai pembelian yang melebihi $500.
    • \(P(A = \text{Tinggi}) = 10\% = 0.10\)
  4. Probabilitas Penggunaan Kartu Kredit: Setengah dari transaksi menggunakan kartu kredit sebagai metode pembayaran.
    • \(P(M = \text{Kartu Kredit}) = 50\% = 0.50\)

Langkah 2: Perhitungan Probabilitas Kombinasi


Asumsi Logis Berdasarkan Data

  1. Probabilitas Lokasi Luar Negeri Terkait Penipuan:
    • Probabilitas transaksi penipuan dari luar negeri adalah 40%, lebih tinggi dibandingkan probabilitas keseluruhan (20%).
      • Analisis: Pelaku penipuan sering memanfaatkan lokasi luar negeri untuk menyembunyikan identitas dan menghindari deteksi.
      • Kesimpulan: Transaksi penipuan lebih sering berasal dari luar negeri.
  2. Probabilitas Pembelian Tinggi Terkait Penipuan:
    • Probabilitas pembelian tinggi dalam transaksi penipuan adalah 50%, lebih tinggi dari probabilitas keseluruhan (10%).
      • Analisis: Pelaku penipuan cenderung melakukan pembelian besar untuk memaksimalkan keuntungan.
      • Kesimpulan: Transaksi penipuan cenderung memiliki nilai pembelian yang tinggi.
  3. Probabilitas Penggunaan Kartu Kredit Terkait Penipuan:
    • Probabilitas penggunaan kartu kredit dalam transaksi penipuan adalah 60%, lebih tinggi dibandingkan keseluruhan (50%).
      • Analisis: Kartu kredit sering disalahgunakan karena aksesibilitasnya.
      • Kesimpulan: Transaksi penipuan sering melibatkan penggunaan kartu kredit.

Karena data historis tidak menyediakan probabilitas kombinasi secara langsung, kita perlu membuat asumsi berdasarkan informasi yang ada.

  1. Jika Transaksi adalah Penipuan:

    • Probabilitas lokasi luar negeri: 40% dari transaksi penipuan berasal dari luar negeri.
    • Probabilitas pembelian tinggi: 50% dari transaksi penipuan memiliki nilai pembelian lebih dari $500.
    • Probabilitas penggunaan kartu kredit: 60% dari transaksi penipuan menggunakan kartu kredit.

    Untuk menghitung probabilitas kombinasi dari ketiga kondisi ini secara bersamaan: \[ P(L = \text{Luar Negeri}, A = \text{Tinggi}, M = \text{Kartu Kredit} \mid F = \text{Penipuan}) = 0.40 \cdot 0.50 \cdot 0.60 = 0.12 \]

    Ini menunjukkan bahwa 12% adalah probabilitas gabungan bahwa suatu transaksi penipuan memenuhi ketiga kondisi tersebut.

  2. Jika Transaksi adalah Bukan Penipuan:

    • Probabilitas lokasi luar negeri: 10% dari transaksi bukan penipuan berasal dari luar negeri.
    • Probabilitas pembelian tinggi: 5% dari transaksi bukan penipuan memiliki nilai pembelian lebih dari $500.
    • Probabilitas penggunaan kartu kredit: 30% dari transaksi bukan penipuan menggunakan kartu kredit.

    Untuk menghitung probabilitas gabungan dari kondisi ini: \[ P(L = \text{Luar Negeri}, A = \text{Tinggi}, M = \text{Kartu Kredit} \mid F = \text{Bukan Penipuan}) = 0.10 \times 0.05 \times 0.30 = 0.0015 \]

    Kesimpulan: Probabilitas gabungan untuk transaksi penipuan (12%) jauh lebih tinggi dibandingkan dengan transaksi bukan penipuan (0.15%) dalam kondisi yang sama.


Langkah 3: Menghitung Probabilitas Total

Selanjutnya, kita menghitung probabilitas total bahwa transaksi dilakukan dari luar negeri, jumlah pembelian lebih dari $500, dan menggunakan kartu kredit. Ini dihitung dengan menggunakan total probabilitas:

\[ P(L = \text{Foreign}, A = \text{High}, M = \text{Credit Card}) = P(L = \text{Foreign}, A = \text{High}, M = \text{Credit Card} \mid F = \text{Fraud}) \cdot P(F = \text{Fraud}) + P(L = \text{Foreign}, A = \text{High}, M = \text{Credit Card} \mid F = \text{Not Fraud}) \cdot P(F = \text{Not Fraud}) \]

Melakukan substitusi nilai:

\[ P(L = \text{Foreign}, A = \text{High}, M = \text{Credit Card}) = (0.12 \cdot 0.01) + (0.0015 \cdot 0.99) = 0.0012 + 0.001485 = 0.002685 \]

Langkah 4: Menghitung Probabilitas Akhir dengan Teorema Bayes

\[ P(F = \text{Fraud} \mid L = \text{Foreign}, A = \text{High}, M = \text{Credit Card}) = \frac{0.12 \cdot 0.01}{0.002685} = \frac{0.0012}{0.002685} \approx 0.447 \]


Kesimpulan

Dengan menggunakan Teorema Bayes, probabilitas bahwa transaksi adalah penipuan jika diketahui lokasi luar negeri, jumlah pembelian besar, dan penggunaan kartu kredit adalah 44.7%.


Perhitungan otomatis

# Langkah 1: Probabilitas awal
P_Fraud <- 0.01          # Probabilitas transaksi adalah penipuan
P_NotFraud <- 0.99       # Probabilitas transaksi adalah bukan penipuan

P_L_Foreign <- 0.20      # Probabilitas lokasi luar negeri
P_A_High <- 0.10         # Probabilitas jumlah pembelian > $500
P_M_CreditCard <- 0.50   # Probabilitas menggunakan kartu kredit

# Probabilitas bersyarat untuk transaksi penipuan
P_L_Foreign_given_Fraud <- 0.40
P_A_High_given_Fraud <- 0.50
P_M_CreditCard_given_Fraud <- 0.60

# Probabilitas bersyarat untuk transaksi bukan penipuan
P_L_Foreign_given_NotFraud <- 0.10
P_A_High_given_NotFraud <- 0.05
P_M_CreditCard_given_NotFraud <- 0.30

# Langkah 2: Probabilitas gabungan
# Untuk transaksi penipuan
P_combination_given_Fraud <- P_L_Foreign_given_Fraud * P_A_High_given_Fraud * P_M_CreditCard_given_Fraud

# Untuk transaksi bukan penipuan
P_combination_given_NotFraud <- P_L_Foreign_given_NotFraud * P_A_High_given_NotFraud * P_M_CreditCard_given_NotFraud

# Langkah 3: Probabilitas total
P_combination <- (P_combination_given_Fraud * P_Fraud) + 
                 (P_combination_given_NotFraud * P_NotFraud)

# Langkah 4: Probabilitas akhir menggunakan Teorema Bayes
P_Fraud_given_combination <- (P_combination_given_Fraud * P_Fraud) / P_combination

# Cetak hasil
cat("Probabilitas transaksi adalah penipuan diberikan lokasi luar negeri, jumlah pembelian > $500, dan menggunakan kartu kredit:",
    round(P_Fraud_given_combination * 100, 2), "%\n")
## Probabilitas transaksi adalah penipuan diberikan lokasi luar negeri, jumlah pembelian > $500, dan menggunakan kartu kredit: 44.69 %

Kesimpulan

Berdasarkan perhitungan menggunakan Teorema Bayes, probabilitas bahwa transaksi merupakan penipuan (fraud) jika diketahui kondisi berikut: - Lokasi transaksi di luar negeri. - Jumlah pembelian lebih dari $500. - Menggunakan kartu kredit.

adalah 44.7%. Ini berarti bahwa ada kemungkinan sekitar 45% bahwa transaksi dengan kondisi tersebut adalah penipuan.


Rekomendasi Lanjutan

  1. Peningkatan Pengawasan dan Tindakan Pencegahan
    • Transaksi dengan probabilitas lebih tinggi untuk penipuan (misalnya di atas 40%) dapat dianggap sebagai risiko tinggi dan memerlukan verifikasi lebih lanjut sebelum diproses.
    • Sistem deteksi penipuan otomatis (misalnya menggunakan Machine Learning) bisa dikembangkan untuk memberi peringatan atau memblokir transaksi yang mencurigakan.
  2. Evaluasi dan Penambahan Variabel
    • Perhatikan bahwa probabilitas penipuan dalam skenario ini masih relatif tinggi (44.7%), meskipun masih ada kemungkinan besar transaksi bukan penipuan. Variabel tambahan seperti pola transaksi pengguna, lokasi perangkat (IP), atau riwayat transaksi sebelumnya dapat ditambahkan untuk meningkatkan akurasi model.
  3. Penyusunan Ambang Batas (Threshold)
    • Tentukan ambang batas untuk memicu tindakan pencegahan. Misalnya, jika probabilitas penipuan lebih dari 40-50%, transaksi bisa diproses dengan tindakan verifikasi tambahan atau dikendalikan oleh tim fraud detection.
  4. Peningkatan Akurasi dengan Data Lebih Banyak
    • Data historis lebih banyak mengenai transaksi yang benar-benar terjadi dapat meningkatkan model deteksi penipuan dan memberikan hasil yang lebih akurasi. Dengan data yang lebih besar, Anda dapat memperbaiki model dan memperkirakan probabilitas dengan lebih baik.
  5. Mengintegrasikan dengan Sistem Lain
    • Sistem verifikasi lain, seperti OTP (One-Time Password) atau verifikasi dua faktor (2FA), dapat dimasukkan untuk transaksi dengan probabilitas tinggi, memastikan bahwa transaksi benar-benar sah sebelum diproses.

Refrensi

  1. Bishop, C. M. (2006). Pattern Recognition and Machine Learning.
  1. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning: With Applications in R.
  • Authors: James, G., Witten, D., Hastie, T., & Tibshirani, R.
  • Title: An Introduction to Statistical Learning: With Applications in R
  • Publisher: Springer
  • Year: 2013
  • Link: (https://slds-lmu.github.io/i2ml/literature/)
  1. Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective.
  1. Kruschke, J. K. (2015). Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan.
  1. Bayes’ Theorem: Article on Wikipedia
  1. Statlect: A Free Online Resource for Learning Probability and Statistics
  1. Pengantar Statistik untuk Sains Data