MASALAH BISNIS

Tujuan dari masalah bisnis ini adalah untuk lebih memahami atribut (fitur) apa yang membuat klien kami meningglakan kartu kredit. Selain itu, dalam masalah bisnis kami memiliki tiga tugas utama yang akan kami lakukan untuk menghasilkan solusi dan kesimpulan potensial:

Pendahuluan

Banyak perusahaan BANK akhirnya akan menghadapi situasi di mana pelanggan memutuskan untuk meninggalkan kartu kredit. Namun demikian, pertayaan muncul terutama ketika datang ke alasan pelanggan memutuskan untuk meninggalkan perusahaan bank. pasti ada alasan yang tidak sesuai dengan pelanggan yang lain yang telah meninggalkan kartu kredit tetapi bagaimana jika ada pola alasan pelanggan memutuskan untuk meninggalkan kartu kredit? jika perusahaan dapat mendeteksi alasan utama mengapa pelanggan meninggalkan perusahan bank, perusahaan bank akan dapat bereaksi dan mencegah pelanggan pergi. Selanjutnya, jika perusahaan bank mampu memahami dari masa lalu, perusaahan bank akan mampu mencegah gesekan pelanggan lebih lanjut di masa depan.

Catatan: Sebelum melangkah lebih jauh, mohon buku catatan proyek tersebut jika dirasa bermanfaat bagi masyarakat dan tentunya jika menyukainya. silahkan berkomentar jika ada kritik yang membangun di kolom komentar.

Definisi Fitur:

Saya akan menjaga fitur definsi fitur menjadi yang paling penting, namun jika saya melihat kebutuhan untuk menganalisis lebih lanjut fitur lain, saya akan menambahkannya ke daftar.

Impor Perupustakaan

Berikut adalah perpustakaan utama dan bagaimana mereka akan membantu kami memecahkan masalah bisnis ini.

  • GGplot: Pustaka visualisasi yang membantu kami mengidentifikasi pola melalui Analysis data eksporasi.
  • LIME: Bantu kami memahami bagaimana model ML kami membuat keputusan dan juga memahami fitur apa yang memiliki dampak terbesar pada pengambilan keputusan model kami.
  • H2o: Pustaka AoutoML yang akan kami gunakan untuk memutuskan model mana yang akan berkinerja terbaik saat mengantisipasi pelanggan mana yang akan memutuskan untuk meninggalkan kartu kredit di perusahaan bank.
# Libarary yang digunakan ----


# Core
library(tidyverse)



# Summarisation
library(skimr)


# Feature importance
install.packages("vip")
install.packages("skimr")
library(vip)
library(lime)

# Visualization
install.packages("ggsci")
install.packages("ggpubr")
install.packages("gghalves")
install.packages("ggridges")
install.packages("correlationfunnel")
install.packages("ggalluvial")
install.packages("tidymodels")
install.packages("cowplot")
install.packages("fmsb")
library(ggsci)
library(ggthemes)
library(ggpubr)
library(gghalves)
library(ggridges)
library(correlationfunnel)
library(ggalluvial)
library(tidymodels)
library(cowplot)
library(fmsb)

# AutoML
install.packages("h2o", type="source", repos=(c("http://h2o-release.s3.amazonaws.com/h2o/latest_stable_R")))
library(h2o)

Import data

df <- read_csv("BankChurners.csv")
Rows: 10127 Columns: 23
-- Column specification -------------------------------------------------------------------------
Delimiter: ","
chr  (6): Attrition_Flag, Gender, Education_Level, Marital_Status, Income_Category, Card_Cate...
dbl (17): CLIENTNUM, Customer_Age, Dependent_count, Months_on_book, Total_Relationship_Count,...

i Use `spec()` to retrieve the full column specification for this data.
i Specify the column types or set `show_col_types = FALSE` to quiet this message.

Explorasi Data Analysis (EDA)

Buat parameter tema

Peringkasan

Kami akan menggunakan paket skimr untuk mengumpulkan beberapa informasi singkat tentang dataset ini.

  • Tidak ada nilai yang hilang: Tidak ada nilai yang hilang dalam dataset ini kami (beruntung, karena tidak ada metode imputasi yang harus diterapkan), yang kami gunakan ketika memili banyak nilai yang hilang.
  • Batas Kredit rata-rata: Batas Kredit rata-rata adalah 8.631.95 USD, sedangkan median adalah 4.594 USD yang dapat menunjukkan bahwa ada beberapa outlier dalam kumpulan dataset ini karena perbedaan yang lebar antara mean dan median.
  • Total Saldo Bergulir : Saldo bergulir tidak memiliki distribusi khusus dan rata-rata saldo bergulier terletak pada 1.000 USD.

Catatan:
Ada fitur lain untuk dijelajahi saya tetap memasukkanya ke dalam tiga fitur ini karena kami kan mengnalisisnya lebih lanjut nanti dibagina ekspolarsi data.

skim(df)
-- Data Summary ------------------------
                           Values
Name                       df    
Number of rows             10127 
Number of columns          20    
_______________________          
Column type frequency:           
  character                6     
  numeric                  14    
________________________         
Group variables            None  

-- Variable type: character ---------------------------------------------------------------------
# A tibble: 6 x 8
  skim_variable   n_missing complete_rate   min   max empty n_unique whitespace
* <chr>               <int>         <dbl> <int> <int> <int>    <int>      <int>
1 attrition_flag          0             1    17    17     0        2          0
2 gender                  0             1     1     1     0        2          0
3 education_level         0             1     7    13     0        7          0
4 marital_status          0             1     6     8     0        4          0
5 income_category         0             1     7    14     0        6          0
6 card_category           0             1     4     8     0        4          0

-- Variable type: numeric -----------------------------------------------------------------------
# A tibble: 14 x 11
   skim_variable            n_missing complete_rate     mean       sd    p0      p25      p50
 * <chr>                        <int>         <dbl>    <dbl>    <dbl> <dbl>    <dbl>    <dbl>
 1 customer_age                     0             1   46.3      8.02    26    41       46    
 2 dependent_count                  0             1    2.35     1.30     0     1        2    
 3 months_on_book                   0             1   35.9      7.99    13    31       36    
 4 total_relationship_count         0             1    3.81     1.55     1     3        4    
 5 months_inactive_12_mon           0             1    2.34     1.01     0     2        2    
 6 contacts_count_12_mon            0             1    2.46     1.11     0     2        2    
 7 credit_limit                     0             1 8632.    9089.    1438. 2555     4549    
 8 total_revolving_bal              0             1 1163.     815.       0   359     1276    
 9 avg_open_to_buy                  0             1 7469.    9091.       3  1324.    3474    
10 total_amt_chng_q4_q1             0             1    0.760    0.219    0     0.631    0.736
11 total_trans_amt                  0             1 4404.    3397.     510  2156.    3899    
12 total_trans_ct                   0             1   64.9     23.5     10    45       67    
13 total_ct_chng_q4_q1              0             1    0.712    0.238    0     0.582    0.702
14 avg_utilization_ratio            0             1    0.275    0.276    0     0.023    0.176
         p75      p100 hist 
 *     <dbl>     <dbl> <chr>
 1    52        73     ▂▆▇▃▁
 2     3         5     ▇▇▇▅▁
 3    40        56     ▁▃▇▃▂
 4     5         6     ▇▇▆▆▆
 5     3         6     ▅▇▇▁▁
 6     3         6     ▅▇▇▃▁
 7 11068.    34516     ▇▂▁▁▁
 8  1784      2517     ▇▅▇▇▅
 9  9859     34516     ▇▂▁▁▁
10     0.859     3.40  ▅▇▁▁▁
11  4741     18484     ▇▅▁▁▁
12    81       139     ▂▅▇▂▁
13     0.818     3.71  ▇▆▁▁▁
14     0.503     0.999 ▇▂▂▂▁

Kategori Pendapatan

Membadingkan Tingkat Atrisi

Ringkasan:

  • Tingkat Atrisi Tinggi dengan Kategor Pendapatan Tinggi? Kami melihat bahwa kategor pendpatan tertinggi memiliki % tinggkat atrisi yang tinggi (walapun tidak banyak), dibandingkan dengan kategori pendapatan lainya. Diikuti oleh kategori pendapatan terendah.

Pengaruh Tingkat Pendidikan

Ringkasan:

  • Basis Pelanggan Tertinggi: Cukup menarik kita melihat bahwa basis pelanggan utama memilliki program pascasarjana. Mungkin berarti bahwa basis pelanggan utama kami adalah klien di usia yang lebih muda.
  • Tingkat Atrisi Teringgi: Kami melihat bahwa kelompok Segmen Graduate dan Highshool memiliki tingkat atrisi tertinggi.

Saldo Bergulir VS Batas Kredit

Mari kita konfirmasi bahwa kita melihat bahwa group yang memiliki bendera tingkat atrisi tertinggi “kedua” adalah group kategori pendapatan Kurang dari 40K. Dalam hal ini saya ingin menelusuri kategori pendapatan terendah untuk melihat beberapa tingkat revolving balance pada grup ini.

Ringkasan:

  • Tingkat batas kredit rendah: Batas Kredit untuk kelempok berpenghasilan rendah, rendah untuk pelanggan yang tertarik.
  • Saldo Berputar Tinggi: Grup ini memiliki saldo bergulir yang tinggi, yang dapat menjadi alasan mengapa batas kredit untuk mereka rendah.
  • Tidak cukup batas Kredit untuk kelempok tertentu? Kami melilhat bahwa ada individu yang tertarik yang tidak memiliki saldo bergulir tetapi memiliki batas kredit yang rendah. Mungkinkah ini penjelasan untuk gesekan?
df %>% 
  filter(attrition_flag == "Attrited Customer") %>% 
  ggplot(aes(x=credit_limit, y=total_revolving_bal, color=income_category)) + geom_point(alpha = 0.3) +
  facet_wrap(~ income_category, scales = "free_x") + geom_smooth(method = "lm", color="red") + 
  custom_theme + scale_colour_nejm() + 
  labs(
    title = "Korelasi Credit Limit dan Revolving Balance",
    caption = str_glue("Korelasi kategori Pendapatan terendah: {lowest_income_cat_tbl}"),
    x = "Batas Kredit",
    y = "Total Saldo Bergulir"
  )
`geom_smooth()` using formula 'y ~ x'

Metrix Tingkat Aktivitas

Kategori Pendapatan yang lebih rendah memiliki rasio pemamfaatan yang sedikit lebih besar dibandingkan dengan kategori pendapatan lainya. Meskipun demikian, ini bukan jumlah yang signifikan tetapi dapat menunjukkan bahwa kategori berpenghasilan rendah memiliki tingkat aktivitas yang sedikit. Ini akan baik untuk dipahami terutama ketika kita masuk ke fase pentingya fitur untuk model kita. Rasio pemanfaatan juga memberi tahu kita tingkat aktivitas menerut kategori pendapatan, tetapi sekali lagi kita harus beralih ke fase kepentingan fitur untuk melihat apakah tingkat aktivitas merupakan indikator apakah pelaggan akan meninggalkan kartu kredit di Perusahaan bank.

Kategori Kartu

Tujuan menjelajahi kategori kartu adalah untuk melihat apakah klien kami puas dengan penawaran produk yang ditawarkan institusi. Apa saja jenis kartu kredit yang ditawarkan oleh lembaga kartu kredit?

  • Kartu Biru
  • Kartu Emas
  • Kartu Silver
  • Kartu Platinum

Tingkat Atrisi

  • Tingkat Atrisi: Tingkat persentasi atrisi tertinggi berasal darai pengguna kartu platinum dan emas.
  • Tingkat gesekan terendah: Tingkat gesekan terendah berasal dari kartu perak dan biru.

Total Transaksi

  • Total transkasi yang jauh lebih rendah untuk platinum: Ini dapat menunjukkan dua hal dari pelanggan yang keluar dari group ini, apakah mereka tidak memiliki batas kredit yag cukup atau mereka termasuk dalam kateogri berpenghasilan rendah. Anda dapat memeriksa bahwa median distribusi untuk Kategori Platinum untuk total transaksi jauh lebih rendah dari pada pelanggan yang menginap.
  • Grup kartu emas: Untuk grup kartu emas, kami tidak melihat perbedaan besar.
  • Kluster yang berbeda dalam distribusi kami: Perhatikan bahwa kami melihat cluster yang berbeda di beberapa distribusi grup kartu kami, ini dapat berarti bahwa ini adalah cluster tingkat pendapatan yang dapat dikorelasi dengan tingkat transaksi.
card_utilization_tbl %>% 
  ggplot(aes(x=card_category, y=total_trans_amt,fill=card_category)) + 
  geom_jitter(aes(color=card_category),
              alpha = 0.5,
              size=0.5,
              show.legend = FALSE) + 
  geom_half_violin(aes(fill=card_category),
                   side = "l",
                   alpha = 0.45,
                   show.legend = FALSE,
                   trim = FALSE) +
  geom_half_boxplot(aes(fill = card_category),
                    side = "r",
                    outlier.size = 1,
                    outlier.color = "red",
                    width = 0.4, 
                    alpha = 0.2,
                    show.legend = FALSE) + 
  stat_summary(fun = median, geom="line") + 
  facet_wrap(~ attrition_flag) + custom_theme + 
  scale_fill_manual(values = c("#1C366B", "#FCD16B", "#C7CEF6", "#D3DDDC")) + 
  scale_color_manual(values = c("#1C366B", "#FCD16B", "#C7CEF6", "#D3DDDC")) + 
  scale_y_continuous(labels = scales::dollar) +
  labs(
    title = "Distribusi Transaksi Berdasarkan Jenis Kartu",
    x = "Kategori Kartu",
    y = "Total Transaksi"
  )
geom_path: Each group consists of only one observation. Do you need to adjust the group
aesthetic?
geom_path: Each group consists of only one observation. Do you need to adjust the group
aesthetic?

Bendera Atrisi

Tingkat Aktivitas

Mari kita mengganalisis tingkat ketidakaktifan bagi pelanggan uang memutuskan atau yang akan meninggalkan Kartu Kredit di perusahaan bank dan pelanggan.

  • Pelanggan Yang Tertarik: Kami melihat bahwa tingkat iinteraktivitas memiliki median tiga bulan, 1 bulan lebih tinggi dari pada mereka yang masih bertahan di Kartu Kredit Perusahaan bank tersebit .
  • Memahimi distribusi ini : Ini dapat memberi kita indekasi bahwa ketika tingkat ketidakaktifan mulai “melampaui” ambang batas 2 bulan, maka ada kemungkinan lebih tinggi bahwa orang tersebut memutuskan untuk menginggalkan Kartu kredit di persuhaan tersebut .
  • Alternatif yang mungkin: Hubungi klien untuk melihat apakah mereka puas dengan layanan dan apa yang dapat dilakukan Kartu kredit di perusahaan bank untuk meningkatkan secara keseluruhan?
p1
Picking joint bandwidth of 0.151

Tingkat Saldo Bergulir

Kita dapat dengan jenis melihat bahwa pelanggan yang memiliki sado bergulir yang rendah adalah yang paling mungkin untuk pergi. Ini bisa menunjukkan bahwa pelanggan tersebut bisa saja pergi karena mereka menemukan suku bunga lain yang lebih rendah ke perusahaan lain yang menawarkan produk yang lebih baik dengan harga yang lebih rendah. Dalam kasus pelanggan yang sudah ada rata-rata mereka memilki saldo bergulir jauh lebih tinggi tetapi pelanggan dengan saldo bergulir yang lebih tinggi memiliki waktu yang jauh leibh sulit untuk mencari lembaga keuangan lain untuk menawarkan tarif yang lebih rendah karena resiko bahwa pelanggan tidak akan membayar sama sekali. Kiri dari sisa saldo. (Resiko Tinggi, tarif lebih tinggi)

Group Atrisi Pelangagan

Di bagian ini kita akan mengeksplorasi kemungkinan kombinasi kelempok orang yang meninggalkan Kartu kredit di perusahaan bank, kami dapat dengan cepat memvisualisasikan klater yang kemungkinan besar akan meninggalkan Kartu kredit di persuahaan bank.

  • Penjelasan Bagian: Bagian ini disebut diagram sanky, dan yang pada dasarnya memberitahu Anda adalah jumlah orang yang dialokasikan untuk setiap variabel kategori pelanggan yang tertarik.
  • Lulusan Wanita Berpenghasilan Rendah: Kelempok klaster ini terderi dari jumlah tertinggi orang yang tertarik pada pelanggan..

Analysis Korelasi

Sebelum masuk ke Auto ML, akan menarik untuk mengeksplorasi fitur man ayang berkorelasi dengan apakah pelanggan akan meninggalkan Kartu kredit di perusahaan bank. Untuk ini kami akan menggunakan apa yang di sebut funner “Korelasi” yang memungikinkan kami memahami fitur mana yang berkolerasi dnegna apakah seseorang akan meninggalkan kartu kredit di perusahaan bank. Catatan: Untuk variabel numerik, kami telah memutuskan mengabungkannya kedalam 4 kategori dan kemudian membuat variabel dummy berdasarkan fitur ini melalui satu pengokedan panas.

  • Saldo Bergulir Rendah: Orang biasanya membayar kartu kredit mereka tepat waktu lebih mungkin untuk meninggalkan Kartu kredit di perusahaan bank.
  • Tingkat Ketidakaktifan rendah: Jika jumlah transaksi kurang dari 0.582, kemungkinan besar pelanggan akan pergi. Sama untuk Jumlah total transaksi jika kurang dari 45 untuk klien tertentu maka klien lebih mungkin untuk meninggalkan kartu kredit di perusahaan bank
  • Jumlah transaksi rendah: Semakin rendah jumlah transaksi, semakin tinggi korealasinya dengan gesekan.

MOHON MAAFF DI SINI LAPTOP SAYA TIDAK BISA MENAMPILKAN PLOT NYA DI KARENAKAN ERROR

AutoML dengan H20

Pada bagian ini kita akan mulai mengimplementasikan H20, H20 adalah perpustakaan automi yang menyerderhanakan proses pemilihan model. Tidak hanya itu, tetapi juga mengurangi waktu yang kita habiskan untuk melakukan proses GridSearch (Penyetelan Hyperparameter.)

Berikut langkah-langkah untuk mengimplementasikan H2o:
  • Mengimpor H2o
  • Pisahkan dataframe
  • Pilih modelnya
  • Evaluasi metrik kinerja:

Mengimpor H2o

# Call H2o
h2o.init()

H2O is not running yet, starting it now...

Note:  In case of errors look at the following log files:
    C:\Users\Acer\AppData\Local\Temp\Rtmpesh0QO\file233c28001d6c/h2o_Acer_started_from_r.out
    C:\Users\Acer\AppData\Local\Temp\Rtmpesh0QO\file233c29b96f5b/h2o_Acer_started_from_r.err

java version "1.8.0_301"
Java(TM) SE Runtime Environment (build 1.8.0_301-b09)
Java HotSpot(TM) Client VM (build 25.301-b09, mixed mode)

Starting H2O JVM and connecting: .. Connection successful!

R is connected to the H2O cluster: 
    H2O cluster uptime:         19 seconds 273 milliseconds 
    H2O cluster timezone:       Asia/Bangkok 
    H2O data parsing timezone:  UTC 
    H2O cluster version:        3.34.0.7 
    H2O cluster version age:    7 days, 6 hours and 24 minutes  
    H2O cluster name:           H2O_started_from_R_Acer_act788 
    H2O cluster total nodes:    1 
    H2O cluster total memory:   0.97 GB 
    H2O cluster total cores:    2 
    H2O cluster allowed cores:  2 
    H2O cluster healthy:        TRUE 
    H2O Connection ip:          localhost 
    H2O Connection port:        54321 
    H2O Connection proxy:       NA 
    H2O Internal Security:      FALSE 
    H2O API Extensions:         Amazon S3, Algos, AutoML, Core V3, TargetEncoder, Core V4 
    R Version:                  R version 4.1.2 (2021-11-01) 

Pemisihaan H2o Dataframe

AutoML

Dibagian ini kita akan mengimplementasikan AutoML dari serangkaian model. AutoML adalah kerangka kerja yang membantukami menyerderhanakan penerapan model pembelajaran Mesin. langkah - langkah pemoresesan, penyetelan hyperparameter di antara aspek - aspek lain dari alur pembelajaran mesin. kami akan menerapakan langkah - langkah berikut

  • Menerapkan serangkaian model dan menentukan model mana yang terbaik untuk digunakan.
  • Evaluasi model dengan plot penarikan vs presisi dan plot ROC


Model teratas yang kami dapatkan semuanya adlaah model Gradient Boosting dengan parameter berbeda.

Metrik Kinerja

Precesion dan recail adalah metrix yang umum digunakan untuk masalah klafikasi. ini akan memungkinkan kami untuk mengevalusai kinerja model kami dengan lebih baik. Selajutnya dalam hal ini akan diguanakan model performasinya paling baik yaitu model GBM_3_AUTOML Namun di mungkinkan untuk mengevaluasi lebih dari satu model pada saat yang sama tetapi untuk menjaga semuanya tetap sederhana dalam proyek in i saya hanya menggunakan satu model.

  • Presisi: Ini adalah rasio positif sejati terhadap semua positif. Dalam hal ini, positif akan menjadi pelangan meninggalkan Kartu kredit di perusahaan. Benar positif akan menjadi prediksi yang benar oleh model kami bahwa pelanggan meninggalkan kartu kredit di perusahaan bank dan positif palsu akan model kami salah bahwa pelanggan akan pergi.
  • Penarikan Kembali: Adalah Metrix model kami yang mengidentifikasi dengan benar positif sejati (dengan kata lain pelanggan meningglakan kartu kredit di perusahaan bank.) Penarikan pada dasarnya adalah rasio berapa banyak pelanggan yang diprediksi model kami dengan benar dari total pelanggan di dalam perusahaan bank tersebut.
  • Reciver Operating Characteristic (ROC) dan Area Under Cover: ROC adalah kurva probalitas yang mengukur seberapa benar model ini dapat memprediksi hasil yang benar sementara AUC (Mendakati 1) semakin baik model.

Memahami Pentingnya FItur

Sekarang saatnya untuk lebih memahami model kita, Kami ingin memahami faktor apa yang mendorong model kami untuk membuat prediksi tertentu. Dalam hal ini faktor-faktor apa yang membuat model kita menentukan apakah seseorang pelanggan akan meninggalkan kartu kredit di perusahaan bank? Untuk itu , kita perlu memahami fitur mana yang penting untuk model kita.



  • Fitur Penting: Fitur ini model kami akan meninggalkan kartu kredit di perusahaan tertentu: Jumlah Total Transaksi Jumlah total transaksi dan total saldo bergulir.
  • Jumlah total transaksi: Ketika jumlah total transaksi lebih rendah dari 45 transaksi, kemungkinan besar pelanggan akan meninggalkan kartu kredit di perusahaan bank.





fi_plot <- vip(leader_model) + 
  custom_theme + geom_col(fill="#F24D29", color="black") + 
  labs(
    title = "Feature Imprtance",
    caption = "Which feature our model considers important"
  ) 




fi_plot

Fitur Apa yang paling Mempengaruhi Atrisi?

Dalam hal ini kami akan menggunakan paket Lime Yang membantu kami memahami fitur-fitur yang diangap penting oleh model kami. Namun kami akan mengeksplorasi pengamatan tunggal dimana pelanggan memutuskan untuk meninggalkan kartu kredit perusahaan di bank.

  • Jumlah Total Transaksi: Ketika jumlah total transaksi dari 45 kita melihat bahwa ada kemungkinan lebih besar bahwa individu akan meninggalkan kartu kredit di perusahaan bank.
  • Pelanggan yang berutang lebih sedikit kepada institusi: Pelanggan yang memiliki saldo bergulir leibh rendah memiliki peluang lebih besar untuk meninggalkan kartu kredit di perusahaan di bank. ini adalah sesuatu yang menarik karena yang ingin kita miliki adalah pelanggan yang berutan lebih dari sedikit kepada institusi.



Catatan Pengamatan ke -4 adalah prediksi yang salah disisi model kami. Sepertinya ini adalah pengeculian meskipun memiliki semua karekteristik yang menerut model kami penting untuk mempertimbangkan bahwa pelanggan akan meninggalkan kartu kredit di perusahaan bank.

Dalam plot ini kita dapat melihat bahwa tren berlanjut dengan empat pengamatan, jadi kita melihat bahwa untuk tiga tren pertama kita melihat ada konsistensi dan pola. kami juga dapat mencoba mengeksplorasi pengamatan yang berbeda dari pelanggan yang tertarik untuk melihat apakah pola ini berlanjut dengan ini anda menyimpulkan bahwa ini adalah fitur yang dipahami model kami yang penting dalam menentukan apakah pelanggan akan meninggalkan kartu kredit di perusahaan bank.

Menafsirkan Confusion Matrix

Pada bagian ini kami akan menjelaskan konsep yang diperlukan untuk mengintertasikan matrik dari masalah klasfikasi. Tujuanya adalah untuk memahami apakah model kita bisa mendapatkan
  • Negatif True: Ini bearti model kami memprediksi pelanggan kami akan tinggal dan tidak akan meninggalkan kartu kredit di perusahaan bank yang berarti ini adalah jumlah prediksi yang benar dari model kami.
  • Positif False: Model kami memprediksi bahwa pelanggan akan meninggalkan kartu kredit di perusahaan bank, namun pelanggan tetap tinggal.
  • Negatif False: Model kami memprediksi bahwa pelanggan akan tetap beraada di kartu kredit perusahaan bank, namun pelanggan meninggalkan kartu kredit di perusahaan bank. ini memiliki dampak negatif besar untuk kasus ini.
True Positif: Model kami memprediksi pelanggan akan meningglakan kartu kredit di perusahaan bank. Artinya model kami dapat dapat memprediksi dengan benar kapan model meninggalkan kartu kredit di perushaan bank.


Catatan: Anda juga harus melihat implikasi bisnis Positif False meiliki dampak yang rendah terhadap kartu kredit di perusahaan bank dibandingkan dnegna Negatif False

Ambang Batas

Konsep ambang batas penting ketika kita sampai pada masalah klafikasi. dalam hal ini kami menunjukkan kinerja ambang batas yang berada di berbagai tingaktan. Tarif Negatif Benar dan Tarif Positif False Serta tarif negatif False dan Tarif Positif True akan selalu bertambah menjadi 1. Saat ambang batas meningkat, semakin presisi model kami saat menentukan apakah pelanggan akan meninggalkan Kartu Kredit di perusahaan bank.

rates_by_threshold %>% 
  select(threshold, f1, tnr:tpr) %>% 
  gather(key = "key", value = "value", tnr:tpr, factor_key = TRUE) %>% 
  mutate(
    key = fct_reorder2(key, threshold, value)
  ) %>% 
  ggplot(aes(x=threshold, value, color=key)) + 
  geom_point() + 
  geom_smooth() + 
  custom_theme + 
  theme(legend.position = "right") + 
  labs(
    title = "Rates",
    y = "Value", 
    x = "Threshold"
  )
`geom_smooth()` using method = 'loess' and formula 'y ~ x'

Startegi untuk Mengurangi Atrisi Pelanggan

  • Fokus pada kelompok berpenghasilan rendah: Meskipun daya beli tidak terlalu signifikan, sebagian besar pelanggan kami berasal dari kelompok rendah. Menerapkan Promosi untuk menguntungkan kelempok berpenghasilan rendah dapat menjadi alternatif yang baik untuk mengurangi churn pelanggan di antara kelompok klaster tersebut.
  • Bertindak saat tingkat aktivitas rendah: Kami melihat bahwa pelanggan yang memiliki tingat aktivitas lebih rendah (transaksi lebih rendah dari 45), Memiliki kemungkinan lebih tinggi untuk meninggalkan kartu kredit, Jika karyawan bank memanggil pelanggan dengan tingakt aktivitas yang lebih rendah untuk menawarkan produk baru untuk kebutuhan mereka atau untuk menayakan apakah pelanggan senang dengan layanan yang kami berikan dan jika ada sesuatu yang dapat kami lakukan untuk meningkatkan, kami mungkin unutk meningkatkan, kami mungkin akan mendapatkan wawasan yang lebih baik tentang apa dapat kita lakukan untuk meningkatkan tingkat aktivitas.
  • Tingkat batas kredit untuk mereka yang memiliki saldo bergulir lebih rendah? Menurut model kami, pelanggan dengan saldo bergulir yang lebih rendah leibh cenderung meinggalkan kartu kredit di perusahaan bank. Mungkin dengan menerapkan saldo kredit yang lebih tinggi kepada pelanggan tersebut., kemungkinan kelempok segmen tersebut untuk meninggalkan kartu kredit di perusahaan dapat di turunkan.

Dan hanya itu, saya harap anda menyukai proyek ini dan masih proses belajar.

---
title: MENGANTISIPASI PENGURANGAN PELANGGAN || AUTOML UNTUK MENYELAMATKAN KARTU
  KREDIT!
author: "JAMALLUDIN"
date: "`r Sys.Date()`"
output:
  html_notebook:
    toc: yes
  html_document:
    number_sections: yes
    fig_caption: yes
    toc: yes
    fig_width: 7
    fig_height: 5
    theme: cosmo
    highlight: tango
    code_folding: hide
---

```{r setup, include=FALSE}

knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE,
    error = FALSE
)

```


<center>

<img height= 400 src="https://docs.h2o.ai/h2o/latest-stable/h2o-docs/_images/h2o-automl-logo.jpg">


</center>

# MASALAH BISNIS 

Tujuan dari masalah bisnis ini adalah untuk lebih memahami atribut (fitur) apa yang membuat klien kami meningglakan kartu kredit. Selain itu, dalam masalah bisnis kami memiliki tiga tugas utama yang akan kami lakukan untuk menghasilkan solusi dan kesimpulan potensial: <br>

<ul>
<li>**Jelajahi data kami:** Ini akan membantu kami menarik beberapa wawasan untuk memiliki gambaran umum apa yang bisa menjadi fitur potensial yang menyebabkan klien meninggalkan kartu kredit. </li>
<li>**Pentingnya Fitur:** FItur apa yang memiliki dampak tertinggi bagi pelanggan kami untuk meninggalkan kartu credit? </li>
<li>**Implementation of AutoML: ** Ini akan membantu kami memilih model mana yang terbaik untuk menagani masalah klasifikasi tidak seimbang ini. </li>

</ul>




# Pendahuluan


Banyak perusahaan BANK akhirnya akan menghadapi situasi di mana pelanggan memutuskan untuk meninggalkan kartu kredit. Namun demikian, pertayaan muncul terutama ketika datang ke alasan pelanggan memutuskan untuk meninggalkan perusahaan bank. pasti ada alasan yang tidak sesuai dengan pelanggan yang lain yang telah meninggalkan kartu kredit tetapi bagaimana jika ada pola alasan pelanggan memutuskan untuk meninggalkan kartu kredit? jika perusahaan dapat mendeteksi alasan utama mengapa pelanggan meninggalkan perusahan bank, perusahaan bank akan dapat bereaksi dan mencegah pelanggan pergi. Selanjutnya, jika perusahaan bank mampu memahami dari masa lalu, perusaahan bank akan mampu mencegah gesekan pelanggan lebih lanjut di masa depan.


<span style="background:#fed56f; font-weight:bold; color:black"> Catatan: </span>  Sebelum melangkah lebih jauh, mohon buku catatan proyek tersebut jika dirasa bermanfaat bagi masyarakat dan tentunya jika menyukainya. silahkan berkomentar jika ada kritik yang membangun di kolom komentar. 


<h4><span style="background:#C7CEF6; font-weight:bold; color:black"> Definisi Fitur: </span></h4>

Saya akan menjaga fitur definsi fitur menjadi yang paling penting, namun jika saya melihat kebutuhan untuk menganalisis lebih lanjut fitur lain, saya akan menambahkannya ke daftar.

<ul>
<li>**Attrition Flag:** Ini adalah variabel target kami, bearti apakah pelanggan kami memutuskan untuk meninggalkan kartu kredit di perusahaan bank atau ada kemungkinan besar pelanggan akan pergi ke perusahaan bank yang lain yang sama dengan kartu kredit. </li>
<li>**Gender: ** Pria atau Wanita </li>
<li>**Customer age:** Usia Pelanggan</li>
<li>**Income category: ** Ke dalam kategori mana pelanggan termasuk.  </li>
<li>**Card category:** Kartu apa yang dimiliki pelanggan? </li>
<li>**Months Inactive:** Jumlah yang tidak aktif saat menggunakan kartu kredit. </li>
<li>**Credit Limit:** Kredit yang dimiliki pelanggan saat ini. </li>
<li>**Total Revolving Balance:** Bagian yang belum dibayar yang dibawa ke bulan berikutnya ketika pelanggan tidak membayar. </li>
<li>**Average Utilization Ratio:** Mengukur berapa banyak kredit yang pelanggan gunakan dibandingkan dengan berapa banyak yang pelanggan miliki. </li>
<li>**Open to buy:** Jumlah kredit yang bersidia pada waktu tertentu di akun pemegang kartu kredit. jadi, rata-rata terbuka untuk membeli adalah kredit rata-rata yang tersedia yang dialokasikan untuk pelanggan tertentu. </li>


</ul>

## Impor Perupustakaan

Berikut adalah perpustakaan utama dan bagaimana mereka akan membantu kami memecahkan masalah bisnis ini.

<ul>
<li>**GGplot:** Pustaka visualisasi yang membantu kami mengidentifikasi pola melalui Analysis data eksporasi. </li>
<li>**LIME: ** Bantu kami memahami bagaimana model ML kami membuat keputusan dan juga memahami fitur apa yang memiliki dampak terbesar pada pengambilan keputusan model kami. </li>
<li>**H2o:** Pustaka AoutoML yang akan kami gunakan untuk memutuskan model mana yang akan berkinerja terbaik saat mengantisipasi pelanggan mana yang akan memutuskan untuk meninggalkan kartu kredit di perusahaan bank. </li>

</ul>

```{r libraries}
# Libarary yang digunakan ----


# Core
library(tidyverse)



# Summarisation
library(skimr)


# Feature importance
install.packages("vip")
install.packages("skimr")
library(vip)
library(lime)

# Visualization
install.packages("ggsci")
install.packages("ggpubr")
install.packages("gghalves")
install.packages("ggridges")
install.packages("correlationfunnel")
install.packages("ggalluvial")
install.packages("tidymodels")
install.packages("cowplot")
install.packages("fmsb")
library(ggsci)
library(ggthemes)
library(ggpubr)
library(gghalves)
library(ggridges)
library(correlationfunnel)
library(ggalluvial)
library(tidymodels)
library(cowplot)
library(fmsb)

# AutoML
install.packages("h2o", type="source", repos=(c("http://h2o-release.s3.amazonaws.com/h2o/latest_stable_R")))
library(h2o)


```



## Import data

```{r import_data}
# Import the data ----


df <- read_csv("BankChurners.csv")

# Menghapus nomor pelanggan

df <- df %>% 
  select(-c(CLIENTNUM, 
            Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1,
            Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2)) %>% 
  set_names(names(.) %>% str_to_lower())



```



# Explorasi Data Analysis (EDA)



## Buat parameter tema

```{r custom_theme}

custom_theme <- theme_bw() + 
      theme(plot.title = element_text(face = "bold", color = "black", size=14),
        plot.subtitle = element_text(face = "italic", color = "black", size=12),
        axis.text = element_text(color = "black"), legend.text = element_text(size=10),
        legend.title = element_text(size = 12), legend.position = "none",
        strip.background =element_rect(fill="#666666"), strip.text = element_text(color="white", face="bold"),
        plot.caption = element_text(face = "italic"))
  

```




## Peringkasan

Kami akan menggunakan paket skimr untuk mengumpulkan beberapa informasi singkat tentang dataset ini.

<ul>
<li>**Tidak ada nilai yang hilang:** Tidak ada nilai yang hilang dalam dataset ini kami (beruntung, karena tidak ada metode imputasi yang harus diterapkan), yang kami gunakan ketika memili banyak nilai yang hilang. </li>
<li>**Batas Kredit rata-rata:** Batas Kredit rata-rata adalah 8.631.95 USD, sedangkan median adalah 4.594 USD yang dapat menunjukkan bahwa ada beberapa outlier dalam kumpulan dataset ini karena perbedaan yang lebar antara mean dan median.   </li>
<li>**Total Saldo Bergulir :** Saldo bergulir tidak memiliki distribusi khusus dan rata-rata saldo bergulier terletak pada 1.000 USD. </li>

</ul>

**Catatan:**<br>
Ada fitur lain untuk dijelajahi saya tetap memasukkanya ke dalam tiga fitur ini karena kami kan mengnalisisnya lebih lanjut nanti dibagina ekspolarsi data.




```{r summarization}

# Beberapa fitur dapat di kategorikan

skim(df)


# 16% Pelanggan memiliki Attrited (kami berurusan data set yang tidak seimbang)

# Untuk memeriksa proporsi data

# df %>% 
#   select_if(is.character) %>% 
#   map( ~ table(.) %>% prop.table())


```





## Kategori Pendapatan


### Membadingkan Tingkat Atrisi 

**Ringkasan:**

<ul>
<li>**Tingkat Atrisi Tinggi dengan Kategor Pendapatan Tinggi?** Kami melihat bahwa kategor pendpatan tertinggi memiliki % tinggkat atrisi yang tinggi (walapun tidak banyak), dibandingkan dengan kategori pendapatan lainya. Diikuti oleh kategori pendapatan terendah. </li>

</ul>


```{r income_attrition_levels}

# Step 2: Income Category  ----

# Assign the level order
level_order <- c("$120K +", "Less than $40K", "$40K - $60K", "$80K - $120K", "$40K - $60K", "$60K - $80K", "Unknown")

# a. Find % of customers who are about to leave

income_tbl <- df %>% 
  select(attrition_flag, income_category) %>% 
  count(attrition_flag, income_category) %>% 
  group_by(income_category) %>% 
  mutate(pct = n / sum(n)) %>% 
  ungroup() %>% 
  arrange(desc(pct)) %>% 
  mutate(
    pct_txt = scales::percent(pct),
    income_category = income_category %>% factor(levels = c("$120K +", "Less than $40K", "$40K - $60K", "$80K - $120K", "$60K - $80K", "Unknown")) %>% fct_rev(),
    income_category = income_category %>% as_factor() %>% fct_reorder(pct),
    attrition_flag = attrition_flag %>% as_factor() %>% fct_rev()
  ) 


# Plot Visualization

income_tbl %>% 
  ggplot(aes(x=income_category, y=pct, color= attrition_flag)) + 
  geom_segment(aes(yend = 0, xend = income_category), size = 1) + 
  geom_point() + geom_label(aes(label = pct_txt), hjust = "inward",
                            size = 3) + coord_flip() +
  facet_wrap(~ attrition_flag)  + custom_theme + 
  theme(legend.position = "none") + 
  scale_colour_nejm() + 
  labs(
    title = "Tingkat Gesekan",
    subtitle = "Menurut Kategori Pendapatan",
    x = "Kategori Pendapatan",
    y = "Persentasi Gesekan"
  )


```


### Pengaruh Tingkat Pendidikan

**Ringkasan:**

<ul>
<li>**Basis Pelanggan Tertinggi: ** Cukup menarik kita melihat bahwa basis pelanggan utama memilliki program pascasarjana. Mungkin berarti bahwa basis pelanggan utama kami adalah klien di usia yang lebih muda. </li>
<li>**Tingkat Atrisi Teringgi: ** Kami melihat bahwa kelompok Segmen Graduate dan Highshool memiliki tingkat atrisi tertinggi. </li>

</ul>


```{r income_education_level}

# Fungsi referensi: Stackoverflow
specify_decimal <- function(x, k) trimws(format(round(x, k), nsmall=k))


# Dari kategori pendapatan dan pendidikan mana pelanggan yang paling tertarik berasal?

# Badingkan tingkat gesekan menurut Kategori_pendapatan dan tingkat pendidikan
income_education_pct_tbl <- df %>% 
  count(attrition_flag, income_category, education_level) %>% 
  group_by(attrition_flag, income_category, education_level) %>% 
  summarise(total = sum(n)) %>% 
  ungroup() %>% 
  group_by(income_category) %>% 
  mutate(
    pct = total / sum(total)
  ) %>% ungroup() %>% 
  mutate(
    income_category = income_category %>% factor(levels = c("$120K +", "Less than $40K", "$40K - $60K", "$80K - $120K", "$60K - $80K", "Unknown")) %>% fct_rev()
  ) %>% 
  mutate(
    pct = as.numeric(specify_decimal(pct,4)),
    pct_txt = str_glue("{pct*100}%")
  )
  



# Plot

income_education_pct_tbl %>% 
  ggplot(aes(x=education_level, y = income_category)) + 
  geom_tile(aes(fill = pct)) + scale_fill_gradient2(low = "#6F99ADFF", mid = "white", high = "#BC3C29FF") + facet_wrap(~ attrition_flag, scales = "free_x") + custom_theme + 
  theme(legend.position = "none",
        axis.text.x = element_text(angle = 45, hjust = 1),
        plot.caption = element_text(face = "italic")) + 
  geom_text(aes(label = pct_txt), size=2.5) + 
  labs(
    title = "Atrisi Pelanggan Peta Panas",
    caption = "Berpindidikan tinggi dan berpenghasilan menengah ke atas memiliki % Atrisi yang besar",
    x = "Tingkat Pendidikan", 
    y = "Kategori Pendapatan"
  )

```




### Saldo Bergulir VS Batas Kredit

Mari kita konfirmasi bahwa kita melihat bahwa group yang memiliki bendera tingkat atrisi tertinggi "kedua" adalah <span style="background:#fed56f; font-weight:bold; color:black"> group kategori pendapatan Kurang dari 40K. </span> Dalam hal ini saya ingin menelusuri kategori pendapatan terendah untuk melihat beberapa tingkat revolving balance pada grup ini. 


**Ringkasan:**

<ul>
<li>**Tingkat batas kredit rendah:** Batas Kredit untuk kelempok berpenghasilan rendah, rendah untuk pelanggan yang tertarik. </li>
<li>**Saldo Berputar Tinggi:** Grup ini memiliki saldo bergulir yang tinggi, yang dapat menjadi alasan mengapa batas kredit untuk mereka rendah. </li>
<li>**Tidak cukup batas Kredit untuk kelempok tertentu?** Kami melilhat bahwa ada individu yang tertarik yang tidak memiliki saldo bergulir tetapi memiliki batas kredit yang rendah. Mungkinkah ini penjelasan untuk gesekan?  </li>
</ul>


```{r revolving_balance}


# Saldo bergulir berdasarkan pendapatan
# Perkiraan Grafik.

# Korelasi dalam credit_limit dan revolving_balance
lowest_income_cat_tbl <- df %>% 
  filter(income_category == "Less than $40K" & attrition_flag == "Attrited Customer") %>% 
  summarise(
    correlation = scales::percent(cor(credit_limit, total_revolving_bal))
  )


df %>% 
  filter(attrition_flag == "Attrited Customer") %>% 
  ggplot(aes(x=credit_limit, y=total_revolving_bal, color=income_category)) + geom_point(alpha = 0.3) +
  facet_wrap(~ income_category, scales = "free_x") + geom_smooth(method = "lm", color="red") + 
  custom_theme + scale_colour_nejm() + 
  labs(
    title = "Korelasi Credit Limit dan Revolving Balance",
    caption = str_glue("Korelasi kategori Pendapatan terendah: {lowest_income_cat_tbl}"),
    x = "Batas Kredit",
    y = "Total Saldo Bergulir"
  )



```


### Metrix Tingkat Aktivitas

Kategori Pendapatan yang lebih rendah memiliki rasio pemamfaatan yang sedikit lebih besar dibandingkan dengan kategori pendapatan lainya. Meskipun demikian, ini bukan jumlah yang signifikan tetapi dapat menunjukkan bahwa kategori berpenghasilan rendah memiliki tingkat aktivitas yang sedikit. Ini akan baik untuk dipahami terutama ketika kita masuk ke fase pentingya fitur untuk model kita. Rasio pemanfaatan juga memberi tahu kita tingkat aktivitas menerut kategori pendapatan, tetapi sekali lagi kita harus beralih ke fase kepentingan fitur untuk melihat apakah tingkat aktivitas merupakan indikator apakah pelaggan akan meninggalkan kartu kredit di Perusahaan bank. 

```{r activity_levels_income}

income_metrics <- df %>% 
  select(income_category, total_trans_ct, avg_utilization_ratio, total_trans_amt) %>% 
  group_by(income_category) %>% 
  summarise(
    avg_trans_ct = round(mean(total_trans_ct, na.rm = TRUE),2),
    avg_utilization_ratio = round(mean(avg_utilization_ratio, na.rm = TRUE),2)
  ) %>% 
  ungroup()


# Lakukan grafik radar
# Mungkin membuat beberapa metrix
prep_tbl <- income_metrics %>% 
  pivot_longer(2:3) %>% 
  mutate(
    income_category = as.factor(income_category) %>% fct_reorder(value)
  )

prep_tbl %>% 
  ggplot(aes(x=income_category, y=value, fill=name)) + 
  geom_col(color="black") +
  facet_wrap(~name, scales = "free_x") + 
  coord_flip() + custom_theme + scale_fill_nejm() + 
  geom_label(aes(label=value), color="white", hjust=1.2) + 
  labs(
    title = "Metrik menurut Kategori Pendapatan",
    subtitle = "Semakin dalam ke tingkat aktivitas",
    x = "Nilai",
    y = "Kategori Pendapatan"
  )


```











## Kategori Kartu
Tujuan menjelajahi kategori kartu adalah untuk melihat apakah klien kami puas dengan penawaran produk yang ditawarkan institusi. Apa saja jenis kartu kredit yang ditawarkan oleh lembaga kartu kredit?

<ul>
<li>**Kartu Biru** </li>
<li>**Kartu Emas** </li>
<li>**Kartu Silver** </li>
<li>**Kartu Platinum** </li>

</ul>


### Tingkat Atrisi

<ul>
<li>**Tingkat Atrisi:** Tingkat persentasi atrisi tertinggi berasal darai pengguna kartu platinum dan emas. </li>
<li>**Tingkat gesekan terendah: Tingkat gesekan** terendah berasal dari kartu perak dan biru. </li>

</ul>



```{r card_group_attrition}
card_category_attrition_tbl <- df %>% 
  select(attrition_flag, card_category) %>% 
  count(attrition_flag, card_category) %>% 
  group_by(card_category) %>% 
  mutate(pct = n / sum(n)) %>% 
  ungroup() %>% 
  arrange(desc(pct)) %>% 
    mutate(
    pct_txt = scales::percent(pct),
    card_category = card_category %>% as_factor() %>% fct_reorder(pct)
    )



card_category_attrition_tbl %>% 
  ggplot(aes(x = pct, y = card_category,  fill = attrition_flag)) +
  geom_col(position = "dodge", width = 0.5, color = "black") +
  facet_wrap(~ attrition_flag, scales = "free_x") + custom_theme + 
  scale_fill_nejm() +
  scale_x_continuous(labels = scales::percent) + 
  geom_label(aes(label = pct_txt), hjust = "inward", color = "white") +
  labs(
    title = "Status Pelanggan Menurut Kateogori Pendapatan",
    x = "Tingkat Gesekan",
    y = "Kategori Kartu",
    caption = "Kartu Platinum memiliki tingkat gesekan tertinggi"
  )


```




### Total Transaksi 


<ul> 
<li>**Total transkasi yang jauh lebih rendah untuk platinum:** Ini dapat menunjukkan dua hal dari pelanggan yang keluar dari group ini, apakah mereka tidak memiliki batas kredit yag cukup atau mereka termasuk dalam kateogri berpenghasilan rendah. Anda dapat memeriksa bahwa median distribusi untuk Kategori Platinum untuk total transaksi jauh lebih rendah dari pada pelanggan yang menginap.  </li>
<li>**Grup kartu emas: **Untuk grup kartu emas, kami tidak melihat perbedaan besar.</li>
<li>**Kluster yang berbeda dalam distribusi kami:** Perhatikan bahwa kami melihat cluster yang berbeda di beberapa distribusi grup kartu kami, ini dapat berarti bahwa ini adalah cluster tingkat pendapatan yang dapat dikorelasi dengan tingkat transaksi. </li>
</ul>


```{r total_transactions}

# Distribusi rasio Visualisasi berdasarkan jenis kartu

card_utilization_tbl <- df %>% 
  select(attrition_flag, card_category, avg_utilization_ratio, total_trans_amt)


card_utilization_tbl %>% 
  ggplot(aes(x=card_category, y=total_trans_amt,fill=card_category)) + 
  geom_jitter(aes(color=card_category),
              alpha = 0.5,
              size=0.5,
              show.legend = FALSE) + 
  geom_half_violin(aes(fill=card_category),
                   side = "l",
                   alpha = 0.45,
                   show.legend = FALSE,
                   trim = FALSE) +
  geom_half_boxplot(aes(fill = card_category),
                    side = "r",
                    outlier.size = 1,
                    outlier.color = "red",
                    width = 0.4, 
                    alpha = 0.2,
                    show.legend = FALSE) + 
  stat_summary(fun = median, geom="line") + 
  facet_wrap(~ attrition_flag) + custom_theme + 
  scale_fill_manual(values = c("#1C366B", "#FCD16B", "#C7CEF6", "#D3DDDC")) + 
  scale_color_manual(values = c("#1C366B", "#FCD16B", "#C7CEF6", "#D3DDDC")) + 
  scale_y_continuous(labels = scales::dollar) +
  labs(
    title = "Distribusi Transaksi Berdasarkan Jenis Kartu",
    x = "Kategori Kartu",
    y = "Total Transaksi"
  )


```



## Bendera Atrisi


### Tingkat Aktivitas

Mari kita mengganalisis tingkat ketidakaktifan bagi pelanggan uang memutuskan atau yang akan meninggalkan Kartu Kredit di perusahaan bank dan pelanggan.

<ul>
<li>**Pelanggan Yang Tertarik: ** Kami melihat bahwa tingkat iinteraktivitas memiliki median tiga bulan, 1 bulan lebih tinggi dari pada mereka yang masih bertahan di Kartu Kredit Perusahaan bank tersebit  .</li>
<li>**Memahimi distribusi ini : ** Ini dapat memberi kita indekasi bahwa ketika tingkat ketidakaktifan mulai "melampaui" ambang batas 2 bulan, maka ada kemungkinan lebih tinggi bahwa orang tersebut memutuskan untuk menginggalkan Kartu kredit di persuhaan tersebut  .</li>
<li>**Alternatif yang mungkin:** Hubungi klien untuk melihat apakah mereka puas dengan layanan dan apa yang dapat dilakukan Kartu kredit di perusahaan bank untuk meningkatkan secara keseluruhan? </li>
</ul>

```{r}

attrition_tbl <- df %>% 
  select(attrition_flag, months_inactive_12_mon, total_revolving_bal, total_trans_amt, credit_limit)


# Tingkat Ketidakaktifan menurut bendera gesekan
p1 <- attrition_tbl %>% 
  ggplot(aes(x = months_inactive_12_mon, y = attrition_flag, fill = attrition_flag)) + 
  stat_density_ridges(quantile_lines = TRUE, quantiles = 2, alpha = 0.4) + 
  scale_fill_nejm() + custom_theme + 
  labs(
    title = "TIngkat Ketidakaktifan",
    x = "Bulan Tidak Aktif", 
    y = "Benderea Atrisi",
    caption = "Atrisi Pelanggan memiliki tingkat Ketidakaktifan yang lebih tinggi (3 bulan vs Median 2 bulan)"
  )


p1
```




### Tingkat Saldo Bergulir

Kita dapat dengan jenis melihat bahwa pelanggan yang memiliki sado bergulir yang rendah adalah yang paling mungkin untuk pergi. Ini bisa menunjukkan bahwa pelanggan tersebut bisa saja pergi karena mereka menemukan suku bunga lain yang lebih rendah ke perusahaan lain yang menawarkan produk yang lebih baik dengan harga yang lebih rendah. Dalam kasus pelanggan yang sudah ada rata-rata mereka memilki saldo bergulir jauh lebih tinggi tetapi pelanggan dengan saldo bergulir yang lebih tinggi memiliki waktu yang jauh leibh sulit untuk mencari lembaga keuangan lain untuk menawarkan tarif yang lebih rendah karena resiko bahwa pelanggan tidak akan membayar sama sekali. Kiri dari sisa saldo. (Resiko Tinggi, tarif lebih tinggi)

```{r radar_chart}

# Bagain Radar untuk pelanggan yang tertarik

max_val <- df %>% 
  select(attrition_flag, income_category, total_revolving_bal) %>% 
  filter(attrition_flag == "Attrited Customer") %>% 
  group_by(income_category) %>% 
  summarise(
    max_val = 1000
  ) %>% ungroup() %>% 
  pivot_wider(names_from = income_category, values_from = c(max_val))


min_val <- df %>% 
  select(attrition_flag, income_category, total_revolving_bal) %>% 
  filter(attrition_flag == "Attrited Customer") %>% 
  group_by(income_category) %>% 
  summarise(
    min_val = min(total_revolving_bal)
  ) %>% ungroup() %>% 
  pivot_wider(names_from = income_category, values_from = c(min_val))



revo_df <- df %>% 
  select(attrition_flag, income_category, total_revolving_bal) %>% 
  filter(attrition_flag == "Attrited Customer") %>% 
  group_by(income_category) %>% 
  summarise(
    avg_rev = mean(total_revolving_bal, na.rm = TRUE)
  ) %>% 
  ungroup() %>% 
  pivot_wider(names_from = income_category, values_from = c(avg_rev))



combined_df_attrited <- max_val %>% 
  rbind(min_val) %>% 
  rbind(revo_df)


rownames(combined_df_attrited) <- 1:nrow(combined_df_attrited) 



revo_df <- df %>% 
  select(attrition_flag, income_category, total_revolving_bal) %>% 
  filter(attrition_flag == "Attrited Customer") %>% 
  group_by(income_category) %>% 
  summarise(
    avg_rev = mean(total_revolving_bal, na.rm = TRUE)
  ) %>% 
  ungroup() %>% 
  pivot_wider(names_from = income_category, values_from = c(avg_rev))



# Pelanggan yang tersisa

max_val_existing <- df %>% 
  select(attrition_flag, income_category, total_revolving_bal) %>% 
  filter(attrition_flag == "Attrited Customer") %>% 
  group_by(income_category) %>% 
  summarise(
    max_val = 1700
  ) %>% ungroup() %>% 
  pivot_wider(names_from = income_category, values_from = c(max_val))


min_val_existing <- df %>% 
  select(attrition_flag, income_category, total_revolving_bal) %>% 
  filter(attrition_flag == "Existing Customer") %>% 
  group_by(income_category) %>% 
  summarise(
    min_val = min(total_revolving_bal)
  ) %>% ungroup() %>% 
  pivot_wider(names_from = income_category, values_from = c(min_val))



revo_df_existing <- df %>% 
  select(attrition_flag, income_category, total_revolving_bal) %>% 
  filter(attrition_flag == "Existing Customer") %>% 
  group_by(income_category) %>% 
  summarise(
    avg_rev = mean(total_revolving_bal, na.rm = TRUE)
  ) %>% 
  ungroup() %>% 
  pivot_wider(names_from = income_category, values_from = c(avg_rev))


combined_df_existing <- max_val_existing %>% 
  rbind(min_val_existing) %>% 
  rbind(revo_df_existing)


combined_df_attrited <- max_val %>% 
  rbind(min_val) %>% 
  rbind(revo_df)


rownames(combined_df_attrited) <- 1:nrow(combined_df_attrited) 


create_beautiful_radarchart <- function(data, color = "#00AFBB", 
                                        vlabels = colnames(data), vlcex = 0.7,
                                        caxislabels = NULL, title = NULL, ...){
  radarchart(
    data, axistype = 1,
    # Customize the polygon
    pcol = color, pfcol = scales::alpha(color, 0.5), plwd = 2, plty = 1,
    # Customize the grid
    cglcol = "grey", cglty = 1, cglwd = 0.8,
    # Customize the axis
    axislabcol = "grey", 
    # Variable labels
    vlcex = vlcex, vlabels = vlabels,
    caxislabels = caxislabels, title = title, ...
  )
}




op <- par(mar = c(1, 2, 2, 1))
attrited_plot <- create_beautiful_radarchart(combined_df_attrited, caxislabels = c(0,300 , 600, 900, 1200), title = "Attrited Customer", color="#F92923")


existing_plot <- create_beautiful_radarchart(combined_df_existing, caxislabels = c(0, 400, 800, 1200, 1600), title = "Existing Customer", color="#23F993")



```












### Group Atrisi Pelangagan 

Di bagian ini kita akan mengeksplorasi kemungkinan kombinasi kelempok orang yang meninggalkan Kartu kredit di perusahaan bank, kami dapat dengan cepat memvisualisasikan klater yang kemungkinan besar akan meninggalkan Kartu kredit di persuahaan bank.

<ul>
<li>**Penjelasan Bagian:** Bagian ini disebut diagram sanky, dan yang pada dasarnya memberitahu Anda adalah jumlah orang yang dialokasikan untuk setiap variabel kategori pelanggan yang tertarik. </li>
<li>**Lulusan Wanita Berpenghasilan Rendah:** Kelempok klaster ini terderi dari jumlah tertinggi orang yang tertarik pada pelanggan.. </li>

</ul>


```{r sanky_diagram, fig.height=5.5}

sample_data <- df %>% 
  select(attrition_flag, education_level, gender, income_category) %>% 
  filter(attrition_flag == "Attrited Customer") %>% 
  count(attrition_flag, education_level, gender, income_category) %>% 
  mutate(
    interesting_group = ifelse(gender == "F" & education_level == "Graduate" &
                                 income_category == "Less than $40K", "Interesting", "Not Interesting")
  )





sample_data %>% 
  ggplot(aes(y = n,
             axis1 = gender, axis2 = education_level, axis3 = income_category)) +
  geom_alluvium(aes(fill = interesting_group), alpha = 0.4,  absolute = FALSE) + 
  geom_stratum(absolute = FALSE, width = 0.45) + 
    geom_text(stat = "stratum", aes(label = after_stat(stratum)),
            absolute = FALSE) + 
  scale_x_discrete(limits = c("Income Category", "Education Level", "Gender"), expand = c(.1, .05)) + 
  custom_theme + scale_fill_nejm() + 
  labs(
    title = "Grup Berbeda dalam Atrisi Pelanggan",
    subtitle = "Populasi sampel Pelanggan yang Tertarik",
    y = "Jumlah",
    caption = "Lulusan Wanita dalam kategori berpenghasilan rendah membuat sebagian besar Pelanggan Tertarik"
  )
  



```



## Analysis Korelasi 

Sebelum masuk ke Auto ML, akan menarik untuk mengeksplorasi fitur man ayang berkorelasi dengan apakah pelanggan akan meninggalkan Kartu kredit di perusahaan bank. Untuk ini kami akan menggunakan apa yang di sebut funner "Korelasi" yang memungikinkan kami memahami fitur mana yang berkolerasi dnegna apakah seseorang akan meninggalkan kartu kredit di perusahaan bank. Catatan: Untuk variabel numerik, kami telah memutuskan mengabungkannya kedalam 4 kategori dan kemudian membuat variabel dummy berdasarkan fitur ini melalui satu pengokedan panas.

<ul>
<li>**Saldo Bergulir Rendah:** Orang biasanya membayar kartu kredit mereka tepat waktu lebih mungkin untuk meninggalkan Kartu kredit di perusahaan bank. </li>
<li>**Tingkat Ketidakaktifan rendah: ** Jika jumlah transaksi kurang dari 0.582, kemungkinan besar pelanggan akan pergi. Sama untuk Jumlah total transaksi jika kurang dari 45 untuk klien tertentu maka klien lebih mungkin untuk meninggalkan kartu kredit di perusahaan bank</li>
<li>**Jumlah transaksi rendah:** Semakin rendah jumlah transaksi, semakin tinggi korealasinya dengan gesekan.  </li>
</ul>

MOHON MAAFF DI SINI LAPTOP SAYA TIDAK BISA MENAMPILKAN PLOT NYA DI KARENAKAN ERROR

```{r fig.height = 7}
corelation_prepared_tbl <- df %>% binarize()


# Plot correlation funnel
corelation_prepared_tbl %>% 
  correlate(target = attrition_flag__Attrited_Customer) %>% 
  plot_correlation_funnel(interactive = FALSE) + custom_theme 

```




## AutoML dengan H20 


Pada bagian ini kita akan mulai mengimplementasikan H20, H20 adalah perpustakaan automi yang menyerderhanakan proses pemilihan model. Tidak hanya itu, tetapi juga mengurangi waktu yang kita habiskan untuk melakukan proses GridSearch (Penyetelan Hyperparameter.)


Berikut langkah-langkah untuk mengimplementasikan  H2o:
<ul>
<li>**Mengimpor H2o** </li>
<li>**Pisahkan dataframe ** </li>
<li>**Pilih modelnya ** </li>
<li>**Evaluasi metrik kinerja:** </li>
</ul>

### Mengimpor H2o

```{r}

# Call H2o
h2o.init()


```


###  Pemisihaan H2o Dataframe 


```{r message=FALSE, include=FALSE}

set.seed(1234)

df <- df %>% 
  mutate(
    attrition_flag = attrition_flag %>% as_factor()
  )



# Split of the dataframe
splits <- initial_split(
  data = df,
  prop = 0.80
)


train_tbl <- training(splits)
test_tbl <- testing(splits)


recipe_base <- recipe(attrition_flag ~ ., data = train_tbl) %>% 
  step_zv(all_predictors()) %>% 
  prep()


split_h2o_frame <- h2o.splitFrame(as.h2o(train_tbl), ratios = c(0.8), seed=1234)

train_h2o <- split_h2o_frame[[1]]
val_h2o <- split_h2o_frame[[2]]
test_h2o <- as.h2o(test_tbl)


y <- "attrition_flag"
x <- setdiff(names(train_h2o), y)


```



### AutoML

Dibagian ini kita akan mengimplementasikan AutoML dari serangkaian model. AutoML adalah kerangka kerja yang membantukami menyerderhanakan penerapan model pembelajaran Mesin. langkah - langkah pemoresesan, penyetelan hyperparameter di antara aspek - aspek lain dari alur pembelajaran mesin. kami akan menerapakan langkah - langkah berikut <br>

<ul> 
<li>**Menerapkan serangkaian model dan menentukan model mana yang terbaik untuk digunakan.** </li>
<li>**Evaluasi model dengan plot penarikan vs presisi dan plot ROC** </li>
</ul>

<br>




**Model teratas yang kami dapatkan semuanya adlaah model Gradient Boosting dengan parameter berbeda.**




```{r include=FALSE}


automl_models_h2o <- h2o.automl(
  x = x,
  y = y,
  training_frame = train_h2o, 
  validation_frame = val_h2o,
  leaderboard_frame = test_h2o,
  max_models = 10,
  balance_classes = TRUE,
  nfolds = 5,
  seed = 1234,
  exclude_algos = c("DeepLearning")
)



```



```{r visualize_leaderboard}

leaderboard_data <- automl_models_h2o@leaderboard %>% 
  as_tibble() %>% 
  mutate(
    # Takes the first part before the underscore
    model_type = str_split(model_id, "_", simplify = T)[,1]
  ) %>% rownames_to_column() %>% 
  mutate(
    model_id = model_id %>% as_factor() %>% fct_reorder(auc),
    model_type = model_type %>% as_factor()
  ) %>% 
  select(rowname, model_id, model_type, everything()) %>% 
  pivot_longer(4:9) %>% 
  mutate(
    model_id = paste0(rowname, ". ", model_id) %>% as_factor() %>% fct_rev()
  ) %>% 
  filter(name %in% c("auc", "logloss"))



leaderboard_data %>% 
  ggplot(aes(x=value, y=model_id, color = model_type)) + 
  geom_segment(aes(x = 0, y = model_id, xend = value, yend = model_id), color = "grey50") +
  geom_point(size=3) + facet_wrap(~ name, scales = "free_x") +
  scale_color_nejm() + custom_theme + 
  geom_label(aes(label = round(value, 2), hjust = "inward"), size = 3) +
  labs(
    title = "Papan Perinkat Model",
    subtitle = paste0("Di urutkan oleh: auc")
  )

```


### Metrik Kinerja 

Precesion dan recail adalah metrix yang umum digunakan untuk masalah klafikasi. ini akan memungkinkan kami untuk mengevalusai kinerja model kami dengan lebih baik. Selajutnya dalam hal ini akan diguanakan model performasinya paling baik yaitu model **GBM_3_AUTOML** Namun di mungkinkan untuk mengevaluasi lebih dari satu model pada saat yang sama tetapi untuk menjaga semuanya tetap sederhana dalam proyek in i saya hanya menggunakan satu model.



<ul>
<li>**Presisi:** Ini adalah rasio positif sejati terhadap semua positif. Dalam hal ini, positif akan menjadi pelangan meninggalkan Kartu kredit di perusahaan. Benar positif akan menjadi prediksi yang benar oleh model kami bahwa pelanggan meninggalkan kartu kredit di perusahaan bank dan positif palsu akan model kami salah bahwa pelanggan akan pergi.   </li>
<li>**Penarikan Kembali:** Adalah Metrix model kami yang mengidentifikasi dengan benar positif sejati (dengan kata lain pelanggan meningglakan kartu kredit di perusahaan bank.) Penarikan pada dasarnya adalah rasio berapa banyak pelanggan yang diprediksi model kami dengan benar dari total pelanggan di dalam perusahaan bank tersebut. </li>
<li>**Reciver Operating Characteristic (ROC) dan Area Under Cover: ** ROC adalah kurva probalitas yang mengukur seberapa benar model ini dapat memprediksi hasil yang benar sementara AUC (Mendakati 1) semakin baik model.  </li>
</ul>


```{r include=FALSE}
leader_model <- automl_models_h2o@leader


# Kami akan menganalisis model ini yang merupakan model pemimpin.
performance_h2o <- h2o.performance(leader_model, newdata = as.h2o(test_tbl))

```




```{r performance_metrics}




metrics_tbl <- performance_h2o %>% 
  h2o.metric() %>% 
  as_tibble()




pr_plot <- metrics_tbl %>% 
  ggplot(aes(x=threshold)) + 
  geom_line(aes(y=precision), color = "#F24D29", size=1) + 
  geom_line(aes(y=recall), color = "#1DACE8", size=1) + 
  geom_vline(xintercept = h2o.find_threshold_by_max_metric(performance_h2o, "f1"),
             lty="dashed") + 
  custom_theme + 
  labs(
    title = "Presisi Dibandingkan Meniggat Kembali"
  )


```




```{r fig.height=4}

roc_tbl <- performance_h2o %>% 
  h2o.metric() %>% 
  as_tibble() %>% 
  mutate(
  auc = h2o.auc(performance_h2o)
  ) %>% 
  select(tpr, fpr, auc)


roc_plot <- roc_tbl %>% 
  ggplot(aes(fpr, tpr)) + 
  geom_line(color = "#F24D29", size=1) +
  geom_abline() +
  custom_theme + 
  labs(
    title = "ROC Plot"
  )

plot_grid(pr_plot, roc_plot, ncol = 2)

```



## Memahami Pentingnya FItur 

Sekarang saatnya untuk lebih memahami model kita, Kami ingin memahami faktor apa yang mendorong model kami untuk membuat prediksi tertentu. Dalam hal ini faktor-faktor apa yang membuat model kita menentukan apakah seseorang pelanggan akan meninggalkan kartu kredit di perusahaan bank? Untuk itu , kita perlu memahami fitur mana yang penting untuk model kita. 

<br><br>

<ul>
<li>**Fitur Penting:** Fitur ini model kami akan meninggalkan kartu kredit di perusahaan tertentu: **Jumlah Total Transaksi Jumlah total transaksi dan total saldo bergulir.** </li>
<li>**Jumlah total transaksi: ** Ketika jumlah total transaksi lebih rendah dari 45 transaksi, kemungkinan besar pelanggan akan meninggalkan kartu kredit di perusahaan bank. </li>

</ul>



```{r lime_implementation}





fi_plot <- vip(leader_model) + 
  custom_theme + geom_col(fill="#F24D29", color="black") + 
  labs(
    title = "Feature Imprtance",
    caption = "Which feature our model considers important"
  ) 




fi_plot



```


```{r}

h2o.no_progress()

total_trans_plot <- h2o.partialPlot(leader_model, data = as.h2o(train_tbl), cols = "total_trans_ct")


```





### Fitur Apa yang paling Mempengaruhi Atrisi?

Dalam hal ini kami akan menggunakan paket **Lime** Yang membantu kami memahami fitur-fitur yang diangap penting oleh model kami. Namun kami akan mengeksplorasi pengamatan tunggal dimana pelanggan memutuskan untuk meninggalkan kartu kredit perusahaan di bank. <br><br>

<ul>
<li>**Jumlah Total Transaksi:** Ketika jumlah total transaksi dari 45 kita melihat bahwa ada kemungkinan lebih besar bahwa individu akan meninggalkan kartu kredit di perusahaan bank. </li>
<li>**Pelanggan yang berutang lebih sedikit kepada institusi:** Pelanggan yang memiliki saldo bergulir leibh rendah memiliki peluang lebih besar untuk meninggalkan kartu kredit di perusahaan di bank. ini adalah sesuatu yang menarik karena yang ingin kita miliki adalah pelanggan yang berutan lebih dari sedikit kepada institusi. </li>

</ul>

<br><br>

**Catatan** Pengamatan ke -4 adalah prediksi yang salah disisi model kami. Sepertinya ini adalah pengeculian meskipun memiliki semua karekteristik yang menerut model kami penting untuk mempertimbangkan bahwa pelanggan akan meninggalkan kartu kredit di perusahaan bank.

```{r fig.height=6}

h2o.no_progress()

explainer <- train_tbl %>%
    select(-attrition_flag) %>%
    lime(
        model           = leader_model,
        bin_continuous  = TRUE,
        n_bins          = 4,
        quantile_bins   = TRUE
    )


# Fitur nomor 4 adalah prediksi yang salah!

explanation <- test_tbl %>%
    filter(attrition_flag == "Attrited Customer") %>%
  slice(1:4) %>% 
    select(-attrition_flag) %>%
    lime::explain(
        explainer = explainer,
        n_labels   = 1,
        n_features = 8,
        n_permutations = 5000,
        kernel_width   = 1
    )


plot_features(explanation = explanation)



```


Dalam plot ini kita dapat melihat bahwa tren berlanjut dengan empat pengamatan, jadi kita melihat bahwa untuk tiga tren pertama kita melihat ada konsistensi dan pola. kami juga dapat mencoba mengeksplorasi pengamatan yang berbeda dari pelanggan yang tertarik untuk melihat apakah pola ini berlanjut dengan ini anda menyimpulkan bahwa ini adalah fitur yang dipahami model kami yang penting dalam menentukan apakah pelanggan akan meninggalkan kartu kredit di perusahaan bank. 




```{r}

plot_explanations(explanation = explanation)

```



### Menafsirkan Confusion Matrix



Pada bagian ini kami akan menjelaskan konsep yang diperlukan untuk mengintertasikan matrik dari masalah klasfikasi. Tujuanya adalah untuk memahami apakah model kita bisa mendapatkan
<ul>
<li>**Negatif True:** Ini bearti **model** kami memprediksi pelanggan kami akan tinggal dan tidak akan meninggalkan kartu kredit di perusahaan bank yang berarti ini adalah jumlah prediksi yang benar dari model kami.  </li>
<li>**Positif False: ** Model kami memprediksi bahwa pelanggan akan meninggalkan kartu kredit di perusahaan bank, namun pelanggan tetap tinggal. </li>
<li>**Negatif False:** Model kami memprediksi bahwa pelanggan akan tetap beraada di kartu kredit perusahaan bank, namun pelanggan meninggalkan kartu kredit di perusahaan bank. ini memiliki dampak negatif besar untuk kasus ini. </li>
</ul>**True Positif:** Model kami memprediksi pelanggan akan meningglakan kartu kredit di perusahaan bank. Artinya model kami dapat dapat memprediksi dengan benar kapan model meninggalkan kartu kredit di perushaan bank. </li>


<br>
**Catatan:** Anda juga harus melihat implikasi bisnis Positif False meiliki dampak yang rendah terhadap kartu kredit di perusahaan bank dibandingkan dnegna Negatif False 





```{r}

metrics_h2o <- leader_model %>% 
  h2o.performance(newdata = test_h2o)


predictions_tbl <- leader_model %>% 
  h2o.predict(newdata = test_h2o) %>%
  as_tibble() %>% 
  bind_cols(test_h2o %>% as_tibble())



predictions_tbl %>% 
  select(1:4) %>% 
  conf_mat(attrition_flag, predict) %>% 
  pluck(1) %>% 
  as_tibble() %>% 
  ggplot(aes(x=Prediction, y=Truth, fill=n)) +
  geom_tile(show.legend = F, alpha=0.5) +
  geom_text(aes(label=n), color="black", alpha=1, size=8) + 
  scale_fill_gsea()+ 
  custom_theme + 
  labs(
    title = "Confusion Matrix"
  )


```


### Ambang Batas

Konsep ambang batas penting ketika kita sampai pada masalah klafikasi. dalam hal ini kami menunjukkan kinerja ambang batas yang berada di berbagai tingaktan. **Tarif Negatif Benar dan Tarif Positif False Serta tarif negatif False dan Tarif Positif True akan selalu bertambah menjadi 1**. Saat ambang batas meningkat, semakin presisi model kami saat menentukan apakah pelanggan akan meninggalkan Kartu Kredit di perusahaan bank. 



```{r}


new_performance_h2o <- leader_model %>% 
  h2o.performance(newdata = test_h2o)


rates_by_threshold <- new_performance_h2o %>% 
  h2o.metric() %>% 
  as_tibble()




rates_by_threshold %>% 
  select(threshold, f1, tnr:tpr) %>% 
  gather(key = "key", value = "value", tnr:tpr, factor_key = TRUE) %>% 
  mutate(
    key = fct_reorder2(key, threshold, value)
  ) %>% 
  ggplot(aes(x=threshold, value, color=key)) + 
  geom_point() + 
  geom_smooth() + 
  custom_theme + 
  theme(legend.position = "right") + 
  labs(
    title = "Rates",
    y = "Value", 
    x = "Threshold"
  )




```


## Startegi untuk Mengurangi Atrisi Pelanggan 




<img src="https://www.pointillist.com/wp-content/uploads/2017/11/Running-4-the-Exit-2-844x422.png">


<ul>
<li>**Fokus pada kelompok berpenghasilan rendah:** Meskipun daya beli tidak terlalu signifikan, sebagian besar pelanggan kami berasal dari kelompok rendah. 
Menerapkan Promosi untuk menguntungkan kelempok berpenghasilan rendah dapat menjadi alternatif yang baik untuk mengurangi churn pelanggan di antara kelompok klaster tersebut. </li>
<li>**Bertindak saat tingkat aktivitas rendah:** Kami melihat bahwa pelanggan yang memiliki tingat aktivitas lebih rendah (transaksi lebih rendah dari 45), Memiliki kemungkinan lebih tinggi untuk meninggalkan kartu kredit, Jika karyawan bank memanggil pelanggan dengan tingakt aktivitas yang lebih rendah untuk menawarkan produk baru untuk kebutuhan mereka atau untuk menayakan apakah pelanggan senang dengan layanan yang kami berikan dan jika ada sesuatu yang dapat kami lakukan untuk meningkatkan, kami mungkin unutk meningkatkan, kami mungkin akan mendapatkan wawasan yang lebih baik tentang apa dapat kita lakukan untuk meningkatkan tingkat aktivitas. </li>
<li>**Tingkat batas kredit untuk mereka yang memiliki saldo bergulir lebih rendah?** Menurut model kami, pelanggan dengan saldo bergulir yang lebih rendah leibh cenderung meinggalkan kartu kredit di perusahaan bank. Mungkin dengan menerapkan saldo kredit yang lebih tinggi kepada pelanggan tersebut., kemungkinan kelempok segmen tersebut untuk meninggalkan kartu kredit di perusahaan dapat di turunkan.</li>

</ul>


Dan hanya itu, saya harap anda menyukai proyek ini dan masih proses belajar. 


