JAMALLUDIN

06 DESEMBER 2021

  1. Objektif

  2. Pemahaman Data

  3. Analisis Data eksplorasi (EDA)

A. Analisa Deskriptif customerlifetimevalue

B. Analisa Deskriptif Monthly Premium Aoutu (MPA)

C. Analisa Deskriptif TotalClaimAmount(TCA)

D. Analisa Deskriptif variabel lain

  1. Statistik Inferensial

A. Pengaruh Pertanggungan Asuransi terhadap customer life time value (CLV)

B. Pengaruh Edukasi terhadap customer life time value (CLV)

C. Pengaruh Status Pekerjaan terhadap nilai waktu hidup pelanggan (CLV)

D. Pengaruh Gender terhadap niali waktu hidup pelanggan (CLV)

E. Pengaruh Lokasi Pada nilai waktu hidup Pelanggan (CLV)

F. Pengaruh status perkawainan terhadap costumer life time value (CLV)

G. Pengaruh jenis polis terhadap costumer life time value (CLV)

H. Pengaruh jenis penawaran Perpanjangan nilai umur pelanggan (CLV)

I. Pengaruh saluran penjualan terhadap nilai umur pelanggan (CLV)

J. Pengaruh kelas kendaraan terhadap nilai waktu hidup pelanggan (CLV)

K. Pengaruh ukuran kendaraan terhadao nilai waktu hidup pelanngan (CLV)

L. Pengaruh Status terhadap nilai waktu hidup pelanggan (CLV)

M. Pengaruh kebijakan terhadap customer life time value (CLV)

  1. Analisa Regeris dengan variabel Kontinu

A. Interpretasi Model

B. Analisis Residu

  1. Pengujian Asumsi analisis regresi Linier

A. Mendeteksi mulitikolinearitas

B. Mendeteksi Homoskedastistas

C. Mendeteksi AutoKorelasi

D. Mendeteski MAPE

  1. Kurva Prediksi

A. Ringkasan

B. Rekomendasi Bisnis

  1. Tujuan : Memprediksi Customer life-time value (CLV) untuk perusahan asuransi mobil.

Nilai seumur hidup pelanggan (CLV) mewakili jumlah total uang yang di harapkan pelanggan untuk dibelanjakan dalam bisnis, atau pada produk, selama masa hidup mereka. ini adalah angka yang penting untuk diketahui karena membantu persuahan membuat keputusan tentang berapa banyak uang yang akan diinvestasikan untuk mendapat pelanggan baru dan mempertahankan pelanggan yang sudah ada.

library(caret)
Loading required package: lattice
Registered S3 method overwritten by 'data.table':
  method           from
  print.data.table     

Attaching package: ‘caret’

The following object is masked from ‘package:purrr’:

    lift
  1. Pemahaman Data
colnames(Data_Asuransi)
 [1] "State"                      "CustomerLifetimeValue"     
 [3] "Response"                   "Coverage"                  
 [5] "Education"                  "EffectiveToDate"           
 [7] "EmploymentStatus"           "Gender"                    
 [9] "Income"                     "LocationCode"              
[11] "MaritalStatus"              "MonthlyPremiumAuto"        
[13] "MonthsSinceLastClaim"       "MonthsSincePolicyInception"
[15] "NumberofOpenComplaints"     "NumberofPolicies"          
[17] "PolicyType"                 "Policy"                    
[19] "RenewOfferType"             "SalesChannel"              
[21] "TotalClaimAmount"           "VehicleClass"              
[23] "VehicleSize"               

Keterangan

“State” : Negara.

“Customerlifetimevalue” : Pelanggan seumur hidup nilai

“Response” : respon

“Coverage” : cakupan

“Education” : Pendidikan

“EffectiveToDate” : tanggal berlaku

“EmploymentStatus” : Status Pekerjaan

“gender” : jenis kelamin,

“Income” : Penghasilan

“LocationCode” : Lokasi.Kode

“MartialStatus” : status perkawinan

“MonthlyPremiumAuto” : Bulanan.Premium.Otomatis

“MonthsSinceLastClaim” : Bulan sejak tekakhir klaim

“MonthsSincePolicyInception” : Bulan sejak kebijakan inception

“NumberofOpenComplaints” : Jumlah pengaduan terbuka

“NumberofPolicies” : jumlah kebijakan

“PolicyType” : Jenis kebijakan

“Policy” : Kebijakan

“RenewOfferType” : Perbarui jenis penawarn

“SalesChannel” : Saluran penjualan

“TotalClaimAmount” : Total jumlah klaim

“VehicleClass” : Kelas kendaraan

“VehicleSize” : Ukuran kendaran.

# Pemahaman Data
dim(Data_Asuransi)
[1] 9134   23
str(Data_Asuransi)
'data.frame':   9134 obs. of  23 variables:
 $ State                     : chr  "Washington" "Arizona" "Nevada" "California" ...
 $ CustomerLifetimeValue     : num  2764 6980 12887 7646 2814 ...
 $ Response                  : chr  "No" "No" "No" "No" ...
 $ Coverage                  : chr  "Basic" "Extended" "Premium" "Basic" ...
 $ Education                 : chr  "Bachelor" "Bachelor" "Bachelor" "Bachelor" ...
 $ EffectiveToDate           : chr  "2/24/11" "1/31/11" "2/19/11" "1/20/11" ...
 $ EmploymentStatus          : chr  "Employed" "Unemployed" "Employed" "Unemployed" ...
 $ Gender                    : chr  "F" "F" "F" "M" ...
 $ Income                    : int  56274 0 48767 0 43836 62902 55350 0 14072 28812 ...
 $ LocationCode              : chr  "Suburban" "Suburban" "Suburban" "Suburban" ...
 $ MaritalStatus             : chr  "Married" "Single" "Married" "Married" ...
 $ MonthlyPremiumAuto        : int  69 94 108 106 73 69 67 101 71 93 ...
 $ MonthsSinceLastClaim      : int  32 13 18 18 12 14 0 0 13 17 ...
 $ MonthsSincePolicyInception: int  5 42 38 65 44 94 13 68 3 7 ...
 $ NumberofOpenComplaints    : int  0 0 0 0 0 0 0 0 0 0 ...
 $ NumberofPolicies          : int  1 8 2 7 1 2 9 4 2 8 ...
 $ PolicyType                : chr  "Corporate Auto" "Personal Auto" "Personal Auto" "Corporate Auto" ...
 $ Policy                    : chr  "Corporate L3" "Personal L3" "Personal L3" "Corporate L2" ...
 $ RenewOfferType            : chr  "Offer1" "Offer3" "Offer1" "Offer1" ...
 $ SalesChannel              : chr  "Agent" "Agent" "Agent" "Call Center" ...
 $ TotalClaimAmount          : num  385 1131 566 530 138 ...
 $ VehicleClass              : chr  "Two-Door Car" "Four-Door Car" "Two-Door Car" "SUV" ...
 $ VehicleSize               : chr  "Medsize" "Medsize" "Medsize" "Medsize" ...

Dataset yand disediakan memiliki banyak detail :

  1. ada 9134 Pengamatan 23 variabel

  2. ada camapuran data tye kategoris dan berkelanjuatan

  3. dependent variabel adalah customer life time value karena harus memprediksi CLV

  4. variabel independen adalah : “Customer” Pelanggan

“StateCustomerlifetimevalue” : Nilai Negara Pelanggan seumur hidup

“Response” : respon

“Coverage” : cakupan

“Education” : Pendidikan

“EffectiveToDate” : tanggal berlaku

“EmploymentStatus” : Status Pekerjaan

“gender” : jenis kelamin

“Income” : Penghasilan

“LocationCode” : Lokasi.Kode

“MartialStatus” : stautus perkawinan

“MonthlyPremiumAuto” : Bulanan.Premium.Otomatis

“MonthsSinceLastClaim” : Bulan sejak tekakhir klaim

“MonthsSincePolicyInception” : Bulan sejak kebijakan

“NumberofOpenComplaints” : Jumlah pengaduan terbuka

“NumberofPoliciesPolicyType” : Jumlah Jenis kebijakan

“Policy” : Kebijakan

“RenewOfferType” :Jenis penwaran pembaruan

“SalesChannel” : Saluran penjualan

“TotalClaimAmountVehicleClass” : Jumlah klaim Kelas kendaraan

“VehicleSize” : Ukuran kendaran.

  1. Variabel independen lanjutan adalah : “Customerlifetimevalue” : Pelanggan niali seumur hidup

“Income” : pendapatan

“MonhtlyPremiumAoutu” : Premium bulanan otomatis

“MonthsSinceLastClaim” : Bulan sejak klaim terkahir

“MonthSincePolicyInception” : Bulan sejak awal kebijakan

“Numberofopencomplaints” : Jumlah keluhan terbuka

” Numberofpolicies” : Jumlah kebijakan

“TotalClaimAmount” : jumlah total klaim.

  1. Tidak ada nilai nol, jika tidak ada tindakan lebih lanjut yang diperlukan untuk mengganti nilai yang hilang atau nol.

  2. Kolom “Customers” adalah nomoer seri sehingga tiadak singnifiakan untuk analisis dan di hapus dari dataset.

keterangan data diatas adalah tidak ada nilai nol, jadi tidak ada tindakan lebih lanjut yang diperlukan untuk mengganti nilai yang hilang atau nol.

# Nilai unik dari setiap kolom 
sapply(Data_Asuransi, data.table::uniqueN)
                     State      CustomerLifetimeValue 
                         5                       8041 
                  Response                   Coverage 
                         2                          3 
                 Education            EffectiveToDate 
                         5                         59 
          EmploymentStatus                     Gender 
                         5                          2 
                    Income               LocationCode 
                      5694                          3 
             MaritalStatus         MonthlyPremiumAuto 
                         3                        202 
      MonthsSinceLastClaim MonthsSincePolicyInception 
                        36                        100 
    NumberofOpenComplaints           NumberofPolicies 
                         6                          9 
                PolicyType                     Policy 
                         3                          9 
            RenewOfferType               SalesChannel 
                         4                          4 
          TotalClaimAmount               VehicleClass 
                      5106                          6 
               VehicleSize 
                         3 
  1. Analisis Data Eksplorasi (EDA)

Di bagain ini ulun melakukan penyelidikan awal pada data_asuransi untuk menemukan pola dan memeriksa asumsi dengan bantuan statistik ringkasan dan repsensetasi grafis.

3.1 Analisis Deskriptif Customerlifetimevalue

range(Data_Asuransi$CustomerLifetimeValue)
[1]  1898.008 83325.381

keterangan data diatas adalah nilai maksimum CLV 83325.381 dan nilai minimunya CLV 1898.008

mean(Data_Asuransi$CustomerLifetimeValue)
[1] 8004.94

keterangan data diatas adalah rata-rata clv 8005 dan median nya 5780

sd(Data_Asuransi$CustomerLifetimeValue)
[1] 6870.968

keterangan data diatas adalah standart deviasi 6870.968

summary(Data_Asuransi$CustomerLifetimeValue)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1898    3994    5780    8005    8962   83325 
var(Data_Asuransi$CustomerLifetimeValue)
[1] 47210196

keterangan data diatas adalah nilai variansi dalam CLV 47210196

skewness(Data_Asuransi$CustomerLifetimeValue)
[1] 3.031284
attr(,"method")
[1] "moment"

keterangan data diatas adalah nilai kemiringanya 3.031284 CLV miring positif dan nili terkonsentrasi di sebelah kiri

kurtosis(Data_Asuransi$CustomerLifetimeValue)
[1] 13.81163
attr(,"method")
[1] "excess"

keterangan data diatas adalah nilai rata-rata, namun semua nilai ekstrem berada di sebelah kanan. jadi niai Kortosis adalah 13.81163, karena kortosis >3, berati distribusi memiliki ekor yang lebih tebal dari biasanya

Keterangan HISTOGRAM diatas adalah distrubsi dan memiliki lebih banyak outlier (nilai ekstrim). ini berarti bahwa distribusi clv miring postif(seperti yang diharapkan) dan sangat Leptokrutik. Hasil ini menunjukkan distribusi yang sangat miring dengan ekor yang sangat besar, ada banyak customers(pelanggan) dengan CLV rendah. sangat sedikit pelanggan CLV tinngi, ini dapat dipahami secara visual mengguanakan histogram.

3.2 Analsis Deskriptif Monthly Premium Auto(MPA)

range(Data_Asuransi$MonthlyPremiumAuto)
[1]  61 298

Keterangan data diatas nilai makmimum MPA 298 dan nilai minimum MPA 61

mean(Data_Asuransi$MonthlyPremiumAuto)
[1] 93.21929

Keterangan data diatas nilai rata KKL adalah 93.21929 dan median nya adalah 84.00

sd(Data_Asuransi$MonthlyPremiumAuto)
[1] 34.40797

keterangan data diatas adalah Standar Deviasi 34.40797

summary(Data_Asuransi$MonthlyPremiumAuto)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  61.00   68.00   83.00   93.22  109.00  298.00 
var(Data_Asuransi$MonthlyPremiumAuto)
[1] 1183.908

keterangan data data diatas adalah nilai variansi dalam KKL adalah 1183.908

skewness(Data_Asuransi$MonthlyPremiumAuto)
[1] 2.122849
attr(,"method")
[1] "moment"

Nilai kemiringanya adalah 2.122849 MPA conong postif dan sebagian besar nilai terkonsentrasi di sebelah kiri.

kurtosis(Data_Asuransi$MonthlyPremiumAuto)
[1] 6.187546
attr(,"method")
[1] "excess"

Nilai rata-rata, namun semua nilai ekstrim berada di sebelah kanan nilai rata Kurtosis adalah 6.187546. karena Kurtosis >3, bearti distribusinya memiliki ekor yang lebih tebal dari biasanya.

cor(Data_Asuransi$MonthlyPremiumAuto,Data_Asuransi$CustomerLifetimeValue)
[1] 0.3962617

distribusi dan memiliki lebih banyak outlier(niali ekstrim) ada korlasi positif 39,62 % KKL degan CLV. Dari Plot pencar, jelas.

terlihat bahwa pada KKL, CLV juga meningkat.7.

Premi bulanan mengikuti tren yang mirip dengan clv meskipun distribusinya tidak miring atau sepanjang ekor seperti CLV. Ini dapat dilhihat secara histogram.

3.3 Analisis Deskriptif TotalClaimAMount(TCA)

range(Data_Asuransi$TotalClaimAmount)
[1]    0.099007 2893.239678

TCA maksimum adalah 0,099007 dan TCA minimum adalah 2893,239678.

mean(Data_Asuransi$TotalClaimAmount)
[1] 434.0888

Rata-rata TCA adalah 434.0888 dan Median 383.945

sd(Data_Asuransi$TotalClaimAmount)
[1] 290.5001

standart deviasi adalah 290.5001

summary(Data_Asuransi$TotalClaimAmount)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
   0.099  272.258  383.945  434.089  547.515 2893.240 
var(Data_Asuransi$TotalClaimAmount)
[1] 84390.3

Varians dalam TCA adalah 84390.3

skewness(Data_Asuransi$TotalClaimAmount)
[1] 1.714403
attr(,"method")
[1] "moment"

Kemeringanya adalah 1.714403 TCA miring positif dan sebagian besar nilai terkonsentrasi di sebelah kiri

kurtosis(Data_Asuransi$TotalClaimAmount) 
[1] 5.973506
attr(,"method")
[1] "excess"

nilai rata-rata, namun semua nilai ekstirm berada di sebelah kanan nilai rata-rata kortusis adalah 5,973506. karena kurtosis > 3, berarti distribusi TCA memiliki ekor yang lebih tebal dari bisanya.

cor(Data_Asuransi$TotalClaimAmount,Data_Asuransi$CustomerLifetimeValue)
[1] 0.2264509

distribusi dan memiliki lebih banyak outlier(nilai ekstrim), terdapat korealsi positif sebesar 22,65% TCA dengan CLV dari plot pencar jelas.

terlihat bahwa pada TCA, CLV juga meningkat.

Jumlah total klaim juga mengikuti tren yang mirip dengan clv dan mpa meskipun distribusinya tidak atau berekor panjang seperti KKL. ini dapat dilihat secara visual histogram.

Artinya variasi datanya adalah CLV>MPA>TCA

3.4 Analisis Deskriptif Variabel lain

cor(Data_Asuransi$Income,Data_Asuransi$CustomerLifetimeValue)
[1] 0.02436566

cor(Data_Asuransi$MonthsSinceLastClaim,Data_Asuransi$CustomerLifetimeValue)
[1] 0.01151668

cor(Data_Asuransi$MonthsSincePolicyInception,Data_Asuransi$CustomerLifetimeValue)
[1] 0.009418381

cor(Data_Asuransi$NumberofOpenComplaints,Data_Asuransi$CustomerLifetimeValue)
[1] -0.03634319

cor(Data_Asuransi$NumberofPolicies,Data_Asuransi$CustomerLifetimeValue)
[1] 0.02195536

Dari bebarapa tabel diatas nilai korelasi positif yang mendekati nol menunjukkan bahwa tidak ada, hubungan yang kuat antara Income, Months SinceLAstClaim, NumberofPolicies dan lain-lain dengan CLV.

  1. Statistik Inferensial Kandidat yang paling jelas untuk variabel dependen adalah CLV (Customerlifetimevalue). ini juga masuk akal dari Perspektif Bisnis karena saya ingin memahami apa yang berkontribusi untuk membuat pelanggan bernilai tinggi (Analisis Deskriptif) dan mungkin nanti memprediksi siapa yang akan menjadi pelanggan bernilai tinggi (Analisis Prediktif).

Nasabah yang telah mengambil Asuransi Dasar (Basic) untuk kendaraaanya lebih berharga dari pada pemegang polis (extended) asuransi perpanjangan atau (premium).

4.02 Pengaruh Edukasi terhadap Customer life tiem value (CLV)

pelanggan terdididk (dengan gelar sarjana atau setara) lebih berharga dari pada yang lain.

4.03 Pengaruh status pekerjaan pada nilai waktu hidup pelanggan (CLV)

Pelanggan yang berkerja lebih berharga dari pada yang lain dibadingkan dengan pelanggan Pensiunan, pengangguaran, atau penyandang cacat.

4.04 Pengaruh gender terhadap nilai waktu hidup pelanggan ClV

Gender tidak memiliki peran dalam menentukan nilai pelanggan. baik pria maupun wanita terlihat berharga.

4.05 Pengaruh lokasi terhadap nilai waktu hidup pelanggan (CLV)

Pelanggan pendesaan Kurang berharga dari pada pelanggan Perkotaan

4.06 Pengaruh Status Perkwinan terhadap Nilai waktu hidup pelanggan

Pelanggan yang sudah menikah membeli lebih banyak asuransi mobil dan menambah nilai bagi persuhaan.

4.07 Pengaruh jenis polis terhadap customer life time value (clv)

Pelanggan yang memiliki Polis Pribadi lebih berharga bagi perusahaan dari pada pemengang Polis Korporasi dan Asuransai Khusus.

4.08 Pengaruah Jenis penawaran perpanjangan terhadap nilai umur pelanggan (CLV)

Penawaran 1 dan Penawaran 2 menarik lebih banyak customer

4.09 Pengaruh saluran penjualan pada nilai waktu hidup pelanggan (CLV)

Call center tidak berkinerja baik dibadingkan dengan saluran lain di seluruh negeri (dalam hal customer bernilai tinggi)

4.10 Pengaruh Kelas kendaraan terhadap nilai waktu umur pelanggan (CLV)

Pelanggan yang memiliki mobil empat pintu dan SUV lebih berharga

4.11 Pengaruh ukuran kendaraan terhadap nilai umur pelanggan (CLV)

Customer yang memiliki kendaraan ukuran Menegah menambah nilai lebih, bagi peruasahaan Asuransi

4.12 Pengaruh Negara pada nilai Waktu hidup pelanggan (CLV)

Pelanggan California lebih berharga

4.13 Penagaruh kebijakan terhadap nilai waktu hidup customer(CLV)

Kebijakan L3 Pribadi menambah nilai bagi peruasahaan

  1. Analisis Regresi dengan variabel kontinu

  2. Varibel Dependen CLV Kontinu dan telah melihat bahwa variabel independen sebagian besar tergantung secara linier dengan algoritma Regresi Linier adalah yang terbaik untuk jenis Data ini

  3. Tujuan dari Regresi Liner adalah untuk menemukan garis yang paling cocok yang dapat secara akurat memprediksi output untuk variabel dependen kontinu.

  4. Menghapus variabel kualitatif karena Regresi Linier bekerja paling baik ketika variabel berisifat Kuantitatif/Numerik. perusahaan hanya memiliki variabel independen kontinu.

str(dataContinous)
'data.frame':   9134 obs. of  8 variables:
 $ CustomerLifetimeValue     : num  2764 6980 12887 7646 2814 ...
 $ Income                    : int  56274 0 48767 0 43836 62902 55350 0 14072 28812 ...
 $ MonthlyPremiumAuto        : int  69 94 108 106 73 69 67 101 71 93 ...
 $ MonthsSinceLastClaim      : int  32 13 18 18 12 14 0 0 13 17 ...
 $ MonthsSincePolicyInception: int  5 42 38 65 44 94 13 68 3 7 ...
 $ NumberofOpenComplaints    : int  0 0 0 0 0 0 0 0 0 0 ...
 $ NumberofPolicies          : int  1 8 2 7 1 2 9 4 2 8 ...
 $ TotalClaimAmount          : num  385 1131 566 530 138 ...
dim(dataContinous)
[1] 9134    8

Berikut langkah-langkah yang diikuti untuk membagun model regresi : 1. pisahkan data dalam set pelatihan dan pengujian . 2. Traning dataset adalah untuk membagun model dan testing data set untuk menguji model pada data yang tidak berlabel. 3. Bagun model regresi linier mengguankan semua variabel independen berkelanjuatan. 4. Analisis siginifikansi variabekl independen dan jika perlu jalankan kembali model.

Memisahkan Data dalam set pelatihan dan pengujian.

Traning set adalah untuk membagun model dan testing set untuk menguji model pada data yang tidak berlabe.

print(trainIndex)
        Resample1
   [1,]         1
   [2,]         2
   [3,]         4
   [4,]         5
   [5,]         6
   [6,]         7
   [7,]         9
   [8,]        10
   [9,]        11
  [10,]        12
  [11,]        13
  [12,]        14
  [13,]        15
  [14,]        16
  [15,]        18
  [16,]        19
  [17,]        20
  [18,]        21
  [19,]        22
  [20,]        23
  [21,]        24
  [22,]        25
  [23,]        27
  [24,]        28
  [25,]        29
  [26,]        30
  [27,]        31
  [28,]        32
  [29,]        34
  [30,]        36
  [31,]        39
  [32,]        40
  [33,]        41
  [34,]        43
  [35,]        44
  [36,]        45
  [37,]        46
  [38,]        47
  [39,]        48
  [40,]        49
  [41,]        50
  [42,]        51
  [43,]        52
  [44,]        53
  [45,]        54
  [46,]        55
  [47,]        58
  [48,]        59
  [49,]        60
  [50,]        62
  [51,]        64
  [52,]        65
  [53,]        67
  [54,]        68
  [55,]        70
  [56,]        71
  [57,]        72
  [58,]        73
  [59,]        74
  [60,]        75
  [61,]        76
  [62,]        77
  [63,]        79
  [64,]        80
  [65,]        81
  [66,]        82
  [67,]        83
  [68,]        84
  [69,]        86
  [70,]        87
  [71,]        88
  [72,]        89
  [73,]        90
  [74,]        91
  [75,]        92
  [76,]        94
  [77,]        95
  [78,]        96
  [79,]        98
  [80,]       100
  [81,]       101
  [82,]       102
  [83,]       103
  [84,]       104
  [85,]       105
  [86,]       106
  [87,]       107
  [88,]       109
  [89,]       110
  [90,]       111
  [91,]       112
  [92,]       113
  [93,]       114
  [94,]       115
  [95,]       116
  [96,]       117
  [97,]       119
  [98,]       120
  [99,]       121
 [100,]       122
 [101,]       123
 [102,]       124
 [103,]       125
 [104,]       127
 [105,]       128
 [106,]       129
 [107,]       130
 [108,]       131
 [109,]       133
 [110,]       134
 [111,]       135
 [112,]       138
 [113,]       139
 [114,]       140
 [115,]       141
 [116,]       142
 [117,]       143
 [118,]       144
 [119,]       145
 [120,]       146
 [121,]       148
 [122,]       149
 [123,]       152
 [124,]       153
 [125,]       155
 [126,]       156
 [127,]       157
 [128,]       158
 [129,]       161
 [130,]       162
 [131,]       163
 [132,]       164
 [133,]       165
 [134,]       166
 [135,]       167
 [136,]       168
 [137,]       169
 [138,]       170
 [139,]       172
 [140,]       174
 [141,]       175
 [142,]       176
 [143,]       177
 [144,]       178
 [145,]       179
 [146,]       180
 [147,]       181
 [148,]       182
 [149,]       183
 [150,]       184
 [151,]       185
 [152,]       187
 [153,]       188
 [154,]       190
 [155,]       191
 [156,]       192
 [157,]       193
 [158,]       194
 [159,]       195
 [160,]       196
 [161,]       197
 [162,]       199
 [163,]       200
 [164,]       202
 [165,]       207
 [166,]       208
 [167,]       210
 [168,]       211
 [169,]       212
 [170,]       214
 [171,]       217
 [172,]       218
 [173,]       219
 [174,]       220
 [175,]       222
 [176,]       224
 [177,]       227
 [178,]       228
 [179,]       229
 [180,]       230
 [181,]       232
 [182,]       233
 [183,]       234
 [184,]       235
 [185,]       236
 [186,]       237
 [187,]       239
 [188,]       241
 [189,]       242
 [190,]       243
 [191,]       244
 [192,]       245
 [193,]       246
 [194,]       247
 [195,]       248
 [196,]       249
 [197,]       251
 [198,]       252
 [199,]       254
 [200,]       255
 [201,]       256
 [202,]       257
 [203,]       258
 [204,]       259
 [205,]       260
 [206,]       261
 [207,]       262
 [208,]       264
 [209,]       265
 [210,]       267
 [211,]       268
 [212,]       270
 [213,]       271
 [214,]       272
 [215,]       273
 [216,]       274
 [217,]       275
 [218,]       276
 [219,]       277
 [220,]       279
 [221,]       280
 [222,]       281
 [223,]       282
 [224,]       283
 [225,]       284
 [226,]       285
 [227,]       287
 [228,]       288
 [229,]       289
 [230,]       291
 [231,]       292
 [232,]       294
 [233,]       295
 [234,]       296
 [235,]       297
 [236,]       298
 [237,]       300
 [238,]       301
 [239,]       302
 [240,]       303
 [241,]       304
 [242,]       305
 [243,]       306
 [244,]       307
 [245,]       308
 [246,]       309
 [247,]       310
 [248,]       311
 [249,]       312
 [250,]       313
 [251,]       314
 [252,]       316
 [253,]       317
 [254,]       318
 [255,]       319
 [256,]       320
 [257,]       321
 [258,]       323
 [259,]       325
 [260,]       326
 [261,]       327
 [262,]       328
 [263,]       329
 [264,]       330
 [265,]       332
 [266,]       333
 [267,]       334
 [268,]       337
 [269,]       338
 [270,]       341
 [271,]       342
 [272,]       344
 [273,]       345
 [274,]       346
 [275,]       348
 [276,]       349
 [277,]       352
 [278,]       353
 [279,]       354
 [280,]       355
 [281,]       356
 [282,]       357
 [283,]       358
 [284,]       359
 [285,]       360
 [286,]       362
 [287,]       364
 [288,]       365
 [289,]       366
 [290,]       367
 [291,]       368
 [292,]       369
 [293,]       370
 [294,]       371
 [295,]       372
 [296,]       373
 [297,]       374
 [298,]       375
 [299,]       378
 [300,]       381
 [301,]       382
 [302,]       383
 [303,]       385
 [304,]       389
 [305,]       390
 [306,]       391
 [307,]       392
 [308,]       393
 [309,]       394
 [310,]       395
 [311,]       397
 [312,]       398
 [313,]       399
 [314,]       400
 [315,]       405
 [316,]       406
 [317,]       407
 [318,]       409
 [319,]       410
 [320,]       412
 [321,]       413
 [322,]       415
 [323,]       416
 [324,]       417
 [325,]       419
 [326,]       420
 [327,]       421
 [328,]       423
 [329,]       424
 [330,]       425
 [331,]       426
 [332,]       429
 [333,]       430
 [334,]       431
 [335,]       433
 [336,]       435
 [337,]       436
 [338,]       438
 [339,]       439
 [340,]       440
 [341,]       441
 [342,]       446
 [343,]       447
 [344,]       450
 [345,]       451
 [346,]       452
 [347,]       453
 [348,]       454
 [349,]       455
 [350,]       456
 [351,]       457
 [352,]       458
 [353,]       459
 [354,]       460
 [355,]       461
 [356,]       462
 [357,]       463
 [358,]       464
 [359,]       465
 [360,]       467
 [361,]       468
 [362,]       469
 [363,]       470
 [364,]       471
 [365,]       472
 [366,]       474
 [367,]       475
 [368,]       476
 [369,]       477
 [370,]       479
 [371,]       480
 [372,]       481
 [373,]       482
 [374,]       484
 [375,]       485
 [376,]       486
 [377,]       487
 [378,]       488
 [379,]       489
 [380,]       490
 [381,]       491
 [382,]       493
 [383,]       494
 [384,]       495
 [385,]       496
 [386,]       497
 [387,]       498
 [388,]       499
 [389,]       500
 [390,]       502
 [391,]       504
 [392,]       505
 [393,]       506
 [394,]       508
 [395,]       509
 [396,]       511
 [397,]       514
 [398,]       515
 [399,]       516
 [400,]       517
 [401,]       520
 [402,]       521
 [403,]       522
 [404,]       523
 [405,]       525
 [406,]       526
 [407,]       529
 [408,]       530
 [409,]       533
 [410,]       534
 [411,]       536
 [412,]       537
 [413,]       539
 [414,]       540
 [415,]       541
 [416,]       543
 [417,]       544
 [418,]       545
 [419,]       546
 [420,]       547
 [421,]       548
 [422,]       549
 [423,]       550
 [424,]       551
 [425,]       552
 [426,]       554
 [427,]       555
 [428,]       556
 [429,]       558
 [430,]       559
 [431,]       561
 [432,]       562
 [433,]       563
 [434,]       564
 [435,]       565
 [436,]       566
 [437,]       567
 [438,]       568
 [439,]       569
 [440,]       570
 [441,]       571
 [442,]       572
 [443,]       573
 [444,]       574
 [445,]       575
 [446,]       576
 [447,]       577
 [448,]       578
 [449,]       579
 [450,]       581
 [451,]       583
 [452,]       584
 [453,]       586
 [454,]       587
 [455,]       588
 [456,]       589
 [457,]       592
 [458,]       593
 [459,]       594
 [460,]       595
 [461,]       596
 [462,]       597
 [463,]       599
 [464,]       600
 [465,]       601
 [466,]       602
 [467,]       603
 [468,]       604
 [469,]       605
 [470,]       606
 [471,]       608
 [472,]       611
 [473,]       613
 [474,]       614
 [475,]       615
 [476,]       616
 [477,]       617
 [478,]       618
 [479,]       619
 [480,]       620
 [481,]       621
 [482,]       622
 [483,]       623
 [484,]       624
 [485,]       625
 [486,]       626
 [487,]       627
 [488,]       628
 [489,]       630
 [490,]       631
 [491,]       634
 [492,]       635
 [493,]       636
 [494,]       641
 [495,]       642
 [496,]       643
 [497,]       644
 [498,]       646
 [499,]       647
 [500,]       648
 [501,]       649
 [502,]       650
 [503,]       651
 [504,]       652
 [505,]       653
 [506,]       654
 [507,]       655
 [508,]       657
 [509,]       658
 [510,]       659
 [511,]       660
 [512,]       661
 [513,]       662
 [514,]       663
 [515,]       665
 [516,]       666
 [517,]       667
 [518,]       668
 [519,]       669
 [520,]       670
 [521,]       671
 [522,]       672
 [523,]       673
 [524,]       677
 [525,]       678
 [526,]       679
 [527,]       680
 [528,]       682
 [529,]       683
 [530,]       684
 [531,]       686
 [532,]       690
 [533,]       692
 [534,]       693
 [535,]       694
 [536,]       695
 [537,]       696
 [538,]       697
 [539,]       698
 [540,]       699
 [541,]       700
 [542,]       701
 [543,]       702
 [544,]       703
 [545,]       704
 [546,]       705
 [547,]       706
 [548,]       707
 [549,]       708
 [550,]       709
 [551,]       710
 [552,]       712
 [553,]       713
 [554,]       714
 [555,]       716
 [556,]       717
 [557,]       718
 [558,]       719
 [559,]       720
 [560,]       721
 [561,]       722
 [562,]       723
 [563,]       724
 [564,]       725
 [565,]       726
 [566,]       727
 [567,]       728
 [568,]       729
 [569,]       730
 [570,]       732
 [571,]       735
 [572,]       736
 [573,]       737
 [574,]       738
 [575,]       739
 [576,]       740
 [577,]       741
 [578,]       742
 [579,]       743
 [580,]       744
 [581,]       745
 [582,]       746
 [583,]       747
 [584,]       748
 [585,]       749
 [586,]       750
 [587,]       751
 [588,]       753
 [589,]       754
 [590,]       756
 [591,]       757
 [592,]       758
 [593,]       759
 [594,]       760
 [595,]       761
 [596,]       762
 [597,]       763
 [598,]       764
 [599,]       766
 [600,]       767
 [601,]       768
 [602,]       769
 [603,]       770
 [604,]       771
 [605,]       772
 [606,]       773
 [607,]       775
 [608,]       776
 [609,]       778
 [610,]       779
 [611,]       780
 [612,]       782
 [613,]       784
 [614,]       785
 [615,]       787
 [616,]       788
 [617,]       789
 [618,]       790
 [619,]       791
 [620,]       792
 [621,]       793
 [622,]       794
 [623,]       795
 [624,]       796
 [625,]       798
 [626,]       799
 [627,]       800
 [628,]       802
 [629,]       805
 [630,]       806
 [631,]       807
 [632,]       808
 [633,]       809
 [634,]       812
 [635,]       813
 [636,]       815
 [637,]       816
 [638,]       817
 [639,]       819
 [640,]       820
 [641,]       821
 [642,]       822
 [643,]       823
 [644,]       824
 [645,]       826
 [646,]       829
 [647,]       830
 [648,]       831
 [649,]       832
 [650,]       833
 [651,]       834
 [652,]       835
 [653,]       836
 [654,]       838
 [655,]       839
 [656,]       840
 [657,]       841
 [658,]       842
 [659,]       843
 [660,]       844
 [661,]       845
 [662,]       846
 [663,]       847
 [664,]       848
 [665,]       849
 [666,]       850
 [667,]       851
 [668,]       852
 [669,]       853
 [670,]       854
 [671,]       855
 [672,]       857
 [673,]       859
 [674,]       860
 [675,]       861
 [676,]       862
 [677,]       863
 [678,]       864
 [679,]       865
 [680,]       866
 [681,]       867
 [682,]       869
 [683,]       870
 [684,]       871
 [685,]       872
 [686,]       873
 [687,]       874
 [688,]       875
 [689,]       876
 [690,]       877
 [691,]       878
 [692,]       880
 [693,]       881
 [694,]       882
 [695,]       883
 [696,]       884
 [697,]       885
 [698,]       886
 [699,]       887
 [700,]       888
 [701,]       889
 [702,]       890
 [703,]       891
 [704,]       893
 [705,]       894
 [706,]       895
 [707,]       896
 [708,]       897
 [709,]       898
 [710,]       899
 [711,]       902
 [712,]       903
 [713,]       904
 [714,]       905
 [715,]       907
 [716,]       908
 [717,]       909
 [718,]       910
 [719,]       911
 [720,]       912
 [721,]       914
 [722,]       915
 [723,]       916
 [724,]       918
 [725,]       920
 [726,]       921
 [727,]       922
 [728,]       924
 [729,]       925
 [730,]       926
 [731,]       927
 [732,]       929
 [733,]       931
 [734,]       933
 [735,]       934
 [736,]       935
 [737,]       936
 [738,]       937
 [739,]       940
 [740,]       941
 [741,]       942
 [742,]       943
 [743,]       944
 [744,]       945
 [745,]       946
 [746,]       948
 [747,]       950
 [748,]       951
 [749,]       952
 [750,]       953
 [751,]       955
 [752,]       956
 [753,]       957
 [754,]       959
 [755,]       960
 [756,]       962
 [757,]       963
 [758,]       965
 [759,]       966
 [760,]       967
 [761,]       968
 [762,]       969
 [763,]       970
 [764,]       973
 [765,]       974
 [766,]       975
 [767,]       977
 [768,]       979
 [769,]       981
 [770,]       982
 [771,]       983
 [772,]       985
 [773,]       987
 [774,]       989
 [775,]       991
 [776,]       992
 [777,]       993
 [778,]       997
 [779,]       998
 [780,]      1000
 [781,]      1001
 [782,]      1002
 [783,]      1003
 [784,]      1004
 [785,]      1005
 [786,]      1006
 [787,]      1007
 [788,]      1008
 [789,]      1009
 [790,]      1010
 [791,]      1011
 [792,]      1012
 [793,]      1013
 [794,]      1015
 [795,]      1016
 [796,]      1017
 [797,]      1019
 [798,]      1020
 [799,]      1021
 [800,]      1022
 [801,]      1024
 [802,]      1025
 [803,]      1026
 [804,]      1027
 [805,]      1028
 [806,]      1029
 [807,]      1031
 [808,]      1032
 [809,]      1033
 [810,]      1035
 [811,]      1036
 [812,]      1037
 [813,]      1038
 [814,]      1039
 [815,]      1043
 [816,]      1044
 [817,]      1045
 [818,]      1046
 [819,]      1048
 [820,]      1049
 [821,]      1050
 [822,]      1051
 [823,]      1052
 [824,]      1053
 [825,]      1055
 [826,]      1056
 [827,]      1057
 [828,]      1058
 [829,]      1060
 [830,]      1061
 [831,]      1062
 [832,]      1063
 [833,]      1064
 [834,]      1065
 [835,]      1066
 [836,]      1068
 [837,]      1069
 [838,]      1070
 [839,]      1071
 [840,]      1073
 [841,]      1074
 [842,]      1075
 [843,]      1076
 [844,]      1080
 [845,]      1082
 [846,]      1083
 [847,]      1085
 [848,]      1086
 [849,]      1087
 [850,]      1088
 [851,]      1089
 [852,]      1090
 [853,]      1091
 [854,]      1092
 [855,]      1093
 [856,]      1094
 [857,]      1095
 [858,]      1096
 [859,]      1097
 [860,]      1099
 [861,]      1100
 [862,]      1101
 [863,]      1102
 [864,]      1103
 [865,]      1104
 [866,]      1105
 [867,]      1106
 [868,]      1109
 [869,]      1110
 [870,]      1111
 [871,]      1112
 [872,]      1114
 [873,]      1115
 [874,]      1117
 [875,]      1119
 [876,]      1120
 [877,]      1121
 [878,]      1122
 [879,]      1123
 [880,]      1124
 [881,]      1125
 [882,]      1126
 [883,]      1127
 [884,]      1128
 [885,]      1129
 [886,]      1130
 [887,]      1131
 [888,]      1132
 [889,]      1133
 [890,]      1134
 [891,]      1135
 [892,]      1138
 [893,]      1139
 [894,]      1141
 [895,]      1142
 [896,]      1143
 [897,]      1145
 [898,]      1146
 [899,]      1147
 [900,]      1148
 [901,]      1149
 [902,]      1150
 [903,]      1151
 [904,]      1152
 [905,]      1153
 [906,]      1154
 [907,]      1155
 [908,]      1156
 [909,]      1157
 [910,]      1159
 [911,]      1160
 [912,]      1161
 [913,]      1162
 [914,]      1163
 [915,]      1165
 [916,]      1166
 [917,]      1167
 [918,]      1168
 [919,]      1169
 [920,]      1170
 [921,]      1171
 [922,]      1173
 [923,]      1174
 [924,]      1175
 [925,]      1176
 [926,]      1178
 [927,]      1179
 [928,]      1180
 [929,]      1181
 [930,]      1183
 [931,]      1185
 [932,]      1186
 [933,]      1187
 [934,]      1188
 [935,]      1189
 [936,]      1190
 [937,]      1191
 [938,]      1192
 [939,]      1193
 [940,]      1194
 [941,]      1195
 [942,]      1197
 [943,]      1198
 [944,]      1199
 [945,]      1201
 [946,]      1202
 [947,]      1203
 [948,]      1205
 [949,]      1206
 [950,]      1207
 [951,]      1209
 [952,]      1210
 [953,]      1211
 [954,]      1212
 [955,]      1213
 [956,]      1215
 [957,]      1216
 [958,]      1217
 [959,]      1218
 [960,]      1219
 [961,]      1220
 [962,]      1221
 [963,]      1222
 [964,]      1224
 [965,]      1226
 [966,]      1227
 [967,]      1228
 [968,]      1229
 [969,]      1230
 [970,]      1231
 [971,]      1232
 [972,]      1233
 [973,]      1234
 [974,]      1236
 [975,]      1237
 [976,]      1238
 [977,]      1239
 [978,]      1240
 [979,]      1241
 [980,]      1243
 [981,]      1244
 [982,]      1245
 [983,]      1246
 [984,]      1247
 [985,]      1248
 [986,]      1249
 [987,]      1250
 [988,]      1251
 [989,]      1252
 [990,]      1253
 [991,]      1255
 [992,]      1256
 [993,]      1257
 [994,]      1258
 [995,]      1261
 [996,]      1262
 [997,]      1263
 [998,]      1264
 [999,]      1265
[1000,]      1266
 [ reached getOption("max.print") -- omitted 6310 rows ]
dim(dataContinous)
[1] 9134    8
dim(insurncTrain)
[1] 7310    8
dim(insurncTest)
[1] 1824    8

Lineir Regression

summary(fit)

Call:
lm(formula = insurncTrain$CustomerLifetimeValue ~ ., data = insurncTrain)

Residuals:
   Min     1Q Median     3Q    Max 
-12147  -3414  -1151   1091  64423 

Coefficients:
                             Estimate Std. Error t value Pr(>|t|)
(Intercept)                 4.105e+02  3.068e+02   1.338  0.18093
Income                      3.902e-03  2.704e-03   1.443  0.14898
MonthlyPremiumAuto          8.139e+01  2.901e+00  28.055  < 2e-16
MonthsSinceLastClaim        1.534e+00  7.370e+00   0.208  0.83510
MonthsSincePolicyInception  1.927e-01  2.657e+00   0.073  0.94218
NumberofOpenComplaints     -2.428e+02  8.118e+01  -2.991  0.00279
NumberofPolicies            7.534e+01  3.081e+01   2.445  0.01450
TotalClaimAmount           -6.786e-01  3.651e-01  -1.858  0.06315
                              
(Intercept)                   
Income                        
MonthlyPremiumAuto         ***
MonthsSinceLastClaim          
MonthsSincePolicyInception    
NumberofOpenComplaints     ** 
NumberofPolicies           *  
TotalClaimAmount           .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6315 on 7302 degrees of freedom
Multiple R-squared:  0.154, Adjusted R-squared:  0.1532 
F-statistic: 189.9 on 7 and 7302 DF,  p-value: < 2.2e-16

5.1.1 Model Interpretasi

Hipostesis NULL - tidak aada varaiabel independen yang signifikan untuk CLV.

Hipotesis Alternatif - Setidaknya salah satu variabel independen signigikan dan dapat mempengaruhi CLV.

  1. p-value model lebih kecil dari 0,05, sehingga paling tidak salah satu variabel independen signifikan.

  2. p-value dari MonthlyPremiumAuto, NumberofOpenComplaints dan NumberoPoliceies Kurang dari 0,05 sehingga menolak hipotesis nol sehingga paling tidak salah satu dati variabel bebeas tersebut signifikan dan dapat mempengaruhi CLV.

  3. Namun R kuadrat sangat rendah, hanya 15,04% varians yang ditemukan di CLV yang dapat dijelaskan oleh Pendapatan, MPA, Bulan, sejak klaim terkahir , bulan sejak awal kebijakan, jumlah keluhan terbuka, jumlah kebijakan, TCA.

  4. Disesuaikan R kuadrat adalalh 0,1532 yang lebih kecil dari R kuadart.

  5. Kesalahan standart residual adalah 6315 yang sangat tinggi, sehingga clv yang sebenarya akan menyimpang dari garis regresi sebenarnya dengan rata-rata 6315. semakin kecil kesalahan standart, semakin sedikit penyebaran dan semakin besar kemungkinan rata-rata sampel mendekati rata-rata sampel. Dengan hal demikian kesalahan standar kecil adalah Hal yang baik.

  6. Kesenjangan antara R-kuadrat dan disesuaikan R-kuadrat hanya 1,5 % itu bagus. bisanya semakin banyak variabel tidak signifikan yang anda tambahkan ke dalam model, kesenjangan antara dua meningkat.

  7. F-statistik : 6,958 - Semakin rendah F-statistik, semakin mendekati model yang tidak signfikan. Jadi F-statistik rendah berarti model tidak terlalu signifikan.

5.1.2 Jalankan Ulang Model

Ada lebih dari satu variabel tidak signifikan dalam model, sehingga perlu menjalankan model lagi dengan hanya variabel signifikan.

summary(new_fit)

Call:
lm(formula = insurncTrain$CustomerLifetimeValue ~ MonthlyPremiumAuto + 
    NumberofOpenComplaints + NumberofPolicies + TotalClaimAmount, 
    data = insurncTrain)

Residuals:
   Min     1Q Median     3Q    Max 
-12234  -3399  -1160    975  64529 

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)             582.8902   237.0544   2.459  0.01396 *  
MonthlyPremiumAuto       82.5687     2.7839  29.659  < 2e-16 ***
NumberofOpenComplaints -243.3489    81.1708  -2.998  0.00273 ** 
NumberofPolicies         75.0238    30.8056   2.435  0.01490 *  
TotalClaimAmount         -0.9108     0.3275  -2.781  0.00543 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6315 on 7305 degrees of freedom
Multiple R-squared:  0.1538,    Adjusted R-squared:  0.1533 
F-statistic: 331.9 on 4 and 7305 DF,  p-value: < 2.2e-16

Persamaan garis Regresi yang diperkirakan dapat ditulis sebagai berikut :

CLV = 582,9 + 82,6 MPA - 243,4 noOC + 75,0 NoP - 0,9 TCA

Hipotesis Null - tidak ada variabel independen yang signifkan untuk CLV.

Hipotesis Alternatif - setidaknya salah satu variabel independen signifikan dan dapat mempengaruhi CLV.

  1. p-value dari MonthlyPremiumAuto, NumberofOpenComplaints, NumberofPolicies dan TotalClaimAmount kurang daru 0,05 sehingga berdampak signifikan terhadap signifikan terhadap CLV.

  2. koefisien Variabel Independen :-

i.Saya, premium BulananOtomasis: 86.4478. Peningkatan satu unit di Montly PremiumAotu akan meningkatkan CLV sebesar 86,4478

ii.Jumlah keluahan Terbuka : -199.3526, Peningkatan satu unit dalam NumberofOpenComplaints akan menurunkan CLV sebesar 199,3526

  1. Jumlah kebijakan :76.3861. Peningkatan satu unit dalam NumberofPolicies akan meningkatkan CLV sebesar 76,3861.

iV. TotalClaimAmount : -1,0445. satu unit peningkatan TotalClaimAmount akan berkurang 1,0445.

  1. sehingga nasabah dengan jumlah polis yang lebih banyak dengan premi bulanan yang tinggi akan menambah nilai lebih bagi perusahan.

  2. disisi lain , pengaduan terbuka customersdan jumlah klaim lebih banyak akan menurunkan CLV.

  3. R kuadrat sebesar 0,1656 yang berarti 16,56% variabel terikat dijelaskan oleh variabel bebas.

  4. disesuaikan R kuadrat adalah 0,1652 yang kurang dari R kuadrat.

Prediksi nilai CLV untuk semua observasi berdasarkan model regresi terhitung diatas.

#print predicted CLV.
print(predictedCLV[1:10])
       1        2        4        5        6        7        9 
6004.673 7914.017 9377.729 6559.620 6285.013 6497.298 6129.721 
      10       11       12 
8474.403 5900.701 9409.622 
#print actual CLV to compare it with above calculated predicted CLV.
print(insurncTrain$CustomerLifetimeValue[1:10])
 [1]  2763.519  6979.536  7645.862  2813.693  8256.298  5380.899
 [7] 24127.504  7388.178  4738.992  8197.197

Hitung kesalahan : Perbedaan antara CLV aktual dan CLV yang diprediksi.

print(residualsCLV[1:10])
         1          2          4          5          6          7 
-3241.1534  -934.4806 -1731.8671 -3745.9270  1971.2852 -1116.3989 
         9         10         11         12 
17997.7830 -1086.2253 -1161.7087 -1212.4247 

Vaidasi model pada dataset uji

print(predicatedTestData[1:10])
       3        8       17       26       33       35       37 
9134.421 8891.780 5776.296 6398.443 5894.267 6288.278 9881.976 
      38       42       56 
8299.000 6503.058 7923.880 

Perbadingan antara hasil aktual dan prediksi

Menghitung tingkat kesalahan atau MAPE

print(ErrorRate[1:10])
 [1] 117.28355  13.38886  22.65104 133.13206  23.87614  20.74744
 [7]  74.59447  14.70221  24.51383  14.79072

Menghitung rata-rata tingkat kesalahan

mean(InsuranceTrainData$ErrorRate, na.rm = TRUE)
[1] 60.43577

Rata-rata tingkat kesalahan model adalah 60,43% yang tinggi dan dapat mengatakan bahwa model tidak begitu baik.

#5.2 Analisis Residu

Periksa normalitas error/residual term (regresi linier mengasumsikan bahwa error terdistribusi normal.)

Hipotesis Null - Kesalahan terdistribusi normal.

Alt Hypothese - kesalahan tidak terdistribusi secara normal.

shapiro.test(residualsCLV[0:5000])

    Shapiro-Wilk normality test

data:  residualsCLV[0:5000]
W = 0.72712, p-value < 2.2e-16

p-value (0,00837) < 0,05, hipotesis null ditolak. sehingga kesalahan tidak terdistribusi normal.

Residual vs Fitted Plot

  1. Pengujian asumsi analisis regresi linier

Mendeteksi multikolinearitas- memeriksa korelasi antara variabel independen.

Dalam model hanay variabel independen yang harus ada yang tidadk berkorelasi satu sama lain. ini dilakukan dengan mengguanakan Matriks Korelasi.

cor(InsuranceTrainData) 
                           CustomerLifetimeValue       Income
CustomerLifetimeValue                1.000000000  0.017042971
Income                               0.017042971  1.000000000
MonthlyPremiumAuto                   0.388818334 -0.025274778
MonthsSinceLastClaim                 0.004029211 -0.034218309
MonthsSincePolicyInception           0.013049358  0.003722028
NumberofOpenComplaints              -0.037262886 -0.001833022
NumberofPolicies                     0.019765634 -0.010748363
TotalClaimAmount                     0.224206556 -0.357054382
predictedCLV                         0.392143821  0.008078440
residualsCLV                         0.919903921  0.015083162
ErrorRate                           -0.268667182 -0.066312890
                           MonthlyPremiumAuto MonthsSinceLastClaim
CustomerLifetimeValue            3.888183e-01          0.004029211
Income                          -2.527478e-02         -0.034218309
MonthlyPremiumAuto               1.000000e+00          0.006807046
MonthsSinceLastClaim             6.807046e-03          1.000000000
MonthsSincePolicyInception       3.080209e-02         -0.035410807
NumberofOpenComplaints          -1.353802e-02          0.010292630
NumberofPolicies                -1.589350e-02          0.016469080
TotalClaimAmount                 6.353086e-01          0.016286611
predictedCLV                     9.915197e-01          0.005820589
residualsCLV                     7.115007e-17          0.001898788
ErrorRate                       -3.022144e-02         -0.010800626
                           MonthsSincePolicyInception
CustomerLifetimeValue                    0.0130493583
Income                                   0.0037220278
MonthlyPremiumAuto                       0.0308020895
MonthsSinceLastClaim                    -0.0354108069
MonthsSincePolicyInception               1.0000000000
NumberofOpenComplaints                  -0.0015127524
NumberofPolicies                        -0.0067767897
TotalClaimAmount                         0.0048827332
predictedCLV                             0.0316623551
residualsCLV                             0.0006882908
ErrorRate                                0.0021461456
                           NumberofOpenComplaints NumberofPolicies
CustomerLifetimeValue               -3.726289e-02     1.976563e-02
Income                              -1.833022e-03    -1.074836e-02
MonthlyPremiumAuto                  -1.353802e-02    -1.589350e-02
MonthsSinceLastClaim                 1.029263e-02     1.646908e-02
MonthsSincePolicyInception          -1.512752e-03    -6.776790e-03
NumberofOpenComplaints               1.000000e+00     2.435735e-03
NumberofPolicies                     2.435735e-03     1.000000e+00
TotalClaimAmount                    -1.396386e-02    -5.132976e-03
predictedCLV                        -9.502352e-02     5.040404e-02
residualsCLV                         1.066747e-17     5.997015e-16
ErrorRate                           -2.816009e-02    -6.647980e-01
                           TotalClaimAmount  predictedCLV
CustomerLifetimeValue          2.242066e-01  3.921438e-01
Income                        -3.570544e-01  8.078440e-03
MonthlyPremiumAuto             6.353086e-01  9.915197e-01
MonthsSinceLastClaim           1.628661e-02  5.820589e-03
MonthsSincePolicyInception     4.882733e-03  3.166236e-02
NumberofOpenComplaints        -1.396386e-02 -9.502352e-02
NumberofPolicies              -5.132976e-03  5.040404e-02
TotalClaimAmount               1.000000e+00  5.717457e-01
predictedCLV                   5.717457e-01  1.000000e+00
residualsCLV                  -8.858221e-17  1.167018e-16
ErrorRate                     -7.090799e-03 -7.328688e-02
                            residualsCLV    ErrorRate
CustomerLifetimeValue       9.199039e-01 -0.268667182
Income                      1.508316e-02 -0.066312890
MonthlyPremiumAuto          7.115007e-17 -0.030221436
MonthsSinceLastClaim        1.898788e-03 -0.010800626
MonthsSincePolicyInception  6.882908e-04  0.002146146
NumberofOpenComplaints      1.066747e-17 -0.028160091
NumberofPolicies            5.997015e-16 -0.664798031
TotalClaimAmount           -8.858221e-17 -0.007090799
predictedCLV                1.167018e-16 -0.073286884
residualsCLV                1.000000e+00 -0.260818742
ErrorRate                  -2.608187e-01  1.000000000
# Variance Inflation Factors
car::vif(new_fit)
    MonthlyPremiumAuto NumberofOpenComplaints       NumberofPolicies 
              1.677284               1.000237               1.000299 
      TotalClaimAmount 
              1.676925 

Variance inflation factor (VIF adalah ukuran besarnya multikolinearitas dalam sekumpulan variabel regresi berganda.

jika terdapat korelasi yang tinggi antara dua variabel bebas(multikolinearitas tinggi), maka saya tidak akan dapat memisakahkan pengaruh masing-masing variabel bebas terhadap variabel terikat.

Karena multikolinearitas, saya tidak dapat mendefiniskan dampak lengkap dari hanya satu variabel bebas pada variabel terikat.

  1. Mendeteksi Homoskedastisitas- varians untuk semua pengamatan tidak sama.

Hipotesis Null - Homoscedasticity hadir di Residuals

Hipotesis alternatif - Heteroskedastistas hadir dalam residual

ini dilakukan dengan tes Breusch-Pagan.

bptest(new_fit)

p-value < 0,05, sehingga menolak bahwa kesalahan adalah homoskedastistas. jadi istilah error bersifat heteroskedastistas dan tidak memiliki varians konstan yang tidak baik untuk model.

  1. mendeteksi autokorelasi - memeriksa autokorelasi (memeriksa korelasi antar kesalahan)

Hal ini dilakauka Uji Durbin-watson jika-D-W Stastic sekitar 2, maka memiliki autokorelasi dalam model. dan menjau dari 2 berarti tidak ada autokeralasi.

dwt(new_fit)
 lag Autocorrelation D-W Statistic p-value
   1    -0.009401311      2.018765   0.446
 Alternative hypothesis: rho != 0

Disini D-W stastistic adalah 2.018765, sehingga terdapat autokorelasi pada model.

  1. mendeteksi MAPE- Rata-rata persentasi rugi kesalahan absolut

MAPE menghitung perbedaan persen absolut rata-rata antara dua vektor numerik

print(ErrorRate)
[1] 60.43577

rata-rata tingkat kesalahan model adalah 60,43 % yang tinggi dan dapat mengakatan bahwa mode tidak begitu baik

  1. Kurva Prediksi

Garis biru menunjukkan garis regresi dan sepatu titik merah pangamatan yang sebenarnya menyimpang dari garis regresi.

  1. Kurva Prediksi dengan MonthlyPremiumAuto
ggplot(InsuranceTrainData, aes(x = MonthlyPremiumAuto, y = CustomerLifetimeValue)) +
  geom_smooth(method = "lm", se = FALSE, color = "red") +     
  geom_segment(aes(xend = MonthlyPremiumAuto, yend = predictedCLV), alpha = .2) +    
  geom_point(aes(color = abs(residualsCLV), size = abs(residualsCLV))) + 
  scale_color_continuous(low = "green", high = "red") +             
  guides(color = FALSE, size = FALSE) +                              
  geom_point(aes(y = predictedCLV), shape = 1) +
  theme_bw()
Warning: `guides(<scale> = FALSE)` is deprecated. Please use `guides(<scale> = "none")` instead.
`geom_smooth()` using formula 'y ~ x'

ggplot(InsuranceTrainData,aes(x=MonthlyPremiumAuto,y=CustomerLifetimeValue))+
  geom_point(color="red")+
  stat_smooth(method="lm")+
  scale_x_continuous(name="Monthly Premium")+
  scale_y_continuous(name="Prediction of CLV")+
  ggtitle("Prediction Curve with Monthly Premium")
`geom_smooth()` using formula 'y ~ x'

  1. Kurva prediksi dengan TotalClaimAmount
ggplot(InsuranceTrainData,aes(x=TotalClaimAmount,y=CustomerLifetimeValue))+
  geom_point(color="red")+
  stat_smooth(method="lm")+
  scale_x_continuous(name="Total Claim Amount")+
  scale_y_continuous(name="Prediction of CLV")+
  ggtitle("Prediction Curve with Total Claim Amount")
`geom_smooth()` using formula 'y ~ x'

8 Ringkasan

  1. ada banyak pelanggan dengan CLV rendah, sangat sedikit pelanggan dengan CLV tinggi.

  2. Pelanggan yang telah mengambil asuransi dasar untuk kendaraanay lebih berharga dari pada pemegang polis asuranasi perpanjangan atau premi.

  3. Pelanggan perkerja terdidik (dengan gelar sarjana atau setara) lebih berhargar dari pada pelanggan pensiunan, penggaanguran, atau penyadang cacat.

  4. Gender tidak memiliki peran dalam menentukan nilai pelanggan. baik pria maupun wanita terlihat berharga.

  5. pelanggan perkawinan membeli lebih banyak asuaransi mobil dan menambah nilai lebih bagi persuhaan.

  6. Pelanggan pedesaan Kurang berharga dari pada pelanggan perkotaan.

  7. Nasabah yang memiliki polis pribadi lebih berharga bagi persuhaan dari pada pemegang polis korporasi dan asuransi khusus.

  8. Penawaran 1 dan penawaran 2 menarik lebih banyak pelanggan, call center tidak berkinerja baik dibadingkan dengan saluran lain di selurh negeri (dalam hal pelanggan bernilai tinggi).

  9. Call center tidak berkinerja baik dibadingkan dengan saluran lain di seluruh negeri (dalam hal pelanggan bernilai tinggi)

  10. Pelanggan yang memiliki kendaraan ukuran menengah, mobil empat pintu atau SUV lebih berharga.

  11. pelanggan california menamabh nilai lebih bagi perusahaan.

  12. kebijakan L3 pribadi menambah niali lebih bagi perusahaan.xii.

  13. pelanggan yang memiliki lebih banyak polis dengan premi bulanan yang tinggi akan menambah nilai lebih bagi perusahaan. Di sisi lain, pengaduan terbuka pelanggan dan jumlah klaim lebih banyak akan menurunkan CLV.

  14. Rekomedasi Bisnis

laporan ini mewakili analisi saya untuk persuhaan asuaransi xyz. menurut pendapat saya berdasarkan data yang diberikan, menargetkan pelanggan yang tepat dapat meningkatkan Nilai Seumur Hidup Pelanggan. Dua perubahan yang diusulakan adalah sebagai berikut:

  1. Perusahaan asuransi harus menargetkan pelanggan berpendidikan menikah bekerja dari daearah perkotaan yang memiliki kendaraan Mid Size untuk meningkatkan Customer LifetimeValue(CLV) Meningkat.

  2. Sebaik nya jika open complaints pelanggan tidak segeera diselasaikan dan jumlah klaim tidak berkurang, maka keduanya dapat menurunkan customer lifetimevalue (CLV)

  3. sekitar 38% nilai ditambahkan oleh agen ke perusahaan sedangkan call center hanya menamabhakan nilai 20 % . jadi agen harus lebih disukai dari pada pusat panggilan saat menjual asuransi mobil kepada pelanggan.

  4. Faktor-faktor yang menyebabkan peningkatan CLV adalah Premi bulanan dan jumlah Polis, namun pengaduan terbuka dan jumlah klaim dapat menurunkan CLV

---
title: "MENGANALISIS DATA PELANGGAN SEUMUR HIDUP ASURANSI MOBIL"
output: html_notebook
---

JAMALLUDIN

06 DESEMBER 2021


1. Objektif 

2. Pemahaman Data

3. Analisis Data eksplorasi (EDA)

  A. Analisa Deskriptif customerlifetimevalue
  
  B. Analisa Deskriptif Monthly Premium Aoutu (MPA)
  
  C. Analisa Deskriptif TotalClaimAmount(TCA)
  
  D. Analisa Deskriptif variabel lain
  
4. Statistik Inferensial 

  A. Pengaruh Pertanggungan Asuransi terhadap customer life time value
  (CLV)
  
  B. Pengaruh Edukasi terhadap customer life time value (CLV)
  
  C. Pengaruh Status Pekerjaan terhadap nilai waktu hidup pelanggan (CLV)
  
  D. Pengaruh Gender terhadap niali waktu hidup pelanggan (CLV)
  
  E. Pengaruh Lokasi Pada nilai waktu hidup Pelanggan (CLV)
  
  F. Pengaruh status perkawainan terhadap costumer life time value (CLV)
  
  G. Pengaruh jenis polis terhadap costumer life time value (CLV)
  
  H. Pengaruh jenis penawaran Perpanjangan nilai umur pelanggan (CLV)
  
  I. Pengaruh saluran penjualan terhadap nilai umur pelanggan (CLV)
  
  J. Pengaruh kelas kendaraan terhadap nilai waktu hidup pelanggan (CLV)
  
  K. Pengaruh ukuran kendaraan terhadao nilai waktu hidup pelanngan (CLV)
  
  L. Pengaruh Status terhadap nilai waktu hidup pelanggan (CLV)
  
  M. Pengaruh kebijakan terhadap customer life time value (CLV)
  
5. Analisa Regeris dengan variabel Kontinu 

  A. Interpretasi Model
  
  B. Analisis Residu 
  
6. Pengujian Asumsi analisis regresi Linier

  A. Mendeteksi mulitikolinearitas
  
  B. Mendeteksi Homoskedastistas
  
  C. Mendeteksi AutoKorelasi 
  
  D. Mendeteski MAPE
  
7. Kurva Prediksi 

  A. Ringkasan
  
  B. Rekomendasi Bisnis


1. Tujuan : Memprediksi Customer life-time value (CLV) untuk perusahan asuransi mobil.

Nilai seumur hidup pelanggan (CLV) mewakili jumlah total uang yang di harapkan pelanggan untuk dibelanjakan dalam bisnis, atau pada produk, selama masa hidup mereka. ini adalah angka yang penting untuk diketahui karena membantu persuahan membuat keputusan tentang berapa banyak uang yang akan diinvestasikan untuk mendapat pelanggan baru dan mempertahankan pelanggan yang sudah ada. 

```{r}
# packages yang digunakan 
library(tidyverse) 
library(car) 
library(zoo)
library(IMTest)
library(dplyr) 
library(stringr)
library(caret)
library(ggplot2) 
library(timeDate)
```


```{r}
# Reproduksi hasil yang sama selalu 
set.seed(123)
```

```{r}
# Memabaca di file data
Data_Asuransi <- read.csv("WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv")
head(Data_Asuransi) # melihat 6 data pertama 
```

```{r}
tail(Data_Asuransi) # meihat 6 data terakhir 
```

2. Pemahaman Data 

```{r}
# Menghapus Customer ID dari kumpulan data
Data_Asuransi <- Data_Asuransi[,-c(1)]
```

```{r}
# Membersihkan Data
colnames(Data_Asuransi)
colnames(Data_Asuransi) <- str_replace_all(colnames(Data_Asuransi),"[.]","")
colnames(Data_Asuransi)
```
Keterangan

"State" : Negara. 

"Customerlifetimevalue" : Pelanggan seumur hidup nilai

"Response" : respon

"Coverage" : cakupan

"Education" : Pendidikan

"EffectiveToDate" : tanggal berlaku

"EmploymentStatus" : Status Pekerjaan

"gender" : jenis kelamin, 

"Income" : Penghasilan

"LocationCode" : Lokasi.Kode

"MartialStatus" : status perkawinan

"MonthlyPremiumAuto" : Bulanan.Premium.Otomatis

"MonthsSinceLastClaim"  : Bulan sejak tekakhir klaim

"MonthsSincePolicyInception" : Bulan sejak kebijakan inception

"NumberofOpenComplaints" : Jumlah pengaduan terbuka

"NumberofPolicies" : jumlah kebijakan

"PolicyType" : Jenis kebijakan 

"Policy" : Kebijakan 

"RenewOfferType" : Perbarui jenis penawarn 

"SalesChannel" : Saluran penjualan

"TotalClaimAmount" : Total jumlah klaim 

"VehicleClass" : Kelas kendaraan

"VehicleSize" : Ukuran kendaran.               

```{r}
# Pemahaman Data
dim(Data_Asuransi)
```

```{r}
str(Data_Asuransi)
```
Dataset yand disediakan memiliki banyak detail : 

1. ada 9134 Pengamatan 23 variabel 

2. ada camapuran data tye kategoris dan berkelanjuatan

3. dependent variabel adalah customer life time value karena harus memprediksi CLV

4. variabel independen adalah :
"Customer" Pelanggan

"StateCustomerlifetimevalue" : Nilai Negara Pelanggan seumur hidup

"Response" : respon

 "Coverage" : cakupan
 
 "Education" : Pendidikan
 
 "EffectiveToDate" : tanggal berlaku
 
 "EmploymentStatus" : Status Pekerjaan
 
 "gender" : jenis kelamin
 
 "Income" : Penghasilan
 
 "LocationCode" : Lokasi.Kode
 
 "MartialStatus" : stautus perkawinan
 
 "MonthlyPremiumAuto" : Bulanan.Premium.Otomatis
 
 "MonthsSinceLastClaim"  : Bulan sejak tekakhir klaim
 
 "MonthsSincePolicyInception" : Bulan sejak kebijakan 
 
 "NumberofOpenComplaints" : Jumlah pengaduan terbuka
 
 "NumberofPoliciesPolicyType" :  Jumlah Jenis kebijakan 
 
 "Policy" : Kebijakan
 
 "RenewOfferType" :Jenis penwaran pembaruan 
 
 "SalesChannel" : Saluran penjualan
 
 "TotalClaimAmountVehicleClass" : Jumlah klaim  Kelas kendaraan
 
 "VehicleSize" : Ukuran kendaran.

5. Variabel independen lanjutan adalah : 
"Customerlifetimevalue" : Pelanggan niali seumur hidup

"Income" : pendapatan

"MonhtlyPremiumAoutu" :  Premium bulanan otomatis

"MonthsSinceLastClaim" : Bulan sejak klaim terkahir

"MonthSincePolicyInception" : Bulan sejak awal kebijakan

"Numberofopencomplaints" : Jumlah keluhan terbuka

" Numberofpolicies" : Jumlah kebijakan

"TotalClaimAmount" : jumlah total klaim.

6. Tidak ada nilai nol, jika tidak ada tindakan lebih lanjut yang diperlukan untuk mengganti nilai yang hilang atau nol.

7. Kolom "Customers" adalah nomoer seri sehingga tiadak singnifiakan untuk analisis dan di hapus dari dataset.

```{r}
# Memreriksa nilai nol di setiap kolom dan menyimpan nilai dalam data frame NA_COUNTS.
na_counts <- sapply(Data_Asuransi, function(y) sum(is.na(y)))
na_counts <- data.frame(na_counts)
na_counts
```

keterangan data diatas adalah tidak ada nilai nol, jadi tidak ada tindakan lebih lanjut yang diperlukan untuk mengganti nilai yang hilang atau nol.

```{r}
# Nilai unik dari setiap kolom 
sapply(Data_Asuransi, data.table::uniqueN)
```

3. Analisis Data Eksplorasi (EDA)

Di bagain ini ulun melakukan penyelidikan awal pada data_asuransi untuk menemukan pola dan memeriksa asumsi dengan bantuan  statistik ringkasan dan repsensetasi grafis.

3.1 Analisis Deskriptif Customerlifetimevalue

```{r}
range(Data_Asuransi$CustomerLifetimeValue)
```
keterangan data diatas adalah  nilai maksimum CLV 83325.381 dan nilai minimunya CLV 1898.008

```{r}
mean(Data_Asuransi$CustomerLifetimeValue)
```
keterangan data diatas adalah rata-rata clv 8005 dan median nya 5780

```{r}
sd(Data_Asuransi$CustomerLifetimeValue)
```

keterangan data diatas adalah standart deviasi 6870.968

```{r}
summary(Data_Asuransi$CustomerLifetimeValue)
```

```{r}
var(Data_Asuransi$CustomerLifetimeValue)
```

keterangan data diatas adalah nilai variansi dalam CLV 47210196

```{r}
skewness(Data_Asuransi$CustomerLifetimeValue)
```
keterangan data diatas adalah nilai kemiringanya 3.031284 CLV miring positif dan nili terkonsentrasi di sebelah kiri 

```{r}
kurtosis(Data_Asuransi$CustomerLifetimeValue)
```
keterangan data diatas adalah nilai rata-rata, namun semua nilai ekstrem berada di sebelah kanan. jadi niai Kortosis adalah 13.81163, karena kortosis >3, berati distribusi memiliki ekor yang lebih tebal dari biasanya 
```{r}
#hist(Data_Asuransi$CustomerLifetimeValue, col = "#FF5733", xlab = "CLV")
hist(Data_Asuransi$CustomerLifetimeValue, breaks = (max(Data_Asuransi$CustomerLifetimeValue) - min(Data_Asuransi$CustomerLifetimeValue))/100, freq = FALSE, main = "CLV Histogram", xlab = "CLV", border = "#FF5733")
```

Keterangan HISTOGRAM diatas adalah distrubsi dan memiliki lebih banyak outlier (nilai ekstrim). ini berarti bahwa distribusi clv miring postif(seperti yang diharapkan) dan sangat Leptokrutik. 
Hasil ini menunjukkan distribusi yang sangat miring dengan ekor yang sangat besar, ada banyak customers(pelanggan) dengan CLV rendah. 
sangat sedikit pelanggan CLV tinngi, ini dapat dipahami secara visual
mengguanakan histogram.

3.2 Analsis Deskriptif Monthly Premium Auto(MPA)

```{r}
range(Data_Asuransi$MonthlyPremiumAuto)
```
Keterangan data diatas nilai makmimum MPA 298 dan nilai minimum MPA 61

```{r}
mean(Data_Asuransi$MonthlyPremiumAuto)
```
Keterangan data diatas nilai rata KKL adalah 93.21929 dan median nya adalah 84.00

```{r}
sd(Data_Asuransi$MonthlyPremiumAuto)
```
keterangan data diatas adalah Standar Deviasi 34.40797

```{r}
summary(Data_Asuransi$MonthlyPremiumAuto)
```

```{r}
var(Data_Asuransi$MonthlyPremiumAuto)
```
 keterangan data data diatas adalah nilai variansi dalam KKL adalah 1183.908
```{r}
skewness(Data_Asuransi$MonthlyPremiumAuto)
```
Nilai kemiringanya adalah 2.122849 MPA conong postif dan sebagian besar nilai terkonsentrasi di sebelah kiri.

```{r}
kurtosis(Data_Asuransi$MonthlyPremiumAuto)
```
Nilai rata-rata, namun semua nilai ekstrim berada di sebelah kanan nilai rata Kurtosis adalah 6.187546. karena Kurtosis >3, bearti distribusinya memiliki ekor yang lebih tebal dari biasanya.
```{r}
cor(Data_Asuransi$MonthlyPremiumAuto,Data_Asuransi$CustomerLifetimeValue)
```
distribusi dan memiliki lebih banyak outlier(niali ekstrim) ada korlasi positif 39,62 % KKL degan CLV. Dari Plot pencar, jelas.

```{r}
#hist(InsuranceData$MonthlyPremiumAuto, col = "#00AFBB", xlab = "Monthly Premium Auto")
hist(Data_Asuransi$MonthlyPremiumAuto, breaks = (max(Data_Asuransi$MonthlyPremiumAuto) - min(Data_Asuransi$MonthlyPremiumAuto))/1, freq = FALSE, main = "Monthly Premium Histogram", xlab = "Monthly Premium", border = "#00AFBB")

```

terlihat bahwa pada KKL, CLV juga meningkat.7.

```{r}
plot(x=Data_Asuransi$MonthlyPremiumAuto, y=Data_Asuransi$CustomerLifetimeValue, col="#00AFBB", cex=1, xlab="MonthlyPremiumAuto", ylab="CustomerLifetimeValue",
       main="Scatterplot of MPA vs CLV")
```

Premi bulanan mengikuti tren yang mirip dengan clv meskipun distribusinya tidak miring atau sepanjang ekor seperti CLV. Ini dapat dilhihat secara histogram.

 3.3 Analisis Deskriptif TotalClaimAMount(TCA)

```{r}
range(Data_Asuransi$TotalClaimAmount)
```
TCA maksimum adalah 0,099007 dan TCA minimum adalah 2893,239678.

```{r}
mean(Data_Asuransi$TotalClaimAmount)
```
Rata-rata TCA adalah 434.0888 dan Median 383.945

```{r}
sd(Data_Asuransi$TotalClaimAmount)
```
standart deviasi adalah 290.5001

```{r}
summary(Data_Asuransi$TotalClaimAmount)
```

```{r}
var(Data_Asuransi$TotalClaimAmount)
```
Varians dalam TCA adalah 84390.3

```{r}
skewness(Data_Asuransi$TotalClaimAmount)
```
Kemeringanya adalah 1.714403 TCA miring positif dan sebagian besar nilai terkonsentrasi di sebelah kiri 

```{r}
kurtosis(Data_Asuransi$TotalClaimAmount) 
```

nilai rata-rata, namun semua nilai ekstirm berada di sebelah kanan nilai rata-rata kortusis adalah 5,973506. karena kurtosis > 3, berarti distribusi TCA memiliki ekor yang lebih tebal dari bisanya.

```{r}
cor(Data_Asuransi$TotalClaimAmount,Data_Asuransi$CustomerLifetimeValue)
```
distribusi dan memiliki lebih banyak outlier(nilai ekstrim), terdapat korealsi positif sebesar 22,65% TCA dengan CLV dari plot pencar jelas.

```{r}
#hist(InsuranceData$TotalClaimAmount, col = "#FC4E07", xlab = "Total Claim Amount")
hist(Data_Asuransi$TotalClaimAmount, breaks = (max(Data_Asuransi$TotalClaimAmount) - min(Data_Asuransi$TotalClaimAmount))/10, freq = FALSE, main = "Total Claim Amount Histogram", xlab = "Total Claim Amount", border = "#FC4E07")
```

terlihat bahwa pada TCA, CLV juga meningkat. 

```{r}
#hist(InsuranceData$TotalClaimAmount, col = "#FC4E07", xlab = "Total Claim Amount")
hist(Data_Asuransi$TotalClaimAmount, breaks = (max(Data_Asuransi$TotalClaimAmount) - min(Data_Asuransi$TotalClaimAmount))/10, freq = FALSE, main = "Total Claim Amount Histogram", xlab = "Total Claim Amount", border = "#FC4E07")
```

Jumlah total klaim juga mengikuti tren yang mirip dengan clv dan mpa meskipun distribusinya tidak atau berekor panjang seperti KKL. ini dapat dilihat secara visual histogram.

```{r}
plot(x=Data_Asuransi$TotalClaimAmount, y=Data_Asuransi$CustomerLifetimeValue, col="#FC4E07", cex=1, xlab="TotalClaimAmount", ylab="CustomerLifetimeValue",
     main="Scatterplot of TCA vs CLV")
```

Artinya variasi datanya adalah CLV>MPA>TCA

 3.4 Analisis Deskriptif Variabel lain 

```{r}
cor(Data_Asuransi$Income,Data_Asuransi$CustomerLifetimeValue)
```

```{r}
plot(x=Data_Asuransi$Income, y=Data_Asuransi$CustomerLifetimeValue, col="#FC4E07", cex=1, xlab="Income", ylab="CustomerLifetimeValue",main="Scatterplot of Income vs CLV")
```

```{r}
cor(Data_Asuransi$MonthsSinceLastClaim,Data_Asuransi$CustomerLifetimeValue)

```


```{r}
plot(x=Data_Asuransi$MonthsSinceLastClaim, y=Data_Asuransi$CustomerLifetimeValue, col="#FC4E07", cex=1, xlab="MonthsSinceLastClaim", ylab="CustomerLifetimeValue",main="Scatterplot of MonthsSinceLastClaim vs CLV")
```

```{r}
cor(Data_Asuransi$MonthsSincePolicyInception,Data_Asuransi$CustomerLifetimeValue)
```

```{r}
plot(x=Data_Asuransi$MonthsSincePolicyInception, y=Data_Asuransi$CustomerLifetimeValue, col="#FC4E07", cex=1, xlab="MonthsSinceLastClaim", ylab="CustomerLifetimeValue",main="Scatterplot of MonthsSincePolicyInception vs CLV")
```


```{r}
cor(Data_Asuransi$NumberofOpenComplaints,Data_Asuransi$CustomerLifetimeValue)
```
 
```{r}
plot(x=Data_Asuransi$NumberofOpenComplaints, y=Data_Asuransi$CustomerLifetimeValue, col="#FC4E07", cex=1, xlab="NumberofOpenComplaints", ylab="CustomerLifetimeValue",main="Scatterplot of NumberofOpenComplaints vs CLV")
```
 
```{r}
cor(Data_Asuransi$NumberofPolicies,Data_Asuransi$CustomerLifetimeValue)
```
 

```{r}
plot(x=Data_Asuransi$NumberofPolicies, y=Data_Asuransi$CustomerLifetimeValue, col="#FC4E07", cex=1, xlab="NumberofPolicies", ylab="CustomerLifetimeValue",main="Scatterplot of NumberofPolicies vs CLV")
```

Dari bebarapa tabel diatas nilai korelasi positif yang mendekati nol menunjukkan bahwa tidak ada, hubungan yang kuat antara Income, Months SinceLAstClaim, NumberofPolicies dan lain-lain dengan CLV.

 4. Statistik Inferensial 
Kandidat yang paling jelas untuk variabel dependen adalah CLV (Customerlifetimevalue). ini juga masuk akal dari Perspektif Bisnis karena saya ingin memahami apa yang berkontribusi untuk membuat pelanggan bernilai tinggi (Analisis Deskriptif) dan mungkin nanti memprediksi siapa yang akan menjadi pelanggan bernilai tinggi (Analisis Prediktif).

```{r}
ggplot(Data_Asuransi, aes(x=Coverage, y= CustomerLifetimeValue, fill = Coverage)) + 
  geom_boxplot() + 
  labs(x="Coverage",y = "Customer Life Time Value", fill="Coverage") + 
  ggtitle("Visualization of CLV wrt Coverage")
```

```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(Coverage = Data_Asuransi$Coverage), FUN = sum)
aggData
```

```{r}
ggplot(data = aggData, aes(x = Coverage, y = prop.table(stat(aggData$x)), fill = Coverage, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'Coverage', y = 'CLV in Percentage', fill = 'Coverage') + 
  ggtitle("CLV Distribution by Coverage")
```

Nasabah yang telah mengambil Asuransi Dasar (Basic) untuk kendaraaanya lebih berharga dari pada pemegang polis (extended) asuransi perpanjangan atau (premium).

4.02 Pengaruh Edukasi terhadap Customer life tiem value (CLV)

```{r}
ggplot(Data_Asuransi, aes(x=Education, y= CustomerLifetimeValue, fill = Education)) + 
  geom_boxplot() + 
  labs(x="Education",y = "Customer Life Time Value", fill="Education") + 
  ggtitle("Visualization of CLV wrt Education")
```

```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(Education = Data_Asuransi$Education), FUN = sum)

ggplot(data = aggData, aes(x = Education, y = prop.table(stat(aggData$x)), fill = Education, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'Education', y = 'CLV in Percentage', fill = 'Education') + 
  ggtitle("CLV Distribution by Education")
```

pelanggan terdididk (dengan gelar sarjana atau setara) lebih berharga dari pada yang lain.

4.03 Pengaruh status pekerjaan pada nilai waktu hidup pelanggan (CLV)

```{r}
ggplot(Data_Asuransi, aes(x=EmploymentStatus, y= CustomerLifetimeValue, fill = EmploymentStatus)) + 
  geom_boxplot() + 
  labs(x="Employment Status",y = "Customer Life Time Value", fill="Employment Status") + 
  ggtitle("Visualization of CLV wrt Employment Status")
```

```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(EmploymentStatus = Data_Asuransi$EmploymentStatus), FUN = sum)

ggplot(data = aggData, aes(x = EmploymentStatus, y = prop.table(stat(aggData$x)), fill = EmploymentStatus, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'EmploymentStatus', y = 'CLV in Percentage', fill = 'EmploymentStatus') + 
  ggtitle("CLV Distribution by EmploymentStatus")
```

Pelanggan yang berkerja lebih berharga dari pada yang lain dibadingkan dengan pelanggan Pensiunan, pengangguaran, atau penyandang cacat.

4.04 Pengaruh gender terhadap nilai waktu hidup pelanggan ClV

```{r}
ggplot(Data_Asuransi, aes(x=Gender, y= CustomerLifetimeValue, fill = Gender)) + 
  geom_boxplot() + 
  labs(x="Gender",y = "Customer Life Time Value", fill="Gender") + 
  ggtitle("Visualization of CLV wrt Gender")
```

```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(Gender = Data_Asuransi$Gender), FUN = sum)

ggplot(data = aggData, aes(x = Gender, y = prop.table(stat(aggData$x)), fill = Gender, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'Gender', y = 'CLV in Percentage', fill = 'Gender') + 
  ggtitle("CLV Distribution by Gender")

```

Gender tidak memiliki peran dalam menentukan nilai pelanggan. baik pria maupun wanita terlihat berharga.

4.05 Pengaruh lokasi terhadap nilai waktu hidup pelanggan (CLV)

```{r}
ggplot(Data_Asuransi, aes(x=LocationCode, y= CustomerLifetimeValue, fill = LocationCode)) + 
  geom_boxplot() + 
  labs(x="Location",y = "Customer Life Time Value", fill="Location") + 
  ggtitle("Visualization of CLV wrt Location")

```


```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(LocationCode = Data_Asuransi$LocationCode), FUN = sum)

ggplot(data = aggData, aes(x = LocationCode, y = prop.table(stat(aggData$x)), fill = LocationCode, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'LocationCode', y = 'CLV in Percentage', fill = 'LocationCode') + 
  ggtitle("CLV Distribution by LocationCode")
```

Pelanggan pendesaan Kurang berharga dari pada pelanggan Perkotaan

4.06 Pengaruh Status Perkwinan terhadap Nilai waktu hidup pelanggan 

```{r}
ggplot(Data_Asuransi, aes(x=MaritalStatus, y= CustomerLifetimeValue, fill = MaritalStatus)) + 
  geom_boxplot() + 
  labs(x="Marital Status",y = "Customer Life Time Value", fill="Marital Status") + 
  ggtitle("Visualization of CLV wrt Marital Status")
```

```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(MaritalStatus = Data_Asuransi$MaritalStatus), FUN = sum)

ggplot(data = aggData, aes(x = MaritalStatus, y = prop.table(stat(aggData$x)), fill = MaritalStatus, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'MaritalStatus', y = 'CLV in Percentage', fill = 'MaritalStatus') + 
  ggtitle("CLV Distribution by MaritalStatus")
```

Pelanggan yang sudah menikah membeli lebih banyak asuransi mobil dan menambah nilai bagi persuhaan.

4.07 Pengaruh jenis polis terhadap customer life time value (clv)

```{r}
ggplot(Data_Asuransi, aes(x=PolicyType, y= CustomerLifetimeValue, fill = PolicyType)) + 
  geom_boxplot() + 
  labs(x="Policy Type",y = "Customer Life Time Value", fill="Policy Type") + 
  ggtitle("Visualization of CLV wrt Policy Type")
```

```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(PolicyType = Data_Asuransi$PolicyType), FUN = sum)

ggplot(data = aggData, aes(x = PolicyType, y = prop.table(stat(aggData$x)), fill = PolicyType, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'PolicyType', y = 'CLV in Percentage', fill = 'PolicyType') + 
  ggtitle("CLV Distribution by PolicyType")
```

Pelanggan yang memiliki Polis Pribadi lebih berharga bagi perusahaan dari pada pemengang Polis Korporasi dan Asuransai Khusus.

 4.08 Pengaruah Jenis penawaran perpanjangan terhadap nilai umur pelanggan (CLV)

```{r}
ggplot(Data_Asuransi, aes(x=RenewOfferType, y= CustomerLifetimeValue, fill = RenewOfferType)) + 
  geom_boxplot() + 
  labs(x="Renew Offer Type",y = "Customer Life Time Value", fill="Renew Offer Type") + 
  ggtitle("Visualization of CLV wrt Renew Offer Type")
```

```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(RenewOfferType = Data_Asuransi$RenewOfferType), FUN = sum)

ggplot(data = aggData, aes(x = RenewOfferType, y = prop.table(stat(aggData$x)), fill = RenewOfferType, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'RenewOfferType', y = 'CLV in Percentage', fill = 'RenewOfferType') + 
  ggtitle("CLV Distribution by RenewOfferType")
```

Penawaran 1 dan Penawaran 2 menarik lebih banyak customer

 4.09 Pengaruh saluran penjualan pada nilai waktu hidup pelanggan (CLV)

```{r}
ggplot(Data_Asuransi, aes(x=SalesChannel, y= CustomerLifetimeValue, fill = SalesChannel)) + 
  geom_boxplot() + 
  labs(x="Sales Channel",y = "Customer Life Time Value", fill="Sales Channel") + 
  ggtitle("Visualization of CLV wrt Sales Channel")

```

```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(SalesChannel = Data_Asuransi$SalesChannel), FUN = sum)

ggplot(data = aggData, aes(x = SalesChannel, y = prop.table(stat(aggData$x)), fill = SalesChannel, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'SalesChannel', y = 'CLV in Percentage', fill = 'SalesChannel') + 
  ggtitle("CLV Distribution by SalesChannel")
```

Call center tidak berkinerja baik dibadingkan dengan saluran lain di seluruh negeri (dalam hal customer bernilai tinggi)

 4.10 Pengaruh Kelas kendaraan terhadap nilai waktu umur pelanggan (CLV)

```{r}
ggplot(Data_Asuransi, aes(x=VehicleClass, y= CustomerLifetimeValue, fill = VehicleClass)) + 
  geom_boxplot() + 
  labs(x="Vehicle Class",y = "Customer Life Time Value", fill="Vehicle Class") + 
  ggtitle("Visualization of CLV wrt Vehicle Class")
```

```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(VehicleClass = Data_Asuransi$VehicleClass), FUN = sum)

ggplot(data = aggData, aes(x = VehicleClass, y = prop.table(stat(aggData$x)), fill = VehicleClass, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'VehicleClass', y = 'CLV in Percentage', fill = 'VehicleClass') + 
  ggtitle("CLV Distribution by VehicleClass")
```

Pelanggan yang memiliki mobil empat pintu dan SUV lebih berharga


 4.11 Pengaruh ukuran kendaraan terhadap nilai umur pelanggan (CLV)

```{r}
ggplot(Data_Asuransi, aes(x=VehicleSize, y= CustomerLifetimeValue, fill = VehicleSize)) + 
  geom_boxplot() + 
  labs(x="Vehicle Size",y = "Customer Life Time Value", fill="Vehicle Size") + 
  ggtitle("Visualization of CLV wrt Vehicle Size")
```

```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(VehicleSize = Data_Asuransi$VehicleSize), FUN = sum)

ggplot(data = aggData, aes(x = VehicleSize, y = prop.table(stat(aggData$x)), fill = VehicleSize, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'VehicleSize', y = 'CLV in Percentage', fill = 'VehicleSize') + 
  ggtitle("CLV Distribution by VehicleSize")
```

Customer yang memiliki kendaraan ukuran Menegah menambah nilai lebih, bagi peruasahaan Asuransi

# 4.12 Pengaruh Negara pada nilai Waktu hidup pelanggan (CLV)

```{r}
ggplot(Data_Asuransi, aes(x=State, y= CustomerLifetimeValue, fill = State)) + 
  geom_boxplot() + 
  labs(x="State",y = "Customer Life Time Value", fill="State") + 
  ggtitle("Visualization of CLV wrt State")

```

```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(State = Data_Asuransi$State), FUN = sum)

ggplot(data = aggData, aes(x = State, y = prop.table(stat(aggData$x)), fill = State, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'State', y = 'CLV in Percentage', fill = 'State') + 
  ggtitle("CLV Distribution by State")
```

Pelanggan California lebih berharga

 4.13 Penagaruh kebijakan terhadap nilai waktu hidup customer(CLV)

```{r}
ggplot(Data_Asuransi, aes(x=Policy, y= CustomerLifetimeValue, fill = Policy)) + 
  geom_boxplot() + 
  labs(x="Policy",y = "Customer Life Time Value", fill="State") + 
  ggtitle("Visualization of CLV wrt Policy")
```

```{r}
aggData <- aggregate(x = Data_Asuransi$CustomerLifetimeValue, by=list(Policy = Data_Asuransi$Policy), FUN = sum)

ggplot(data = aggData, aes(x = Policy, y = prop.table(stat(aggData$x)), fill = Policy, label = scales::percent(prop.table(stat(aggData$x))))) +
  geom_bar(stat="identity", position = "dodge") + 
  geom_text(stat = 'identity', position = position_dodge(.9),  vjust = -0.5, size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  labs(x = 'Policy', y = 'CLV in Percentage', fill = 'Policy') + 
  ggtitle("CLV Distribution by Policy")
```

Kebijakan L3 Pribadi menambah nilai bagi peruasahaan

 5. Analisis Regresi dengan variabel kontinu

1. Varibel Dependen CLV Kontinu dan telah melihat bahwa variabel independen sebagian besar tergantung secara linier dengan algoritma Regresi Linier adalah yang terbaik untuk jenis Data ini 

2. Tujuan dari Regresi Liner adalah untuk menemukan garis yang paling cocok yang dapat secara akurat memprediksi output untuk variabel dependen kontinu.

3. Menghapus variabel kualitatif karena Regresi Linier bekerja paling baik ketika variabel berisifat Kuantitatif/Numerik. perusahaan hanya memiliki variabel independen kontinu.

```{r}
dataContinous <- dplyr::select_if(Data_Asuransi, ~!is.factor(.))
dataContinous <- dataContinous[,-c(1, 3, 4, 5, 6, 7, 8, 10, 11, 17, 18, 19, 20, 22, 23)]
str(dataContinous)
```

```{r}
dim(dataContinous)
```

Berikut langkah-langkah yang diikuti untuk membagun model regresi :
1. pisahkan data dalam set pelatihan dan pengujian . 
2. Traning dataset adalah untuk membagun model dan testing data set untuk menguji model pada data yang tidak berlabel.
3. Bagun model regresi linier mengguankan semua variabel independen berkelanjuatan. 
4. Analisis siginifikansi variabekl independen dan jika perlu jalankan kembali model.

 Memisahkan Data dalam set pelatihan dan pengujian.

Traning set adalah untuk membagun model dan testing set untuk menguji model pada data yang tidak berlabe.

```{r}
trainIndex <- createDataPartition(dataContinous$CustomerLifetimeValue, p=0.80, list = FALSE)

print(trainIndex)
```

```{r}
# 80% Traning kumpulan data untuk untuk anlisis regresi 
insurncTrain <- dataContinous[trainIndex,]
```

```{r}
# Dataset uji 20 %  yang tersisa untuk pengujian 
insurncTest <- dataContinous[-trainIndex,]
```

```{r}
dim(dataContinous)
```

```{r}
dim(insurncTrain)
```

```{r}
dim(insurncTest)
```

 Lineir Regression

```{r}
# Regression
# Lm digunakan untuk menyesuaikan model linier. ini dapat diguanakn untuk melakukan regresi, analisis variansi strata dan analisis kovarians

# Membuat model regresi linier menggunakan semua variabel independen berkelanjutan

fit <- lm(insurncTrain$CustomerLifetimeValue ~., data = insurncTrain) 
summary(fit)
```

 5.1.1 Model Interpretasi 

Hipostesis NULL - tidak aada varaiabel independen yang signifikan untuk CLV.

Hipotesis Alternatif - Setidaknya salah satu variabel independen signigikan dan dapat mempengaruhi CLV.

1. p-value model lebih kecil dari 0,05, sehingga paling tidak salah satu variabel independen signifikan. 

2. p-value dari MonthlyPremiumAuto, NumberofOpenComplaints dan NumberoPoliceies Kurang dari 0,05 sehingga menolak hipotesis nol sehingga paling tidak salah satu dati variabel bebeas tersebut signifikan dan dapat mempengaruhi CLV.


3. Namun R kuadrat sangat rendah, hanya 15,04% varians yang ditemukan di CLV yang dapat dijelaskan oleh Pendapatan, MPA, Bulan, sejak klaim terkahir , bulan sejak awal kebijakan, jumlah keluhan terbuka, jumlah kebijakan, TCA.

4. Disesuaikan R kuadrat adalalh 0,1532 yang lebih kecil dari R kuadart.

5. Kesalahan standart residual adalah 6315 yang sangat tinggi, sehingga clv yang sebenarya akan menyimpang dari garis regresi sebenarnya dengan rata-rata 6315. semakin kecil kesalahan standart, semakin sedikit penyebaran dan semakin besar kemungkinan rata-rata sampel mendekati rata-rata sampel. Dengan hal demikian kesalahan standar kecil adalah Hal yang baik.

6. Kesenjangan antara R-kuadrat dan disesuaikan R-kuadrat hanya 1,5 % itu bagus. bisanya semakin banyak variabel tidak signifikan yang anda tambahkan ke dalam model, kesenjangan antara dua meningkat.

7. F-statistik : 6,958 - Semakin rendah F-statistik, semakin mendekati model yang tidak signfikan. Jadi F-statistik rendah berarti model tidak terlalu signifikan.


# 5.1.2 Jalankan Ulang Model 

Ada lebih dari satu variabel tidak signifikan dalam model, sehingga perlu menjalankan model lagi dengan hanya variabel signifikan.


```{r}
new_fit <- lm(insurncTrain$CustomerLifetimeValue ~ 
              MonthlyPremiumAuto + NumberofOpenComplaints + NumberofPolicies + TotalClaimAmount, 
              data = insurncTrain) 
summary(new_fit)
```

Persamaan garis Regresi yang diperkirakan dapat ditulis sebagai berikut : 

CLV = 582,9 + 82,6 MPA - 243,4 noOC + 75,0 NoP - 0,9 TCA 

Hipotesis Null - tidak ada variabel independen yang signifkan untuk CLV.

Hipotesis Alternatif - setidaknya salah satu variabel independen signifikan dan dapat mempengaruhi CLV.

1. p-value dari MonthlyPremiumAuto, NumberofOpenComplaints, NumberofPolicies dan TotalClaimAmount kurang daru 0,05 sehingga berdampak signifikan terhadap signifikan terhadap CLV. 

2. koefisien Variabel Independen :-

i.Saya, premium BulananOtomasis: 86.4478. Peningkatan satu unit di Montly PremiumAotu akan meningkatkan CLV sebesar 86,4478

ii.Jumlah keluahan Terbuka : -199.3526, Peningkatan satu unit dalam NumberofOpenComplaints akan menurunkan CLV sebesar 199,3526

iii. Jumlah kebijakan :76.3861. Peningkatan satu unit dalam NumberofPolicies akan meningkatkan CLV sebesar 76,3861.

iV. TotalClaimAmount : -1,0445. satu unit peningkatan TotalClaimAmount akan berkurang 1,0445.

3. sehingga nasabah dengan jumlah polis yang lebih banyak dengan premi bulanan yang tinggi akan menambah nilai lebih bagi perusahan.

4. disisi lain , pengaduan terbuka customersdan jumlah klaim lebih banyak akan menurunkan CLV. 

5. R kuadrat sebesar 0,1656 yang berarti 16,56% variabel terikat dijelaskan oleh variabel bebas. 

6. disesuaikan R kuadrat adalah 0,1652 yang kurang dari R kuadrat.


Prediksi nilai CLV untuk semua observasi berdasarkan model regresi terhitung diatas.

```{r}
predictedCLV <- predict(new_fit)  
#print predicted CLV.
print(predictedCLV[1:10])
```

```{r}
#print actual CLV to compare it with above calculated predicted CLV.
print(insurncTrain$CustomerLifetimeValue[1:10])
```

Hitung kesalahan : Perbedaan antara CLV aktual dan CLV yang diprediksi.

```{r}
residualsCLV <- residuals(new_fit)
print(residualsCLV[1:10])
```

Vaidasi model pada dataset uji

```{r}
predicatedTestData=predict(new_fit,insurncTest)
print(predicatedTestData[1:10])
```

Perbadingan antara hasil aktual dan prediksi 

```{r}
InsuranceTrainData <- cbind(insurncTrain,predictedCLV,residualsCLV)
head(InsuranceTrainData)
```

 Menghitung tingkat kesalahan atau MAPE

```{r}
ErrorRate <- abs((InsuranceTrainData$CustomerLifetimeValue - InsuranceTrainData$predictedCLV)/(InsuranceTrainData$CustomerLifetimeValue)*100)
print(ErrorRate[1:10])
```

```{r}
InsuranceTrainData <- cbind(InsuranceTrainData, ErrorRate)
head(InsuranceTrainData)
```

 Menghitung rata-rata tingkat kesalahan 

```{r}
mean(InsuranceTrainData$ErrorRate, na.rm = TRUE)
```

Rata-rata tingkat kesalahan model adalah 60,43% yang tinggi dan dapat mengatakan bahwa model tidak begitu baik.


#5.2 Analisis Residu

```{r}
hist(ErrorRate, col = "blue")
```

```{r}
boxplot(ErrorRate)
```

Periksa normalitas error/residual term (regresi linier mengasumsikan bahwa error terdistribusi normal.)

Hipotesis Null - Kesalahan terdistribusi normal.

Alt Hypothese - kesalahan tidak terdistribusi secara normal.

```{r}
shapiro.test(residualsCLV[0:5000])
```

p-value (0,00837) < 0,05, hipotesis null ditolak. sehingga kesalahan tidak terdistribusi normal.


```{r}
hist(residualsCLV,col = "green")
```

 Residual vs Fitted Plot

```{r}
plot(new_fit, which=1, col=c("blue"))
```

 6. Pengujian asumsi analisis regresi linier

Mendeteksi multikolinearitas- memeriksa korelasi antara variabel independen.

Dalam model hanay variabel independen yang harus ada yang tidadk berkorelasi satu sama lain. ini dilakukan dengan mengguanakan Matriks Korelasi.

```{r}
cor(InsuranceTrainData) 
```

```{r}
# Variance Inflation Factors
car::vif(new_fit)
```

Variance inflation factor (VIF adalah ukuran besarnya multikolinearitas dalam sekumpulan variabel regresi berganda.

jika terdapat korelasi yang tinggi antara dua variabel bebas(multikolinearitas tinggi), maka saya tidak akan dapat memisakahkan pengaruh masing-masing variabel bebas terhadap variabel terikat.

Karena multikolinearitas, saya tidak dapat mendefiniskan dampak lengkap dari hanya satu variabel bebas pada variabel terikat.

2. Mendeteksi Homoskedastisitas- varians untuk semua pengamatan tidak sama.

Hipotesis Null - Homoscedasticity hadir di Residuals

Hipotesis alternatif - Heteroskedastistas hadir dalam residual

ini dilakukan dengan tes Breusch-Pagan.

```{r}
bptest(new_fit)
```

p-value < 0,05, sehingga menolak bahwa kesalahan adalah homoskedastistas. jadi istilah error bersifat heteroskedastistas dan tidak memiliki varians konstan yang tidak baik untuk model.

3. mendeteksi autokorelasi - memeriksa autokorelasi (memeriksa korelasi antar kesalahan)

Hal ini dilakauka Uji Durbin-watson jika-D-W Stastic sekitar 2, maka memiliki autokorelasi dalam model. dan menjau dari 2 berarti tidak ada autokeralasi.

```{r}
dwt(new_fit)
```
Disini D-W stastistic adalah 2.018765, sehingga terdapat autokorelasi pada model.

4. mendeteksi MAPE- Rata-rata persentasi rugi kesalahan absolut

MAPE menghitung perbedaan persen absolut rata-rata antara dua vektor numerik

```{r}
ErrorRate <- mean(abs((InsuranceTrainData$CustomerLifetimeValue - InsuranceTrainData$predictedCLV)/InsuranceTrainData$CustomerLifetimeValue) *100 )
print(ErrorRate)
```

rata-rata tingkat kesalahan model adalah 60,43 % yang tinggi dan dapat mengakatan bahwa mode tidak begitu baik

7. Kurva Prediksi 

Garis biru menunjukkan garis regresi dan sepatu titik merah pangamatan yang sebenarnya menyimpang dari garis regresi.

1. Kurva Prediksi dengan MonthlyPremiumAuto

```{r}
ggplot(InsuranceTrainData, aes(x = MonthlyPremiumAuto, y = CustomerLifetimeValue)) +
  geom_smooth(method = "lm", se = FALSE, color = "red") +     
  geom_segment(aes(xend = MonthlyPremiumAuto, yend = predictedCLV), alpha = .2) +    
  geom_point(aes(color = abs(residualsCLV), size = abs(residualsCLV))) + 
  scale_color_continuous(low = "green", high = "red") +             
  guides(color = FALSE, size = FALSE) +                              
  geom_point(aes(y = predictedCLV), shape = 1) +
  theme_bw()
```


```{r}
ggplot(InsuranceTrainData,aes(x=MonthlyPremiumAuto,y=CustomerLifetimeValue))+
  geom_point(color="red")+
  stat_smooth(method="lm")+
  scale_x_continuous(name="Monthly Premium")+
  scale_y_continuous(name="Prediction of CLV")+
  ggtitle("Prediction Curve with Monthly Premium")
```

2. Kurva prediksi dengan TotalClaimAmount

```{r}
ggplot(InsuranceTrainData,aes(x=TotalClaimAmount,y=CustomerLifetimeValue))+
  geom_point(color="red")+
  stat_smooth(method="lm")+
  scale_x_continuous(name="Total Claim Amount")+
  scale_y_continuous(name="Prediction of CLV")+
  ggtitle("Prediction Curve with Total Claim Amount")
```

 8 Ringkasan 

1. ada banyak pelanggan dengan CLV rendah, sangat sedikit pelanggan dengan CLV tinggi.

2. Pelanggan yang telah mengambil asuransi dasar untuk kendaraanay lebih berharga dari pada pemegang polis asuranasi perpanjangan atau premi.

3. Pelanggan perkerja terdidik (dengan gelar sarjana atau setara) lebih berhargar dari pada pelanggan pensiunan, penggaanguran, atau penyadang cacat.

4. Gender tidak memiliki peran dalam menentukan nilai pelanggan. baik pria maupun wanita terlihat berharga.

5. pelanggan perkawinan membeli lebih banyak asuaransi mobil dan menambah nilai lebih bagi persuhaan.

6. Pelanggan pedesaan Kurang berharga dari pada pelanggan perkotaan.

7. Nasabah yang memiliki polis pribadi lebih berharga bagi persuhaan dari pada pemegang polis korporasi dan asuransi khusus. 

8. Penawaran 1 dan penawaran 2 menarik lebih banyak pelanggan, call center tidak berkinerja baik dibadingkan dengan saluran lain di selurh negeri (dalam hal pelanggan bernilai tinggi).

9. Call center tidak berkinerja baik dibadingkan dengan saluran lain di seluruh negeri (dalam hal pelanggan bernilai tinggi)

10. Pelanggan yang memiliki kendaraan ukuran menengah, mobil empat pintu atau SUV lebih berharga.

11. pelanggan california menamabh nilai lebih bagi perusahaan.

12. kebijakan L3 pribadi menambah niali lebih bagi perusahaan.xii.

13. pelanggan yang memiliki lebih banyak polis dengan premi bulanan yang tinggi akan menambah nilai lebih bagi perusahaan. Di sisi lain, pengaduan terbuka pelanggan dan jumlah klaim lebih banyak akan menurunkan CLV.


 9. Rekomedasi Bisnis

laporan ini mewakili analisi saya untuk persuhaan asuaransi xyz. menurut pendapat saya berdasarkan data yang diberikan, menargetkan pelanggan yang tepat dapat meningkatkan Nilai Seumur Hidup Pelanggan. Dua perubahan yang diusulakan adalah sebagai berikut:

A) Perusahaan asuransi harus menargetkan pelanggan berpendidikan menikah bekerja dari daearah perkotaan yang memiliki kendaraan Mid Size untuk meningkatkan Customer LifetimeValue(CLV) Meningkat.

B) Sebaik nya jika open complaints pelanggan tidak segeera diselasaikan dan jumlah klaim tidak berkurang, maka keduanya dapat menurunkan customer lifetimevalue (CLV)

C) sekitar 38% nilai ditambahkan oleh agen ke perusahaan sedangkan call center hanya menamabhakan nilai 20 % . jadi agen harus lebih disukai dari pada pusat panggilan saat menjual asuransi mobil kepada pelanggan.

D) Faktor-faktor yang menyebabkan peningkatan CLV adalah Premi bulanan dan jumlah Polis, namun pengaduan terbuka dan jumlah klaim dapat menurunkan CLV