Perkembangan zaman semakin lama semakin bertumbuh pesat, baik itu dari segi teknologi maupun pergeseran kebutuhan masyarakat, seperti kebutuhan primer, sekunder, atau pun tersier (Badiah, 2013). Hal itu berkenaan dengan pengaruh kehidupan manusia yang mendatang, tidak hanya di Indonesia, tetapi juga secara global pengaruh perkembangan zaman semakin terasa. Oleh karena itu, seperti halnya kebutuhan yang belum pasti di masa mendatang, dewasa ini sebagian besar masyarakat terlebih dahulu ingin memenuhi berkenaan dengan tingkat melek akan risiko yang mungkin terjadi di masa depan, seperti kematian, kecelakaan, dan kehilangan.
Untuk memenuhi kebutuhan yang belum pasti tersebut, dewasa ini masyarakat semakin sadar akan pentingnya keperluan pembelian asuransi dengan berbagai jenis dan perhitungan preminya, baik itu untuk diri sendiri atau pun keluarga. Karena, asuransi merupakan salah satu bentuk dari peradaban manusia dan merupakan suatu hasil evaluasi yang alamiah dibutuhkan, yaitu rasa aman dan terlindungi (Badiah, 2013). Industri asuransi di Indonesia mengalami pertumbuhan yang pesat, semakin banyak masyarakat yang menyadari pentingnya asuransi sebagai perlindungan dari risiko finansial yang mungkin terjadi, hal ini didorong oleh meningkatnya kesadaran masyarakat akan pentingnya proteksi diri dan aset, serta gencarnya sosialisasi produk asuransi oleh perusahaan asuransi (Ramadhani, 2015).
Di tengah persaingan yang ketat, perusahaan asuransi perlu memahami faktor-faktor yang memengaruhi keputusan nasabah dalam memilih produknya sehingga dapat mencegah penurunan tingkat pembelian dalam suatu perusahaan asuransi, khususnya dalam menentukan besar tanggungan premi dan tingkat informasi polis berdasarkan data profil dari nasabah.
Multivariate Analysis of Variance (MANOVA) adalah suatu teknik analisis multivariat metode dependensi. MANOVA merupakan perluasan dari Analysis of Variance (ANOVA) yang secara luas sudah lama digunakan dalam berbagai bidang ilmu. Secara metode, MANOVA dapat diartikan sebagai metode statistik untuk mengeksplorasi hubungan di antara beberapa variabel independen yang berjenis kategorikal yang berskala nominal ataupun ordinal dengan beberapa variabel dependen secara bersama-sama yang berjenis numerikal yang berskala interval atau rasio (Santoso, 2020). Tujuan utama dalam menggunakan MANOVA adalah untuk menemukan kelompok responden yang menunjukkan perbedaan dalam seperangkat variabel dependen. Pada umumnya, MANOVA digunakan untuk melihat pengaruh seperangkat variabel independen (X1, X2, …, Xn) terhadap seperangkat variabel dependen (Y1, Y2, …,Yn) secara bersama-sama (Hand, 1987).
Menurut (Field, 2009), asumsi-asumsi yang berlaku pada MANOVA akan diuraikan sebagai berikut:
Pengamatan harus independen secara statistik. Terpenuhinya syarat ini berarti perlakuan yang diberikan kepada masing-masing sampel tidak bergantung satu sama lain.
Dalam statistik, pengambilan sampel harus dilakukan secara acak dari populasi atau dengan kata lain menggunakan teknik probabilitas. Selain itu, data yang diukur (variabel terikat) dalam penelitian adalah skala interval.
Dalam ANOVA, diasumsikan bahwa variabel dependen haruslah berdistribusi normal di dalam masing-masing kelompoknya, sedangkan MANOVA mengasumsikan bahwa variabel dependen secara bersamaan berdistribusi normal multivariat di dalam masing-masing kelompoknya.
Dengan hipotesis:
\(H_{0} :\) Galat Dari Dua Variabel Respons Berdistribusi Normal Multivariat
\(H_{1} :\) Galat Dari Dua Variabel Respons Tidak Berdistribusi Normal Multivariat
Dalam ANOVA, diasumsikan bahwa variansi dalam setiap kelompok sama (homogenitas varians), sedangkan MANOVA mengasumsikan bahwa untuk seluruh variabel dependen bukan hanya memiliki varians yang sama pada setiap kelompok, melainkan juga korelasi antarvariabel dependen memiliki besar yang sama dalam semua kelompok.
Dengan hipotesis:
\(H_{0} :\) Galat Dari Dua Variabel Respons Memiliki Matriks Kovarians Sama
\(H_{1} :\) Galat Dari Dua Variabel Respons Tidak Memiliki Matriks Kovarians Sama
Statistik uji ini paling cocok digunakan jika asumsi homogenitas matriks varians-kovarians tidak dipenuhi, ukuran-ukuran sampel kecil, dan jika hasil-hasil dari pengujian bertentangan satu sama lain, yaitu jika ada beberapa vektor rata-rata yang bereda sedang yang lain tidak. Semakin tinggi nilai statistik Pillai’s Trace, pengaruh terhadap model semakin besar (Olson, 1974).
Dengan statistik uji:
\(P = \sum_{i = 1}^{P} \left( \frac{\lambda_i}{1+\lambda_i} \right) = tr(\frac{B}{B+W})\)
Data bersumber dari situs Kaggle dengan judul “Binary Classification of Insurance Cross Selling” yang dapat diakses di Link yang merupakan pemanfaatan simulasi model deep learning dengan judul “Health Insurance Cross Sell Prediction” yang juga dapat diakses di Link. Selain itu, dataset ini didapat dari perusahaan yang menyediakan jasa asuransi kesehatan, asuransi kendaraan, dan asuransi jiwa. Ada pun tujuan perusahaan tersebut ialah meningkatkan penjualan, mempertahankan nasabah, dan memahami kebutuhan masalah, sehingga penulis hanya akan membataskan penggunaan dari informasi, yaitu besar tanggungan premi per tahun yang ditanggung nasabah, tingkat informasi polis, umur kendaraan nasabah, dan ketertarikan nasabah terhadap asuransi kendaraan.
Berdasarkan latar belakang yang dirumuskan, tujuan dari tugas ini adalah untuk mengetahui pengaruh profil nasabah dan umur kendaraan terhadap besar tanggungan premi per tahun dan tingkat informasi polis secara bersama-sama menggunakan Multivariate Analysis of Variance (MANOVA).
Pada tugas ini, penulis membatasinya dengan:
Demi fokus pembelajaran MANOVA di bidang Aktuaria, variabel respons data tidak diubah meskipun melanggar asumsi normalitas multivariat dan homogenitas matriks kovarians. Teknik penanganan seperti Transformasi Data, PERMANOVA, dan Bootstrapping dalam tugas ini tidak dilakukan.
Demi memaksimalkan keputusan uji yang baik, dalam tugas ini hanya dilakukan pendekatan Statistik Uji paling kekar terhadap pelanggaran asumsi di MANOVA, yaitu Statistik Uji Pillai’s Trace.
Dalam tugas ini, hanya difokuskan pada apakah seluruh aspek dari profil kendaraan nasabah berpengaruh secara signifikan terhadap kedua variabel respons, sehingga tidak ada tindak lanjut apabila keputusan uji dari F-Hitung MANOVA Tolak \(H_{0}\).
Perhitungan Annual Premium pada setiap nasabah menggunakan Tabel Mortalitas India edisi keempat tahun 2019.
> #Pre-Processing Data
> dataassurance <- read_excel("UAP - Manova.xlsx",
+ sheet = "UAP - Manova 2", col_types = c("text",
+ "text", "text", "numeric", "numeric"))
> yvars = cbind((dataassurance$Annual_Premium), (dataassurance$`Policy Rate Information`))
> treatment_factor = factor(dataassurance$Vehicle_Age)
> rep_factor = factor(dataassurance$Vehicle_Damage)
> paged_table(as.data.frame(dataassurance))> #Statistika Deskriptif
> summary = summary(dataassurance[, 4:5])
> summary
FALSE Annual_Premium Policy Rate Information
FALSE Min. : 2630 Min. : 1.0
FALSE 1st Qu.: 25279 1st Qu.: 26.0
FALSE Median : 31837 Median :150.0
FALSE Mean : 30475 Mean :112.3
FALSE 3rd Qu.: 39470 3rd Qu.:152.0
FALSE Max. :540165 Max. :163.0Statistika deskriptif tersebut menghasilkan rata-rata Tanggungan Premi per Tahun dan Tingkat Informasi Polis berturut-turut sebesar 30475 dan 112,3. Hal ini mengindikasikan bahwa, dengan mengabaikan pengaruh outliers, rata-rata tanggungan premi per tahun nasabah di negara India 30475 yang mana angka tersebut sudah cukup tinggi. Sementara itu, rata-rata tingkat informasi polis di negara India sebesar 112,3 yang mana angka tersebut cukup tinggi, mengingat variabel ini memiliki nilai minimum di 1, yang mengindikasikan terdapat ketimpangan kualitas informasi polis yang diterbitkan oleh setiap perusahaan asuransi di India.
> #QQ-Plot Annual Premiun
> qqnorm(dataassurance$Annual_Premium, main = "Q-Q Plot Annual Premium (Y1)")
Dari QQ-plot tersebut dapat disimpulkan bahwa variabel Tanggungan Premi
per Tahun berbentuk sigmoid, maknanya adalah terdapat nasabah yang
memiliki profil risiko terlalu tinggi sehingga kebutuhan membayar premi
asuransi kendaraan per tahun sangat tinggi, tetapi di lain sisi juga
terdapat nasabah yang memiliki profil risiko rendah sehingga kebutuhan
membayar premi asuransi kendaraan sangat rendah. Dalam kata lain,
pertumbuhan premi asuransi kendaraan per tahun pada setiap nasabah
sangat bervariasi dan memiliki range yang sangat tinggi.
> #QQ-Plot Policy Rate Information
> qqnorm(dataassurance$`Policy Rate Information`, main = "Q-Q Plot Policy Information Rate (Y2)")
Dari QQ-plot tersebut dapat disimpulkan bahwa variabel Tingkat Informasi
Polis berbentuk sigmoid, maknanya adalah terdapat nasabah yang menilai
kesepakatan yang terjadi antara nasabah dan agen asuransi melalui polis
sangat tinggi (baik) sehingga tingkat informasi polis sangat tinggi,
tetapi di lain sisi juga terdapat nasabah yang menilai kesepakatan yang
terjadi antara nasabah dan agen asuransi melalui polis sangat rendah
(tidak baik) sehingga tingkat informasi polis sangat rendah. Dalam kata
lain, pertumbuhan tingkat informasi polis pada setiap nasabah sangat
bervariasi dan memiliki range yang sangat tinggi.
> #Histogram Annual Premiun
> hist(dataassurance$Annual_Premium,
+ main = "Histogram Annual Premium (Y1)")Dari Histogram tersebut dapat disimpulkan bahwa variabel Tanggungan Premi per Tahun memiliki skewness dan kurtosis yang tinggi, sehingga dapat dicurigai bahwa terdapat begitu banyak outliers kanan (menunjukkan nilai yang sangat tinggi). Dalam kata lain, ini menunjukkan bahwa sebagian besar nasabah membayar premi yang mirip, tetapi ada beberapa yang membayar jauh lebih tinggi (outliers kanan).
> #Histogram Policy Rate Information
> hist(dataassurance$`Policy Rate Information`,
+ main = "Histogram Policy Information Rate (Y2)")
Dari Histogram tersebut dapat disimpulkan bahwa variabel Tingkat
Informasi Polis memiliki skewness dan kurtosis yang rendah. Dalam
kata lain, ini menunjukkan bahwa nasabah menilai kesepakatan yang
terjadi antara nasabah dan agen asuransi melalui polis bervariasi dan
bergantung pada setiap individu dan agen asuransi yang didapat oleh
nasabahnya.
> #Box-Plot Annual Premium
> boxplot(dataassurance$Annual_Premium, main = "Box-Plot Annual Premium (Y1)")Dari Box-plot tersebut dapat disimpulkan bahwa sebagian besar nilai premi tahunan berada di rentang yang lebih rendah, dengan beberapa nilai yang jauh lebih tinggi yang menarik perhatian sebagai outliers, distribusi dari nilai premi tahunan positively skewed, karena banyak outliers yang berada di sisi atas, menunjukkan ada beberapa nilai yang jauh lebih tinggi dari mayoritas data.
> #Box-Plot Policy Rate Information
> boxplot(dataassurance$`Policy Rate Information`, main = "Box-Plot Policy Information Rate (Y2)")
Dari Box-plot tersebut dapat disimpulkan bahwa sebagian besar tingkat
informasi polis berada di rentang yang lebih rendah, dengan tidak
terdapat nilai yang jauh lebih tinggi yang menarik perhatian sebagai
outliers, distribusi dari tingkat informasi polis negative skewed, yang
maknanya lebih banyak nasabah yang menilai kesepakatan yang terjadi
antara nasabah dan agen asuransi melalui polis lebih tinggi, sedangkan
tingkat informasi polis bervariasi dan bergantung pada setiap individu
dan agen asuransi yang didapat oleh nasabahnya.
> #Normalitas Multivariat Test
> result.normality = mvn(yvars[1:10487,], mvnTest = "mardia")
> result.normality$multivariateNormality
FALSE Test Statistic p value Result
FALSE 1 Mardia Skewness 1611.7157211905 0 NO
FALSE 2 Mardia Kurtosis 48.4877920839945 0 NO
FALSE 3 MVN <NA> <NA> NONilai Statistik Mardia Skewness dan Kurtosis berturut-turut sebesar 1611.7157 dan 48.4877, sedangkan p-valuenya sama, yaitu 0. Berarti dengan tingkat kepercayaan 99% karena p-value < 1% maka berarti \(H_0\) ditolak artinya Galat Dari Dua Variabel Respons Tidak Berdistribusi Normal Multivariat.
> #Homogenitas Matriks Kovarians Test
> result.homogenity = boxM(yvars, group = rep_factor , data = dataassurance)
> result.homogenity
FALSE
FALSE Box's M-test for Homogeneity of Covariance Matrices
FALSE
FALSE data: yvars
FALSE Chi-Sq (approx.) = 36058, df = 3, p-value < 2.2e-16Nilai Statistik Box-M sebesar 36058, sedangkan p-valuenya, yaitu < 2.2e-16. Berarti dengan tingkat kepercayaan 99% karena p-value < 1% maka berarti \(H_0\) ditolak artinya Galat Dari Dua Variabel Respons Tidak Memiliki Matriks Kovarians Sama.
> #The MANOVA
> MANOVA = manova(yvars ~ treatment_factor + rep_factor, data = dataassurance)
>
> #Pillai's Trace MANOVA
> summary(MANOVA, test = 'Pillai', intercept = T)
FALSE Df Pillai approx F num Df den Df Pr(>F)
FALSE (Intercept) 1 0.92048 6068471 2 1048570 < 2.2e-16 ***
FALSE treatment_factor 2 0.34448 109092 4 2097142 < 2.2e-16 ***
FALSE rep_factor 1 0.00025 130 2 1048570 < 2.2e-16 ***
FALSE Residuals 1048571
FALSE ---
FALSE Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Nilai Statistik Pillai’s Trace (\(P\)) pada perlakuann “Umur Kendaraan” sebesar 0.34448, sedangkan p-valuenya sebesar < 2.2e-16 yang berarti bahwa bagi tingkat kepercayaan 99% karena p-value < 1% maka berarti \(H_0\) ditolak artinya perlakuan berpengaruh sangat nyata pada besar tanggungan premi per tahun dan tingkat informasi polis.
Nilai Statistik Pillai’s Trace (\(P\)) pada perlakuann “Kerusakan Kendaraan” sebesar 0.00025, sedangkan p-valuenya sebesar < 2.2e-16 yang berarti bahwa bagi tingkat kepercayaan 99% karena p-value < 1% maka berarti \(H_0\) ditolak artinya perlakuan berpengaruh sangat nyata pada besar tanggungan premi per tahun dan tingkat informasi polis.
[1] Hair, J. F. et al. 2010. Multivariate Data Analysis : A Global Perspective, 7th Edition. New Jersey: Pearson Prentice Hall.
[2] Harlow, L. 2005. The Essence of Multivariate Thinking Basic Themes and Methods. Lawrence Erlbaum Associates. London.
[3] Hand, D. J. et al. 1987. Multivariate Analysis of Variance And Repeated Measures : A Practical Approach For Behavioural Sciences, 1th Edition. London.