ONE-WAY MANOVA PILLAI’S TRACE DALAM PENGARUH PROFIL KENDARAAN NASABAH TERHADAP BESAR TANGGUNGAN PREMI DAN TINGKAT INFORMASI POLIS

Jamie Anugerah Keeyan Laksana

28/11/2024


1 PENDAHULUAN

1.1 Latar Belakang

Perkembangan zaman semakin lama semakin bertumbuh pesat, baik itu dari segi teknologi maupun pergeseran kebutuhan masyarakat, seperti kebutuhan primer, sekunder, atau pun tersier (Badiah, 2013). Hal itu berkenaan dengan pengaruh kehidupan manusia yang mendatang, tidak hanya di Indonesia, tetapi juga secara global pengaruh perkembangan zaman semakin terasa. Oleh karena itu, seperti halnya kebutuhan yang belum pasti di masa mendatang, dewasa ini sebagian besar masyarakat terlebih dahulu ingin memenuhi berkenaan dengan tingkat melek akan risiko yang mungkin terjadi di masa depan, seperti kematian, kecelakaan, dan kehilangan.

Untuk memenuhi kebutuhan yang belum pasti tersebut, dewasa ini masyarakat semakin sadar akan pentingnya keperluan pembelian asuransi dengan berbagai jenis dan perhitungan preminya, baik itu untuk diri sendiri atau pun keluarga. Karena, asuransi merupakan salah satu bentuk dari peradaban manusia dan merupakan suatu hasil evaluasi yang alamiah dibutuhkan, yaitu rasa aman dan terlindungi (Badiah, 2013). Industri asuransi di Indonesia mengalami pertumbuhan yang pesat, semakin banyak masyarakat yang menyadari pentingnya asuransi sebagai perlindungan dari risiko finansial yang mungkin terjadi, hal ini didorong oleh meningkatnya kesadaran masyarakat akan pentingnya proteksi diri dan aset, serta gencarnya sosialisasi produk asuransi oleh perusahaan asuransi (Ramadhani, 2015).

Di tengah persaingan yang ketat, perusahaan asuransi perlu memahami faktor-faktor yang memengaruhi keputusan nasabah dalam memilih produknya sehingga dapat mencegah penurunan tingkat pembelian dalam suatu perusahaan asuransi, khususnya dalam menentukan besar tanggungan premi dan tingkat informasi polis berdasarkan data profil dari nasabah.

1.2 Multivariate Analysis Of Variance

Multivariate Analysis of Variance (MANOVA) adalah suatu teknik analisis multivariat metode dependensi. MANOVA merupakan perluasan dari Analysis of Variance (ANOVA) yang secara luas sudah lama digunakan dalam berbagai bidang ilmu. Secara metode, MANOVA dapat diartikan sebagai metode statistik untuk mengeksplorasi hubungan di antara beberapa variabel independen yang berjenis kategorikal yang berskala nominal ataupun ordinal dengan beberapa variabel dependen secara bersama-sama yang berjenis numerikal yang berskala interval atau rasio (Santoso, 2020). Tujuan utama dalam menggunakan MANOVA adalah untuk menemukan kelompok responden yang menunjukkan perbedaan dalam seperangkat variabel dependen. Pada umumnya, MANOVA digunakan untuk melihat pengaruh seperangkat variabel independen (X1, X2, …, Xn) terhadap seperangkat variabel dependen (Y1, Y2, …,Yn) secara bersama-sama (Hand, 1987).

1.3 Uji Asumsi Bagi MANOVA

Menurut (Field, 2009), asumsi-asumsi yang berlaku pada MANOVA akan diuraikan sebagai berikut:

1.3.1 Independensi Sampel

Pengamatan harus independen secara statistik. Terpenuhinya syarat ini berarti perlakuan yang diberikan kepada masing-masing sampel tidak bergantung satu sama lain.

1.3.2 Sampel Acak

Dalam statistik, pengambilan sampel harus dilakukan secara acak dari populasi atau dengan kata lain menggunakan teknik probabilitas. Selain itu, data yang diukur (variabel terikat) dalam penelitian adalah skala interval.

1.3.3 Uji Asumsi Normalitas Multivariat

Dalam ANOVA, diasumsikan bahwa variabel dependen haruslah berdistribusi normal di dalam masing-masing kelompoknya, sedangkan MANOVA mengasumsikan bahwa variabel dependen secara bersamaan berdistribusi normal multivariat di dalam masing-masing kelompoknya.

Dengan hipotesis:

\(H_{0} :\) Galat Dari Dua Variabel Respons Berdistribusi Normal Multivariat

\(H_{1} :\) Galat Dari Dua Variabel Respons Tidak Berdistribusi Normal Multivariat

1.3.4 Uji Asumsi Homogenitas Matriks Kovarians

Dalam ANOVA, diasumsikan bahwa variansi dalam setiap kelompok sama (homogenitas varians), sedangkan MANOVA mengasumsikan bahwa untuk seluruh variabel dependen bukan hanya memiliki varians yang sama pada setiap kelompok, melainkan juga korelasi antarvariabel dependen memiliki besar yang sama dalam semua kelompok.

Dengan hipotesis:

\(H_{0} :\) Galat Dari Dua Variabel Respons Memiliki Matriks Kovarians Sama

\(H_{1} :\) Galat Dari Dua Variabel Respons Tidak Memiliki Matriks Kovarians Sama

1.4 Statistik Uji Pillai’s Trace

Statistik uji ini paling cocok digunakan jika asumsi homogenitas matriks varians-kovarians tidak dipenuhi, ukuran-ukuran sampel kecil, dan jika hasil-hasil dari pengujian bertentangan satu sama lain, yaitu jika ada beberapa vektor rata-rata yang bereda sedang yang lain tidak. Semakin tinggi nilai statistik Pillai’s Trace, pengaruh terhadap model semakin besar (Olson, 1974).

Dengan statistik uji:

\(P = \sum_{i = 1}^{P} \left( \frac{\lambda_i}{1+\lambda_i} \right) = tr(\frac{B}{B+W})\)

1.5 Sumber Data

Data bersumber dari situs Kaggle dengan judul “Binary Classification of Insurance Cross Selling” yang dapat diakses di Link yang merupakan pemanfaatan simulasi model deep learning dengan judul “Health Insurance Cross Sell Prediction” yang juga dapat diakses di Link. Selain itu, dataset ini didapat dari perusahaan yang menyediakan jasa asuransi kesehatan, asuransi kendaraan, dan asuransi jiwa. Ada pun tujuan perusahaan tersebut ialah meningkatkan penjualan, mempertahankan nasabah, dan memahami kebutuhan masalah, sehingga penulis hanya akan membataskan penggunaan dari informasi, yaitu besar tanggungan premi per tahun yang ditanggung nasabah, tingkat informasi polis, umur kendaraan nasabah, dan ketertarikan nasabah terhadap asuransi kendaraan.

1.6 Tujuan Penelitian

Berdasarkan latar belakang yang dirumuskan, tujuan dari tugas ini adalah untuk mengetahui pengaruh profil nasabah dan umur kendaraan terhadap besar tanggungan premi per tahun dan tingkat informasi polis secara bersama-sama menggunakan Multivariate Analysis of Variance (MANOVA).

1.7 Batasan Penelitian

Pada tugas ini, penulis membatasinya dengan:

  1. Demi fokus pembelajaran MANOVA di bidang Aktuaria, variabel respons data tidak diubah meskipun melanggar asumsi normalitas multivariat dan homogenitas matriks kovarians. Teknik penanganan seperti Transformasi Data, PERMANOVA, dan Bootstrapping dalam tugas ini tidak dilakukan.

  2. Demi memaksimalkan keputusan uji yang baik, dalam tugas ini hanya dilakukan pendekatan Statistik Uji paling kekar terhadap pelanggaran asumsi di MANOVA, yaitu Statistik Uji Pillai’s Trace.

  3. Dalam tugas ini, hanya difokuskan pada apakah seluruh aspek dari profil kendaraan nasabah berpengaruh secara signifikan terhadap kedua variabel respons, sehingga tidak ada tindak lanjut apabila keputusan uji dari F-Hitung MANOVA Tolak \(H_{0}\).

  4. Perhitungan Annual Premium pada setiap nasabah menggunakan Tabel Mortalitas India edisi keempat tahun 2019.

2 SOURCE CODE DAN PENJELASAN

2.1 Library yang Dibutuhkan

> #Library
> library(knitr)
> library(rmarkdown)
> library(heplots)
> library(readr)
> library(car)
> library(MASS)
> library(MVN)
> library(readxl)

2.2 Input Data

> #Pre-Processing Data
> dataassurance <- read_excel("UAP - Manova.xlsx", 
+     sheet = "UAP - Manova 2", col_types = c("text", 
+         "text", "text", "numeric", "numeric"))
> yvars = cbind((dataassurance$Annual_Premium), (dataassurance$`Policy Rate Information`))
> treatment_factor = factor(dataassurance$Vehicle_Age)
> rep_factor = factor(dataassurance$Vehicle_Damage)
> paged_table(as.data.frame(dataassurance))

2.3 Statistika Deskriptif Dan Eksplorasi Data

> #Statistika Deskriptif
> summary = summary(dataassurance[, 4:5])
> summary
FALSE  Annual_Premium   Policy Rate Information
FALSE  Min.   :  2630   Min.   :  1.0          
FALSE  1st Qu.: 25279   1st Qu.: 26.0          
FALSE  Median : 31837   Median :150.0          
FALSE  Mean   : 30475   Mean   :112.3          
FALSE  3rd Qu.: 39470   3rd Qu.:152.0          
FALSE  Max.   :540165   Max.   :163.0

Statistika deskriptif tersebut menghasilkan rata-rata Tanggungan Premi per Tahun dan Tingkat Informasi Polis berturut-turut sebesar 30475 dan 112,3. Hal ini mengindikasikan bahwa, dengan mengabaikan pengaruh outliers, rata-rata tanggungan premi per tahun nasabah di negara India 30475 yang mana angka tersebut sudah cukup tinggi. Sementara itu, rata-rata tingkat informasi polis di negara India sebesar 112,3 yang mana angka tersebut cukup tinggi, mengingat variabel ini memiliki nilai minimum di 1, yang mengindikasikan terdapat ketimpangan kualitas informasi polis yang diterbitkan oleh setiap perusahaan asuransi di India.

2.3.1 Eksplorasi Data - QQ-Plot

> #QQ-Plot Annual Premiun
> qqnorm(dataassurance$Annual_Premium, main = "Q-Q Plot Annual Premium (Y1)")

Dari QQ-plot tersebut dapat disimpulkan bahwa variabel Tanggungan Premi per Tahun berbentuk sigmoid, maknanya adalah terdapat nasabah yang memiliki profil risiko terlalu tinggi sehingga kebutuhan membayar premi asuransi kendaraan per tahun sangat tinggi, tetapi di lain sisi juga terdapat nasabah yang memiliki profil risiko rendah sehingga kebutuhan membayar premi asuransi kendaraan sangat rendah. Dalam kata lain, pertumbuhan premi asuransi kendaraan per tahun pada setiap nasabah sangat bervariasi dan memiliki range yang sangat tinggi.

> #QQ-Plot Policy Rate Information
> qqnorm(dataassurance$`Policy Rate Information`, main = "Q-Q Plot Policy Information Rate (Y2)")

Dari QQ-plot tersebut dapat disimpulkan bahwa variabel Tingkat Informasi Polis berbentuk sigmoid, maknanya adalah terdapat nasabah yang menilai kesepakatan yang terjadi antara nasabah dan agen asuransi melalui polis sangat tinggi (baik) sehingga tingkat informasi polis sangat tinggi, tetapi di lain sisi juga terdapat nasabah yang menilai kesepakatan yang terjadi antara nasabah dan agen asuransi melalui polis sangat rendah (tidak baik) sehingga tingkat informasi polis sangat rendah. Dalam kata lain, pertumbuhan tingkat informasi polis pada setiap nasabah sangat bervariasi dan memiliki range yang sangat tinggi.

2.3.2 Eksplorasi Data - Histogram

> #Histogram Annual Premiun
> hist(dataassurance$Annual_Premium, 
+      main = "Histogram Annual Premium (Y1)")

Dari Histogram tersebut dapat disimpulkan bahwa variabel Tanggungan Premi per Tahun memiliki skewness dan kurtosis yang tinggi, sehingga dapat dicurigai bahwa terdapat begitu banyak outliers kanan (menunjukkan nilai yang sangat tinggi). Dalam kata lain, ini menunjukkan bahwa sebagian besar nasabah membayar premi yang mirip, tetapi ada beberapa yang membayar jauh lebih tinggi (outliers kanan).

> #Histogram Policy Rate Information
> hist(dataassurance$`Policy Rate Information`, 
+      main = "Histogram Policy Information Rate (Y2)")

Dari Histogram tersebut dapat disimpulkan bahwa variabel Tingkat Informasi Polis memiliki skewness dan kurtosis yang rendah. Dalam kata lain, ini menunjukkan bahwa nasabah menilai kesepakatan yang terjadi antara nasabah dan agen asuransi melalui polis bervariasi dan bergantung pada setiap individu dan agen asuransi yang didapat oleh nasabahnya.

2.3.3 Eksplorasi Data - Box-Plot

> #Box-Plot Annual Premium
> boxplot(dataassurance$Annual_Premium, main = "Box-Plot Annual Premium (Y1)")

Dari Box-plot tersebut dapat disimpulkan bahwa sebagian besar nilai premi tahunan berada di rentang yang lebih rendah, dengan beberapa nilai yang jauh lebih tinggi yang menarik perhatian sebagai outliers, distribusi dari nilai premi tahunan positively skewed, karena banyak outliers yang berada di sisi atas, menunjukkan ada beberapa nilai yang jauh lebih tinggi dari mayoritas data.

> #Box-Plot Policy Rate Information
> boxplot(dataassurance$`Policy Rate Information`, main = "Box-Plot Policy Information Rate (Y2)")

Dari Box-plot tersebut dapat disimpulkan bahwa sebagian besar tingkat informasi polis berada di rentang yang lebih rendah, dengan tidak terdapat nilai yang jauh lebih tinggi yang menarik perhatian sebagai outliers, distribusi dari tingkat informasi polis negative skewed, yang maknanya lebih banyak nasabah yang menilai kesepakatan yang terjadi antara nasabah dan agen asuransi melalui polis lebih tinggi, sedangkan tingkat informasi polis bervariasi dan bergantung pada setiap individu dan agen asuransi yang didapat oleh nasabahnya.

2.4 Uji Asumsi Klasik Bagi MANOVA

2.4.1 Uji Asumsi Normalitas Multivariat

> #Normalitas Multivariat Test
> result.normality = mvn(yvars[1:10487,], mvnTest = "mardia")
> result.normality$multivariateNormality
FALSE              Test        Statistic p value Result
FALSE 1 Mardia Skewness  1611.7157211905       0     NO
FALSE 2 Mardia Kurtosis 48.4877920839945       0     NO
FALSE 3             MVN             <NA>    <NA>     NO

Nilai Statistik Mardia Skewness dan Kurtosis berturut-turut sebesar 1611.7157 dan 48.4877, sedangkan p-valuenya sama, yaitu 0. Berarti dengan tingkat kepercayaan 99% karena p-value < 1% maka berarti \(H_0\) ditolak artinya Galat Dari Dua Variabel Respons Tidak Berdistribusi Normal Multivariat.

2.4.2 Uji Asumsi Homogenitas Matriks Kovarians

> #Homogenitas Matriks Kovarians Test
> result.homogenity =  boxM(yvars, group = rep_factor , data = dataassurance)
> result.homogenity
FALSE 
FALSE   Box's M-test for Homogeneity of Covariance Matrices
FALSE 
FALSE data:  yvars
FALSE Chi-Sq (approx.) = 36058, df = 3, p-value < 2.2e-16

Nilai Statistik Box-M sebesar 36058, sedangkan p-valuenya, yaitu < 2.2e-16. Berarti dengan tingkat kepercayaan 99% karena p-value < 1% maka berarti \(H_0\) ditolak artinya Galat Dari Dua Variabel Respons Tidak Memiliki Matriks Kovarians Sama.

2.5 The Multivariate Analysis of Variance (MANOVA)

> #The MANOVA
> MANOVA = manova(yvars ~ treatment_factor + rep_factor, data = dataassurance)
> 
> #Pillai's Trace MANOVA
> summary(MANOVA, test = 'Pillai', intercept = T)
FALSE                       Df  Pillai approx F num Df  den Df    Pr(>F)    
FALSE (Intercept)            1 0.92048  6068471      2 1048570 < 2.2e-16 ***
FALSE treatment_factor       2 0.34448   109092      4 2097142 < 2.2e-16 ***
FALSE rep_factor             1 0.00025      130      2 1048570 < 2.2e-16 ***
FALSE Residuals        1048571                                              
FALSE ---
FALSE Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Nilai Statistik Pillai’s Trace (\(P\)) pada perlakuann “Umur Kendaraan” sebesar 0.34448, sedangkan p-valuenya sebesar < 2.2e-16 yang berarti bahwa bagi tingkat kepercayaan 99% karena p-value < 1% maka berarti \(H_0\) ditolak artinya perlakuan berpengaruh sangat nyata pada besar tanggungan premi per tahun dan tingkat informasi polis.

Nilai Statistik Pillai’s Trace (\(P\)) pada perlakuann “Kerusakan Kendaraan” sebesar 0.00025, sedangkan p-valuenya sebesar < 2.2e-16 yang berarti bahwa bagi tingkat kepercayaan 99% karena p-value < 1% maka berarti \(H_0\) ditolak artinya perlakuan berpengaruh sangat nyata pada besar tanggungan premi per tahun dan tingkat informasi polis.

2.6 Daftar Pustaka

[1] Hair, J. F. et al. 2010. Multivariate Data Analysis : A Global Perspective, 7th Edition. New Jersey: Pearson Prentice Hall.

[2] Harlow, L. 2005. The Essence of Multivariate Thinking Basic Themes and Methods. Lawrence Erlbaum Associates. London.

[3] Hand, D. J. et al. 1987. Multivariate Analysis of Variance And Repeated Measures : A Practical Approach For Behavioural Sciences, 1th Edition. London.