Penerapan Principal Component Analysis Untuk Reduksi Dimensi Clustering Pada Tingkat Perceraian di Indonesia Tahun 2021

2023-11-08

Nur’aini Dwi Yuniawati

Pendahuluan
Tinjauan Pustaka
Data Analisis
Source Code dan Penjelasannya
Hasil dan Pembahasan
Kesimpulan
Daftar Pustaka

Pendahuluan

Pandemi COVID-19 berdampak besar pada hubungan pernikahan di Indonesia yaitu meningkatkan tingkat perceraian. Pembatasan sosial, ketidakpastian ekonomi, dan tekanan mental memberikan kontribusi pada kenaikan kasus perceraian. Fenomena ini menciptakan tantangan baru bagi masyarakat dan pemerintah dalam menjaga keutuhan keluarga di kondisi sulit. Pemahaman mendalam terkait penyebab dan dampak peningkatan perceraian selama pandemi menjadi kunci untuk merumuskan kebijakan yang responsif dan solutif. Tingkat perceraian di Indonesia mencerminkan perubahan pola hidup dan nilai-nilai dengan faktor kompleks seperti tekanan ekonomi dan perubahan peran gender. Analisis tingkat perceraian menjadi langkah awal untuk mengidentifikasi faktor utama dari masalah ini sehingga memungkinkan pengembangan solusi yang sesuai untuk menjaga stabilitas hubungan pernikahan di Indonesia. Oleh karena itu, akan dilakukan analisis untuk mengelompokkan provinsi di Indonesia berdasarkan faktor-faktor tingkat perceraian. Dengan adanya pengelompokkan ini,diharapkan masyarakat bisa lebih mengerti untuk menyikapi hal yang terjadi dalam rumah tangga dan pemerintah dapat menerapkan kebijakan yang tepat untuk terciptanya pemerataan kesejahteraan rakyat

Tinjauan Pustaka

Analisis Multivariat

Analisis multivariat adalah serangkaian teknik analisis statistika yang digunakan untuk mengidentifikasi, memahami, dan menjelaskan hubungan kompleks antar beberapa variabel dalam satu sistem. Dalam hal ini, variabel-variabel tersebut saling berkorelasi dan analisis multivariat bertujuan untuk mengungkap pola, tren, dan struktur yang mungkin sulit terlihat dengan menganalisis variabel secara individual. Pendekatan ini digunakan untuk menyelidiki dan mengeksplorasi hubungan antar variabel dalam dataset yang melibatkan banyak dimensi. Analisis Multivariat mencakup berbagai teknik, termasuk Analisis Komponen Utama (PCA), Analisis Diskriminan, Analisis Faktor, dan lainnya, di mana semua analisis tersebut dirancang untuk mengoptimalkan pemahaman terhadap struktur dan hubungan dalam data multivariat.

Analisis Komponen Utama

Analisis komponen utama (Principal Component Analysis) merupakan salah satu metode analisis multivariat yang digunakan untuk mereduksi jumlah variabel, khususnya pada data berdimensi tinggi. Tujuan utamanya adalah mempertahankan sebanyak mungkin informasi dengan mengurangi dimensi data. Pada kesempatan ini, metode PCA akan diterapkan pada dataset asli untuk mengubah variabel yang berkorelasi menjadi komponen utama yang saling independen. Standarisasi dataset diperlukan sebelum penerapan PCA untuk memastikan skala variabel yang seragam. Analisis PCA juga memiliki peran dalam mengurangi keberadaan outlier dan mengatasi asumsi multikolinieritas.

Langkah-langkah melakukan PCA adalah sebagai berikut:
-Memilih variabel yang berskala numerik.
-Melakukan standarisasi data untuk memastikan bahwa semua variabel memiliki skala yang seragam.
-Menghitung matriks korelasi jika variabel-variabel memiliki satuan yang sama atau matriks kovarian jika satuan variabel berbeda.
-Menghitung nilai eigen dan vektor eigen dari matriks korelasi atau matriks kovarian.
-Memilih komponen utama berdasarkan nilai eigen yang signifikan.
-Menyusun persamaan komponen utama baru dengan menggabungkan variabel-variabel asli berdasarkan bobot vektor eigen. Persamaan komponen utama dapat dituliskan seperti berikut:
PC_i = ϕ_1ix₁ + ϕ_2ix₂ + ... + ϕ_kix_k

Penentuan banyak komponen utama dapat dilihat melalui (Rencher & Christensen, 2002):
*Jumlah komponen utama yang mampu menangkap minimal 80% keragaman dari data tersebut.
*Komponen yang memiliki nilai eigen lebih besar dari rata-rata nilai eigen yaitu satu.
*Gunakan grafik scree dengan memplot nilai eigen dengan komponen utama ke-k. Jumlah komponen utama yang dipilih ditentukan oleh titik di mana terjadi penurunan yang tajam, diikuti oleh penurunan yang kurang tajam setelahnya. Komponen yang mengalami penurunan tajam dapat dianggap lebih penting.
*Lakukan uji signifikansi pada komponen yang memiliki nilai eigen yang lebih besar. Fokus pada komponen-komponen yang memberikan kontribusi signifikan terhadap varians total data.

Analisis Cluster

Analisis cluster adalah teknik analisis multivariat yang bertujuan mengelompokkan objek-objek ke dalam dua atau lebih kelompok berdasarkan kesamaan karakteristik (Simamora dalam Faradilla, 2022). Dalam proses ini, objek-objek yang serupa dikelompokkan bersama dengan tingkat homogenitas tinggi di antara objek dalam satu kelompok, membentuk cluster yang memiliki tingkat heterogenitas yang tinggi antar kelompok. Dalam pengelompokan ini, digunakan metrik yang mengukur tingkat kemiripan antar objek untuk menyederhanakan struktur kelompok dari data yang kompleks. Analisis cluster dibagi menjadi beberapa kategori, termasuk hard clustering yang melibatkan metode non-hierarchical dan hierarchical, serta soft clustering dengan menggunakan pendekatan Fuzzy C-Means.

Metode non-hierarchical adalah pendekatan dalam pengelompokan objek di mana jumlah cluster yang akan dibentuk dapat ditentukan sebelumnya sebagai bagian dari prosedur pengerombolan. Salah satu metode yang termasuk dalam clustering non-hierarchical adalah clustering K-Medoids. Metode K-Medoids sebagai pengembangan dari K-Means tetapi lebih tahan terhadap keberadaan outlier daripada K-Means yang peka terhadap nilai ekstrim. Hal ini disebabkan oleh penggunaan jarak Manhattan yang lebih robust dalam K-Medoids. Kedua metode ini menghasilkan k cluster dengan mempertimbangkan jarak objek ke titik pusat dan objek dikelompokkan ke dalam cluster berdasarkan titik pusat terdekat.

Metode hierarchical digunakan untuk mengelompokkan objek secara terstruktur berdasarkan kemiripan sifatnya, di mana cluster yang diinginkan belum diketahui sebelumnya (Matjik & Sumertajaya dalam Faradilla, 2022). Pengelompokkan dimulai dengan dua objek atau lebih yang memiliki kesamaan terdekat dan kemiripan dihitung untuk objek lain dengan kedekatan berikutnya. Proses ini terus berlanjut hingga membentuk dendrogram yang menunjukkan tingkatan hierarki antar objek. Beberapa jenis metode hierarchical meliputi:
* Single Linkage: Jarak dua cluster diukur dengan jarak terdekat antara sebuah objek dalam satu cluster dengan objek dalam cluster lain.
* Complete Linkage: Jarak dua cluster diukur dengan jarak terjauh antara sebuah objek dalam satu cluster dengan objek dalam cluster lain.
* Average Linkage: Jarak antara dua cluster diukur dengan rata-rata jarak antara sebuah objek dalam satu cluster dengan objek dalam cluster lain.
* Metode Ward: Metode ini bersifat agglomerative dan bertujuan memperoleh kelompok dengan varian internal sekecil mungkin. Ukuran yang digunakan untuk pengelompokkan dengan metode Ward adalah Sum of Square (SSE).

Fuzzy C-Means (FCM) mengaitkan derajat keanggotaan suatu objek dengan jaraknya terhadap pusat kelompok. Meskipun FCM memiliki keunggulan dalam meminimalkan fungsi objektif, namun kelemahannya mencakup sensitivitas terhadap noise dan rentan terhadap jebakan dalam mencapai optimum lokal (Izakian & Abraham dalam Thamrin & Wijayanto, 2021).

Data Analisis

Data yang digunakan adalah data sekunder dari BPS mengenai jumlah perceraian menurut provinsi dan faktor-faktor tertentu pada tahun 2021. Data ini terdiri dari 14 variabel dengan 34 data pada setiap varibel. Variabel tersebut terdiri dari zina, mabuk, madat, judi, meninggalkan salah satu pihak, dihukum penjara, poligami, kekerasan dalam rumah tangga, cacat badan, perselisihan dan pertengkaran terus menerus, kawin paksa, murtad, dan ekonomi. Sedangkan banyak data sesuai dengan provinsi di Indonesia.

Source Code dan Penjelasannya

Library yang dibutuhkan

library(readxl)
library(corrplot)
library(factoextra)
library(ggplot2)
library(gridExtra)
library(NbClust)
library(purrr)
library(cluster)

library digunakan untuk mengaktifkan suatu paket (packages) di Rstudio. Pada analisis ini digunakan beberapa packages yaitu:
readxl digunakan untuk membaca data dengan tipe berkas Excel.
corrplot digunakan untuk menggambarkan matriks korelasi dalam menganalisis hubungan antar variabel.
factoextra digunakan untuk menganalisis data faktor seperti analisis komponen utama.
ggplot2 digunakan untuk membuat grafik atau plot sebagai bentuk visualisasi data.
gridExtra digunakan untuk menggabungkan beberapa grafik ke dalam satu tampilan.
NbClust digunakan untuk mengevaluasi jumlah klaster yang optimal dalam analisis klaster.
purrr digunakan untuk membangkitkan fungsi map_dbl().
Sedangkan cluster digunakan untuk membangkitkan fungsi agnes() dalam melakukan analisis hierarchical clustering.

Data dan tipe data

projekAKU <- read_excel(path = "dataAKU.xlsx", col_names = TRUE)
head(projekAKU)
str(projekAKU)

Data yang dianalisis di-input ke Rstudio. Beberapa bagian data ditampilkan melalui fungsi head dan dapat pula diketahui tipe data melalui fungsi str.

Statistika deskriptif

projek <- projekAKU[,2:14]
summary(projek)

Fungsi summary digunakan untuk menampilkan ringkasan nilai statistika deskriptif yang berupa nilai maksimum, minimum, rata-rata dan kuartil dari setiap variabel pada data.

Analisis Komponen Utama

Visualisasi korelasi

kor_visual <- cor(projek)
corrplot(kor_visual, type = "upper", order = "hclust", tl.col = "maroon",
         tl.srt = 35)
corrplot(kor_visual, method="number",type = "lower", tl.col = "maroon",
         tl.srt = 35)

Fungsi cor digunakan untuk menghitung korelasi antar variabel. Dalam menggambarkan korelasinya digunakan fungsi corrplot. Penggambaran korelasi dapat berupa bentuk atau angka dengan gradasi warna yang menunjukkan tingkat hubungan antar variabel. Untuk mempercantik grafik dapat pula mengatur warna teks dan sudut teks dengan fungsi tl.col dan tl.srt.

Dekomposisi eigen

projek_st <- scale(projek)
projek_st
mcov <- cov(projek_st)
nilaieig <- eigen(mcov)
nilaieig

Data yang akan dianalisis distandarisasi terlebih dahulu dengan fungsi scale. Lalu menghitung matriks kovarian dengan fungsi cov dari data yang telah distandarisasi. Fungsi eigen digunakan untuk menghitung nilai dan vektor dari matriks kovarian. Eigenvalues yang bernilai lebih dari satu akan menjadi komponen utama yang akan disusun.

Menggambar scree plot berdasarkan nilai eigen

plot(nilaieig$values, xlab="Eigenvalue Number", ylab = "Eigenvalue Size",
     main = "Scree Plot")
lines(nilaieig$values)

Scree plot digunakan dalan mengevaluasi banyak komponen yang signifikan sehingga menjadi fokus utama dalam analisis. Fungsi plot digunakan dalam visualisasi nilai eigenvalue yang dikombinasikan dengan fungsi lines untuk lebih memperjelas tren penurunan dalam ukuran eigenvalue. Beberapa komponen yang mengalami penurunan tajam dapat menjadi komponen yang dianggap penting dalam data sehingga akan dipertahankan. sebaliknya, komponen-komponen yang membuat bentuk grafik melandai dianggap tidak begitu signifikan.

Nilai kumulatif eigen

for (eg in nilaieig$values){
  print(eg / sum(nilaieig$values))
  }

Penentuan proporsi variance dari masing-masing eigenvalue didapatkan dengan menjalankan looping seperti syntax di atas. Proporsi variance digunakan untuk mengevaluasi sejauh mana setiap komponen menyumbang terhadap variasi dalam data. Hal ini juga dapat digunakan dalam menentukan berapa banyak komponen utama yang dipertahankan dalam analisis.

Persamaan PC

modelpca <- nilaieig$vectors[,1:3]
print(modelpca, digits=3)

Untuk lebih mempermudah penulisan model dari setiap komponen yang terpilih dapat dipanggil dengan syntax seperti diatas.

Fungsi PCA dengan “prcomp”

pcamodel <- prcomp(projek_st, scale = TRUE, center=T)
summary(pcamodel)
fviz_eig(pcamodel, addlabels = TRUE, ylim = c(0, 85))
print(round(pcamodel$rotation[,1:3],4))

Selain menggunakan nilai eigen, penentuan komponen utama juga dapat menggunakan fungsi prcomp. Ringkasan statistik dari hasil analisis komponen utama dapat diketahui melalui fungsi summary. Ringkasan tersebut terdiri dari standard deviation, proportion of variance, dan cumulative proportion. Pembuatan grafik sebagai bentuk gambaran dari persentase kumulatif keragaman dapat dibuat melalui fungsi fviz_eig. Setelah mengetahui komponen utama mana yang perlu dipertahankan maka vektor-vektor dari setiap komponen utama tersebut dapat dimunculkan dengan fungsi print pada bagian rotation dari hasil analisis dengan prcomp.

Plot kontribusi variabel

fviz_pca_var(pcamodel,
             col.var = "cos2",
             gradient.cols = c("navy", "magenta", "darkorange"),
             repel = TRUE)

Penggambaran representasi variabel dalam analisis komponen utama dibuat menggunakan fungsi fviz_pca_var. Visualisasi yang dilakukan dapat juga diatur gradasi warna variabel pada plot berdasarkan “cos2”. Fungsi repel digunakan untuk menghindari tumpang tindih antar label variabel sehingga plot lebih mudah dibaca.

Kontribusi variabel pada PC1, PC2, dan PC3

PC1 <- fviz_contrib(pcamodel, choice = "var", axes = 1)
PC2 <- fviz_contrib(pcamodel, choice = "var", axes = 2)
PC3 <- fviz_contrib(pcamodel, choice = "var", axes = 3)
grid.arrange(PC1,PC2,PC3, ncol=2,
             top='Contribution of the variables to the first three PCs')

Kontribusi variabel terdapat setiap komponen utama yang telah terpilih untuk dipertahankan dapat diilihat melalui grafik yang dibuat melalui fungsi fviz_contrib. Sedangkan fungsi grid.arrange digunakan untuk menggabungkan ketiga grafik kontribusi variabel ke dalam satu tampilan.

Plot individu

fviz_pca_ind(pcamodel,
             col.ind = "cos2",
             gradient.cols = c("gold", "purple", "brown"),
             repel = TRUE)

Fungsi fviz_pca_ind digunakan untuk memvisualisasikan individu dalam analisis komponen utama, di mana individu ditampilkan dalam ruang PCA berdasarkan kualitas representasi dan pengaturan warna individu pada plot berdasarkan “cos2” yang mencerminkan kualitas representasi tersebut. Plot ini berguna untuk mempermudah pemahaman mengenai sejauh mana masing-masing individu terletak dalam ruang PCA dan bagaimana masing-masing individu berkontribusi terhadap variasi dalam data.

Biplot

fviz_pca_biplot(pcamodel, axes = c(1,2), geom = "point",
                repel = TRUE, col.var = "darkorange", col.ind = "darkgreen" )

Biplot dapat dibuat melalui fungsi fviz_pca_biplot. Fungsi ini digunakan untuk menggabungkan plot komponen utama dan plot variabel dalam satu tampilan. Visualisasi juga dapat diatur bentuk plot dan warnanya sehingga hubungan antara individu dan variabel dalam analisis komponen utama lebih mudah untuk diamati.

Hieararki Clustering Method

Data untuk Clustering

pca_model <- prcomp(projek_st, center=FALSE, scale.=FALSE, rank. = 3)
results <- pca_model$x
results

Pengelompokan wilayah dilakukan dengan metode clustering sehingga perlu memanggil matriks dari hasil PCA yang berisi nilai koordinat dari setiap observasi pada setiap komponen utama.

Penentuan Jumlah Cluster dengan Metode Silhouette

l1 <- fviz_nbclust(results, FUNcluster = hcut, method = "silhouette",
             hc_method = "complete",hc_metric = "euclidean")
l2 <- fviz_nbclust(results,FUNcluster = hcut,method = "silhouette",
             hc_method = "average",hc_metric = "euclidean")
l3 <- fviz_nbclust(results,FUNcluster = hcut,method = "silhouette",
             hc_method = "single",hc_metric = "euclidean")
l4 <- fviz_nbclust(results,FUNcluster = hcut,method = "silhouette",
             hc_method = "ward.D",hc_metric = "euclidean")
grid.arrange(l1, l2, l3, l4, nrow=2, ncol=2,
             top='Choosing the linkage method and the number of clusters')

Penentuan banyak cluster dilakukan dengan menggunakan menggunakan indeks silhouette pada hasil dari analisis hierarchical clustering dengan berbagai metode linkage. Linkage method yang digunakan terdiri dari complete linkage, average linkage, centroid linkage, dan Ward’s linkage. Visualisasi metode tersebut dibuat dengan fungsi fviz_nbclust lalu keempat visualisasi digabungkan ke dalam satu tampilan.

Penentuan Hierarchical Method Terbaik

dc <- hclust(dist(results,method = 'euclidean'),method = "complete")
da <- hclust(dist(results,method = 'euclidean'),method = "average")
ds <- hclust(dist(results,method = 'euclidean'),method = "single")
dw <- hclust(dist(results,method = 'euclidean'),method = "ward.D")
m <- c("complete", "average", "single", "ward")
names(m) <- c("complete", "average", "single", "ward")
ac <- function(x) {
  agnes(results, method = x)$ac
}
map_dbl(m,ac)
plot(dw)
rect.hclust(dw,2)

Pembentukan dendrogram ( tree diagram) menggambarkan hubungan hierarki antar objek berdasarkan jarak antarobjek dalam data hasil reduksi PCA. Linkage method yang digunakan juga sama dengan metode silhouette. Perhitungan Agglomerative Coefficient melalui looping seperti di atas dengan fungsi ac dan map_dbl. Sedangkan fungsi rect.hclust digunakan untuk menandai pemotongan dendrogram pada tingkat 2.

Pengelompokan Data

klaster <- cutree(dw, 2) 
fviz_cluster(list(data = results, cluster = klaster))
tabel = data.frame(results,klaster)
tabel

Fungsi fviz_cluster digunakan untuk visualisasi hasil clustering. Sedangkan fungsi cutree digunakan untuk memotong dendrogram yang dihasilkan oleh metode hierarchical clustering.

Profilisasi Cluster Terbaik

hist.kluster1 <- subset(tabel,klaster==1)
hist.kluster2 <- subset(tabel,klaster==2)
hist.kluster_1 <- sapply(hist.kluster1,mean)
hist.kluster_2 <- sapply(hist.kluster2,mean)
mean_total=rbind(hist.kluster_1,hist.kluster_2)
mean_total

Fungsi sapply digunakan untuk menghitung rata-rata variabel hasil clustering agglomerative Ward linkage pada masing-masing cluster.

Hasil dan Pembahasan

## corrplot 0.92 loaded

## Warning: package 'factoextra' was built under R version 4.3.2

## Loading required package: ggplot2

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

Data dan tipe data

## # A tibble: 6 × 14
##   `Provinsi\r\n`    Zina Mabuk Madat  Judi Meninggalkan Dipenjara Poligami  KDRT
##   <chr>            <dbl> <dbl> <dbl> <dbl>        <dbl>     <dbl>    <dbl> <dbl>
## 1 Aceh                 1     4    18    11          699        90       19    88
## 2 Sumatera Utara       1     6    24    12         1587        67       14    37
## 3 Sumatera Barat       3     4     2    15          883        39       10    29
## 4 Riau                39    35    24    33         1303       106       33   131
## 5 Jambi                3    14     4    14          448        29       13    36
## 6 Sumatera Selatan    27    57    20    59          998        91       39   240
## # ℹ 5 more variables: Cacat <dbl>, Pertengkaran <dbl>, `Kawin Paksa` <dbl>,
## #   Murtad <dbl>, Ekonomi <dbl>

## tibble [34 × 14] (S3: tbl_df/tbl/data.frame)
##  $ Provinsi
## : chr [1:34] "Aceh" "Sumatera Utara" "Sumatera Barat" "Riau" ...
##  $ Zina        : num [1:34] 1 1 3 39 3 27 2 2 5 0 ...
##  $ Mabuk       : num [1:34] 4 6 4 35 14 57 11 53 45 0 ...
##  $ Madat       : num [1:34] 18 24 2 24 4 20 3 7 3 0 ...
##  $ Judi        : num [1:34] 11 12 15 33 14 59 15 51 12 0 ...
##  $ Meninggalkan: num [1:34] 699 1587 883 1303 448 ...
##  $ Dipenjara   : num [1:34] 90 67 39 106 29 91 14 30 27 0 ...
##  $ Poligami    : num [1:34] 19 14 10 33 13 39 5 19 5 0 ...
##  $ KDRT        : num [1:34] 88 37 29 131 36 240 37 167 80 0 ...
##  $ Cacat       : num [1:34] 27 3 6 10 2 7 3 5 1 0 ...
##  $ Pertengkaran: num [1:34] 5238 15244 8172 10285 4140 ...
##  $ Kawin Paksa : num [1:34] 3 1 3 10 0 7 1 2 1 0 ...
##  $ Murtad      : num [1:34] 9 73 14 37 11 49 4 72 2 0 ...
##  $ Ekonomi     : num [1:34] 235 201 191 676 286 968 237 2770 272 0 ...

Data terdiri dari 14 variabel dengan 34 data di setiap variabelnya seperti yang dijelaskan sebelumnya. Semua variabel juga memiliki tipe data yang sama yaitu numerik kecuali variabel provinsi dengan tipe data karakter.

Statistika deskriptif

##       Zina            Mabuk            Madat            Judi       
##  Min.   :  0.00   Min.   :  0.00   Min.   : 0.00   Min.   :  0.00  
##  1st Qu.:  0.25   1st Qu.:  6.75   1st Qu.: 0.25   1st Qu.:  2.00  
##  Median :  3.00   Median : 27.50   Median : 3.00   Median : 12.00  
##  Mean   : 13.21   Mean   : 52.32   Mean   :10.26   Mean   : 29.21  
##  3rd Qu.:  7.75   3rd Qu.: 68.00   3rd Qu.:18.00   3rd Qu.: 32.00  
##  Max.   :235.00   Max.   :315.00   Max.   :65.00   Max.   :230.00  
##   Meninggalkan       Dipenjara         Poligami           KDRT        
##  Min.   :    0.0   Min.   :  0.00   Min.   :  0.00   Min.   :   0.00  
##  1st Qu.:  278.5   1st Qu.:  3.50   1st Qu.:  4.25   1st Qu.:  34.25  
##  Median :  597.0   Median : 27.50   Median : 10.50   Median :  51.00  
##  Mean   : 1246.7   Mean   : 40.94   Mean   : 26.26   Mean   : 140.56  
##  3rd Qu.: 1188.5   3rd Qu.: 64.25   3rd Qu.: 32.75   3rd Qu.: 173.00  
##  Max.   :11184.0   Max.   :180.00   Max.   :151.00   Max.   :1354.00  
##      Cacat        Pertengkaran    Kawin Paksa         Murtad      
##  Min.   : 0.00   Min.   :    0   Min.   :  0.00   Min.   :  0.00  
##  1st Qu.: 0.25   1st Qu.: 1306   1st Qu.:  1.00   1st Qu.:  4.50  
##  Median : 3.50   Median : 3952   Median :  3.00   Median : 20.50  
##  Mean   :10.59   Mean   : 8212   Mean   : 10.74   Mean   : 42.56  
##  3rd Qu.: 7.00   3rd Qu.: 9701   3rd Qu.:  6.50   3rd Qu.: 48.75  
##  Max.   :80.00   Max.   :52213   Max.   :159.00   Max.   :306.00  
##     Ekonomi        
##  Min.   :    0.00  
##  1st Qu.:   42.25  
##  Median :  236.00  
##  Mean   : 3333.62  
##  3rd Qu.:  823.00  
##  Max.   :40603.00

Berdasarkan output diatas dapat diketahui nilai maksimum, minimum, rata-rata, dan kuartil dari setiap variabel yang akan dianalisis lebih lanjut. Melalui statistika deskriptif juga dapat diketahui bahwa data memiliki keragaman yang tersebar luas atau rentang nilai yang sangat jauh sehingga diperlukan standarisasi data.

Analisis Komponen Utama

Visualisasi korelasi

Berdasarkan plot diatas dapat diketahui bahwa terdapat cukup banyak data yang memiliki tingkat korelasi tinggi. Hal ini ditunjukkan dengan warna yang gelap (biru tua) atau nilai korelasi mendekati satu.Beberapa diantaranya yaitu variabel ekonomi dengan pertengkaran, murtad dengan pertengkaran, murtad dengan ekonomi, kawin paksa dengan zina, dan lainnya.

Dekomposisi eigen

## eigen() decomposition
## $values
##  [1] 9.637341424 1.209944804 1.045649123 0.452947078 0.358617706 0.098582458
##  [7] 0.064566093 0.056533320 0.027864999 0.017055103 0.014751114 0.011215771
## [13] 0.004931006
## 
## $vectors
##             [,1]        [,2]        [,3]          [,4]        [,5]         [,6]
##  [1,] -0.2574780  0.39080693  0.30132035 -0.3230736343  0.27445097  0.058715909
##  [2,] -0.2773634  0.23001600  0.07397657  0.2646994801 -0.61245928  0.007580446
##  [3,] -0.1777755 -0.51287175  0.56635964  0.2242253676 -0.01440788  0.265967017
##  [4,] -0.3116996  0.12879319  0.07319031  0.0541913580 -0.08626306  0.115072333
##  [5,] -0.2694181  0.02265796 -0.31616782  0.6110002339  0.17580645  0.299916854
##  [6,] -0.2681799 -0.33773188  0.25909291 -0.0007107648  0.44391316 -0.210114435
##  [7,] -0.2798699 -0.33971419  0.01090273 -0.1395764442 -0.42012477 -0.483769025
##  [8,] -0.2853261  0.25590672  0.27190883 -0.2245499780 -0.20137042  0.175138475
##  [9,] -0.3001900  0.09317278 -0.17149624  0.3052166821  0.16063599 -0.542676241
## [10,] -0.2995993 -0.15492565 -0.27781528 -0.1237926404  0.09226196  0.223842840
## [11,] -0.2867930  0.35628852  0.12099034  0.0732993472  0.22264501 -0.077102443
## [12,] -0.2824030 -0.22529411 -0.32848941 -0.2651487973 -0.08533472  0.388874795
## [13,] -0.2861706 -0.09426142 -0.32761670 -0.3807352176  0.07570150 -0.109266738
##               [,7]        [,8]         [,9]       [,10]       [,11]       [,12]
##  [1,]  0.048930484 -0.16140984 -0.270845870  0.17335140 -0.25079898  0.11188204
##  [2,]  0.369448712 -0.47811218 -0.041713006 -0.16251216  0.14902074  0.04697559
##  [3,] -0.370874749 -0.15867397  0.182027482 -0.16635816 -0.05785537 -0.02467767
##  [4,] -0.029933088  0.65512799 -0.342245229 -0.50265249  0.22338669  0.06324251
##  [5,] -0.112351929  0.05422644 -0.145600453  0.48577199  0.09616004  0.21352393
##  [6,]  0.582703415 -0.04109676 -0.092122093  0.04797586  0.21207093  0.15959397
##  [7,] -0.185804955  0.14816583 -0.355775242  0.40143040 -0.14921888 -0.09811485
##  [8,]  0.032420338  0.32690765  0.579371693  0.38796971  0.10202314  0.05378848
##  [9,]  0.001473124  0.10545974  0.473224919 -0.23918874 -0.33941498  0.03246789
## [10,]  0.199749221 -0.01075128  0.088142429  0.01484998  0.10891419 -0.79459764
## [11,] -0.393237321 -0.25590102 -0.178815014 -0.09974080 -0.09571145 -0.29820563
## [12,]  0.112342943 -0.05436169 -0.009670602 -0.17950650 -0.58515033  0.28544881
## [13,] -0.357449510 -0.27902767  0.137564325 -0.11687159  0.54417055  0.30698124
##              [,13]
##  [1,]  0.547503751
##  [2,]  0.042571447
##  [3,]  0.189423721
##  [4,]  0.059143754
##  [5,]  0.071989502
##  [6,] -0.288470850
##  [7,] -0.006130111
##  [8,] -0.223844719
##  [9,]  0.223162446
## [10,]  0.209432103
## [11,] -0.595944610
## [12,] -0.246986076
## [13,]  0.103395580

Sesuai dari hasil diatas, akan terdapat tiga macam komponen utama yaitu PC1 dari eigenvalue yang bernilai 9,637, PC2 dari eigenvalue yang bernilai 1,210 dan PC3 dari eigenvalue yang bernilai 1,046.

Menggambar scree plot berdasarkan nilai eigen

Plot diatas juga menunjukkan bahwa terdapat tiga macam komponen utama yaitu PC1, PC2, dan PC3 karena pada plot ke-1, 2, dan 3 terjadi tren menurun dan pada plot ke-4 dan seterusnya sudah mulai melandai.

Nilai kumulatif eigen

## [1] 0.741334
## [1] 0.09307268
## [1] 0.08043455
## [1] 0.03484208
## [1] 0.02758598
## [1] 0.007583266
## [1] 0.004966623
## [1] 0.004348717
## [1] 0.002143461
## [1] 0.001311931
## [1] 0.001134701
## [1] 0.0008627516
## [1] 0.0003793082

Berdasarkan hasil di atas, juga dapat diketahui bahwa keragaman sudah dapat dijelaskan melalui 3 komponen utama yaitu 0, 741 + 0, 093 + 0, 08 = 0, 914 Nilai kumulatif keragaman tersebut juga sudah lebih dari 80% sehingga dapat disusun tiga komponen utama dari PC1, PC2, dan PC3.

Persamaan PC

##         [,1]    [,2]    [,3]
##  [1,] -0.257  0.3908  0.3013
##  [2,] -0.277  0.2300  0.0740
##  [3,] -0.178 -0.5129  0.5664
##  [4,] -0.312  0.1288  0.0732
##  [5,] -0.269  0.0227 -0.3162
##  [6,] -0.268 -0.3377  0.2591
##  [7,] -0.280 -0.3397  0.0109
##  [8,] -0.285  0.2559  0.2719
##  [9,] -0.300  0.0932 -0.1715
## [10,] -0.300 -0.1549 -0.2778
## [11,] -0.287  0.3563  0.1210
## [12,] -0.282 -0.2253 -0.3285
## [13,] -0.286 -0.0943 -0.3276

Berdasarkan hasil di atas dapat dituliskan persamaan seperti berikut:
PC₁ = − 0, 257x₁ − 0, 277x₂ − 0, 178x₃ − 0, 312x₄ − 0, 269x₅ − 0, 268x₆ − 0, 280x₇ − 0, 285x₈ − 0, 300x₉ − 0, 300x₁₀ − 0, 287x₁₁ − 0, 282x₁₂ − 0, 286x₁₃
PC₂ = 0, 3908x₁ + 0, 2300x₂ − 0, 5129x₃ + 0, 1288x₄ + 0, 0227x₅ − 0, 3377x₆ − 0, 3397x₇ + 0, 2559x₈ + 0, 0932x₉ − 0, 1549x₁₀ + 0, 3563x₁₁ − 0, 2253x₁₂ − 0, 0943x₁₃
PC₃ = 0, 3013x₁ + 0, 0740x₂ + 0, 5664x₃ + 0, 0732x₄ − 0, 3162x₅ + 0, 2591x₆ + 0, 0109x₇ + 0, 2719x₈ − 0, 1715x₉ − 0, 2778x₁₀ + 0, 1210x₁₁ − 0, 3285x₁₂ − 0, 3276x₁₃

Fungsi PCA dengan “prcomp”

## Importance of components:
##                           PC1     PC2     PC3     PC4     PC5     PC6     PC7
## Standard deviation     3.1044 1.09997 1.02257 0.67301 0.59885 0.31398 0.25410
## Proportion of Variance 0.7413 0.09307 0.08043 0.03484 0.02759 0.00758 0.00497
## Cumulative Proportion  0.7413 0.83441 0.91484 0.94968 0.97727 0.98485 0.98982
##                            PC8     PC9    PC10    PC11    PC12    PC13
## Standard deviation     0.23777 0.16693 0.13060 0.12145 0.10590 0.07022
## Proportion of Variance 0.00435 0.00214 0.00131 0.00113 0.00086 0.00038
## Cumulative Proportion  0.99417 0.99631 0.99762 0.99876 0.99962 1.00000

##                 PC1     PC2     PC3
## Zina         0.2575  0.3908 -0.3013
## Mabuk        0.2774  0.2300 -0.0740
## Madat        0.1778 -0.5129 -0.5664
## Judi         0.3117  0.1288 -0.0732
## Meninggalkan 0.2694  0.0227  0.3162
## Dipenjara    0.2682 -0.3377 -0.2591
## Poligami     0.2799 -0.3397 -0.0109
## KDRT         0.2853  0.2559 -0.2719
## Cacat        0.3002  0.0932  0.1715
## Pertengkaran 0.2996 -0.1549  0.2778
## Kawin Paksa  0.2868  0.3563 -0.1210
## Murtad       0.2824 -0.2253  0.3285
## Ekonomi      0.2862 -0.0943  0.3276

Melalui fungsi prcomp didapatkan hasil yang sama seperti langkah sebelumnya. Didapatkan 3 komponen utama yaitu PC1, PC2, dan PC3 karena ketiga komponen utama tersebut memiliki nilai simpangan baku (nilai eigen) yang lebih dari satu dan proporsi kumulatif keragaman sebesar 0,914 sehingga sudah cukup menjelaskan keragaman dari data. Begitu pula dengan koefisien (vaktor eigen) setiap variabel pada masing-masing komponen utama juga sama dengan hasil komponen utama sebelumnya.
Kumulatif keragaman juga dapat diketahui melalui scree plot. Pada plot tersebut juga didapatkan hasil yang sama bahwa kumulatif keragaman dimensi atau komponen utama 1,2, dan 3 sudah cukup mewakili keragaman data yaitu sebesar 91,4%.

Plot kontribusi variabel

Representasi variabel yang baik pada komponen utama ditunjukkan oleh variabel kawin paksa dan judi karena memiliki nilai cos2 yang tinggi. Variabel madat memiliki nilai cos2 yang sangat rendah sehingga variabel tersebut dianggap kurang penting untuk komponen utama. Berdasarkan jarak antar sudut juga dapat diketahui bahwa variabel KDRT dan mabuk memiliki hubungan yang sangat erat karena jarak antar sudutnya kecil. Begitu pula pada variabel yang lain.

Kontribusi variabel pada PC1, PC2, dan PC3

Berdasarkan grafik di atas dapat diketahui bahwa:
Pada komponen utama pertama, variabel yang memberikan kontribusi terbanyak yaitu judi, cacat, pertengkaran, kawin paksa, ekonomi, KDRT, murtad, dan poligami. Komponen utama ini dapat disebut sebagai faktor kesejahteraan sosial.
Pada komponen utama kedua, variabel yang memberikan kontribusi terbanyak yaitu madat, zina, kawin paksa, poligami, dan dipenjara. Komponen utama ini dapat disebut sebagai faktor moral dan hukum.
Pada komponen utama ketiga, variabel yang memberikan kontribusi terbanyak yaitu madat, murtad, ekonomi, meninggalkan, dan zina. Komponen utama ini dapat disebut sebagai faktor perubahan hidup.
Sedangkan dari komponen utama pertama sampai ketiga, variabel yang memberikan kontribusi terbanyak yaitu pertengkaran, judi, kawin paksa, madat, murtad, KDRT, dan zina.

Plot individu

Data dengan warna coklat memiliki nilai cos2 yang sangat tinggi seperti data ke-31, 32, 33, dan yang lainnya. Sedangkan data ke-8 dan 18 memiliki nilai cos2 yang sangat rendah. Hal ini menunjukkan bahwa data dengan cos2 rendah tidak direpresentasikan dengan baik oleh komponen utama. Selain itu jarak yang jauh antara data ke-15 dan 23 menunjukkan tidak adanya kemiripan antar data. Sebaliknya, jarak plot yang dekat menunjukkan adanya kemiripan data seperti pada data ke-10 dan 17.

Biplot

Berdasarkan plot di atas dapat diketahui bahwa data ke-15 dan 23 memiliki jarak euclidian yang cukup panjang dibandingkan data yang lainnya. Variabel KDRT dan mabuk serta dipenjara dan poligami memiliki hubungan yang sangat kuat atau korelasi yang sangat tinggi. Begitu pula dengan variabel lain yang memiliki jarak sudut yang sempit. Sebaliknya, variabel zina dan madat memiliki jarak sudut yang lebar sehingga kedua variabel memiliki hubungan yang lemah.

Hieararki Clustering Method

Data untuk Clustering

##              PC1         PC2         PC3
##  [1,] -0.3344223 -0.79898956 -0.59651375
##  [2,] -0.2410678 -1.32635037 -0.20111010
##  [3,] -1.1395330  0.06302016  0.32108763
##  [4,]  0.6417929 -0.83776049 -1.16238030
##  [5,] -1.3552104  0.06795122  0.08955134
##  [6,]  0.7744018 -0.56909132 -1.04029763
##  [7,] -1.5644865  0.32278731  0.15754089
##  [8,] -0.1204833 -0.02167010  0.30417340
##  [9,] -1.3992799  0.42047506 -0.10274670
## [10,] -2.1219282  0.46772327  0.27968109
## [11,]  0.3254418 -0.36870678 -0.28701387
## [12,]  6.6676748 -3.39960650  2.69379433
## [13,]  6.9903857  0.18716683  2.95638353
## [14,] -1.2151048  0.50043843  0.41772313
## [15,] 12.6443776  3.15733531 -1.88666372
## [16,]  1.7190185 -0.70151984 -0.57627028
## [17,] -2.1219282  0.46772327  0.27968109
## [18,] -0.1726751  0.05644871 -0.18167268
## [19,] -2.0180661  0.47093213  0.29773973
## [20,] -0.9759997 -0.03894883 -0.18633372
## [21,] -1.2472875  0.25531776  0.24850930
## [22,]  0.3666148 -1.15680807 -0.92747363
## [23,]  1.3148686 -2.93399991 -3.04350084
## [24,] -2.1219282  0.46772327  0.27968109
## [25,] -1.3048524  0.63926841  0.35753824
## [26,] -1.4472746  0.28996338  0.25234482
## [27,]  1.7967626  0.62200907 -0.36585376
## [28,] -1.1463652  0.70367731  0.16043183
## [29,] -1.4993228  0.59249602  0.21902455
## [30,] -2.1219282  0.46772327  0.27968109
## [31,] -2.0066755  0.48530849  0.26120010
## [32,] -1.8310435  0.51592951  0.16786411
## [33,] -2.1219282  0.46772327  0.27968109
## [34,] -1.6125472  0.46431033  0.25451861

Penentuan Jumlah Cluster dengan Metode Silhouette

Berdasarkan semua plot dari Silhouette Method, dapat dilihat bahwa patahan gradient terbesar terjadi saat jumlah cluster sebesar dua. Sehingga selanjutnya dapat dilakukan penentuan metode hierarki terbaik.

Penentuan Hierarchical Method Terbaik

##  complete   average    single      ward 
## 0.9243978 0.9205225 0.8983142 0.9571070

Berdasarkan hasil di atas didapatkan bahwa metode hierarchical yang menghasilkan cluster terbaik yaitu metode Ward karena memiliki nilai agglomerative coefficient sebesar 0, 9571070 di mana nilai tersebut termasuk nilai terbesar dibandingkan dengan metode hierarchical lainnya. Begitu pula dengan dendrogram pada metode Ward terlihat sudah terpartisi cukup baik dengan cluster sebanyak dua.

Pengelompokan Data

##           PC1         PC2         PC3 klaster
## 1  -0.3344223 -0.79898956 -0.59651375       1
## 2  -0.2410678 -1.32635037 -0.20111010       1
## 3  -1.1395330  0.06302016  0.32108763       1
## 4   0.6417929 -0.83776049 -1.16238030       1
## 5  -1.3552104  0.06795122  0.08955134       1
## 6   0.7744018 -0.56909132 -1.04029763       1
## 7  -1.5644865  0.32278731  0.15754089       1
## 8  -0.1204833 -0.02167010  0.30417340       1
## 9  -1.3992799  0.42047506 -0.10274670       1
## 10 -2.1219282  0.46772327  0.27968109       1
## 11  0.3254418 -0.36870678 -0.28701387       1
## 12  6.6676748 -3.39960650  2.69379433       2
## 13  6.9903857  0.18716683  2.95638353       2
## 14 -1.2151048  0.50043843  0.41772313       1
## 15 12.6443776  3.15733531 -1.88666372       2
## 16  1.7190185 -0.70151984 -0.57627028       1
## 17 -2.1219282  0.46772327  0.27968109       1
## 18 -0.1726751  0.05644871 -0.18167268       1
## 19 -2.0180661  0.47093213  0.29773973       1
## 20 -0.9759997 -0.03894883 -0.18633372       1
## 21 -1.2472875  0.25531776  0.24850930       1
## 22  0.3666148 -1.15680807 -0.92747363       1
## 23  1.3148686 -2.93399991 -3.04350084       1
## 24 -2.1219282  0.46772327  0.27968109       1
## 25 -1.3048524  0.63926841  0.35753824       1
## 26 -1.4472746  0.28996338  0.25234482       1
## 27  1.7967626  0.62200907 -0.36585376       1
## 28 -1.1463652  0.70367731  0.16043183       1
## 29 -1.4993228  0.59249602  0.21902455       1
## 30 -2.1219282  0.46772327  0.27968109       1
## 31 -2.0066755  0.48530849  0.26120010       1
## 32 -1.8310435  0.51592951  0.16786411       1
## 33 -2.1219282  0.46772327  0.27968109       1
## 34 -1.6125472  0.46431033  0.25451861       1

Berdasarkan plot di atas dapat diketahui bahwa, cluster menggunakan algoritma Hieararki clustering dengan metode ward didapatkan hasil bahwa cluster 1 terdiri dari 31 provinsi sedangkan cluster 2 terdiri dari 3 provinsi. Provinsi dengan nomor urut 12, 13, dan 15 termasuk cluster 2 dan selainnya tergolong cluster 1.

Profilisasi Cluster Terbaik

##                       PC1         PC2        PC3 klaster
## hist.kluster_1 -0.8484657  0.00177756 -0.1214037       1
## hist.kluster_2  8.7674793 -0.01836812  1.2545047       2

Berdasarkan hasil di atas dapat diketahui bahwa cluster 1 memiliki nilai yang cukup rendah dibandingkan cluster 2. Artinya, provinsi yang tergolong cluster 1 termasuk provinsi dengan tingkat perceraian yang rendah sedangkan provinsi yang tergolong cluster 2 termasuk provinsi dengan tingkat perceraian yang tinggi.

Kesimpulan

Cluster pertama mencakup 31 provinsi yang terdiri dari Aceh, Sumatera Utara, Sumatera Barat, Riau, Jambi, Sumatera Selatan, Bengkulu, Lampung, Kepulauan Bangka Belitung, Kepulauan Riau, Jawa Tengah, Jawa Timur, Banten, Bali, Nusa Tenggara Barat, Nusa Tenggara Timur, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara, Sulawesi Utara, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Tenggara, Gorontalo, Sulawesi Barat, Maluku, Maluku Utara, Papua, dan Papua Barat. Pada cluster pertama tergolong provinsi dengan tingkat perceraian yang rendah di mana faktor yang dominan dari penyebab perceraian tersebut adalah faktor moral dan hukum. Sedangkan cluster kedua mencakup 3 provinsi yang terdiri dari DKI Jakarta, Jawa Barat, dan DI Yogyakarta. Cluster kedua tergolong provinsi dengan tingkat perceraian yang tinggi di mana faktor yang dominan dari penyebab perceraian tersebut adalah faktor kesejahteraan sosial dan faktor perubahan hidup. Oleh karena itu, dalam upaya mengurangi perceraian, kebijakan dan pemahaman mendalam tentang faktor-faktor yang memainkan peran perlu disesuaikan dengan karakteristik unik masing-masing provinsi.

Daftar Pustaka

“Clustering Hierarki Top Player”. rpubs.com. 19 Juni 2019, 10 Oktober 2023. https://www.rpubs.com/alfazrinb/Clustering_Hierarki
Faradilla, S. B. (2022). Komparasi Analisis K-Medoids Clustering dan Hierarchical Clustering (Studi Kasus: Data Kriminalitas di Indonesia Tahun 2020) (Doctoral dissertation, Universitas Islam Indonesia).
Hardika, J., Sebayang, D., & Sembiring, P. (2013). Penerapan analisis komponen utama dalam penentuan faktor dominan yang mempengaruhi prestasi belajar siswa (Studi kasus: SMAN 1 Medan).
“Hierarchical Clustering in R”. 22 Juli 2021, 10 Oktober 2023. https://febipermataputri.medium.com/hierarchical-clustering-in-r-561e77a27edf
“Principal Component Analysis”. rpubs.com. 26 April 2020, 10 Oktober 2023. https://www.rpubs.com/nadhifanhf/principal-component-analysis
Rencher, A. C., & Christensen, W. F. (2002). Méthods of multivariate analysis. a john wiley & sons. Inc. Publication, 727, 2218-0230.
Thamrin, D. R., & Murni, D. (2022). Analisis Cluster Hierarki Metode Single Linkage Pada Kabupaten/Kota di Provinsi Sumatera Barat Berdasarkan Indikator Kesehatan. Journal of Mathematics UNP, 7(3), 45-51.
Thamrin, N., & Wijayanto, A. W. (2021). Comparison of Soft and Hard Clustering: A Case Study on Welfare Level in Cities on Java Island: Analisis cluster dengan menggunakan hard clustering dan soft clustering untuk pengelompokkan tingkat kesejahteraan kabupaten/kota di pulau Jawa. Indonesian Journal of Statistics and Its Applications, 5(1), 141-160.