Penerapan Principal Component Analysis Untuk Reduksi Dimensi Clustering Pada Tingkat Perceraian di Indonesia Tahun 2021
2023-11-08
- Pendahuluan
- Tinjauan Pustaka
- Data Analisis
- Source Code dan Penjelasannya
- Hasil dan Pembahasan
- Kesimpulan
- Daftar Pustaka
Pendahuluan
Pandemi COVID-19 berdampak besar pada hubungan pernikahan di Indonesia yaitu meningkatkan tingkat perceraian. Pembatasan sosial, ketidakpastian ekonomi, dan tekanan mental memberikan kontribusi pada kenaikan kasus perceraian. Fenomena ini menciptakan tantangan baru bagi masyarakat dan pemerintah dalam menjaga keutuhan keluarga di kondisi sulit. Pemahaman mendalam terkait penyebab dan dampak peningkatan perceraian selama pandemi menjadi kunci untuk merumuskan kebijakan yang responsif dan solutif. Tingkat perceraian di Indonesia mencerminkan perubahan pola hidup dan nilai-nilai dengan faktor kompleks seperti tekanan ekonomi dan perubahan peran gender. Analisis tingkat perceraian menjadi langkah awal untuk mengidentifikasi faktor utama dari masalah ini sehingga memungkinkan pengembangan solusi yang sesuai untuk menjaga stabilitas hubungan pernikahan di Indonesia. Oleh karena itu, akan dilakukan analisis untuk mengelompokkan provinsi di Indonesia berdasarkan faktor-faktor tingkat perceraian. Dengan adanya pengelompokkan ini,diharapkan masyarakat bisa lebih mengerti untuk menyikapi hal yang terjadi dalam rumah tangga dan pemerintah dapat menerapkan kebijakan yang tepat untuk terciptanya pemerataan kesejahteraan rakyat
Tinjauan Pustaka
Analisis Multivariat
Analisis multivariat adalah serangkaian teknik analisis statistika yang digunakan untuk mengidentifikasi, memahami, dan menjelaskan hubungan kompleks antar beberapa variabel dalam satu sistem. Dalam hal ini, variabel-variabel tersebut saling berkorelasi dan analisis multivariat bertujuan untuk mengungkap pola, tren, dan struktur yang mungkin sulit terlihat dengan menganalisis variabel secara individual. Pendekatan ini digunakan untuk menyelidiki dan mengeksplorasi hubungan antar variabel dalam dataset yang melibatkan banyak dimensi. Analisis Multivariat mencakup berbagai teknik, termasuk Analisis Komponen Utama (PCA), Analisis Diskriminan, Analisis Faktor, dan lainnya, di mana semua analisis tersebut dirancang untuk mengoptimalkan pemahaman terhadap struktur dan hubungan dalam data multivariat.
Analisis Komponen Utama
Analisis komponen utama (Principal Component Analysis) merupakan salah satu metode analisis multivariat yang digunakan untuk mereduksi jumlah variabel, khususnya pada data berdimensi tinggi. Tujuan utamanya adalah mempertahankan sebanyak mungkin informasi dengan mengurangi dimensi data. Pada kesempatan ini, metode PCA akan diterapkan pada dataset asli untuk mengubah variabel yang berkorelasi menjadi komponen utama yang saling independen. Standarisasi dataset diperlukan sebelum penerapan PCA untuk memastikan skala variabel yang seragam. Analisis PCA juga memiliki peran dalam mengurangi keberadaan outlier dan mengatasi asumsi multikolinieritas.
Langkah-langkah melakukan PCA adalah sebagai berikut:
-Memilih variabel yang berskala numerik.
-Melakukan standarisasi data untuk memastikan bahwa
semua variabel memiliki skala yang seragam. -Menghitung
matriks korelasi jika variabel-variabel memiliki satuan yang sama atau
matriks kovarian jika satuan variabel berbeda.
-Menghitung nilai eigen dan vektor eigen dari matriks
korelasi atau matriks kovarian. -Memilih komponen utama
berdasarkan nilai eigen yang signifikan. -Menyusun
persamaan komponen utama baru dengan menggabungkan variabel-variabel
asli berdasarkan bobot vektor eigen. Persamaan komponen utama dapat
dituliskan seperti berikut:
PCi = ϕ1ix1 + ϕ2ix2 + ... + ϕkixk
Penentuan banyak komponen utama dapat dilihat melalui (Rencher
& Christensen, 2002): *Jumlah komponen utama yang
mampu menangkap minimal 80% keragaman dari data tersebut.
*Komponen yang memiliki nilai eigen lebih besar dari
rata-rata nilai eigen yaitu satu. *Gunakan grafik scree
dengan memplot nilai eigen dengan komponen utama ke-k. Jumlah komponen
utama yang dipilih ditentukan oleh titik di mana terjadi penurunan yang
tajam, diikuti oleh penurunan yang kurang tajam setelahnya. Komponen
yang mengalami penurunan tajam dapat dianggap lebih penting.
*Lakukan uji signifikansi pada komponen yang memiliki
nilai eigen yang lebih besar. Fokus pada komponen-komponen yang
memberikan kontribusi signifikan terhadap varians total data.
Analisis Cluster
Analisis cluster adalah teknik analisis multivariat yang bertujuan mengelompokkan objek-objek ke dalam dua atau lebih kelompok berdasarkan kesamaan karakteristik (Simamora dalam Faradilla, 2022). Dalam proses ini, objek-objek yang serupa dikelompokkan bersama dengan tingkat homogenitas tinggi di antara objek dalam satu kelompok, membentuk cluster yang memiliki tingkat heterogenitas yang tinggi antar kelompok. Dalam pengelompokan ini, digunakan metrik yang mengukur tingkat kemiripan antar objek untuk menyederhanakan struktur kelompok dari data yang kompleks. Analisis cluster dibagi menjadi beberapa kategori, termasuk hard clustering yang melibatkan metode non-hierarchical dan hierarchical, serta soft clustering dengan menggunakan pendekatan Fuzzy C-Means.
Metode non-hierarchical adalah pendekatan dalam
pengelompokan objek di mana jumlah cluster yang akan dibentuk
dapat ditentukan sebelumnya sebagai bagian dari prosedur pengerombolan.
Salah satu metode yang termasuk dalam clustering
non-hierarchical adalah clustering K-Medoids. Metode
K-Medoids sebagai pengembangan dari K-Means tetapi
lebih tahan terhadap keberadaan outlier daripada
K-Means yang peka terhadap nilai ekstrim. Hal ini disebabkan
oleh penggunaan jarak Manhattan yang lebih robust
dalam K-Medoids. Kedua metode ini menghasilkan k
cluster dengan mempertimbangkan jarak objek ke titik pusat dan
objek dikelompokkan ke dalam cluster berdasarkan titik pusat
terdekat.
Metode hierarchical digunakan untuk mengelompokkan objek
secara terstruktur berdasarkan kemiripan sifatnya, di mana
cluster yang diinginkan belum diketahui sebelumnya (Matjik
& Sumertajaya dalam Faradilla, 2022). Pengelompokkan dimulai dengan
dua objek atau lebih yang memiliki kesamaan terdekat dan kemiripan
dihitung untuk objek lain dengan kedekatan berikutnya. Proses ini terus
berlanjut hingga membentuk dendrogram yang menunjukkan
tingkatan hierarki antar objek. Beberapa jenis metode
hierarchical meliputi: * Single
Linkage: Jarak dua cluster diukur dengan jarak terdekat
antara sebuah objek dalam satu cluster dengan objek dalam
cluster lain. * Complete Linkage:
Jarak dua cluster diukur dengan jarak terjauh antara sebuah
objek dalam satu cluster dengan objek dalam cluster
lain. * Average Linkage: Jarak antara dua
cluster diukur dengan rata-rata jarak antara sebuah objek dalam
satu cluster dengan objek dalam cluster lain.
* Metode Ward: Metode ini bersifat
agglomerative dan bertujuan memperoleh kelompok dengan varian
internal sekecil mungkin. Ukuran yang digunakan untuk pengelompokkan
dengan metode Ward adalah Sum of Square (SSE).
Fuzzy C-Means (FCM) mengaitkan derajat keanggotaan
suatu objek dengan jaraknya terhadap pusat kelompok. Meskipun FCM
memiliki keunggulan dalam meminimalkan fungsi objektif, namun
kelemahannya mencakup sensitivitas terhadap noise dan rentan
terhadap jebakan dalam mencapai optimum lokal (Izakian & Abraham
dalam Thamrin & Wijayanto, 2021).
Data Analisis
Data yang digunakan adalah data sekunder dari BPS mengenai jumlah perceraian menurut provinsi dan faktor-faktor tertentu pada tahun 2021. Data ini terdiri dari 14 variabel dengan 34 data pada setiap varibel. Variabel tersebut terdiri dari zina, mabuk, madat, judi, meninggalkan salah satu pihak, dihukum penjara, poligami, kekerasan dalam rumah tangga, cacat badan, perselisihan dan pertengkaran terus menerus, kawin paksa, murtad, dan ekonomi. Sedangkan banyak data sesuai dengan provinsi di Indonesia.
Source Code dan Penjelasannya
Library yang dibutuhkan
library(readxl)
library(corrplot)
library(factoextra)
library(ggplot2)
library(gridExtra)
library(NbClust)
library(purrr)
library(cluster)library digunakan untuk mengaktifkan suatu paket
(packages) di Rstudio. Pada analisis ini digunakan beberapa
packages yaitu: readxl digunakan untuk membaca
data dengan tipe berkas Excel. corrplot digunakan untuk
menggambarkan matriks korelasi dalam menganalisis hubungan antar
variabel. factoextra digunakan untuk menganalisis data
faktor seperti analisis komponen utama. ggplot2
digunakan untuk membuat grafik atau plot sebagai bentuk visualisasi
data. gridExtra digunakan untuk menggabungkan beberapa
grafik ke dalam satu tampilan. NbClust digunakan untuk
mengevaluasi jumlah klaster yang optimal dalam analisis klaster.
purrr digunakan untuk membangkitkan fungsi
map_dbl().
Sedangkan cluster digunakan
untuk membangkitkan fungsi agnes() dalam melakukan analisis
hierarchical clustering.
Data dan tipe data
projekAKU <- read_excel(path = "dataAKU.xlsx", col_names = TRUE)
head(projekAKU)
str(projekAKU)Data yang dianalisis di-input ke Rstudio. Beberapa bagian data
ditampilkan melalui fungsi head dan dapat pula diketahui
tipe data melalui fungsi str.
Statistika deskriptif
projek <- projekAKU[,2:14]
summary(projek)Fungsi summary digunakan untuk menampilkan ringkasan
nilai statistika deskriptif yang berupa nilai maksimum, minimum,
rata-rata dan kuartil dari setiap variabel pada data.
Analisis Komponen Utama
Visualisasi korelasi
kor_visual <- cor(projek)
corrplot(kor_visual, type = "upper", order = "hclust", tl.col = "maroon",
tl.srt = 35)
corrplot(kor_visual, method="number",type = "lower", tl.col = "maroon",
tl.srt = 35)Fungsi cor digunakan untuk menghitung korelasi antar
variabel. Dalam menggambarkan korelasinya digunakan fungsi
corrplot. Penggambaran korelasi dapat berupa bentuk atau
angka dengan gradasi warna yang menunjukkan tingkat hubungan antar
variabel. Untuk mempercantik grafik dapat pula mengatur warna teks dan
sudut teks dengan fungsi tl.col dan
tl.srt.
Dekomposisi eigen
projek_st <- scale(projek)
projek_st
mcov <- cov(projek_st)
nilaieig <- eigen(mcov)
nilaieigData yang akan dianalisis distandarisasi terlebih dahulu dengan
fungsi scale. Lalu menghitung matriks kovarian dengan
fungsi cov dari data yang telah distandarisasi. Fungsi
eigen digunakan untuk menghitung nilai dan vektor dari
matriks kovarian. Eigenvalues yang bernilai lebih dari satu
akan menjadi komponen utama yang akan disusun.
Menggambar scree plot berdasarkan nilai eigen
plot(nilaieig$values, xlab="Eigenvalue Number", ylab = "Eigenvalue Size",
main = "Scree Plot")
lines(nilaieig$values)Scree plot digunakan dalan mengevaluasi banyak komponen yang
signifikan sehingga menjadi fokus utama dalam analisis. Fungsi
plot digunakan dalam visualisasi nilai eigenvalue
yang dikombinasikan dengan fungsi lines untuk lebih
memperjelas tren penurunan dalam ukuran eigenvalue. Beberapa
komponen yang mengalami penurunan tajam dapat menjadi komponen yang
dianggap penting dalam data sehingga akan dipertahankan. sebaliknya,
komponen-komponen yang membuat bentuk grafik melandai dianggap tidak
begitu signifikan.
Nilai kumulatif eigen
for (eg in nilaieig$values){
print(eg / sum(nilaieig$values))
}Penentuan proporsi variance dari masing-masing eigenvalue didapatkan dengan menjalankan looping seperti syntax di atas. Proporsi variance digunakan untuk mengevaluasi sejauh mana setiap komponen menyumbang terhadap variasi dalam data. Hal ini juga dapat digunakan dalam menentukan berapa banyak komponen utama yang dipertahankan dalam analisis.
Persamaan PC
modelpca <- nilaieig$vectors[,1:3]
print(modelpca, digits=3)Untuk lebih mempermudah penulisan model dari setiap komponen yang terpilih dapat dipanggil dengan syntax seperti diatas.
Fungsi PCA dengan “prcomp”
pcamodel <- prcomp(projek_st, scale = TRUE, center=T)
summary(pcamodel)
fviz_eig(pcamodel, addlabels = TRUE, ylim = c(0, 85))
print(round(pcamodel$rotation[,1:3],4))Selain menggunakan nilai eigen, penentuan komponen utama juga dapat
menggunakan fungsi prcomp. Ringkasan statistik dari hasil
analisis komponen utama dapat diketahui melalui fungsi
summary. Ringkasan tersebut terdiri dari standard
deviation, proportion of variance, dan cumulative
proportion. Pembuatan grafik sebagai bentuk gambaran dari
persentase kumulatif keragaman dapat dibuat melalui fungsi
fviz_eig. Setelah mengetahui komponen utama mana yang perlu
dipertahankan maka vektor-vektor dari setiap komponen utama tersebut
dapat dimunculkan dengan fungsi print pada bagian
rotation dari hasil analisis dengan
prcomp.
Plot kontribusi variabel
fviz_pca_var(pcamodel,
col.var = "cos2",
gradient.cols = c("navy", "magenta", "darkorange"),
repel = TRUE)Penggambaran representasi variabel dalam analisis komponen utama
dibuat menggunakan fungsi fviz_pca_var. Visualisasi yang
dilakukan dapat juga diatur gradasi warna variabel pada plot berdasarkan
“cos2”. Fungsi repel digunakan untuk menghindari tumpang
tindih antar label variabel sehingga plot lebih mudah dibaca.
Kontribusi variabel pada PC1, PC2, dan PC3
PC1 <- fviz_contrib(pcamodel, choice = "var", axes = 1)
PC2 <- fviz_contrib(pcamodel, choice = "var", axes = 2)
PC3 <- fviz_contrib(pcamodel, choice = "var", axes = 3)
grid.arrange(PC1,PC2,PC3, ncol=2,
top='Contribution of the variables to the first three PCs')Kontribusi variabel terdapat setiap komponen utama yang telah
terpilih untuk dipertahankan dapat diilihat melalui grafik yang dibuat
melalui fungsi fviz_contrib. Sedangkan fungsi
grid.arrange digunakan untuk menggabungkan ketiga grafik
kontribusi variabel ke dalam satu tampilan.
Plot individu
fviz_pca_ind(pcamodel,
col.ind = "cos2",
gradient.cols = c("gold", "purple", "brown"),
repel = TRUE)Fungsi fviz_pca_ind digunakan untuk memvisualisasikan
individu dalam analisis komponen utama, di mana individu ditampilkan
dalam ruang PCA berdasarkan kualitas representasi dan pengaturan warna
individu pada plot berdasarkan “cos2” yang mencerminkan kualitas
representasi tersebut. Plot ini berguna untuk mempermudah pemahaman
mengenai sejauh mana masing-masing individu terletak dalam ruang PCA dan
bagaimana masing-masing individu berkontribusi terhadap variasi dalam
data.
Biplot
fviz_pca_biplot(pcamodel, axes = c(1,2), geom = "point",
repel = TRUE, col.var = "darkorange", col.ind = "darkgreen" )Biplot dapat dibuat melalui fungsi fviz_pca_biplot.
Fungsi ini digunakan untuk menggabungkan plot komponen utama dan plot
variabel dalam satu tampilan. Visualisasi juga dapat diatur bentuk plot
dan warnanya sehingga hubungan antara individu dan variabel dalam
analisis komponen utama lebih mudah untuk diamati.
Hieararki Clustering Method
Data untuk Clustering
pca_model <- prcomp(projek_st, center=FALSE, scale.=FALSE, rank. = 3)
results <- pca_model$x
resultsPengelompokan wilayah dilakukan dengan metode clustering sehingga perlu memanggil matriks dari hasil PCA yang berisi nilai koordinat dari setiap observasi pada setiap komponen utama.
Penentuan Jumlah Cluster dengan Metode Silhouette
l1 <- fviz_nbclust(results, FUNcluster = hcut, method = "silhouette",
hc_method = "complete",hc_metric = "euclidean")
l2 <- fviz_nbclust(results,FUNcluster = hcut,method = "silhouette",
hc_method = "average",hc_metric = "euclidean")
l3 <- fviz_nbclust(results,FUNcluster = hcut,method = "silhouette",
hc_method = "single",hc_metric = "euclidean")
l4 <- fviz_nbclust(results,FUNcluster = hcut,method = "silhouette",
hc_method = "ward.D",hc_metric = "euclidean")
grid.arrange(l1, l2, l3, l4, nrow=2, ncol=2,
top='Choosing the linkage method and the number of clusters')Penentuan banyak cluster dilakukan dengan menggunakan
menggunakan indeks silhouette pada hasil dari analisis
hierarchical clustering dengan berbagai metode
linkage. Linkage method yang digunakan terdiri dari
complete linkage, average linkage, centroid linkage, dan
Ward’s linkage. Visualisasi metode tersebut dibuat dengan
fungsi fviz_nbclust lalu keempat visualisasi digabungkan ke
dalam satu tampilan.
Penentuan Hierarchical Method Terbaik
dc <- hclust(dist(results,method = 'euclidean'),method = "complete")
da <- hclust(dist(results,method = 'euclidean'),method = "average")
ds <- hclust(dist(results,method = 'euclidean'),method = "single")
dw <- hclust(dist(results,method = 'euclidean'),method = "ward.D")
m <- c("complete", "average", "single", "ward")
names(m) <- c("complete", "average", "single", "ward")
ac <- function(x) {
agnes(results, method = x)$ac
}
map_dbl(m,ac)
plot(dw)
rect.hclust(dw,2)Pembentukan dendrogram ( tree diagram) menggambarkan
hubungan hierarki antar objek berdasarkan jarak antarobjek dalam data
hasil reduksi PCA. Linkage method yang digunakan juga sama dengan metode
silhouette. Perhitungan Agglomerative Coefficient
melalui looping seperti di atas dengan fungsi ac
dan map_dbl. Sedangkan fungsi rect.hclust
digunakan untuk menandai pemotongan dendrogram pada tingkat 2.
Pengelompokan Data
klaster <- cutree(dw, 2)
fviz_cluster(list(data = results, cluster = klaster))
tabel = data.frame(results,klaster)
tabelFungsi fviz_cluster digunakan untuk visualisasi hasil
clustering. Sedangkan fungsi cutree digunakan
untuk memotong dendrogram yang dihasilkan oleh metode hierarchical
clustering.
Profilisasi Cluster Terbaik
hist.kluster1 <- subset(tabel,klaster==1)
hist.kluster2 <- subset(tabel,klaster==2)
hist.kluster_1 <- sapply(hist.kluster1,mean)
hist.kluster_2 <- sapply(hist.kluster2,mean)
mean_total=rbind(hist.kluster_1,hist.kluster_2)
mean_totalFungsi sapply digunakan untuk menghitung rata-rata
variabel hasil clustering agglomerative Ward linkage pada
masing-masing cluster.
Hasil dan Pembahasan
## corrplot 0.92 loaded
## Warning: package 'factoextra' was built under R version 4.3.2
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
Data dan tipe data
## # A tibble: 6 × 14
## `Provinsi\r\n` Zina Mabuk Madat Judi Meninggalkan Dipenjara Poligami KDRT
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Aceh 1 4 18 11 699 90 19 88
## 2 Sumatera Utara 1 6 24 12 1587 67 14 37
## 3 Sumatera Barat 3 4 2 15 883 39 10 29
## 4 Riau 39 35 24 33 1303 106 33 131
## 5 Jambi 3 14 4 14 448 29 13 36
## 6 Sumatera Selatan 27 57 20 59 998 91 39 240
## # ℹ 5 more variables: Cacat <dbl>, Pertengkaran <dbl>, `Kawin Paksa` <dbl>,
## # Murtad <dbl>, Ekonomi <dbl>
## tibble [34 × 14] (S3: tbl_df/tbl/data.frame)
## $ Provinsi
## : chr [1:34] "Aceh" "Sumatera Utara" "Sumatera Barat" "Riau" ...
## $ Zina : num [1:34] 1 1 3 39 3 27 2 2 5 0 ...
## $ Mabuk : num [1:34] 4 6 4 35 14 57 11 53 45 0 ...
## $ Madat : num [1:34] 18 24 2 24 4 20 3 7 3 0 ...
## $ Judi : num [1:34] 11 12 15 33 14 59 15 51 12 0 ...
## $ Meninggalkan: num [1:34] 699 1587 883 1303 448 ...
## $ Dipenjara : num [1:34] 90 67 39 106 29 91 14 30 27 0 ...
## $ Poligami : num [1:34] 19 14 10 33 13 39 5 19 5 0 ...
## $ KDRT : num [1:34] 88 37 29 131 36 240 37 167 80 0 ...
## $ Cacat : num [1:34] 27 3 6 10 2 7 3 5 1 0 ...
## $ Pertengkaran: num [1:34] 5238 15244 8172 10285 4140 ...
## $ Kawin Paksa : num [1:34] 3 1 3 10 0 7 1 2 1 0 ...
## $ Murtad : num [1:34] 9 73 14 37 11 49 4 72 2 0 ...
## $ Ekonomi : num [1:34] 235 201 191 676 286 968 237 2770 272 0 ...
Data terdiri dari 14 variabel dengan 34 data di setiap variabelnya seperti yang dijelaskan sebelumnya. Semua variabel juga memiliki tipe data yang sama yaitu numerik kecuali variabel provinsi dengan tipe data karakter.
Statistika deskriptif
## Zina Mabuk Madat Judi
## Min. : 0.00 Min. : 0.00 Min. : 0.00 Min. : 0.00
## 1st Qu.: 0.25 1st Qu.: 6.75 1st Qu.: 0.25 1st Qu.: 2.00
## Median : 3.00 Median : 27.50 Median : 3.00 Median : 12.00
## Mean : 13.21 Mean : 52.32 Mean :10.26 Mean : 29.21
## 3rd Qu.: 7.75 3rd Qu.: 68.00 3rd Qu.:18.00 3rd Qu.: 32.00
## Max. :235.00 Max. :315.00 Max. :65.00 Max. :230.00
## Meninggalkan Dipenjara Poligami KDRT
## Min. : 0.0 Min. : 0.00 Min. : 0.00 Min. : 0.00
## 1st Qu.: 278.5 1st Qu.: 3.50 1st Qu.: 4.25 1st Qu.: 34.25
## Median : 597.0 Median : 27.50 Median : 10.50 Median : 51.00
## Mean : 1246.7 Mean : 40.94 Mean : 26.26 Mean : 140.56
## 3rd Qu.: 1188.5 3rd Qu.: 64.25 3rd Qu.: 32.75 3rd Qu.: 173.00
## Max. :11184.0 Max. :180.00 Max. :151.00 Max. :1354.00
## Cacat Pertengkaran Kawin Paksa Murtad
## Min. : 0.00 Min. : 0 Min. : 0.00 Min. : 0.00
## 1st Qu.: 0.25 1st Qu.: 1306 1st Qu.: 1.00 1st Qu.: 4.50
## Median : 3.50 Median : 3952 Median : 3.00 Median : 20.50
## Mean :10.59 Mean : 8212 Mean : 10.74 Mean : 42.56
## 3rd Qu.: 7.00 3rd Qu.: 9701 3rd Qu.: 6.50 3rd Qu.: 48.75
## Max. :80.00 Max. :52213 Max. :159.00 Max. :306.00
## Ekonomi
## Min. : 0.00
## 1st Qu.: 42.25
## Median : 236.00
## Mean : 3333.62
## 3rd Qu.: 823.00
## Max. :40603.00
Berdasarkan output diatas dapat diketahui nilai maksimum, minimum, rata-rata, dan kuartil dari setiap variabel yang akan dianalisis lebih lanjut. Melalui statistika deskriptif juga dapat diketahui bahwa data memiliki keragaman yang tersebar luas atau rentang nilai yang sangat jauh sehingga diperlukan standarisasi data.
Analisis Komponen Utama
Visualisasi korelasi
Berdasarkan plot diatas dapat diketahui bahwa terdapat cukup banyak data yang memiliki tingkat korelasi tinggi. Hal ini ditunjukkan dengan warna yang gelap (biru tua) atau nilai korelasi mendekati satu.Beberapa diantaranya yaitu variabel ekonomi dengan pertengkaran, murtad dengan pertengkaran, murtad dengan ekonomi, kawin paksa dengan zina, dan lainnya.
Dekomposisi eigen
## eigen() decomposition
## $values
## [1] 9.637341424 1.209944804 1.045649123 0.452947078 0.358617706 0.098582458
## [7] 0.064566093 0.056533320 0.027864999 0.017055103 0.014751114 0.011215771
## [13] 0.004931006
##
## $vectors
## [,1] [,2] [,3] [,4] [,5] [,6]
## [1,] -0.2574780 0.39080693 0.30132035 -0.3230736343 0.27445097 0.058715909
## [2,] -0.2773634 0.23001600 0.07397657 0.2646994801 -0.61245928 0.007580446
## [3,] -0.1777755 -0.51287175 0.56635964 0.2242253676 -0.01440788 0.265967017
## [4,] -0.3116996 0.12879319 0.07319031 0.0541913580 -0.08626306 0.115072333
## [5,] -0.2694181 0.02265796 -0.31616782 0.6110002339 0.17580645 0.299916854
## [6,] -0.2681799 -0.33773188 0.25909291 -0.0007107648 0.44391316 -0.210114435
## [7,] -0.2798699 -0.33971419 0.01090273 -0.1395764442 -0.42012477 -0.483769025
## [8,] -0.2853261 0.25590672 0.27190883 -0.2245499780 -0.20137042 0.175138475
## [9,] -0.3001900 0.09317278 -0.17149624 0.3052166821 0.16063599 -0.542676241
## [10,] -0.2995993 -0.15492565 -0.27781528 -0.1237926404 0.09226196 0.223842840
## [11,] -0.2867930 0.35628852 0.12099034 0.0732993472 0.22264501 -0.077102443
## [12,] -0.2824030 -0.22529411 -0.32848941 -0.2651487973 -0.08533472 0.388874795
## [13,] -0.2861706 -0.09426142 -0.32761670 -0.3807352176 0.07570150 -0.109266738
## [,7] [,8] [,9] [,10] [,11] [,12]
## [1,] 0.048930484 -0.16140984 -0.270845870 0.17335140 -0.25079898 0.11188204
## [2,] 0.369448712 -0.47811218 -0.041713006 -0.16251216 0.14902074 0.04697559
## [3,] -0.370874749 -0.15867397 0.182027482 -0.16635816 -0.05785537 -0.02467767
## [4,] -0.029933088 0.65512799 -0.342245229 -0.50265249 0.22338669 0.06324251
## [5,] -0.112351929 0.05422644 -0.145600453 0.48577199 0.09616004 0.21352393
## [6,] 0.582703415 -0.04109676 -0.092122093 0.04797586 0.21207093 0.15959397
## [7,] -0.185804955 0.14816583 -0.355775242 0.40143040 -0.14921888 -0.09811485
## [8,] 0.032420338 0.32690765 0.579371693 0.38796971 0.10202314 0.05378848
## [9,] 0.001473124 0.10545974 0.473224919 -0.23918874 -0.33941498 0.03246789
## [10,] 0.199749221 -0.01075128 0.088142429 0.01484998 0.10891419 -0.79459764
## [11,] -0.393237321 -0.25590102 -0.178815014 -0.09974080 -0.09571145 -0.29820563
## [12,] 0.112342943 -0.05436169 -0.009670602 -0.17950650 -0.58515033 0.28544881
## [13,] -0.357449510 -0.27902767 0.137564325 -0.11687159 0.54417055 0.30698124
## [,13]
## [1,] 0.547503751
## [2,] 0.042571447
## [3,] 0.189423721
## [4,] 0.059143754
## [5,] 0.071989502
## [6,] -0.288470850
## [7,] -0.006130111
## [8,] -0.223844719
## [9,] 0.223162446
## [10,] 0.209432103
## [11,] -0.595944610
## [12,] -0.246986076
## [13,] 0.103395580
Sesuai dari hasil diatas, akan terdapat tiga macam komponen utama yaitu PC1 dari eigenvalue yang bernilai 9,637, PC2 dari eigenvalue yang bernilai 1,210 dan PC3 dari eigenvalue yang bernilai 1,046.
Menggambar scree plot berdasarkan nilai eigen
Plot diatas juga menunjukkan bahwa terdapat tiga macam komponen utama yaitu PC1, PC2, dan PC3 karena pada plot ke-1, 2, dan 3 terjadi tren menurun dan pada plot ke-4 dan seterusnya sudah mulai melandai.
Nilai kumulatif eigen
## [1] 0.741334
## [1] 0.09307268
## [1] 0.08043455
## [1] 0.03484208
## [1] 0.02758598
## [1] 0.007583266
## [1] 0.004966623
## [1] 0.004348717
## [1] 0.002143461
## [1] 0.001311931
## [1] 0.001134701
## [1] 0.0008627516
## [1] 0.0003793082
Berdasarkan hasil di atas, juga dapat diketahui bahwa keragaman sudah dapat dijelaskan melalui 3 komponen utama yaitu 0, 741 + 0, 093 + 0, 08 = 0, 914 Nilai kumulatif keragaman tersebut juga sudah lebih dari 80% sehingga dapat disusun tiga komponen utama dari PC1, PC2, dan PC3.
Persamaan PC
## [,1] [,2] [,3]
## [1,] -0.257 0.3908 0.3013
## [2,] -0.277 0.2300 0.0740
## [3,] -0.178 -0.5129 0.5664
## [4,] -0.312 0.1288 0.0732
## [5,] -0.269 0.0227 -0.3162
## [6,] -0.268 -0.3377 0.2591
## [7,] -0.280 -0.3397 0.0109
## [8,] -0.285 0.2559 0.2719
## [9,] -0.300 0.0932 -0.1715
## [10,] -0.300 -0.1549 -0.2778
## [11,] -0.287 0.3563 0.1210
## [12,] -0.282 -0.2253 -0.3285
## [13,] -0.286 -0.0943 -0.3276
Berdasarkan hasil di atas dapat dituliskan persamaan seperti berikut:
PC1 = − 0, 257x1 − 0, 277x2 − 0, 178x3 − 0, 312x4 − 0, 269x5 − 0, 268x6 − 0, 280x7 − 0, 285x8 − 0, 300x9 − 0, 300x10 − 0, 287x11 − 0, 282x12 − 0, 286x13
PC2 = 0, 3908x1 + 0, 2300x2 − 0, 5129x3 + 0, 1288x4 + 0, 0227x5 − 0, 3377x6 − 0, 3397x7 + 0, 2559x8 + 0, 0932x9 − 0, 1549x10 + 0, 3563x11 − 0, 2253x12 − 0, 0943x13
PC3 = 0, 3013x1 + 0, 0740x2 + 0, 5664x3 + 0, 0732x4 − 0, 3162x5 + 0, 2591x6 + 0, 0109x7 + 0, 2719x8 − 0, 1715x9 − 0, 2778x10 + 0, 1210x11 − 0, 3285x12 − 0, 3276x13
Fungsi PCA dengan “prcomp”
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 3.1044 1.09997 1.02257 0.67301 0.59885 0.31398 0.25410
## Proportion of Variance 0.7413 0.09307 0.08043 0.03484 0.02759 0.00758 0.00497
## Cumulative Proportion 0.7413 0.83441 0.91484 0.94968 0.97727 0.98485 0.98982
## PC8 PC9 PC10 PC11 PC12 PC13
## Standard deviation 0.23777 0.16693 0.13060 0.12145 0.10590 0.07022
## Proportion of Variance 0.00435 0.00214 0.00131 0.00113 0.00086 0.00038
## Cumulative Proportion 0.99417 0.99631 0.99762 0.99876 0.99962 1.00000
## PC1 PC2 PC3
## Zina 0.2575 0.3908 -0.3013
## Mabuk 0.2774 0.2300 -0.0740
## Madat 0.1778 -0.5129 -0.5664
## Judi 0.3117 0.1288 -0.0732
## Meninggalkan 0.2694 0.0227 0.3162
## Dipenjara 0.2682 -0.3377 -0.2591
## Poligami 0.2799 -0.3397 -0.0109
## KDRT 0.2853 0.2559 -0.2719
## Cacat 0.3002 0.0932 0.1715
## Pertengkaran 0.2996 -0.1549 0.2778
## Kawin Paksa 0.2868 0.3563 -0.1210
## Murtad 0.2824 -0.2253 0.3285
## Ekonomi 0.2862 -0.0943 0.3276
Melalui fungsi prcomp didapatkan hasil yang sama seperti
langkah sebelumnya. Didapatkan 3 komponen utama yaitu PC1, PC2, dan PC3
karena ketiga komponen utama tersebut memiliki nilai simpangan baku
(nilai eigen) yang lebih dari satu dan proporsi kumulatif keragaman
sebesar 0,914 sehingga sudah cukup menjelaskan keragaman dari data.
Begitu pula dengan koefisien (vaktor eigen) setiap variabel pada
masing-masing komponen utama juga sama dengan hasil komponen utama
sebelumnya.
Kumulatif keragaman juga dapat diketahui melalui
scree plot. Pada plot tersebut juga didapatkan hasil yang sama
bahwa kumulatif keragaman dimensi atau komponen utama 1,2, dan 3 sudah
cukup mewakili keragaman data yaitu sebesar 91,4%.
Plot kontribusi variabel
Representasi variabel yang baik pada komponen utama ditunjukkan oleh variabel kawin paksa dan judi karena memiliki nilai cos2 yang tinggi. Variabel madat memiliki nilai cos2 yang sangat rendah sehingga variabel tersebut dianggap kurang penting untuk komponen utama. Berdasarkan jarak antar sudut juga dapat diketahui bahwa variabel KDRT dan mabuk memiliki hubungan yang sangat erat karena jarak antar sudutnya kecil. Begitu pula pada variabel yang lain.
Kontribusi variabel pada PC1, PC2, dan PC3
Berdasarkan grafik di atas dapat diketahui bahwa:
Pada komponen
utama pertama, variabel yang memberikan kontribusi terbanyak yaitu judi,
cacat, pertengkaran, kawin paksa, ekonomi, KDRT, murtad, dan poligami.
Komponen utama ini dapat disebut sebagai faktor kesejahteraan sosial.
Pada komponen utama kedua, variabel yang memberikan kontribusi
terbanyak yaitu madat, zina, kawin paksa, poligami, dan dipenjara.
Komponen utama ini dapat disebut sebagai faktor moral dan hukum.
Pada komponen utama ketiga, variabel yang memberikan kontribusi
terbanyak yaitu madat, murtad, ekonomi, meninggalkan, dan zina. Komponen
utama ini dapat disebut sebagai faktor perubahan hidup.
Sedangkan
dari komponen utama pertama sampai ketiga, variabel yang memberikan
kontribusi terbanyak yaitu pertengkaran, judi, kawin paksa, madat,
murtad, KDRT, dan zina.
Plot individu
Data dengan warna coklat memiliki nilai cos2 yang sangat tinggi seperti data ke-31, 32, 33, dan yang lainnya. Sedangkan data ke-8 dan 18 memiliki nilai cos2 yang sangat rendah. Hal ini menunjukkan bahwa data dengan cos2 rendah tidak direpresentasikan dengan baik oleh komponen utama. Selain itu jarak yang jauh antara data ke-15 dan 23 menunjukkan tidak adanya kemiripan antar data. Sebaliknya, jarak plot yang dekat menunjukkan adanya kemiripan data seperti pada data ke-10 dan 17.
Biplot
Berdasarkan plot di atas dapat diketahui bahwa data ke-15 dan 23 memiliki jarak euclidian yang cukup panjang dibandingkan data yang lainnya. Variabel KDRT dan mabuk serta dipenjara dan poligami memiliki hubungan yang sangat kuat atau korelasi yang sangat tinggi. Begitu pula dengan variabel lain yang memiliki jarak sudut yang sempit. Sebaliknya, variabel zina dan madat memiliki jarak sudut yang lebar sehingga kedua variabel memiliki hubungan yang lemah.
Hieararki Clustering Method
Data untuk Clustering
## PC1 PC2 PC3
## [1,] -0.3344223 -0.79898956 -0.59651375
## [2,] -0.2410678 -1.32635037 -0.20111010
## [3,] -1.1395330 0.06302016 0.32108763
## [4,] 0.6417929 -0.83776049 -1.16238030
## [5,] -1.3552104 0.06795122 0.08955134
## [6,] 0.7744018 -0.56909132 -1.04029763
## [7,] -1.5644865 0.32278731 0.15754089
## [8,] -0.1204833 -0.02167010 0.30417340
## [9,] -1.3992799 0.42047506 -0.10274670
## [10,] -2.1219282 0.46772327 0.27968109
## [11,] 0.3254418 -0.36870678 -0.28701387
## [12,] 6.6676748 -3.39960650 2.69379433
## [13,] 6.9903857 0.18716683 2.95638353
## [14,] -1.2151048 0.50043843 0.41772313
## [15,] 12.6443776 3.15733531 -1.88666372
## [16,] 1.7190185 -0.70151984 -0.57627028
## [17,] -2.1219282 0.46772327 0.27968109
## [18,] -0.1726751 0.05644871 -0.18167268
## [19,] -2.0180661 0.47093213 0.29773973
## [20,] -0.9759997 -0.03894883 -0.18633372
## [21,] -1.2472875 0.25531776 0.24850930
## [22,] 0.3666148 -1.15680807 -0.92747363
## [23,] 1.3148686 -2.93399991 -3.04350084
## [24,] -2.1219282 0.46772327 0.27968109
## [25,] -1.3048524 0.63926841 0.35753824
## [26,] -1.4472746 0.28996338 0.25234482
## [27,] 1.7967626 0.62200907 -0.36585376
## [28,] -1.1463652 0.70367731 0.16043183
## [29,] -1.4993228 0.59249602 0.21902455
## [30,] -2.1219282 0.46772327 0.27968109
## [31,] -2.0066755 0.48530849 0.26120010
## [32,] -1.8310435 0.51592951 0.16786411
## [33,] -2.1219282 0.46772327 0.27968109
## [34,] -1.6125472 0.46431033 0.25451861
Penentuan Jumlah Cluster dengan Metode Silhouette
Berdasarkan semua plot dari Silhouette Method, dapat dilihat bahwa patahan gradient terbesar terjadi saat jumlah cluster sebesar dua. Sehingga selanjutnya dapat dilakukan penentuan metode hierarki terbaik.
Penentuan Hierarchical Method Terbaik
## complete average single ward
## 0.9243978 0.9205225 0.8983142 0.9571070
Berdasarkan hasil di atas didapatkan bahwa metode hierarchical yang menghasilkan cluster terbaik yaitu metode Ward karena memiliki nilai agglomerative coefficient sebesar 0, 9571070 di mana nilai tersebut termasuk nilai terbesar dibandingkan dengan metode hierarchical lainnya. Begitu pula dengan dendrogram pada metode Ward terlihat sudah terpartisi cukup baik dengan cluster sebanyak dua.
Pengelompokan Data
## PC1 PC2 PC3 klaster
## 1 -0.3344223 -0.79898956 -0.59651375 1
## 2 -0.2410678 -1.32635037 -0.20111010 1
## 3 -1.1395330 0.06302016 0.32108763 1
## 4 0.6417929 -0.83776049 -1.16238030 1
## 5 -1.3552104 0.06795122 0.08955134 1
## 6 0.7744018 -0.56909132 -1.04029763 1
## 7 -1.5644865 0.32278731 0.15754089 1
## 8 -0.1204833 -0.02167010 0.30417340 1
## 9 -1.3992799 0.42047506 -0.10274670 1
## 10 -2.1219282 0.46772327 0.27968109 1
## 11 0.3254418 -0.36870678 -0.28701387 1
## 12 6.6676748 -3.39960650 2.69379433 2
## 13 6.9903857 0.18716683 2.95638353 2
## 14 -1.2151048 0.50043843 0.41772313 1
## 15 12.6443776 3.15733531 -1.88666372 2
## 16 1.7190185 -0.70151984 -0.57627028 1
## 17 -2.1219282 0.46772327 0.27968109 1
## 18 -0.1726751 0.05644871 -0.18167268 1
## 19 -2.0180661 0.47093213 0.29773973 1
## 20 -0.9759997 -0.03894883 -0.18633372 1
## 21 -1.2472875 0.25531776 0.24850930 1
## 22 0.3666148 -1.15680807 -0.92747363 1
## 23 1.3148686 -2.93399991 -3.04350084 1
## 24 -2.1219282 0.46772327 0.27968109 1
## 25 -1.3048524 0.63926841 0.35753824 1
## 26 -1.4472746 0.28996338 0.25234482 1
## 27 1.7967626 0.62200907 -0.36585376 1
## 28 -1.1463652 0.70367731 0.16043183 1
## 29 -1.4993228 0.59249602 0.21902455 1
## 30 -2.1219282 0.46772327 0.27968109 1
## 31 -2.0066755 0.48530849 0.26120010 1
## 32 -1.8310435 0.51592951 0.16786411 1
## 33 -2.1219282 0.46772327 0.27968109 1
## 34 -1.6125472 0.46431033 0.25451861 1
Berdasarkan plot di atas dapat diketahui bahwa, cluster menggunakan algoritma Hieararki clustering dengan metode ward didapatkan hasil bahwa cluster 1 terdiri dari 31 provinsi sedangkan cluster 2 terdiri dari 3 provinsi. Provinsi dengan nomor urut 12, 13, dan 15 termasuk cluster 2 dan selainnya tergolong cluster 1.
Profilisasi Cluster Terbaik
## PC1 PC2 PC3 klaster
## hist.kluster_1 -0.8484657 0.00177756 -0.1214037 1
## hist.kluster_2 8.7674793 -0.01836812 1.2545047 2
Berdasarkan hasil di atas dapat diketahui bahwa cluster 1 memiliki nilai yang cukup rendah dibandingkan cluster 2. Artinya, provinsi yang tergolong cluster 1 termasuk provinsi dengan tingkat perceraian yang rendah sedangkan provinsi yang tergolong cluster 2 termasuk provinsi dengan tingkat perceraian yang tinggi.
Kesimpulan
Cluster pertama mencakup 31 provinsi yang terdiri dari Aceh, Sumatera Utara, Sumatera Barat, Riau, Jambi, Sumatera Selatan, Bengkulu, Lampung, Kepulauan Bangka Belitung, Kepulauan Riau, Jawa Tengah, Jawa Timur, Banten, Bali, Nusa Tenggara Barat, Nusa Tenggara Timur, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara, Sulawesi Utara, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Tenggara, Gorontalo, Sulawesi Barat, Maluku, Maluku Utara, Papua, dan Papua Barat. Pada cluster pertama tergolong provinsi dengan tingkat perceraian yang rendah di mana faktor yang dominan dari penyebab perceraian tersebut adalah faktor moral dan hukum. Sedangkan cluster kedua mencakup 3 provinsi yang terdiri dari DKI Jakarta, Jawa Barat, dan DI Yogyakarta. Cluster kedua tergolong provinsi dengan tingkat perceraian yang tinggi di mana faktor yang dominan dari penyebab perceraian tersebut adalah faktor kesejahteraan sosial dan faktor perubahan hidup. Oleh karena itu, dalam upaya mengurangi perceraian, kebijakan dan pemahaman mendalam tentang faktor-faktor yang memainkan peran perlu disesuaikan dengan karakteristik unik masing-masing provinsi.
Daftar Pustaka
“Clustering Hierarki Top Player”. rpubs.com. 19 Juni 2019, 10 Oktober
2023. https://www.rpubs.com/alfazrinb/Clustering_Hierarki
Faradilla, S. B. (2022). Komparasi Analisis K-Medoids Clustering
dan Hierarchical Clustering (Studi Kasus: Data Kriminalitas di Indonesia
Tahun 2020) (Doctoral dissertation, Universitas Islam Indonesia).
Hardika, J., Sebayang, D., & Sembiring, P. (2013). Penerapan
analisis komponen utama dalam penentuan faktor dominan yang mempengaruhi
prestasi belajar siswa (Studi kasus: SMAN 1 Medan).
“Hierarchical
Clustering in R”. 22 Juli 2021, 10 Oktober 2023. https://febipermataputri.medium.com/hierarchical-clustering-in-r-561e77a27edf
“Principal Component Analysis”. rpubs.com. 26 April 2020, 10 Oktober
2023. https://www.rpubs.com/nadhifanhf/principal-component-analysis
Rencher, A. C., & Christensen, W. F. (2002). Méthods of
multivariate analysis. a john wiley & sons.
Inc. Publication, 727, 2218-0230.
Thamrin, D. R., &
Murni, D. (2022). Analisis Cluster Hierarki Metode Single Linkage Pada
Kabupaten/Kota di Provinsi Sumatera Barat Berdasarkan Indikator
Kesehatan. Journal of Mathematics UNP, 7(3), 45-51.
Thamrin, N., & Wijayanto, A. W. (2021). Comparison of Soft and
Hard Clustering: A Case Study on Welfare Level in Cities on Java Island:
Analisis cluster dengan menggunakan hard clustering dan soft clustering
untuk pengelompokkan tingkat kesejahteraan kabupaten/kota di pulau Jawa.
Indonesian Journal of Statistics and Its Applications, 5(1),
141-160.