BAB I

PENDAHULUAN

1.1. Latar Belakang

Dataset swiss merupakan salah satu himpunan data sosial-ekonomi dan demografi klasik yang sering digunakan dalam analisis statistik, khususnya dalam konteks kajian perkembangan masyarakat di Swiss pada akhir abad ke-19 hingga awal abad ke-20. Francine Vanderwalle mengumpulkan data sosial-ekonomi untuk Swiss pada tahun sensus 1870, 1888, 1910, dan 1930. Data ini mencakup berbagai indikator seperti tingkat kesuburan, pendidikan, struktur tenaga kerja, keagamaan, dan angka kematian bayi yang bersifat agregat pada level canton dan district. Seiring proses digitalisasi dan penyeragaman label oleh Watkins, Harris, dan Vaughan, dataset ini menjadi salah satu sumber historis yang paling lengkap untuk menganalisis variasi sosial-ekonomi antar wilayah di Swiss.

Keberagaman kondisi sosial-ekonomi antar wilayah yang sangat mencolok, mulai dari daerah agraris tradisional hingga daerah yang lebih modern dengan tingkat pendidikan dan industrialisasi tinggi menjadi keunikan dataset swiss. Keragaman ini menjadikan dataset tersebut sangat relevan untuk metode analitik seperti k-means clustering. Hasil klaster ini kemudian dapat diolah secara statistik menggunakan uji korelasi Pearson serta diperjelas menggunakan visualisasi data.

Data mining merupakan sebuah metode dalam bidang ilmu komputer yang digunakan dalam mencari pengetahuan dari data sehingga menjadi sebuah informasi yang bermanfaat. Tahapan dalam proses data mining berguna untuk mencari sebuah pola tertentu dari data yang sangat banyak.K-Means clustering merupakan sebuah algoritma unsupervised learning yang digunakan dalam pengelompokan data dalam dataset yang tidak memiliki label kedalam sebuah cluster-cluster yang berbeda. K-Means clustering memungkinkan pengguna melakukan pengelompokan data ke dalam cluster berdasarkan variabel-variabel yang ada tanpa harus melalui proses training data terlebih dahulu. Tujuan utama dari algoritma K-Means clustering ini untuk meminimalisir jarak antara titik data dengan cluster yang sesuai. k-means clustering, yang bertujuan untuk mengelompokkan wilayah-wilayah dengan karakteristik serupa berdasarkan variabel demografi dan sosial-ekonomi. Korelasi Pearson digunakan untuk menguji kekuatan dan arah hubungan antar variabel dalam setiap klaster.Visualisasi data digunakan untuk memberikan gambaran yang lebih informatif mengenai struktur sosial dalam masing-masing kelompok wilayah.

Sifat historis pada dataset swiss memberikan nilai tambah karena memungkinkan pengamatan mengenai kondisi sosial-ekonomi suatu wilayah berpotensi memengaruhi indikator demografis seperti kesuburan. Variabel seperti tingkat pendidikan, agama, serta struktur ekonomi terbukti memiliki hubungan yang berbeda antar klaster. Dengan demikian, dataset swiss bukan hanya berfungsi sebagai sumber data statistik, tetapi juga sebagai gambaran penting mengenai dinamika sosial-ekonomi Swiss pada akhir abad ke-19 hingga awal abad ke-20. Dalam konteks penelitian ini, dataset swiss menjadi landasan kuat untuk menjelaskan bagaimana pola pengelompokan wilayah dan hubungan antar variabel dapat memberikan pemahaman lebih dalam mengenai karakter masyarakat dan faktor-faktor demografis yang memengaruhi perkembangan suatu kawasan.

1.2. Tujuan

  1. Mengelompokkan dataset swiss menggunakan K-Means clustering.
  2. Menguji kekuatan dan arah hubungan antar variabel dalam setiap klaster pada dataset swiss.
  3. Memberikan gambaran informatif menggunakan visualisasi data.

BAB II

METODE ANALISIS

2.1. Data

salah satu dataset yang tersedia di R, yaitu swiss. Data swiss merupakan informasi hasil pengukuran fertilitas standar dan indikator sosial ekonomi dari setiap 47 Provinsi yang masyarakatnya berbahasa Perancis pada tahun 1988. Dataset swiss digunakan karena memiliki keunikan berupa keragaman kondisi sosial-ekonomi antar wilayah yang sangat mencolok, mulai dari daerah agraris tradisional hingga daerah yang lebih modern dengan tingkat pendidikan dan industrialisasi tinggi. Keragaman ini menjadikan dataset tersebut sangat relevan untuk dinalisa secara statistik. Dataset swiss berisi data pada tabel berikut.

2.2. Metode Statistik

2.2.1. K-Means Clustering

Penelitian ini memanfaatkan data mining yang merupakan salah satu proses untuk mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis. Data mining adalah sebuah proses yang bertujuan untuk menemukan keterkaitan dan pola tersembunyi dalam data menggunakan sejumlah Teknik dan alat analisis data.Fokus utama dari data mining adalah merangkum data dan mengekstrak informasi yang bermakna dan tidak diketahui sebelumnya. Algoritma yang digunakan pada data mining kali ini adalah teknik algoritma K-means clustering dan menggunakan bahasa pemrograman R. Algoritma K-means berupaya mengelompokkan data ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama antara satu dengan yang lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam kelompok yang lain.

Clustering adalah suatu teknik yang digunakan untuk mengelompokkan objek-objek data ke dalam kelompok-kelompok yang memiliki kesamaan tertentu. Menurut Tan, analisis kelompok (cluster analysis) adalah metode pengelompokan data (objek) yang didasarkan hanya pada informasi yang ditemukan dalam data yang menggambarkan objek tersebut dan hubungan di antaranya. Tujuannya adalah agar objekobjek yang bergabung dalam sebuah cluster merupakan objek-objek yang mirip (atau berhubungan) satu sama lain dan berbeda (atau tidak berhubungan) dengan objek dalam cluster yang lain. Lebih besar kemiripannya (homogenitas) dalam cluster dan lebih besar perbedaanya diantara cluster yang lain.

Analisis cluster membuat pengelompokan objek berdasarkan jarak antara pasangan objek. Jarak merupakan ukuran yang digunakan untuk mengukur kemiripan dari suatu objek. Pada proses pemilihan ini, dapat dipilih salah satu dari beberapa jarak yang biasa digunakan salah satunya adalah jarak Euclidean. Jarak Euclidean adalah akar dari jumlah kuadrat perbedaan/deviasi di dalam nilai untuk setiap variabel. Berikut adalah persamaan Euclidian Distance :

\(D(x,y)=\sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2}\)

Keterangan:

D = Jarak

x = Data

y = centeroid

Langkah-langkah dalam mengcluster menggunakan metode K-Means adalah sebagai berikut :

  1. Tentukan nilai k nya sebagai jumlah klaster yang akan dibentuk.
  2. Tentukan Titik pusat awal dari setiap kluster.
  3. Hitunglah jarak setiap data input masing – masing centroid menggunakan rumus jarak Euclidean (Euclidean Distance) sampai ditemukan jarak yang terdekat dari setiap data dengan centroid.
  4. Mengklasifikasi data berdasarkan kedekatannya dengan centroid.
  5. Hitunglah kembali pusat kluster dengan anggota cluster yang sekarang. Pusat cluster ialah nilai rata-rata dari semua data objek dalam cluster tertentu, gunakan persamaan berikut.

\(R_k = \frac{1}{N_k} (X_{1k} + X_{2k} + \cdots + X_{nk})\)

Keterangan:

\(R_k\) = Rata-rata cluster k

\(N_k\) = Jumlah data pada cluster k

\(X_{nk}\) = Pola pada urutan ke nyang termasuk dalam clusterk

  1. Hitung lagi setiap objek memakai pusat kluster yang baru. Jika pusat cluster tidak berubah lagi maka proses klustering selesai. Atau, kembali ke langkah nomor 3 sampai pusat kluster tidak berubah lagi.

Penentuan jumlah cluster atau banyaknya k berdasarkan beberapa pendekatan untuk mendapatkan nilai k yang optimal, diantaranya metode elbow, silhoutte coefficien, dan gap statistic.

2.2.1.1. Metode Elbow

Metode Elbow merupakan metode untuk menentukan jumlah klaster yang tepat melalui persentase hasil perbandingan antara jumlah klaster yang akan membentuk siku pada suatu titik. Jika nilai klaster pertama dengan nilai klaster kedua memberikan sudut dalam grafik atau nilainya mengalami penurunan paling besar dapat menjadi jumlah nilai klaster yang tepat untuk digunakan. Untuk mendapatkan perbandingannya adalah dengan menghitung sum square error (SSE) dari masing-masing nilai klaster k menggunakan persamaan berikut:

\(SSE = \sum_{k=1}^{K} \sum_{x_i} |x_i - c_k|^{2}\)

Dengan xi menyatakan objek data ke-i dan ck adalah pusat klaster ke-i.

2.2.1.2. Metode Sillhouette Coefficien

Koefisien silhouette adalah sebuah metrik yang digunakan untuk mengevaluasi kualitas pengelompokan (clustering) dalam analisis data. Metrik ini mengukur seberapa baik setiap objek data cocok dengan kelompoknya sendiri dibandingkan dengan kelompok lainnya. Koefisien silhouettemenggabungkan konsep kohesi (cohesion) dan pemisahan (separation) dalam pengelompokan data.Rentang nilai koefisien silhouetteadalah dari -1 hingga 1, dan sistem pengelompokan data dikatakan baik ketika nilai koefisien silhouettemendekati 1(Syamhuri et al., 2022).

Kategori Evaluasi Nilai Koefesien Silhouette
Nilai Silhouette Coeffecient Kategori
0,7 < s ≤ 1 Strong structure
0,5 < s ≤ 0,7 Medium structure
0,25 < s ≤ 0,5 Weak structure
s ≤ 0,25 No structure

2.2.1.3. Metode Gap Statistic

Gap Statistic merupakan metode untuk menduga kelompok optimum pada analisis klaster. Teknik ini berdasar pada perubahan dispersi dalam klaster dengan peningkatan jumlah kelompok dari data.Berikut adalah Gap Statistic untuk k tertentu:

\(Gap(k) = \left[ \frac{1}{B} \right] \sum_{b} \left( \log(W_{kb}^{*}) - \log(W_{k}) \right)\)

dimana B adalah resampling (dari data simulasi) dengan pengambilan sebanyak B kali dengan distribusi uniform. Tahapan penentuan jumlah klaster optimal menggunakan metode gap statistic sebagai berikut: a. Mengelompokkan data dan mengubah-ubah banyaknya kelompok mulai dari 𝑘 = 1,2, … , 𝑛, dan hitung total variasi intracluster \(W_k\) , dengan 𝑘 = 1,2, … , 𝑛. b. Hasilkan kumpulan data referensi B dengan distribusi referensi uniform. Klasterkan masing-masing dari kumpulan data referensi ini dengan berbagai jumlah kelompok 𝑘 = 1, … , \(k_{max}\) dan menghitung total variasi intracluster Wkb. c. Hitung estimasi Gap Statistic sebagai penyimpangan nilai \(W_k\) yang diamati dari \(W_{kb}\) dan juga hitung standar deviasinya. d. Pilih jumlah klaster sebagai nilai terkecil dari k sehingga Gap Statistic berada dalam satu standar deviasi dari celah pada k+1.

2.2.2. Korelasi Pearson

Korelasi Pearson digunakan untuk mengetahui arah hubungan, kuat hubungan,dan signifikansi kuatnya hubungan antara dua variabel dengan syarat kedu variabel memiliki sebaran data terdistribusi normal. Syarat lain yang dinjurkan adalah sebagai berikut.

  1. Kedudukan kedua variabel simetris (setara).
  2. Kedua variabel memiliki variansi yang homogen.
  3. Kedua variabel memiliki jumlah unit sampel besar (dianjurkan lebih dari 30 unit sampel).
  4. Kedua variabel memiliki jumlah unit sampel sama banyak.

Misalkan x dan y adalah dua vaiabel numerik yang sebaran datanya terdistribusi normal. Hasil Pengukuran dari variabel x adalah x1, x2, x3,…, xn dan hasil pengukuran dari variabel y adalah y1, y2, y3,…, yn.

Koefisien korelasi pearson dinyatakan dengan rxy dihitung dengan rumus berikut.

\(r_{xy} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{(x_i - \bar{x})^2}\sqrt{(y_i - \bar{y})^2}}\)

Dua elemen penting yang perlu dipahami untuk mempelajari korelasi pearson, yaitu kovarian dan proses standarisasi. Salah satu ukuran kekuatan hubungan linear antara dua variabel acak kontinu adalah dengan menentukan seberapa banyak keua variabel tersebut bervaiasi(covary) bersama-sama.

Statistik untuk mengukur seberapa banyak kedua variabel ber-covary adalah kovarian yang ditulis Covxy. Rumus kovarian antara variabel x dan y adalah sebagai berikut.

\(Cov_{xy} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n-1}\)

Sifat koefisien korelasi pearson rxy adalah sebagai berikut.

  1. Nilai rxy antara \(-1 \le{r_{xy}}\le1\).
  2. Korelasi dikatakan memiliki arah negatif apabila nilai rxy berkisar antara \(-1 \le {r_{xy}} \le 0\).
  3. Korelasi dikatakan memiliki arah positif apabila nilai rxy berkisar antara \(0 \le {r_{xy}} \le 1\).
  4. Nilai rxy tidak berubah apabila seluruh data baik pada variabel x maupun variabel y atau kedunya dikalikan dengan suatu nilai konstanta tertentu \(k \ne 0\).
  5. Nilai rxy tidak berubah apabila seluruh data baik pada variabel x maupun variabel y atau kedunya ditambahkan dengan suatu nilai konstanta tertentu \(k \ne 0\).
  6. Nilai rxy hanya untuk mengukur kekuatan hubungan linier, dan tidak dirancang untuk mengukur hubungan non linier.
  7. Nilai rxy menyatakan hubungan variabel yang sama-sama bebas (setara), tanpa memperhatikan hubungan kausalitas.

Pada korelasi pearson, uji hipotesis untuk mengetahui signifikansi kuatnya hubungan antara variabel x dan y dapat dilakukan menggunakan statistik uji-t dengan rumus berikut.

\(t = \frac{r\sqrt{n-2}}{\sqrt{1 - r^2}}\)

Tolak hipotesis \(H_0\) apabila nilai \(t_{hitung} > t_{tabel}\)


BAB III

HASIL DAN PEMBAHASAN

3.1. Uji Deskriptif Data

Memanggil dataset swiss

swiss
reactable::reactable(head(swiss, 10))

Berdasarkan tabel diatas, ataset swiss memiliki 6 variabel, yaitu Fertility, Agriculture, Examination, Education, Catholic, dan Infant Mortality. Selanjutnya dilakukan analisis deskriptif data untuk mengetahui gambaran variabel-variabel yang akan diteliti

Melakukan analisis deskriptif data untuk mengetahui gambaran variabel-variabel yang akan diteliti

summary(swiss)
##    Fertility      Agriculture     Examination      Education    
##  Min.   :35.00   Min.   : 1.20   Min.   : 3.00   Min.   : 1.00  
##  1st Qu.:64.70   1st Qu.:35.90   1st Qu.:12.00   1st Qu.: 6.00  
##  Median :70.40   Median :54.10   Median :16.00   Median : 8.00  
##  Mean   :70.14   Mean   :50.66   Mean   :16.49   Mean   :10.98  
##  3rd Qu.:78.45   3rd Qu.:67.65   3rd Qu.:22.00   3rd Qu.:12.00  
##  Max.   :92.50   Max.   :89.70   Max.   :37.00   Max.   :53.00  
##     Catholic       Infant.Mortality
##  Min.   :  2.150   Min.   :10.80   
##  1st Qu.:  5.195   1st Qu.:18.15   
##  Median : 15.140   Median :20.00   
##  Mean   : 41.144   Mean   :19.94   
##  3rd Qu.: 93.125   3rd Qu.:21.70   
##  Max.   :100.000   Max.   :26.60

3.2. K-Means Clustering

Pada proses clustering terdapat asumsi yang harus terpenuhi yaitu uji kelayakan model dan kecukupan data, serta uji multikolinearitas

3.2.1. Uji Kecukupan dan Kelayakan Model

KMO(swiss)
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = swiss)
## Overall MSA =  0.63
## MSA for each item = 
##        Fertility      Agriculture      Examination        Education 
##             0.62             0.68             0.79             0.56 
##         Catholic Infant.Mortality 
##             0.48             0.56

diperoleh nilai KMO sebesar 0,63 > 0.5 yang artinya nilai bahwa sampel data tersebut dikatakan mewakili populasi atau sampel representatif (Hair et al,2006).

3.2.2. Uji Multikolinearitas

# Dataset
data("swiss")

# Scatterplot matrix mirip contoh
ggpairs(
  swiss,
  upper = list(continuous = wrap("cor", size = 3)),
  diag  = list(continuous = wrap("densityDiag", alpha = 0.6, fill = "pink")),
  lower = list(continuous = wrap("smooth", alpha = 0.5, size = 0.4, color = "red"))
) +
  theme_bw()

Dari gambar diatas dapat dilihat bahwa nilai korelasi variabel < 0.8 sehingga dapat dinyatakan bahwa tidak terjadi multikolinearitas dan uji asumsi terpenuhi.

3.2.3. Menghitung Jarak Antar Objek

stand_swiss <- scale(swiss) # Proses standarisasi
jarak <- get_dist(stand_swiss)
fviz_dist(jarak, 
          gradient = list(low = "darkgreen", 
                          mid = "white", 
                          high = "darkred"))
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## ℹ The deprecated feature was likely used in the factoextra package.
##   Please report the issue at <https://github.com/kassambara/factoextra/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

3.2.4. Penentuan Jumlah klaster

fviz_nbclust(stand_swiss, kmeans, method="wss") # Metode Elbow

Penentuan k optimal dengan metode elbow menunjukkan grafik yang landai yaitu pada angka ke-3 sampaike-4, sehingga dapat diduga bahwa k optimal menurut metode elbow adalah 3.

fviz_nbclust(stand_swiss, kmeans, method="silhouette") # Metode Silhouette

Dengan pendekatan silhoutte, dapat dilihat bahwa k optimal yang direkomendasikan adalah saat nilai k = 3, ditandai dengan garis vertikal yang berada pada sumbu x saat k = 3.

fviz_nbclust(stand_swiss, kmeans, method="gap_stat") # Metode Gap Statistic

Berdasarkan hasil pendekatan metode GAP Statistics, dapat dilihat bahwa rekomendasi k optimal adalah 1.

Dari ketiga metode tersebut, dapat disimpulkan bahwa nilai k optimum adalah 3.

3.2.5. Pembentukan klaster

#Pembentukan klaster
cluster.dt = kmeans(stand_swiss, centers=3, nstart=25)
#Visualisasi hasil pengelompokkan
fviz_cluster(cluster.dt, data=stand_swiss)

#Data frame hasil pengelompokan
hasil = data.frame(swiss, cluster.dt$cluster)
#Mengidentifikasi karakteristik dari setiap kelompok
kluster1 = subset(hasil, cluster.dt.cluster==1)
reactable::reactable(kluster1)
kluster2 = subset(hasil, cluster.dt.cluster==2)
reactable::reactable(kluster2)
kluster3 = subset(hasil, cluster.dt.cluster==3)
reactable::reactable(kluster3)

3.2.6. Profilisasi Karakteristik klaster

kluster_1 = sapply(kluster1, mean)
kluster_2 = sapply(kluster2, mean)
kluster_3 = sapply(kluster3, mean)
mean_total = rbind(kluster_1, kluster_2, kluster_3)
reactable::reactable(mean_total)

Berdasarkan tabel di atas dapat diketahui nilai rata-rata masing-masing variabel pada tiap cluster dan dapat diinterpretasikan sebagai berikut :

Cluster 1 : merupakan kelompok provinsi dengan ukuran kesuburan standar dan indikator sosial ekonomi terendah.

Cluster 2 : merupakan kelompok provinsi dengan ukuran kesuburan standar dan indikator sosial ekonomi sedang.

Cluster 3 : merupakan kelompok provinsi dengan ukuran kesuburan standar dan indikator sosial ekonomi tertinggi.

3.3. Korelasi Pearson

# Matriks korelasi kluster 1
cor_kluster1 <- round(cor(kluster1[, 1:6], method = "pearson"), 3)
reactable::reactable(cor_kluster1)
# Visualisasi data
cor1 <- cor(kluster1[,1:6])
corrplot(cor1, method="color", type="upper",
         addCoef.col="red",
         tl.col="darkred", tl.cex=0.8,
         number.cex=0.7,
         title="Korelasi Cluster 1",
         mar=c(0,0,1,0))

Kluster 1 Merupakan kelompok provinsi dengan tingkat sosial-ekonomi terendah. Pada kluster 1, korelasi Pearson menunjukkan bahwa sebagian besar indikator sosial-ekonomi memiliki hubungan negatif yang cukup kuat dengan Fertility. Artinya, pada provinsi dengan tingkat perkembangan sosial-ekonomi terendah, peningkatan pendidikan, partisipasi perempuan, serta standar hidup umumnya diikuti oleh penurunan tingkat kesuburan. Korelasi antar-variabel sosial-ekonomi lain juga cenderung positif, menandakan bahwa wilayah yang rendah pada satu aspek sosial-ekonomi biasanya rendah pula pada aspek lainnya. Temuan ini mendukung karakteristik kluster 1 sebagai kelompok wilayah dengan perkembangan sosial-ekonomi paling rendah dan pola demografis tradisional dengan tingkat kesuburan tinggi.

# Matriks korelasi kluster 2
cor_kluster2 <- round(cor(kluster2[, 1:6], method = "pearson"), 3)
reactable::reactable(cor_kluster2)
# Visualisasi data
cor2 <- cor(kluster2[,1:6])
corrplot(cor2, method="color", type="upper",
         addCoef.col="red",
         tl.col="darkred", tl.cex=0.8,
         number.cex=0.7,
         title="Korelasi Cluster 2",
         mar=c(0,0,1,0))

Kluster 2 merupakan Kelompok provinsi dengan indikator sosial-ekonomi sedang. Pada kluster 2, hubungan antar-variabel menunjukkan pola korelasi yang lebih moderat. Korelasi antara Fertility dan variabel sosial-ekonomi masih menunjukkan arah negatif, namun kekuatannya lebih lemah dibanding kluster 1. Hal ini menggambarkan bahwa pada wilayah dengan tingkat perkembangan sedang, penurunan kesuburan sudah mulai terjadi tetapi tidak sekuat pada wilayah sangat tertinggal. Selain itu, hubungan antar variabel pendidikan, religiusitas, dan partisipasi ekonomi perempuan cenderung lebih beragam, menandakan adanya perbedaan karakteristik antar wilayah dalam kluster ini. Secara umum, kluster 2 menampilkan dinamika sosial-ekonomi yang transisi, berada di antara pola tradisional dan pola modern.

# Matriks korelasi kluster 3
cor_kluster3 <- round(cor(kluster3[, 1:6], method = "pearson"), 3)
reactable::reactable(cor_kluster3)
# Visualisasi data
cor3 <- cor(kluster3[,1:6])
corrplot(cor3, method="color", type="upper",
         addCoef.col="red",
         tl.col="darkred", tl.cex=0.8,
         number.cex=0.7,
         title="Korelasi Cluster 3",
         mar=c(0,0,1,0))

Kluster 3 adalah Kelompok dengan indikator sosial-ekonomi tertinggi. Pada kluster 3, hasil korelasi Pearson menunjukkan pola yang semakin jelas dan kuat: Fertility memiliki korelasi negatif paling kuat terhadap hampir seluruh indikator sosial-ekonomi. Wilayah dengan pendidikan tinggi, tingkat sekularisme tinggi, dan partisipasi ekonomi perempuan yang besar menunjukkan tingkat kesuburan yang sangat rendah. Korelasi antar-variabel sosial-ekonomi dalam kluster ini juga lebih kuat dibanding kluster lain, mencerminkan struktur sosial-ekonomi yang lebih konsisten dan modern. Temuan ini sesuai dengan karakteristik kluster 3 sebagai kelompok wilayah paling maju secara sosial-ekonomi.

Hasil analisis korelasi Pearson untuk masing-masing kluster menunjukkan bahwa semakin tinggi tingkat sosial-ekonomi suatu wilayah (berdasarkan hasil K-Means clustering), maka semakin kuat pula hubungan negatif antara indikator sosial-ekonomi dan demografis.


BAB IV

KESIMPULAN

Berdasarkan hasil analisis yang dilakukan menggunakan metode K-Means Clustering dan Uji Korelasi Pearson pada dataset swiss, dapat disimpulkan bahwa struktur data provinsi di Swiss menunjukkan pola yang sangat jelas terkait perbedaan tingkat perkembangan sosial, ekonomi, dan demografis. Proses clustering menggunakan metode elbow, metode silhouette, serta metode Gap Statistic menunjukkan bahwa tiga cluster merupakan jumlah yang paling optimal. Berikut visualisasi dari hasil pembentukan klaster.

Secara keseluruhan, hasil analisis menunjukkan bahwa metode K-Means Clustering dan Uji Korelasi Pearson saling mendukung dalam menggambarkan struktur dan pola karakteristik provinsi di Swiss. Clustering berhasil mengelompokkan provinsi berdasarkan kemiripan variabel sosial-ekonomi, sedangkan korelasi Pearson mengungkapkan kekuatan hubungan antar variabel kunci yang berperan dalam pembentukan cluster tersebut.

Hasil analisis menunjukkan bahwa semakin tinggi tingkat sosial-ekonomi suatu wilayah , maka semakin kuat pula hubungan negatif antara indikator sosial-ekonomi dan demografis. Baik analisis numerik maupun visualisasi grafik memberikan bukti yang konsisten bahwa faktor pendidikan, tingkat urbanisasi, dan latar budaya merupakan faktor dominan yang memengaruhi variasi fertilitas antar wilayah.


DAFTAR PUSTAKA

Adji, M. F., & Dwilestari, G. (2025). ANALISIS DATA TRANSAKSI PENJUALAN BARANG MENGGUNAKAN TEKNIK K-MEANS CLUSTERING. JATI (Jurnal Mahasiswa Teknik Informatika), 619-625.

Atira, A., & Sari, B. N. (2023). PenerapanSilhouette Coefficient, Elbow Methoddan Gap Statisticsuntuk Penentuan ClusterOptimum dalam Pengelompokkan Provinsi di Indonesia Berdasarkan Indeks Kebahagiaan. Jurnal Ilmiah Wahana Pendidikan, 76-86.

Normah, Nurajizah, S., & Salbinda, A. (2021). Penerapan Data Mining Metode K-Means Clustering Untuk Analisa. Jurnal Teknik Komputer AMIK BSI, 158-163.

Office of Population Research. (n.d.). Switzerland socio-economic variables, 1870–1930. Princeton University. Retrieved November 30, 2025, from https://oprdata.princeton.edu/archive/pefp/switz.aspx

Rafidah, I. (2021). Analisis cluster menggunakan K-Means clustering pada RStudio. Medium. https://inasrafidah0.medium.com/analisis-cluster-menggunakan-k-means-clustering-pada-rstudio-1b656ee7f1db

Ramadhania, H. L., Widiarti, Zakaria, L., & Nusyirwan. (2023). plikasi Metode Sillhouette Coefficient, Metode Elbow dan Metode Gap Staticstic dalam. Jurnal Siger Matematika, 1-10.

Roflin, E., Rohana, & Riana, F. (2022). Analisis Korelasi dan Regresi. Penerbit NEM.

Yudhistira, A., & Andika, R. (2023). Pengelompokan Data Nilai Siswa Menggunakan Metode K-Means Clustering. Journal of Artificial Intelligence and Technology Information (JAITI), 20-28.