Notes Theme, silakan gunakan salah satu theme berikut: - cayman (package prettydoc) - architect (package prettydoc) - united (default di RMarkdown)
Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")
Penduduk merupakan suatu elemen yang merupakan penunjang penting pada pembangunan suatu negara, Banyak hal yang bisa digunakan jika mengetahui analisis cluster dari data penduduk, contohnya adalah menganalisis kebijakan yang sesuai, pemerataan penduduk, skala prioritas dari urgensi kependudukan suatu wilayah.
Oleh karena itu dalam penduduk ini ada variable yang dapat diambil yaitu Jumlah penduduk, Laju Pertumbuhan, Kepadatan, dan Rasio Jenis Kelamin. Kepadatan penduduk mengukur seberapa padatnya populasi dalam satuan wilayah tertentu, yang dapat memberikan gambaran tentang tekanan terhadap sumber daya alam dan layanan publik di wilayah tersebut. Rasio jenis kelamin, yaitu perbandingan jumlah penduduk laki-laki dan perempuan, memberikan informasi penting untuk memahami struktur demografi dan implikasinya pada berbagai aspek, seperti pasar tenaga kerja, pendidikan, dan kesehatan.
Laju pertumbuhan penduduk mencerminkan perubahan jumlah penduduk dalam kurun waktu tertentu akibat kelahiran, kematian, dan migrasi. Pertumbuhan yang tinggi tanpa pengelolaan yang baik dapat memicu masalah sosial dan ekonomi, seperti ketimpangan akses terhadap fasilitas dasar (Todaro & Smith, 2020).
Analisis cluster digunakan untuk mengelompokkan wilayah atau data berdasarkan kesamaan karakteristik tertentu. Dalam konteks demografi, metode ini berguna untuk mengelompokkan provinsi berdasarkan kepadatan penduduk, laju pertumbuhan, dan rasio jenis kelamin guna mendukung perencanaan kebijakan berbasis bukti (Hair et al., 2019).
Data Jumlah Penduduk, Laju Pertumbuhan Penduduk, Kepadatan Penduduk, Rasio Jenis Kelamin Penduduk Menurut Provinsi didapatkan dari laman resmi milik badan pusat statistik indonesia
selanjutnya akan disebut dengan
X1 = Jumlah Penduduk
X2 = Laju Pertumbuhan Penduduk per Tahun
X3 = Kepadatan Penduduk per km persegi (km2)
X4 = Rasio Jenis Kelamin Penduduk
Tujuan dari analisis ini dilakukan adalah untuk mempermudah pemerintah untuk mengambil kebijakan bedasarkan cluster yang akan terbentuk, menjadikan pengelompokan beberapa wilayah provinsi menjadi regional karena berada dalam cluster yang sama, dalam satu cluster yang sama artinya memiliki kesamaan karakteristik yang dapat mempermudah memperoleh informasi provinsi mana yang menjadi fokus utama kependudukan yang bertumbuh pesat dan memiliki kepadatan ekstrem.
> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(readxl)
membuka library dari packages yang
dibutuhkan untuk dapat menjalankan syntax selanjutnya.
> data <- read.csv("C:/Users/X1 Carbon/Downloads/rpubanmul.csv", header = TRUE, sep = ",")
> data<-data.frame(data)
> View(data)
membuka data dari file internal ke r studio untuk dapat melakukan analisis kluster ke pada data.
> statdes <- summary(data)
> statdes
Provinsi Jumlah.Penduduk Laju.Pertumbuhan.Penduduk.per.Tahun
Length:32 Min. : 739.8 Min. :0.310
Class :character 1st Qu.: 2572.2 1st Qu.:1.145
Mode :character Median : 4353.4 Median :1.340
Mean : 8620.5 Mean :1.255
3rd Qu.: 8982.9 3rd Qu.:1.415
Max. :50345.2 Max. :1.930
Kepadatan.Penduduk.per.km.persegi..km2. Rasio.Jenis.Kelamin.Penduduk
Min. : 11.00 Min. : 97.9
1st Qu.: 75.75 1st Qu.:101.0
Median : 110.00 Median :102.7
Mean : 802.38 Mean :102.9
3rd Qu.: 282.50 3rd Qu.:104.4
Max. :16165.00 Max. :110.7
summary(data) memberikan ringkasan
mengenai min, median, mean, dll pada data
> kmo <- KMO(data[,2:5])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:5])
Overall MSA = 0.59
MSA for each item =
Jumlah.Penduduk Laju.Pertumbuhan.Penduduk.per.Tahun
0.69 0.57
Kepadatan.Penduduk.per.km.persegi..km2. Rasio.Jenis.Kelamin.Penduduk
0.54 0.69
Uji KMO digunakan untuk mengukur kecukupan sample untuk
analisis berikutnya dengan menghitung subset data kolom 2 hingga 5 dari
data.
> korelasi <- cor(data[,2:5], method = 'pearson')
> korelasi
Jumlah.Penduduk
Jumlah.Penduduk 1.0000000
Laju.Pertumbuhan.Penduduk.per.Tahun -0.3386095
Kepadatan.Penduduk.per.km.persegi..km2. 0.1320262
Rasio.Jenis.Kelamin.Penduduk -0.3115170
Laju.Pertumbuhan.Penduduk.per.Tahun
Jumlah.Penduduk -0.3386095
Laju.Pertumbuhan.Penduduk.per.Tahun 1.0000000
Kepadatan.Penduduk.per.km.persegi..km2. -0.5918720
Rasio.Jenis.Kelamin.Penduduk 0.4028007
Kepadatan.Penduduk.per.km.persegi..km2.
Jumlah.Penduduk 0.1320262
Laju.Pertumbuhan.Penduduk.per.Tahun -0.5918720
Kepadatan.Penduduk.per.km.persegi..km2. 1.0000000
Rasio.Jenis.Kelamin.Penduduk -0.1864423
Rasio.Jenis.Kelamin.Penduduk
Jumlah.Penduduk -0.3115170
Laju.Pertumbuhan.Penduduk.per.Tahun 0.4028007
Kepadatan.Penduduk.per.km.persegi..km2. -0.1864423
Rasio.Jenis.Kelamin.Penduduk 1.0000000
cor untuk mengukur hubungan linear dengan metode pearson
dari kolom 2 hingga kolom 5.
> datastand <- scale(data[,2:5])
> datastand
Jumlah.Penduduk Laju.Pertumbuhan.Penduduk.per.Tahun
[1,] -0.25581681 0.40844413
[2,] 0.58144783 0.43869926
[3,] -0.23233532 0.52946462
[4,] -0.15791049 0.34793389
[5,] -0.40856335 0.13614804
[6,] 0.01809223 -0.31767877
[7,] -0.54308544 0.19665829
[8,] 0.06668241 -0.16640317
[9,] -0.59154210 0.31767877
[10,] -0.53715248 0.74125047
[11,] 0.17226569 -2.85910894
[12,] 3.48172948 -0.37818901
[13,] 2.44259408 -0.80176071
[14,] -0.40562607 -1.83043482
[15,] 2.76988305 -1.52788361
[16,] 0.31800282 -0.28742365
[17,] -0.34940066 -1.64890410
[18,] -0.24820660 1.04380168
[19,] -0.24737215 1.10431192
[20,] -0.24407606 0.31767877
[21,] -0.48488238 0.34793389
[22,] -0.36274356 0.10589292
[23,] -0.38172735 2.04222067
[24,] -0.65760571 0.46895438
[25,] -0.49388612 -1.37660801
[26,] -0.45883911 -0.16640317
[27,] 0.07033731 -0.37818901
[28,] -0.48626757 1.25558752
[29,] -0.61688442 0.01512756
[30,] -0.59390360 0.89252607
[31,] -0.55698742 0.34793389
[32,] -0.60622012 0.68074022
Kepadatan.Penduduk.per.km.persegi..km2. Rasio.Jenis.Kelamin.Penduduk
[1,] -0.248624860 -0.76298106
[2,] -0.207327102 -0.80048551
[3,] -0.234152996 -0.53795439
[4,] -0.256743223 0.54967453
[5,] -0.256390251 0.17463007
[6,] -0.247212971 0.28714341
[7,] -0.246154054 0.54967453
[8,] -0.184030930 0.51217008
[9,] -0.250742694 0.92471899
[10,] -0.190031459 0.13712563
[11,] 5.422581000 -0.68797217
[12,] 0.196473204 -0.12540549
[13,] 0.106465268 -0.72547662
[14,] 0.135408997 -1.88811443
[15,] 0.023869751 -1.32554775
[16,] 0.185884035 0.17463007
[17,] -0.003309115 -0.91299885
[18,] -0.181913096 -0.83798995
[19,] -0.240153525 -1.10052107
[20,] -0.269450226 0.92471899
[21,] -0.276862644 1.44978122
[22,] -0.242624331 -0.23791883
[23,] -0.271921032 1.63730345
[24,] -0.279333450 2.91245460
[25,] -0.217563298 0.51217008
[26,] -0.265214558 0.84971009
[27,] -0.209444935 -1.55057442
[28,] -0.256037278 -0.12540549
[29,] -0.247212971 -0.46294550
[30,] -0.251095666 -0.08790104
[31,] -0.268391309 -0.23791883
[32,] -0.268744281 0.81220565
attr(,"scaled:center")
Jumlah.Penduduk Laju.Pertumbuhan.Penduduk.per.Tahun
8620.4844 1.2550
Kepadatan.Penduduk.per.km.persegi..km2. Rasio.Jenis.Kelamin.Penduduk
802.3750 102.9344
attr(,"scaled:scale")
Jumlah.Penduduk Laju.Pertumbuhan.Penduduk.per.Tahun
1.198391e+04 3.305226e-01
Kepadatan.Penduduk.per.km.persegi..km2. Rasio.Jenis.Kelamin.Penduduk
2.833084e+03 2.666351e+00
> rownames(datastand) <- 1:nrow(datastand)
melakukan standarisasi pada kolom ke 2 hingga ke 5 untuk menjadikan masing masing mean = 0 dan standar deviasi = 1, agar tidak terjadi dominasi pada data.
> jarak <- dist(datastand, method = "euclidean")
> jarak
1 2 3 4 5 6 7
2 0.8396663
3 0.2569898 0.8603044
4 1.3177169 1.5428102 1.1054137
5 0.9882569 1.4229958 0.8330818 0.4983358
6 1.3057734 1.4401405 1.2088519 0.7369061 0.6330381
7 1.3603115 1.7741473 1.1791549 0.4139519 0.4031387 0.8052246
8 1.4368848 1.5345161 1.2957304 0.5671669 0.6607306 0.2826204 0.7133697
9 1.7231616 2.0901595 1.5210429 0.5741481 0.7931582 1.0871285 0.3970811
10 1.0017660 1.4907105 0.7716518 0.6878731 0.6232930 1.2064008 0.6855379
11 6.5596006 6.5384626 6.6081221 6.6468514 6.5041313 6.2912678 6.5966482
12 3.8977761 3.1141175 3.8695927 3.7993910 3.9615688 3.5167454 4.1450255
13 2.9788442 2.2598005 3.0130704 3.1372524 3.1544616 2.6950013 3.4148900
14 2.5393757 2.7246448 2.7493023 3.3020072 2.8767826 2.7103716 3.1963115
15 3.6462254 2.9976389 3.7326768 3.9605389 3.8987949 3.4221641 4.1879800
16 1.3716463 1.3046544 1.2862295 0.9832344 0.9502199 0.5395313 1.1415444
17 2.0794530 2.2975746 2.2255206 2.4955305 2.1063946 1.8458175 2.3752897
18 0.6432837 1.0278754 0.5979505 1.5567908 1.3713116 1.7873817 1.6535855
19 0.7735039 1.1050257 0.8044829 1.8175621 1.6092228 2.0045427 1.9064268
20 1.6903081 1.9173746 1.4783945 0.3862120 0.7891853 0.9377678 0.4952309
21 2.2255891 2.4927563 2.0123743 0.9578661 1.2950318 1.4313034 0.9150994
22 0.6153836 1.1489058 0.5352685 0.8491425 0.4164144 0.7747001 0.8130666
23 2.9063702 3.0734305 2.6540388 2.0258008 2.4028083 2.7481855 2.1484268
24 3.6979543 3.9150068 3.4773380 2.4181773 2.7692944 2.8228797 2.3814052
25 2.2068220 2.4849252 2.1919303 1.7578015 1.5527883 1.1979019 1.5747417
26 1.7241564 2.0432431 1.5691123 0.6672284 0.7415361 0.7530957 0.4788483
27 1.1606061 1.2211381 1.3933613 2.2344204 1.8634438 1.8398435 2.2625495
28 1.0850424 1.5051340 0.8731618 1.1778739 1.1615525 1.7028858 1.2571357
29 0.6124468 1.3156509 0.6466974 1.1605633 0.6816381 1.0375880 1.0314069
30 0.8968707 1.4481374 0.6821879 0.9450953 0.8218329 1.4070565 0.9451674
31 0.6086430 1.2745522 0.4791096 0.8830070 0.4870560 1.0246442 0.8024184
32 1.6366263 2.0183369 1.4095399 0.6170966 0.8615707 1.2894807 0.5547560
8 9 10 11 12 13 14
2
3
4
5
6
7
8
9 0.9177374
10 1.1528860 0.8979757
11 6.3353177 6.7426076 6.7563353
12 3.5012406 4.2870196 4.1979597 6.6885124
13 2.7685362 3.6482695 3.4773217 6.1359242 1.2756967
14 2.9758166 3.5651230 3.2921685 5.5485727 4.5090379 3.2439317
15 3.5470202 4.4547045 4.2744147 6.1702806 1.8162204 1.0006398 3.2410365
16 0.5732175 1.3952409 1.3900288 5.8993120 3.1792355 2.3653604 2.6761885
17 2.1058730 2.7137632 2.6240648 5.5881707 4.1173403 2.9257651 1.0030991
18 1.8402955 1.9383018 1.0611047 6.8441484 4.0725218 3.2775494 3.0804985
19 2.0778040 2.1997623 1.3229013 6.9369705 4.1527703 3.3361406 3.0658006
20 0.7130212 0.3479693 0.9444138 6.7279501 3.9605183 3.3668679 3.5660108
21 1.2068549 0.5372749 1.3740577 6.9116289 4.3550573 3.8432542 4.0078781
22 0.9080850 1.2037419 0.7599487 6.4323068 3.9012529 3.0088753 2.5724033
23 2.5204643 1.8778424 1.9934693 7.8844277 4.9103175 4.6680754 5.2528583
24 2.5881887 1.9947829 2.7926833 7.5656852 5.2255845 4.9607802 5.3449190
25 1.3341504 1.7468377 2.1514211 5.9910881 4.1689673 3.2542479 2.4697578
26 0.6298388 0.5077216 1.1590501 6.5087973 4.0910806 3.3825069 3.2292438
27 2.0737472 2.6553906 2.1144496 6.2152355 3.7193377 2.5666322 1.6026280
28 1.6551431 1.4119295 0.5834477 7.0659451 4.3149730 3.6472463 3.5763683
29 1.2062584 1.4204945 0.9470833 6.4094613 4.1550120 3.1971434 2.3723905
30 1.3864660 1.1644116 0.2836738 6.8711333 4.2926945 3.5532068 3.2924335
31 1.1060094 1.1636785 0.5494451 6.5883722 4.1312525 3.2707059 2.7666588
32 1.1258985 0.3808049 0.6858284 6.9121841 4.3506557 3.7414337 3.7150110
15 16 17 18 19 20 21
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16 3.1348429
17 3.1488906 1.8755765
18 4.0003112 1.8037262 2.7015607
19 4.0190332 2.0159601 2.7716183 0.2756388
20 4.1999746 1.2050080 2.7067655 1.9084227 2.1728456
21 4.6802863 1.6995437 3.1085814 2.4048201 2.6709377 0.5784880
22 3.7062826 0.9858649 1.8953879 1.1209651 1.3244772 1.1880158 1.7096799
23 5.6164288 2.8750415 4.4946236 2.6739198 2.8973119 1.8710359 1.7077581
24 5.8127134 3.0390838 4.3921064 3.8175099 4.0838070 2.0359474 1.4778020
25 3.7564039 1.4567736 1.4737817 2.7826147 2.9693460 1.7623568 1.9638627
26 4.1344398 1.1302001 2.3206730 2.0890745 2.3374056 0.5348857 0.7908488
27 2.9520193 1.7894670 1.4966267 1.6223632 1.5818468 2.5910936 3.1372285
28 4.4574564 1.8201786 3.0230744 0.7840901 1.0154103 1.4287305 1.8180990
29 3.8299668 1.2488503 1.7614159 1.1571587 1.3150720 1.4685471 1.9461725
30 4.3336842 1.5759849 2.6945934 0.8425024 1.0910804 1.2159626 1.6351137
31 3.9818478 1.2433221 2.1345856 0.9732119 1.1886334 1.2043906 1.6892609
32 4.5751180 1.5507156 2.9223253 1.7293561 1.9918649 0.5249968 0.7294186
22 23 24 25 26 27 28
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23 2.6957452
24 3.1851150 2.0438545
25 1.6668140 3.6013677 3.0328346
26 1.1255339 2.3461274 2.1675566 1.2577869
27 1.4649437 4.0285499 4.6012026 2.3601206 2.4676622
28 1.1618498 1.9331620 3.1428148 2.7085964 1.7244548 2.2388194
29 0.3514029 2.9284913 3.4061671 1.7040499 1.3346612 1.3458584 1.2922124
30 0.8335489 2.0841259 3.0309078 2.3495069 1.4208756 2.0486779 0.3805655
31 0.3114136 2.5333367 3.1543212 1.8823505 1.2071133 1.6270618 0.9174139
32 1.2219550 1.6077383 2.1115519 2.0827726 0.8606928 2.6768091 1.1063969
29 30 31
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30 0.9544787
31 0.4067348 0.5663461
32 1.4386202 0.9249370 1.1026992
untuk menemukan jarak antar baris berupa matriks untuk mengetahui jarak antar data pasangan data.
> d1 <- dist(data[,2:5])
> #Single Linkage
> hiers <- hclust(dist(data[,2:5]), method = "single")
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cors <- cor(d1,d2)
> cors
[1] 0.9615543
> #Average Linkage
> hierave <- hclust(dist(data[,2:5]), method = "ave")
> #korelasi cophenetic
> hc2 <- hclust(d1, "ave")
> d3 <- cophenetic(hc2)
> corave <- cor(d1,d3)
> corave
[1] 0.9743895
> #Complete Linkage
> hiercomp <- hclust(dist(data[,2:5]), method = "complete")
> #korelasi cophenetic
> hc3 <- hclust(d1, "complete")
> d4 <- cophenetic(hc3)
> corcomp <- cor(d1,d4)
> corcomp
[1] 0.96956
> #Centorid Linkage
> hiercen <- hclust(dist(data[,2:5]), method = "centroid")
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> corcen <- cor(d1,d5)
> corcen
[1] 0.9763831
> #Ward
> hierward <- hclust(dist(data[,2:5]), method = "ward.D")
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> corward <- cor(d1,d6)
> corward
[1] 0.9568918
>
> KorCop<-data.frame(cors,corave,corcomp,corcen,corward)
> KorCop
cors corave corcomp corcen corward
1 0.9615543 0.9743895 0.96956 0.9763831 0.9568918
Melakukan klasterisasi hierarki dengan berbagai metode (single linkage, average linkage, complete linkage, centroid linkage, dan Ward’s method), menghitung korelasi cophenetic untuk mengevaluasi kesesuaian struktur klaster dengan data asli, lalu menyimpan hasil korelasi dari semua metode dalam data frame KorCop.
> inval <- clValid(datastand, 2:5, clMethods = "hierarchical", validation = "internal", metric = "euclidean", method = "average")
> summary(inval)
Clustering Methods:
hierarchical
Cluster sizes:
2 3 4 5
Validation Measures:
2 3 4 5
hierarchical Connectivity 2.9290 7.2159 12.6988 18.7274
Dunn 0.9546 0.4228 0.3687 0.3909
Silhouette 0.6635 0.5448 0.4372 0.4190
Optimal Scores:
Score Method Clusters
Connectivity 2.9290 hierarchical 2
Dunn 0.9546 hierarchical 2
Silhouette 0.6635 hierarchical 2
> optimalScores(inval)
Score Method Clusters
Connectivity 2.9289683 hierarchical 2
Dunn 0.9545581 hierarchical 2
Silhouette 0.6634523 hierarchical 2
> plot(inval)
menghitung evaluasi internal (misalnya, silhouette, Dunn index) untuk
jumlah klaster 2 hingga 5 menggunakan jarak Euclidean dan metode linkage
average.``optimalScores(inval) menampilkan jumlah klaster
terbaik berdasarkan skor, dan plot(inval) memvisualisasikan
hasil evaluasi.
> hirave <- hclust(dist(scale(data[,2:5])), method = "average")
> hirave
Call:
hclust(d = dist(scale(data[, 2:5])), method = "average")
Cluster method : average
Distance : euclidean
Number of objects: 32
> plot(hirave, labels(data$Provinsi), hang = 1, col = "blue", main = "Cluster Dendogram", sub = " ", xlab = "PROVINSI", ylab = "Jarak")
>
> anggotaave <- data.frame(id = data$Provinsi, cutree(hirave, k = 2))
> anggotaave
id cutree.hirave..k...2.
1 Aceh 1
2 Sumatera Utara 1
3 Sumatera Barat 1
4 Riau 1
5 Jambi 1
6 Sumatera Selatan 1
7 Bengkulu 1
8 Lampung 1
9 Kepulauan Bangka Belitung 1
10 Kepulauan Riau 1
11 DKI Jakarta 2
12 Jawa Barat 1
13 Jawa Tengah 1
14 DI Yogyakarta 1
15 Jawa Timur 1
16 Banten 1
17 Bali 1
18 Nusa Tenggara Barat 1
19 Nusa Tenggara Timur 1
20 Kalimantan Barat 1
21 Kalimantan Tengah 1
22 Kalimantan Selatan 1
23 Kalimantan Timur 1
24 Kalimantan Utara 1
25 Sulawesi Utara 1
26 Sulawesi Tengah 1
27 Sulawesi Selatan 1
28 Sulawesi Tenggara 1
29 Gorontalo 1
30 Sulawesi Barat 1
31 Maluku 1
32 Maluku Utara 1
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)
>
> idclus = clus_hier$cluster
> idclus
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
27 28 29 30 31 32
1 1 1 1 1 1
> aggregate(data,list(idclus),mean)
Group.1 Provinsi Jumlah.Penduduk Laju.Pertumbuhan.Penduduk.per.Tahun
1 1 NA 8553.89 1.285484
2 2 NA 10684.90 0.310000
Kepadatan.Penduduk.per.km.persegi..km2. Rasio.Jenis.Kelamin.Penduduk
1 306.8065 102.9935
2 16165.0000 101.1000
Kode ini melakukan hierarchical clustering, memotong dendrogram
menjadi 2 cluster, dan menganalisis hasilnya. Visualisasi dendrogram
dengan fviz_dend menampilkan cluster
dengan batas kotak. aggregate menghitung
rata-rata tiap variabel per cluster untuk memahami karakteristiknya.
Dari data yang didapatkan, ditemukan hasil analisis statistika deskriptif sebagai berikut :
| X1 | X2 | X3 | X4 | |
|---|---|---|---|---|
| Min | 730 | 0.38 | 10 | 98 |
| Mean | 8532 | 1.263 | 798.88 | 103 |
| Max | 49860 | 1.69 | 16146 | 111 |
X1 = Jumlah Penduduk
X2 = Laju Pertumbuhan Penduduk per Tahun
X3 = Kepadatan Penduduk per km persegi (km2)
X4 = Rasio Jenis Kelamin Penduduk
Dari hasil tersebut diketaui rata rata X1 sebesar 8532, X2 sebesar 1.263, X4 sebesar 798.88, dan X5 sebesar 103. dengan Min dari setiap X adalah X1 = Kalimantan Utara, X2 = DKI Jakarta, X4 = Kalimantan Utara, dan X5 = DI Yogyakarta. dan dengan Max dari setiap X adalah X1 = Jawa Barat , X2 = Sulawesi Tenggara, X4 = DKI Jakarta ,dan X5 = DI Kalimantan Utara.
Uji Asumsi Reprentatif menggunakan KMO (Kaiser mayer olkin) dari 5 variable ditemukan :
| X1 | X2 | X3 | X4 | |
|---|---|---|---|---|
| Uji KMO | 0.64 | 0.56 | 0.54 | 0.72 |
Dari tabel dapt dilihat Uji KMO semuanya lebih dari 0.5 maka sudah memenuhi asumsi bahwa mewakili populasi
Uji Non-Multikolinearitas menggunakan tabel korelasi, ditemukan tabel korelasi sebagai berikut :
| X1 | X2 | X3 | X4 | |
|---|---|---|---|---|
| X1 | 1.000000 | -0.3366051 | 0.1327287 | -0.3106902 |
| X2 | 1.000000 | -0.5995018 | 0.3270426 | |
| X3 | 1.000000 | -0.1750159 | ||
| X4 | 1.000000 |
Bedasarkan tabel korelasi di atas, semua korelasi antar variabel kurang berada pada 0.8 > hingga <-0.8, Sehingga dapat disimpulkan bahwa tidak trjadi multikolinearitas antar variabel.
Setelah uji asumsi dilakukan dan hasilnya memenuhi persyaratan, langkah selanjutnya adalah menstandarisasi variabel ke dalam bentuk Z-score. Hasil dari standarisasi ini kemudian digunakan untuk mengelompokkan provinsi-provinsi di Indonesia berdasarkan Penduduk, Laju Pertumbuhan, Kepadatan, dan Rasio Jenis Kelamin.
Menghitung Jarak antar dua objek dan nilai yang paling kecil menentukan bahwa objek tersebut mirip, dan dalam cluster Jarak Euclidien digunakan untuk mencari pola pada data, cluster mana yang lebih dekat.
Pada tahap ini memilih metode terbaik yang digunakan untuk analisis cluster, metode terbaik yang akan digunakan adalah metode yang paling mendekati dengan 1, hasil korelasi dari setiap metode adalah :
| Metode | Nilai Korelasi |
|---|---|
| Single Linkage | 0.9617503 |
| Average Linkage | 0.97464 |
| Complete Linkage | 0.9697173 |
| Centroid Linkage | 0.9737835 |
| Ward’s Method | 0.9568411 |
Korelasi yang paling mendekati 1 adalah average linkage yang artinya metode yang dipilih adalah average linkage.
pada indeks validitas akan ditemukan berapa cluster yang optimal
untuk analisis selanjutnya
Pada hasil diagram ditemukan cluster dengan nilai Silhouette tertinggi pada 2 cluster, maka selanjutnya akan didigunakan 2 cluster.
Metode average linkage adalah metode analisis berdasarkan rata-rata jarak
dari semua objek pengamatan dari satu cluster terhadap semua
objek pengamatan cluster lain. Ukuran jarak yang digunakan pada
analisis ini ialah jarak Euclidean
Pada analisis ini menetapkan stopping rule sebanyak 2 hingga 5
cluster. Stopping rule adalah jumlah cluster
yang dijadikan pertimbangan sebelum menentukan jumlah cluster
optimal yang sesungguhnya. Dalam memilih dan menentukan jumlah
cluster optimal pada analisis ini mengggunakan 3 aturan indeks
validitas cluster, yaitu Indeks Connectivity, Indeks
Dunn dan Indeks Silhoutte. Hasil penentuan jumlah
cluster optimal metode Average Linkage berdasarkan
indeks validitas cluster disajikan pada tabel berikut:
| Index | Nilai | Jumlah cluster |
|---|---|---|
| Connectivity | 2.9290 | 2 |
| Dunn | 0.9466 | 2 |
| Silhouette | 0.6635 | 2 |
Berdasarkan tabel menunjukkan bahwa berdasarkan indeks connectivity, indeks Dunn , dan indeks silhouette jumlah cluster optimum ialah sebanyak 2 cluster, maka terpilihlah 2 cluster sebagai cluster optimal.
didapatkan dendogram sebagai berikut :
Dendrogram ini menunjukkan hasil hierarchical clustering dari data provinsi, di mana sumbu Y menggambarkan jarak atau tingkat perbedaan antar objek. Semakin rendah posisi penggabungan pada dendrogram, semakin mirip objek atau kelompok yang tergabung. Provinsi yang tergabung pada cabang yang sama, seperti Provinsi Aceh (1) dan Gorontalo (30), memiliki kemiripan tinggi berdasarkan variabel yang dianalisis. Sebaliknya, cabang yang panjang, seperti Provinsi Sumatera Barat (23), menunjukkan bahwa objek tersebut cukup berbeda dari kelompok lainnya. Untuk menentukan jumlah klaster, Anda dapat memotong dendrogram pada ketinggian tertentu; misalnya, memotong di sekitar jarak 4 akan menghasilkan dua klaster utama. Dendrogram ini memberikan visualisasi yang membantu dalam memahami struktur data dan mengidentifikasi pola klaster yang signifikan.
setelah menentukan isi dari cluster, maka mencari tinggi rendah tiap-tiap variale pada setiap cluster. dengan metode average linkage ditemukan :
| Variabel | Cluster 1 | Cluster 2 |
|---|---|---|
| X1 | 8463.032 | 10672.100 |
| X2 | 1.291935 | 0.380000 |
| X3 | 303.8065 | 16146.000 |
| X4 | 103.1032 | 101.3000 |
pada X1 atau variabel Jumlah Penduduk ditunjukan bahwa rata-rata cluster 2 lebih tinggi dari cluster 1 yang artinya pada cluster 2 memiliki jumlah penduduk yang lebih padat.
pada X2 atau Laju Pertumbuhan Penduduk per Tahun ditunjukan bahwa rata-rata cluster 1 lebih tinggi dari cluster 2 yang artinya pada cluster 1 memiliki laju pertumbuhan yang lebih tinggi.
pada X3 atau Kepadatan Penduduk per km persegi (km2) ditunjukan bahwa rata-rata cluster 2 lebih tinggi dari cluster 1 yang artinya pada cluster 2 memiliki kepadatan penduduk lebih tinggi.
pada X4 atau Rasio Jenis Kelamin Penduduk ditunjukan bahwa rata-rata cluster 1 lebih tinggi dari cluster 2 yang artinya pada cluster 1 memiliki Rasio jenis kelamin yang lebih tinggi.
Pada cluster 1 diketahui ciri khas dari provinsi tersebut adalah Laju Pertumbuhan Penduduk yang lebih tinggi dan juga pada cluster 1 memiliki rasio jenis kelamin yang lebih tinggi. maka pada cluster ini pemerintah dapat melakukan penekanan laju pertumbuhan dan juga program untuk seseimbangan agar gender saling melengkapi. dan untuk cluster 2 memiliki ciri jumlah penduduk yang tinggi dan juga memiliki kepadatan penduduk yang tinggi, pada cluster ini pemerintah bisa lebih menekankan program perpindahan penduduk dan hal yang membuat penduduk tidak hanya berkumpul pada satu wilayah.
Badan Pusat Statistik. (2023). Penduduk, Laju Pertumbuhan Penduduk, Distribusi Persentase Penduduk, Kepadatan Penduduk, Rasio Jenis Kelamin Penduduk Menurut Provinsi. Diakses dari https://www.bps.go.id/id/statistics-table/3/V1ZSbFRUY3lTbFpEYTNsVWNGcDZjek53YkhsNFFUMDkjMw==/penduduk--laju-pertumbuhan-penduduk--distribusi-persentase-penduduk--kepadatan-penduduk--rasio-jenis-kelamin-penduduk-menurut-provinsi.html?year=2023.
BPS (Badan Pusat Statistik). (2024). Statistik Indonesia 2024. Jakarta: Badan Pusat Statistik.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate Data Analysis (8th ed.). Cengage Learning.
Todaro, M. P., & Smith, S. C. (2020). Economic Development (12th ed.). New York: Pearson Education