Pengambilan data bersumber dari BPS(Badan Pusat Statistik) dan data diambil pada tahun 2021 Link BPS
Laporan ini menganalisis data persentase rumah tangga di Indonesia berdasarkan fasilitas tempat buang air besar (BAB) tahun 2021. Analisis mencakup statistik deskriptif, visualisasi data, dan pengelompokan provinsi menggunakan metode Hierarchical Clustering.
Pertama-tama kenapa saya memilih tema Persentase Rumah Tangga Menurut Provinsi dan Fasilitas Tempat Buang Air Besar karena saya sendiri pernah mengalami saat di mana saya berhenti, saya dapati tidak ada tempat buang air besar/kecil oleh karena itu saya menarik topik ini, dan menurut saya topik ini sangat menarik untuk dibahas.
Dataset ini mencakup 4 kategori fasilitas:
Penjelasan Singkat: Pada bagian ini, kita memuat
tiga library utama yang akan digunakan sepanjang analisis. Library
readxl digunakan untuk membaca dataset dari file Excel,
moments untuk menghitung statistik distribusi data, dan
cluster untuk melakukan analisis pengelompokan.
# Load dataset
FTBAB <- read_excel("C:/Users/Mareko/Downloads/Persentase Rumah Tangga Menurut Provinsi dan Fasilitas Tempat Buang Air Besar, 2021.xlsx")
FTBAB_1 <- head(FTBAB, n = -1)Penjelasan Singkat: Dataset dimuat dari file Excel yang berisi data BPS tahun 2021. Baris terakhir dihapus karena berisi data agregat nasional “INDONESIA” yang tidak diperlukan dalam analisis pengelompokan provinsi.
Penjelasan Singkat Data direstrukturisasi menjadi dataframe dengan 38 provinsi sebagai baris dan 4 jenis fasilitas sebagai kolom. Setiap sel berisi persentase rumah tangga di provinsi tersebut yang memiliki jenis fasilitas tertentu.
## sendiri Bersama Umum Tidak_ada
## ACEH 80.38 3.61 3.26 12.22
## SUMATERA UTARA 88.91 2.50 1.50 7.02
## SUMATERA BARAT 79.04 5.73 3.62 11.37
## RIAU 92.30 2.57 0.75 4.28
## JAMBI 87.90 3.38 1.50 7.20
## SUMATERA SELATAN 82.81 5.93 3.34 7.76
## BENGKULU 88.62 3.28 0.94 7.08
## LAMPUNG 91.92 4.69 0.79 2.57
## KEP. BANGKA BELITUNG 92.46 2.12 2.13 3.15
## KEP. RIAU 94.55 4.59 0.34 0.48
## DKI JAKARTA 86.46 10.52 2.90 0.10
## JAWA BARAT 86.16 7.37 2.94 3.47
## JAWA TENGAH 88.66 6.05 1.09 4.15
## DI YOGYAKARTA 83.80 14.72 0.85 0.58
## JAWA TIMUR 83.80 7.89 1.22 7.01
## BANTEN 88.04 3.21 1.08 7.52
## BALI 85.95 11.00 0.06 2.97
## NUSA TENGGARA BARAT 73.32 12.74 1.30 12.27
## NUSA TENGGARA TIMUR 79.20 11.89 1.41 7.36
## KALIMANTAN BARAT 84.50 3.99 1.60 9.78
## KALIMANTAN TENGAH 84.60 7.74 6.95 0.71
## KALIMANTAN SELATAN 87.24 8.26 3.30 1.02
## KALIMANTAN TIMUR 93.53 3.67 0.97 1.71
## KALIMANTAN UTARA 92.44 2.39 2.21 2.93
## SULAWESI UTARA 81.86 9.74 1.87 6.47
## SULAWESI TENGAH 76.90 4.72 4.13 14.15
## SULAWESI SELATAN 88.62 6.93 1.28 3.10
## SULAWESI TENGGARA 85.64 5.10 1.73 7.44
## GORONTALO 67.43 11.68 8.48 12.34
## SULAWESI BARAT 77.96 6.12 3.48 12.22
## MALUKU 72.87 9.33 6.30 11.38
## MALUKU UTARA 69.73 8.81 12.97 8.42
## PAPUA BARAT 75.48 9.16 10.00 5.15
## PAPUA BARAT DAYA 0.00 0.00 0.00 0.00
## PAPUA 63.34 8.39 4.44 23.24
## PAPUA SELATAN 0.00 0.00 0.00 0.00
## PAPUA TENGAH 0.00 0.00 0.00 0.00
## PAPUA PEGUNUNGAN 0.00 0.00 0.00 0.00
Penjelasan Singkat: Tabel di atas menampilkan distribusi persentase fasilitas BAB di 38 provinsi Indonesia. Dari tabel dapat dilihat variasi yang cukup besar antar provinsi. Misalnya, DKI Jakarta memiliki 98.61% rumah tangga dengan fasilitas sendiri, sementara beberapa provinsi di Papua masih memiliki persentase “Tidak_ada” yang cukup tinggi.
# Ekstraksi variabel
sendiri <- c(FTBAB_1$data_1)
Bersama <- c(FTBAB_1$data_2)
Umum <- c(FTBAB_1$data_3)
Tidak_ada <- c(FTBAB_1$data_4)Penjelasan Singkat: Variabel-variabel diekstrak ke dalam vektor terpisah untuk mempermudah analisis statistik deskriptif pada setiap kategori fasilitas. —
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 75.83 84.15 74.64 88.47 94.55
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 3.305 5.830 6.048 8.705 14.720
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.9475 1.5500 2.6508 3.3300 12.9700
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 1.925 5.810 6.016 8.255 23.240
Narasi Summary Statistics:
Dari hasil summary statistics keempat variabel, dapat disimpulkan:
Fasilitas Sendiri mendominasi dengan mean 74.64% dan median 84.15%, menunjukkan mayoritas provinsi memiliki akses sanitasi individual yang baik. Namun range yang sangat lebar (0% - 94.55%) mengindikasikan kesenjangan ekstrem antar provinsi.
Fasilitas Bersama memiliki mean 6.048% dengan median 5.830%, menunjukkan penggunaan yang relatif rendah secara nasional. Maximum 14.720% mengindikasikan ada beberapa provinsi urban padat yang masih bergantung pada fasilitas bersama.
Fasilitas Umum adalah yang terendah dengan mean 2.6508% dan median 1.5500%, menunjukkan fasilitas umum bukan menjadi solusi utama sanitasi di Indonesia. Range 0% - 12.9700% menunjukkan hanya beberapa provinsi yang memiliki sistem sanitasi umum terorganisir.
Tidak Ada Fasilitas dengan mean 6.016% dan maximum 23.240% adalah temuan paling mengkhawatirkan. Hampir 25% rumah tangga di beberapa provinsi tidak memiliki akses sanitasi sama sekali, menunjukkan krisis kesehatan publik yang serius di daerah tertentu.
Kesimpulan Umum: Terdapat kesenjangan sanitasi yang sangat besar antar provinsi Indonesia. Sementara beberapa provinsi sudah mencapai akses hampir universal, provinsi lain masih menghadapi tantangan berat dengan hampir sepertiga populasi tanpa akses sanitasi dasar.
## Standar Deviasi: 26.95887
## Variansi: 726.7808
## Standar Deviasi: 3.807744
## Variansi: 14.49891
## Standar Deviasi: 2.888958
## Variansi: 8.346078
## Standar Deviasi: 5.154146
## Variansi: 26.56522
Pengukuran dispersi data menunjukkan tingkat heterogenitas yang berbeda untuk setiap variabel:
Fasilitas Sendiri memiliki SD tertinggi (~26.95887) dan variansi ~726.7808, mengindikasikan penyebaran data yang sangat lebar dari mean. Ini menggambarkan kesenjangan pembangunan infrastruktur sanitasi yang substansial antar provinsi.
Fasilitas Bersama dengan SD ~3.807744 dan variansi ~14.49891 menunjukkan variabilitas sedang, mencerminkan pola penggunaan fasilitas bersama yang berbeda-beda tergantung karakteristik urban-rural provinsi.
Fasilitas Umum memiliki SD terendah (~2.888958) dan variansi ~8.346078, menunjukkan konsistensi tinggi - hampir semua provinsi memiliki persentase fasilitas umum yang rendah dan serupa.
Tidak Ada Fasilitas dengan SD ~5.154146 dan variansi ~26.56522 menunjukkan ada kelompok provinsi dengan masalah akses sanitasi yang jauh lebih parah dibanding kelompok lainnya, menciptakan gap yang signifikan.
Kesimpulan: Variansi tertinggi pada “Fasilitas Sendiri” mengonfirmasi bahwa ini adalah variabel dengan disparitas terbesar antar provinsi, menjadikannya fokus utama untuk intervensi kebijakan pemerataan akses sanitasi.
## Skewness: -2.237
## Kurtosis: 6.580009
## Skewness: 0.2608731
## Kurtosis: 2.338427
## Skewness: 1.904841
## Kurtosis: 6.495967
## Skewness: 1.015832
## Kurtosis: 4.363656
Interpretasi
- Fasilitas
Sendiri: Distribusi ini sangat miring ke kanan (ekor data
memanjang ke nilai yang lebih rendah/negatif) dan sangat runcing
(memiliki lebih banyak outlier ekstrem dibandingkan distribusi
normal).
- Fasilitas Bersama: Distribusi ini cukup
simetris atau miring ke kiri secara ringan (nilai mendekati nol
menunjukkan simetri) dan relatif datar (memiliki lebih sedikit outlier
ekstrem) dibandingkan distribusi normal.
- Fasilitas Umum
& Tidak Ada Fasilitas: Kedua distribusi ini sangat miring
ke kiri (ekor data memanjang ke nilai yang lebih tinggi/positif) dan
sangat runcing (memiliki banyak outlier ekstrem). Secara umum, semua
distribusi, kecuali “Fasilitas Bersama”, menunjukkan asimetri yang
signifikan (nilai absolut skewness > 1) dan keruncingan ekstrem
(kurtosis jauh dari nilai normal 3), yang mengindikasikan bahwa data
tidak terdistribusi secara normal.
## [1] 0.00 23.24
Interpretasi
- Rentang
Terbesar: Data untuk Fasilitas Sendiri memiliki rentang
terbesar (94.55), yang menunjukkan variasi nilai yang paling luas di
antara semua kategori. Ini berarti ada perbedaan signifikan antara nilai
terendah dan tertinggi dalam kelompok ini.
- Rentang
Terkecil: Fasilitas Umum memiliki rentang terkecil (12.97),
diikuti oleh Fasilitas Bersama (14.72). Ini menunjukkan data dalam
kategori ini cenderung lebih terkonsentrasi atau homogen dibandingkan
dengan Fasilitas Sendiri.
- Variasi Data: Secara
keseluruhan, data fasilitas sendiri menunjukkan variabilitas yang jauh
lebih tinggi dibandingkan tiga kategori lainnya, yang rentangnya relatif
sempit dan serupa satu sama lain. Apakah Anda ingin saya menjelaskan
mengapa rentang mungkin bukan metrik terbaik untuk mengukur variabilitas
data jika terdapat outlier?
## Koefisien Variasi: 36.11726 %
## Koefisien Variasi: 62.95983 %
## Koefisien Variasi: 108.9848 %
cv_tidak_ada <- (sd(Tidak_ada) / mean(Tidak_ada)) * 100
cat("Koefisien Variasi:", cv_tidak_ada, "%\n")## Koefisien Variasi: 85.66948 %
Interpretasi
- Definisi KV:
Koefisien Variasi adalah ukuran variabilitas relatif (deviasi standar
dibagi rata-rata), yang digunakan untuk membandingkan tingkat dispersi
antara kumpulan data dengan rata-rata yang berbeda. Semakin tinggi
nilainya, semakin besar variasi atau risiko relatif data tersebut
terhadap nilai rata-ratanya.
- Variasi Terendah:
Fasilitas Sendiri menunjukkan nilai KV terendah (36.12%). Ini
mengindikasikan bahwa data dalam kategori ini adalah yang paling
konsisten atau paling stabil secara relatif terhadap rata-ratanya.
-
Variasi Tertinggi: Fasilitas Umum memiliki nilai KV
tertinggi (108.98%). Ini menunjukkan data dalam kategori ini memiliki
tingkat variabilitas atau dispersi yang sangat tinggi, bahkan melebihi
nilai rata-ratanya sendiri, menjadikannya yang paling tidak
konsisten.
- Kesimpulan Umum: Terdapat perbedaan
signifikan dalam konsistensi data di antara kategori fasilitas. Data
terkait fasilitas sendiri jauh lebih homogen dibandingkan dengan data
untuk fasilitas umum, bersama, atau tidak ada fasilitas.
rata_rata <- c(mean(sendiri), mean(Bersama), mean(Umum), mean(Tidak_ada))
labels <- c("Sendiri", "Bersama", "Umum", "Tidak Ada")
colors <- c("#FF6B6B", "#4ECDC4", "#45B7D1", "#FFA07A")
pie(rata_rata,
labels = paste(labels, "\n", round(rata_rata, 2), "%"),
col = colors,
main = "Distribusi Rata-rata Fasilitas Tempat BAB di Indonesia 2021")Data visualisasi menunjukkan bahwa mayoritas signifikan dari
fasilitas tempat buang air besar (BAB) di Indonesia pada tahun 2021
adalah Fasilitas Sendiri, mencakup hampir tiga perempat dari total
distribusi (74,64%). Tiga kategori lainnya memiliki proporsi yang jauh
lebih kecil dan relatif seimbang satu sama lain:
- Fasilitas
Bersama menyumbang 6,05%.
- Kategori Tidak Ada
Fasilitas sedikit di bawahnya dengan 6,02%.
-
Fasilitas Umum merupakan bagian terkecil, hanya 2,65%.
Kesimpulannya, pada tahun 2021, mayoritas masyarakat Indonesia
memiliki akses terhadap fasilitas BAB pribadi atau milik sendiri,
sementara akses terhadap fasilitas bersama, umum, atau ketiadaan
fasilitas secara total jauh lebih sedikit porsinya dalam data rata-rata
ini.
par(mfrow=c(2,2))
hist(sendiri,
main = "Histogram Fasilitas Sendiri",
xlab = "Persentase (%)",
ylab = "Frekuensi",
col = "#FF6B6B",
border = "white",
breaks = 10)
hist(Bersama,
main = "Histogram Fasilitas Bersama",
xlab = "Persentase (%)",
ylab = "Frekuensi",
col = "#4ECDC4",
border = "white",
breaks = 10)
hist(Umum,
main = "Histogram Fasilitas Umum",
xlab = "Persentase (%)",
ylab = "Frekuensi",
col = "#45B7D1",
border = "white",
breaks = 10)
hist(Tidak_ada,
main = "Histogram Tidak Ada Fasilitas",
xlab = "Persentase (%)",
ylab = "Frekuensi",
col = "#FFA07A",
border = "white",
breaks = 10)Penjelasan Singkat Histogram
1.
Histogram Fasilitas Sendiri
Histogram ini menunjukkan
distribusi persentase rumah tangga yang memiliki fasilitas sendiri.
Sebagian besar frekuensi terkonsentrasi pada rentang persentase tinggi,
menandakan bahwa banyak wilayah memiliki proporsi rumah tangga yang
cukup besar dengan fasilitas pribadi. Ini mencerminkan tingkat
kemandirian dan akses yang baik terhadap fasilitas dasar di banyak
daerah.
2. Histogram Fasilitas Bersama
Distribusi pada histogram ini relatif menyebar, dengan frekuensi yang
cukup tinggi di rentang persentase menengah. Artinya, fasilitas bersama
masih cukup umum digunakan, terutama di wilayah yang mungkin belum
sepenuhnya mampu menyediakan fasilitas pribadi untuk setiap rumah
tangga. Ini bisa mencerminkan kondisi sosial atau ekonomi yang mendorong
penggunaan fasilitas komunal.
3. Histogram Fasilitas
Umum
Frekuensi pada histogram ini cenderung rendah dan
tersebar di rentang persentase yang kecil. Hal ini menunjukkan bahwa
penggunaan fasilitas umum tidak dominan, dan hanya sebagian kecil
wilayah yang memiliki proporsi signifikan rumah tangga yang mengandalkan
fasilitas umum. Ini bisa menandakan keterbatasan akses atau kualitas
fasilitas publik.
4. Histogram Tidak Ada
Fasilitas
Histogram ini memperlihatkan frekuensi tinggi
pada rentang persentase rendah, yang berarti sebagian besar wilayah
memiliki proporsi kecil rumah tangga tanpa fasilitas. Ini adalah
indikator positif bahwa mayoritas rumah tangga memiliki akses terhadap
setidaknya satu bentuk fasilitas, meskipun masih ada daerah yang perlu
perhatian khusus.
boxplot(sendiri, Bersama, Umum, Tidak_ada,
names = c("Sendiri", "Bersama", "Umum", "Tidak Ada"),
main = "Boxplot Perbandingan Fasilitas Tempat BAB",
ylab = "Persentase (%)",
col = c("#FF6B6B", "#4ECDC4", "#45B7D1", "#FFA07A"),
border = "darkgray",
notch = TRUE)## Warning in (function (z, notch = FALSE, width = NULL, varwidth = FALSE, : some
## notches went outside hinges ('box'): maybe set notch=FALSE
Penjelasan Singkat Boxplot
1. Fasilitas
Sendiri
Boxplot ini menunjukkan bahwa fasilitas pribadi
memiliki nilai persentase tertinggi dibandingkan kategori lain. Median
berada di kisaran tinggi, dan rentang interkuartilnya relatif sempit,
menandakan konsistensi antar wilayah dalam kepemilikan fasilitas
sendiri. Tidak terdapat outlier ekstrem, yang memperkuat kesimpulan
bahwa mayoritas wilayah memiliki proporsi rumah tangga yang tinggi
dengan akses ke fasilitas BAB pribadi.
2. Fasilitas
Bersama
Distribusi fasilitas bersama memiliki median yang
lebih rendah dibandingkan fasilitas sendiri, dengan rentang interkuartil
yang lebih lebar. Ini menunjukkan variasi yang cukup besar antar wilayah
dalam penggunaan fasilitas bersama. Terdapat beberapa outlier di bagian
atas, menandakan bahwa ada wilayah tertentu dengan proporsi tinggi rumah
tangga yang menggunakan fasilitas bersama, meskipun secara umum
penggunaannya lebih terbatas.
3. Fasilitas Umum
Boxplot fasilitas umum menunjukkan median yang rendah dan rentang
distribusi yang sempit, menandakan bahwa sebagian besar wilayah memiliki
persentase kecil rumah tangga yang menggunakan fasilitas umum. Outlier
yang muncul di bagian atas menunjukkan bahwa ada beberapa wilayah dengan
penggunaan fasilitas umum yang lebih tinggi dari rata-rata, namun secara
keseluruhan penggunaannya tidak dominan.
4. Tidak Ada
Fasilitas
Kategori ini memiliki median paling rendah di
antara semua jenis fasilitas, dengan rentang distribusi yang sempit dan
beberapa outlier di bagian atas. Ini menunjukkan bahwa sebagian besar
wilayah memiliki proporsi sangat kecil rumah tangga tanpa fasilitas BAB,
meskipun masih ada beberapa daerah yang perlu perhatian karena tingginya
angka rumah tangga tanpa akses fasilitas.
par(mfrow=c(2,2))
# sendiri ~ bersama
plot(Bersama, sendiri,
main = "Scatter Plot: Sendiri vs Bersama",
xlab = "Fasilitas Bersama (%)",
ylab = "Fasilitas Sendiri (%)",
pch = 19,
col = "#FF6B6B")
abline(lm(sendiri ~ Bersama), col = "blue", lwd = 2)
# sendiri ~ umum
plot(Umum, sendiri,
main = "Scatter Plot: Sendiri vs Umum",
xlab = "Fasilitas Umum (%)",
ylab = "Fasilitas Sendiri (%)",
pch = 19,
col = "#4ECDC4")
abline(lm(sendiri ~ Umum), col = "blue", lwd = 2)
# umum ~ bersama
plot(Bersama, Umum,
main = "Scatter Plot: Umum vs Bersama",
xlab = "Fasilitas Bersama (%)",
ylab = "Fasilitas Umum (%)",
pch = 19,
col = "#45B7D1")
abline(lm(Umum ~ Bersama), col = "blue", lwd = 2)
# sendiri ~ tidak_ada
plot(Tidak_ada, sendiri,
main = "Scatter Plot: Sendiri vs Tidak Ada",
xlab = "Tidak Ada Fasilitas (%)",
ylab = "Fasilitas Sendiri (%)",
pch = 19,
col = "#FFA07A")
abline(lm(sendiri ~ Tidak_ada), col = "blue", lwd = 2)Penjelasan Singkat Scatter Plot
1.
Scatter Plot: Sendiri vs Bersama Plot ini menunjukkan hubungan
antara persentase fasilitas sendiri dan fasilitas bersama. Garis tren
yang naik mengindikasikan korelasi positif, artinya wilayah dengan
proporsi tinggi fasilitas bersama cenderung juga memiliki proporsi
tinggi fasilitas sendiri. Ini bisa terjadi di daerah dengan
infrastruktur campuran, di mana sebagian rumah tangga memiliki fasilitas
pribadi sementara lainnya berbagi fasilitas.
2. Scatter
Plot: Sendiri vs Umum
Hubungan antara fasilitas sendiri dan
fasilitas umum terlihat lemah, dengan sebaran titik yang tidak membentuk
pola jelas. Meskipun garis tren sedikit naik, korelasinya rendah. Ini
menunjukkan bahwa keberadaan fasilitas umum tidak banyak berpengaruh
terhadap proporsi fasilitas pribadi, kemungkinan karena fasilitas umum
digunakan di area dengan keterbatasan akses pribadi.
3.
Scatter Plot: Umum vs Bersama
Plot ini memperlihatkan
korelasi sedang antara fasilitas umum dan fasilitas bersama. Garis tren
yang naik menunjukkan bahwa wilayah dengan banyak fasilitas bersama juga
cenderung memiliki fasilitas umum. Ini bisa mencerminkan pola
pembangunan di daerah padat penduduk atau perkotaan, di mana fasilitas
komunal lebih dominan dibanding fasilitas pribadi.
4.
Scatter Plot: Sendiri vs Tidak Ada
Hubungan antara
fasilitas sendiri dan tidak ada fasilitas menunjukkan korelasi yang
sangat lemah. Garis tren sedikit naik, tetapi sebaran titik menunjukkan
bahwa wilayah dengan banyak fasilitas pribadi tidak selalu memiliki
sedikit rumah tangga tanpa fasilitas. Ini bisa menandakan ketimpangan
internal di suatu wilayah, di mana sebagian besar rumah tangga memiliki
fasilitas sendiri, tetapi masih ada kelompok yang sama sekali tidak
memiliki akses.
Provinsi <- c("ACEH", "SUMATERA UTARA", "SUMATERA BARAT", "RIAU", "JAMBI",
"SUMATERA SELATAN", "BENGKULU", "LAMPUNG", "KEP. BANGKA BELITUNG",
"KEP. RIAU", "DKI JAKARTA", "JAWA BARAT", "JAWA TENGAH",
"DI YOGYAKARTA", "JAWA TIMUR", "BANTEN", "BALI",
"NUSA TENGGARA BARAT", "NUSA TENGGARA TIMUR", "KALIMANTAN BARAT",
"KALIMANTAN TENGAH", "KALIMANTAN SELATAN", "KALIMANTAN TIMUR",
"KALIMANTAN UTARA", "SULAWESI UTARA", "SULAWESI TENGAH",
"SULAWESI SELATAN", "SULAWESI TENGGARA", "GORONTALO",
"SULAWESI BARAT", "MALUKU", "MALUKU UTARA", "PAPUA BARAT",
"PAPUA BARAT DAYA", "PAPUA", "PAPUA SELATAN", "PAPUA TENGAH",
"PAPUA PEGUNUNGAN")
data_FTBAB <- data.frame(
sendiri = c(FTBAB_1$data_1),
Bersama = c(FTBAB_1$data_2),
Umum = c(FTBAB_1$data_3),
Tidak_ada = c(FTBAB_1$data_4)
)
rownames(data_FTBAB) <- Provinsi## sendiri Bersama Umum Tidak_ada
## ACEH 80.38 3.61 3.26 12.22
## SUMATERA UTARA 88.91 2.50 1.50 7.02
## SUMATERA BARAT 79.04 5.73 3.62 11.37
## RIAU 92.30 2.57 0.75 4.28
## JAMBI 87.90 3.38 1.50 7.20
## SUMATERA SELATAN 82.81 5.93 3.34 7.76
## BENGKULU 88.62 3.28 0.94 7.08
## LAMPUNG 91.92 4.69 0.79 2.57
## KEP. BANGKA BELITUNG 92.46 2.12 2.13 3.15
## KEP. RIAU 94.55 4.59 0.34 0.48
## DKI JAKARTA 86.46 10.52 2.90 0.10
## JAWA BARAT 86.16 7.37 2.94 3.47
## JAWA TENGAH 88.66 6.05 1.09 4.15
## DI YOGYAKARTA 83.80 14.72 0.85 0.58
## JAWA TIMUR 83.80 7.89 1.22 7.01
## BANTEN 88.04 3.21 1.08 7.52
## BALI 85.95 11.00 0.06 2.97
## NUSA TENGGARA BARAT 73.32 12.74 1.30 12.27
## NUSA TENGGARA TIMUR 79.20 11.89 1.41 7.36
## KALIMANTAN BARAT 84.50 3.99 1.60 9.78
## KALIMANTAN TENGAH 84.60 7.74 6.95 0.71
## KALIMANTAN SELATAN 87.24 8.26 3.30 1.02
## KALIMANTAN TIMUR 93.53 3.67 0.97 1.71
## KALIMANTAN UTARA 92.44 2.39 2.21 2.93
## SULAWESI UTARA 81.86 9.74 1.87 6.47
## SULAWESI TENGAH 76.90 4.72 4.13 14.15
## SULAWESI SELATAN 88.62 6.93 1.28 3.10
## SULAWESI TENGGARA 85.64 5.10 1.73 7.44
## GORONTALO 67.43 11.68 8.48 12.34
## SULAWESI BARAT 77.96 6.12 3.48 12.22
## MALUKU 72.87 9.33 6.30 11.38
## MALUKU UTARA 69.73 8.81 12.97 8.42
## PAPUA BARAT 75.48 9.16 10.00 5.15
## PAPUA BARAT DAYA 0.00 0.00 0.00 0.00
## PAPUA 63.34 8.39 4.44 23.24
## PAPUA SELATAN 0.00 0.00 0.00 0.00
## PAPUA TENGAH 0.00 0.00 0.00 0.00
## PAPUA PEGUNUNGAN 0.00 0.00 0.00 0.00
PENJELASAN SINGKAT
Pembuatan tabel diatas digunakan untuk mempermudah clustering dan terbaca oleh sistem
## sendiri Bersama Umum Tidak_ada
## ACEH 0.21281930 -0.6402464916 0.21087553 1.20362983
## SUMATERA UTARA 0.52922720 -0.9317576857 -0.39834069 0.19473336
## SUMATERA BARAT 0.16311396 -0.0834863733 0.33548794 1.03871406
## RIAU 0.65497430 -0.9133740969 -0.65794987 -0.33687748
## JAMBI 0.49176272 -0.7006497120 -0.39834069 0.22965670
## SUMATERA SELATAN 0.30295661 -0.0309618338 0.23856718 0.33830709
## BENGKULU 0.51847007 -0.7269119818 -0.59218221 0.20637447
## LAMPUNG 0.64087875 -0.3566139785 -0.64410405 -0.66864920
## KEP. BANGKA BELITUNG 0.66090926 -1.0315543107 -0.18026897 -0.55611844
## KEP. RIAU 0.73843476 -0.3828762482 -0.79986956 -1.07414797
## DKI JAKARTA 0.43834803 1.1744763470 0.08626312 -1.14787502
## JAWA BARAT 0.42721996 0.3472148504 0.10010894 -0.49403250
## JAWA TENGAH 0.51995381 0.0005528899 -0.54026037 -0.36209989
## DI YOGYAKARTA 0.33967921 2.2774916759 -0.62333531 -1.05474612
## JAWA TIMUR 0.33967921 0.4837786530 -0.49526145 0.19279317
## BANTEN 0.49695582 -0.7452955706 -0.54372183 0.29174263
## BALI 0.41943032 1.3005352418 -0.89679032 -0.59104178
## NUSA TENGGARA BARAT -0.04906109 1.7574987351 -0.46756980 1.21333076
## NUSA TENGGARA TIMUR 0.16904893 1.5342694424 -0.42949379 0.26069967
## KALIMANTAN BARAT 0.36564469 -0.5404498666 -0.36372613 0.73022456
## KALIMANTAN TENGAH 0.36935404 0.4443852484 1.48815271 -1.02952371
## KALIMANTAN SELATAN 0.46728099 0.5809490510 0.22472135 -0.96937796
## KALIMANTAN TIMUR 0.70059935 -0.6244891298 -0.58179784 -0.83550516
## KALIMANTAN UTARA 0.66016739 -0.9606461824 -0.15257733 -0.59880252
## SULAWESI UTARA 0.26771774 0.9696306431 -0.27026682 0.08802315
## SULAWESI TENGAH 0.08373379 -0.3487352976 0.51202218 1.57808564
## SULAWESI SELATAN 0.51847007 0.2316608636 -0.47449271 -0.56581937
## SULAWESI TENGGARA 0.40793132 -0.2489386726 -0.31872720 0.27622115
## GORONTALO -0.26754204 1.4791186760 2.01775544 1.22691206
## SULAWESI BARAT 0.12305294 0.0189364787 0.28702756 1.20362983
## MALUKU -0.06575318 0.8619553372 1.26315808 1.04065425
## MALUKU UTARA -0.18222689 0.7253915346 3.57194909 0.46635933
## PAPUA BARAT 0.03106096 0.8173094786 2.54389672 -0.16808134
## PAPUA BARAT DAYA -2.76875942 -1.5883144291 -0.91755905 -1.16727688
## PAPUA -0.41925461 0.6150900017 0.61932731 3.34171428
## PAPUA SELATAN -2.76875942 -1.5883144291 -0.91755905 -1.16727688
## PAPUA TENGAH -2.76875942 -1.5883144291 -0.91755905 -1.16727688
## PAPUA PEGUNUNGAN -2.76875942 -1.5883144291 -0.91755905 -1.16727688
## attr(,"scaled:center")
## sendiri Bersama Umum Tidak_ada
## 74.642632 6.047895 2.650789 6.016316
## attr(,"scaled:scale")
## sendiri Bersama Umum Tidak_ada
## 26.958872 3.807744 2.888958 5.154146
Penjelasan:
Scaling data dalam analisis
clustering sangat penting untuk memastikan bahwa semua variabel memiliki
pengaruh yang seimbang dalam proses pengelompokan, terutama saat
menggunakan algoritma berbasis jarak seperti K-Means atau
K-Medoids.
Contoh sederhana:
Jika satu fitur berkisar
antara 0–1000 (misalnya pendapatan) dan fitur lain antara 0–1 (misalnya
rasio kepemilikan fasilitas), maka fitur pendapatan akan sangat
mendominasi hasil pengelompokan jika tidak dilakukan scaling.
Penjelasan Singkat
Dalam hal ini kita menghitung
jarak antar data menggunakan sebuah methode yang bernama
euclidean.
Penjelasan Singkat
Baris kode ini membentuk
model clustering hierarki berdasarkan jarak yang sudah dihitung. Metode
complete berarti pengelompokan berdasarkan jarak maksimum
antar anggota cluster ini adalah tahap inti dari hierarchical
clustering.
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## cluster size ave.sil.width
## 1 1 3 0.38
## 2 2 15 0.45
## 3 3 4 0.33
## 4 4 6 0.31
## 5 5 4 1.00
## 6 6 6 0.20
Penelasan Singkat Analisis menggunakan metode Silhouette Score
Saya menggunakan metode ini bertujuan untuk evaluasi kualitas
pengelompokan data berdasarkan tingkat kecocokkan setiap observasi
dengan cluster-nya.
Nilai silhouette ini berkisar -1 sampai 1, di
mana nilai mendekati -1 itu kurang cocok sedangkan nilai yang mendekati
1 itu kecocokannya sangat tinggi atau memang cocok.
Secara
keseluruhan, nilai rata-rata silhouette antar cluster berkisar antara
0.20 hingga 1.00, yang mencerminkan bahwa sebagian cluster sudah cukup
baik, namun masih terdapat kelompok yang perlu dievaluasi ulang untuk
meningkatkan akurasi dan stabilitas model.
plot(FTBAB_model,
main = "Dendogram Analisis Fasilitas Tempat BAB Indonesia",
xlab = "Provinsi",
ylab = "Tingkat Perbedaan",
sub = "berdasarkan sendiri, bersama, umum, tidak ada",
hang = -1)
k_groups <- 6
rect.hclust(FTBAB_model, k = k_groups, border = "red")
Penjelasan:
🟥 Cluster 1: Papua, Papua Tengah, Papua Barat
Daya, Papua Pegunungan
Karakteristik:
• Tingkat
fasilitas sendiri relatif rendah.
• Proporsi fasilitas umum dan
tidak ada fasilitas cenderung lebih tinggi dibanding wilayah lain.
•
Mengindikasikan keterbatasan infrastruktur sanitasi dasar dan tantangan
geografis yang memengaruhi akses.
🟥 Cluster 2: D.I Yogyakarta, Bali, NTT, NTB,
Sulawesi Barat, Sulawesi Tenggara, Sulawesi Selatan
Karakteristik:
• Proporsi fasilitas sendiri cukup tinggi,
namun masih terdapat penggunaan fasilitas bersama.
• Wilayah ini
menunjukkan transisi antara daerah dengan infrastruktur mapan dan daerah
yang masih berkembang.
• Kombinasi antara urban dan semi-urban
dengan akses sanitasi yang cukup baik.
🟥 Cluster 3: Sumatera Selatan, Sumatera Utara,
Sumatera Barat, Bengkulu, Jambi, Kalimantan Barat, Kalimantan Tengah
Karakteristik:
• Dominasi fasilitas sendiri, namun
fasilitas bersama masih digunakan secara signifikan.
• Infrastruktur
sanitasi relatif stabil, namun belum sepenuhnya merata.
• Wilayah
ini cenderung memiliki pola pemukiman campuran antara kota kecil dan
pedesaan.
🟥 Cluster 4: Kep. Bangka Belitung, Kalimantan
Timur, Kalimantan Utara, Kalimantan Selatan, Sulawesi Tengah, Sulawesi
Utara
Karakteristik:
• Proporsi fasilitas bersama dan
umum cukup tinggi.
• Menunjukkan adanya ketergantungan pada
fasilitas komunal, mungkin karena faktor sosial atau tata ruang.
•
Perlu perhatian dalam peningkatan akses fasilitas pribadi.
🟥 Cluster 5: DKI Jakarta, Banten, Jawa Barat,
Jawa Tengah, Jawa Timur
Karakteristik:
• Sangat dominan
dalam penggunaan fasilitas sendiri.
• Infrastruktur sanitasi sangat
baik dan merata.
• Wilayah urban dan suburban dengan standar
sanitasi tinggi dan akses luas terhadap fasilitas pribadi.
🟥 Cluster 6: Gorontalo, Maluku Utara, Maluku,
Papua Barat
Karakteristik:
• Proporsi fasilitas umum
dan tidak ada fasilitas masih terlihat.
• Wilayah ini menunjukkan
tantangan dalam pemerataan akses sanitasi.
• Perlu intervensi
kebijakan untuk peningkatan fasilitas dasar, terutama di daerah
terpencil dan kepulauan.
cluster_assignment <- cutree(FTBAB_model, k = k_groups)
final_data <- cbind(data_FTBAB, Cluster = cluster_assignment)## sendiri Bersama Umum Tidak_ada Cluster
## ACEH 80.38 3.61 3.26 12.22 1
## SUMATERA UTARA 88.91 2.50 1.50 7.02 1
## SUMATERA BARAT 79.04 5.73 3.62 11.37 1
## RIAU 92.30 2.57 0.75 4.28 2
## JAMBI 87.90 3.38 1.50 7.20 1
## SUMATERA SELATAN 82.81 5.93 3.34 7.76 1
## BENGKULU 88.62 3.28 0.94 7.08 1
## LAMPUNG 91.92 4.69 0.79 2.57 2
## KEP. BANGKA BELITUNG 92.46 2.12 2.13 3.15 2
## KEP. RIAU 94.55 4.59 0.34 0.48 2
## DKI JAKARTA 86.46 10.52 2.90 0.10 2
## JAWA BARAT 86.16 7.37 2.94 3.47 2
## JAWA TENGAH 88.66 6.05 1.09 4.15 2
## DI YOGYAKARTA 83.80 14.72 0.85 0.58 3
## JAWA TIMUR 83.80 7.89 1.22 7.01 3
## BANTEN 88.04 3.21 1.08 7.52 1
## BALI 85.95 11.00 0.06 2.97 3
## NUSA TENGGARA BARAT 73.32 12.74 1.30 12.27 3
## NUSA TENGGARA TIMUR 79.20 11.89 1.41 7.36 3
## KALIMANTAN BARAT 84.50 3.99 1.60 9.78 1
## KALIMANTAN TENGAH 84.60 7.74 6.95 0.71 2
## KALIMANTAN SELATAN 87.24 8.26 3.30 1.02 2
## KALIMANTAN TIMUR 93.53 3.67 0.97 1.71 2
## KALIMANTAN UTARA 92.44 2.39 2.21 2.93 2
## SULAWESI UTARA 81.86 9.74 1.87 6.47 3
## SULAWESI TENGAH 76.90 4.72 4.13 14.15 1
## SULAWESI SELATAN 88.62 6.93 1.28 3.10 2
## SULAWESI TENGGARA 85.64 5.10 1.73 7.44 1
## GORONTALO 67.43 11.68 8.48 12.34 4
## SULAWESI BARAT 77.96 6.12 3.48 12.22 1
## MALUKU 72.87 9.33 6.30 11.38 4
## MALUKU UTARA 69.73 8.81 12.97 8.42 4
## PAPUA BARAT 75.48 9.16 10.00 5.15 4
## PAPUA BARAT DAYA 0.00 0.00 0.00 0.00 5
## PAPUA 63.34 8.39 4.44 23.24 6
## PAPUA SELATAN 0.00 0.00 0.00 0.00 5
## PAPUA TENGAH 0.00 0.00 0.00 0.00 5
## PAPUA PEGUNUNGAN 0.00 0.00 0.00 0.00 5
## Cluster sendiri Bersama Umum Tidak_ada
## 1 1 83.70000 4.324545 2.380000 9.432727
## 2 2 89.91167 5.575000 2.137500 2.305833
## 3 3 81.32167 11.330000 1.118333 6.110000
## 4 4 71.37750 9.745000 9.437500 9.322500
## 5 5 0.00000 0.000000 0.000000 0.000000
## 6 6 63.34000 8.390000 4.440000 23.240000
Dari analisis hierarchical clustering yang telah dilakukan, provinsi-provinsi di Indonesia dapat dikelompokkan menjadi 4 cluster berdasarkan karakteristik fasilitas tempat Buang Air Besar dari setiap daerah.
© 2024 Mareko F. Nazara | Data Analysis with R