Pengambilan Data

Pengambilan data bersumber dari BPS(Badan Pusat Statistik) dan data diambil pada tahun 2021 Link BPS

☕ Pendahuluan

Laporan ini menganalisis data persentase rumah tangga di Indonesia berdasarkan fasilitas tempat buang air besar (BAB) tahun 2021. Analisis mencakup statistik deskriptif, visualisasi data, dan pengelompokan provinsi menggunakan metode Hierarchical Clustering.

Pertama-tama kenapa saya memilih tema Persentase Rumah Tangga Menurut Provinsi dan Fasilitas Tempat Buang Air Besar karena saya sendiri pernah mengalami saat di mana saya berhenti, saya dapati tidak ada tempat buang air besar/kecil oleh karena itu saya menarik topik ini, dan menurut saya topik ini sangat menarik untuk dibahas.

Dataset ini mencakup 4 kategori fasilitas:

  • Sendiri: Rumah tangga dengan fasilitas BAB sendiri/pribadi
  • Bersama: Rumah tangga yang berbagi fasilitas BAB dengan RT lain
  • Umum: Rumah tangga yang menggunakan fasilitas BAB umum
  • Tidak Ada: Rumah tangga tanpa akses fasilitas BAB

📚 Load Library dan Data

# Load libraries
library(readxl)
library(moments)
library(cluster)

Penjelasan Singkat: Pada bagian ini, kita memuat tiga library utama yang akan digunakan sepanjang analisis. Library readxl digunakan untuk membaca dataset dari file Excel, moments untuk menghitung statistik distribusi data, dan cluster untuk melakukan analisis pengelompokan.

# Load dataset
FTBAB <- read_excel("C:/Users/Mareko/Downloads/Persentase Rumah Tangga Menurut Provinsi dan Fasilitas Tempat Buang Air Besar, 2021.xlsx")
FTBAB_1 <- head(FTBAB, n = -1)

Penjelasan Singkat: Dataset dimuat dari file Excel yang berisi data BPS tahun 2021. Baris terakhir dihapus karena berisi data agregat nasional “INDONESIA” yang tidak diperlukan dalam analisis pengelompokan provinsi.

Penjelasan Singkat Data direstrukturisasi menjadi dataframe dengan 38 provinsi sebagai baris dan 4 jenis fasilitas sebagai kolom. Setiap sel berisi persentase rumah tangga di provinsi tersebut yang memiliki jenis fasilitas tertentu.

##                      sendiri Bersama  Umum Tidak_ada
## ACEH                   80.38    3.61  3.26     12.22
## SUMATERA UTARA         88.91    2.50  1.50      7.02
## SUMATERA BARAT         79.04    5.73  3.62     11.37
## RIAU                   92.30    2.57  0.75      4.28
## JAMBI                  87.90    3.38  1.50      7.20
## SUMATERA SELATAN       82.81    5.93  3.34      7.76
## BENGKULU               88.62    3.28  0.94      7.08
## LAMPUNG                91.92    4.69  0.79      2.57
## KEP. BANGKA BELITUNG   92.46    2.12  2.13      3.15
## KEP. RIAU              94.55    4.59  0.34      0.48
## DKI JAKARTA            86.46   10.52  2.90      0.10
## JAWA BARAT             86.16    7.37  2.94      3.47
## JAWA TENGAH            88.66    6.05  1.09      4.15
## DI YOGYAKARTA          83.80   14.72  0.85      0.58
## JAWA TIMUR             83.80    7.89  1.22      7.01
## BANTEN                 88.04    3.21  1.08      7.52
## BALI                   85.95   11.00  0.06      2.97
## NUSA TENGGARA BARAT    73.32   12.74  1.30     12.27
## NUSA TENGGARA TIMUR    79.20   11.89  1.41      7.36
## KALIMANTAN BARAT       84.50    3.99  1.60      9.78
## KALIMANTAN TENGAH      84.60    7.74  6.95      0.71
## KALIMANTAN SELATAN     87.24    8.26  3.30      1.02
## KALIMANTAN TIMUR       93.53    3.67  0.97      1.71
## KALIMANTAN UTARA       92.44    2.39  2.21      2.93
## SULAWESI UTARA         81.86    9.74  1.87      6.47
## SULAWESI TENGAH        76.90    4.72  4.13     14.15
## SULAWESI SELATAN       88.62    6.93  1.28      3.10
## SULAWESI TENGGARA      85.64    5.10  1.73      7.44
## GORONTALO              67.43   11.68  8.48     12.34
## SULAWESI BARAT         77.96    6.12  3.48     12.22
## MALUKU                 72.87    9.33  6.30     11.38
## MALUKU UTARA           69.73    8.81 12.97      8.42
## PAPUA BARAT            75.48    9.16 10.00      5.15
## PAPUA BARAT DAYA        0.00    0.00  0.00      0.00
## PAPUA                  63.34    8.39  4.44     23.24
## PAPUA SELATAN           0.00    0.00  0.00      0.00
## PAPUA TENGAH            0.00    0.00  0.00      0.00
## PAPUA PEGUNUNGAN        0.00    0.00  0.00      0.00

Penjelasan Singkat: Tabel di atas menampilkan distribusi persentase fasilitas BAB di 38 provinsi Indonesia. Dari tabel dapat dilihat variasi yang cukup besar antar provinsi. Misalnya, DKI Jakarta memiliki 98.61% rumah tangga dengan fasilitas sendiri, sementara beberapa provinsi di Papua masih memiliki persentase “Tidak_ada” yang cukup tinggi.

# Ekstraksi variabel
sendiri <- c(FTBAB_1$data_1)
Bersama <- c(FTBAB_1$data_2)
Umum <- c(FTBAB_1$data_3)
Tidak_ada <- c(FTBAB_1$data_4)

Penjelasan Singkat: Variabel-variabel diekstrak ke dalam vektor terpisah untuk mempermudah analisis statistik deskriptif pada setiap kategori fasilitas. —

📊 Analisis Deskriptif

Summary Statistics

Fasilitas Sendiri

summary(sendiri)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   75.83   84.15   74.64   88.47   94.55

Fasilitas Bersama

summary(Bersama)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   3.305   5.830   6.048   8.705  14.720

Fasilitas Umum

summary(Umum)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.9475  1.5500  2.6508  3.3300 12.9700

Tidak Ada Fasilitas

summary(Tidak_ada)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   1.925   5.810   6.016   8.255  23.240

Narasi Summary Statistics:

Dari hasil summary statistics keempat variabel, dapat disimpulkan:

  • Fasilitas Sendiri mendominasi dengan mean 74.64% dan median 84.15%, menunjukkan mayoritas provinsi memiliki akses sanitasi individual yang baik. Namun range yang sangat lebar (0% - 94.55%) mengindikasikan kesenjangan ekstrem antar provinsi.

  • Fasilitas Bersama memiliki mean 6.048% dengan median 5.830%, menunjukkan penggunaan yang relatif rendah secara nasional. Maximum 14.720% mengindikasikan ada beberapa provinsi urban padat yang masih bergantung pada fasilitas bersama.

  • Fasilitas Umum adalah yang terendah dengan mean 2.6508% dan median 1.5500%, menunjukkan fasilitas umum bukan menjadi solusi utama sanitasi di Indonesia. Range 0% - 12.9700% menunjukkan hanya beberapa provinsi yang memiliki sistem sanitasi umum terorganisir.

  • Tidak Ada Fasilitas dengan mean 6.016% dan maximum 23.240% adalah temuan paling mengkhawatirkan. Hampir 25% rumah tangga di beberapa provinsi tidak memiliki akses sanitasi sama sekali, menunjukkan krisis kesehatan publik yang serius di daerah tertentu.

Kesimpulan Umum: Terdapat kesenjangan sanitasi yang sangat besar antar provinsi Indonesia. Sementara beberapa provinsi sudah mencapai akses hampir universal, provinsi lain masih menghadapi tantangan berat dengan hampir sepertiga populasi tanpa akses sanitasi dasar.


Standar Deviasi & Variansi

Fasilitas Sendiri

cat("Standar Deviasi:", sd(sendiri), "\n")
## Standar Deviasi: 26.95887
cat("Variansi:", var(sendiri), "\n")
## Variansi: 726.7808

Fasilitas Bersama

cat("Standar Deviasi:", sd(Bersama), "\n")
## Standar Deviasi: 3.807744
cat("Variansi:", var(Bersama), "\n")
## Variansi: 14.49891

Fasilitas Umum

cat("Standar Deviasi:", sd(Umum), "\n")
## Standar Deviasi: 2.888958
cat("Variansi:", var(Umum), "\n")
## Variansi: 8.346078

Tidak Ada Fasilitas

cat("Standar Deviasi:", sd(Tidak_ada), "\n")
## Standar Deviasi: 5.154146
cat("Variansi:", var(Tidak_ada), "\n")
## Variansi: 26.56522

Pengukuran dispersi data menunjukkan tingkat heterogenitas yang berbeda untuk setiap variabel:

  • Fasilitas Sendiri memiliki SD tertinggi (~26.95887) dan variansi ~726.7808, mengindikasikan penyebaran data yang sangat lebar dari mean. Ini menggambarkan kesenjangan pembangunan infrastruktur sanitasi yang substansial antar provinsi.

  • Fasilitas Bersama dengan SD ~3.807744 dan variansi ~14.49891 menunjukkan variabilitas sedang, mencerminkan pola penggunaan fasilitas bersama yang berbeda-beda tergantung karakteristik urban-rural provinsi.

  • Fasilitas Umum memiliki SD terendah (~2.888958) dan variansi ~8.346078, menunjukkan konsistensi tinggi - hampir semua provinsi memiliki persentase fasilitas umum yang rendah dan serupa.

  • Tidak Ada Fasilitas dengan SD ~5.154146 dan variansi ~26.56522 menunjukkan ada kelompok provinsi dengan masalah akses sanitasi yang jauh lebih parah dibanding kelompok lainnya, menciptakan gap yang signifikan.

Kesimpulan: Variansi tertinggi pada “Fasilitas Sendiri” mengonfirmasi bahwa ini adalah variabel dengan disparitas terbesar antar provinsi, menjadikannya fokus utama untuk intervensi kebijakan pemerataan akses sanitasi.


Skewness & Kurtosis

Fasilitas Sendiri

cat("Skewness:", skewness(sendiri), "\n")
## Skewness: -2.237
cat("Kurtosis:", kurtosis(sendiri), "\n")
## Kurtosis: 6.580009

Fasilitas Bersama

cat("Skewness:", skewness(Bersama), "\n")
## Skewness: 0.2608731
cat("Kurtosis:", kurtosis(Bersama), "\n")
## Kurtosis: 2.338427

Fasilitas Umum

cat("Skewness:", skewness(Umum), "\n")
## Skewness: 1.904841
cat("Kurtosis:", kurtosis(Umum), "\n")
## Kurtosis: 6.495967

Tidak Ada Fasilitas

cat("Skewness:", skewness(Tidak_ada), "\n")
## Skewness: 1.015832
cat("Kurtosis:", kurtosis(Tidak_ada), "\n")
## Kurtosis: 4.363656

Interpretasi
- Fasilitas Sendiri: Distribusi ini sangat miring ke kanan (ekor data memanjang ke nilai yang lebih rendah/negatif) dan sangat runcing (memiliki lebih banyak outlier ekstrem dibandingkan distribusi normal).
- Fasilitas Bersama: Distribusi ini cukup simetris atau miring ke kiri secara ringan (nilai mendekati nol menunjukkan simetri) dan relatif datar (memiliki lebih sedikit outlier ekstrem) dibandingkan distribusi normal.
- Fasilitas Umum & Tidak Ada Fasilitas: Kedua distribusi ini sangat miring ke kiri (ekor data memanjang ke nilai yang lebih tinggi/positif) dan sangat runcing (memiliki banyak outlier ekstrem). Secara umum, semua distribusi, kecuali “Fasilitas Bersama”, menunjukkan asimetri yang signifikan (nilai absolut skewness > 1) dan keruncingan ekstrem (kurtosis jauh dari nilai normal 3), yang mengindikasikan bahwa data tidak terdistribusi secara normal.


Range (Rentang)

Fasilitas Sendiri

range(sendiri)
## [1]  0.00 94.55

Fasilitas Bersama

range(Bersama)
## [1]  0.00 14.72

Fasilitas Umum

range(Umum)
## [1]  0.00 12.97

Tidak Ada Fasilitas

range(Tidak_ada)
## [1]  0.00 23.24

Interpretasi
- Rentang Terbesar: Data untuk Fasilitas Sendiri memiliki rentang terbesar (94.55), yang menunjukkan variasi nilai yang paling luas di antara semua kategori. Ini berarti ada perbedaan signifikan antara nilai terendah dan tertinggi dalam kelompok ini.
- Rentang Terkecil: Fasilitas Umum memiliki rentang terkecil (12.97), diikuti oleh Fasilitas Bersama (14.72). Ini menunjukkan data dalam kategori ini cenderung lebih terkonsentrasi atau homogen dibandingkan dengan Fasilitas Sendiri.
- Variasi Data: Secara keseluruhan, data fasilitas sendiri menunjukkan variabilitas yang jauh lebih tinggi dibandingkan tiga kategori lainnya, yang rentangnya relatif sempit dan serupa satu sama lain. Apakah Anda ingin saya menjelaskan mengapa rentang mungkin bukan metrik terbaik untuk mengukur variabilitas data jika terdapat outlier?


Koefisien Variasi

Fasilitas Sendiri

cv_sendiri <- (sd(sendiri) / mean(sendiri)) * 100
cat("Koefisien Variasi:", cv_sendiri, "%\n")
## Koefisien Variasi: 36.11726 %

Fasilitas Bersama

cv_bersama <- (sd(Bersama) / mean(Bersama)) * 100
cat("Koefisien Variasi:", cv_bersama, "%\n")
## Koefisien Variasi: 62.95983 %

Fasilitas Umum

cv_umum <- (sd(Umum) / mean(Umum)) * 100
cat("Koefisien Variasi:", cv_umum, "%\n")
## Koefisien Variasi: 108.9848 %

Tidak Ada Fasilitas

cv_tidak_ada <- (sd(Tidak_ada) / mean(Tidak_ada)) * 100
cat("Koefisien Variasi:", cv_tidak_ada, "%\n")
## Koefisien Variasi: 85.66948 %

Interpretasi
- Definisi KV: Koefisien Variasi adalah ukuran variabilitas relatif (deviasi standar dibagi rata-rata), yang digunakan untuk membandingkan tingkat dispersi antara kumpulan data dengan rata-rata yang berbeda. Semakin tinggi nilainya, semakin besar variasi atau risiko relatif data tersebut terhadap nilai rata-ratanya.
- Variasi Terendah: Fasilitas Sendiri menunjukkan nilai KV terendah (36.12%). Ini mengindikasikan bahwa data dalam kategori ini adalah yang paling konsisten atau paling stabil secara relatif terhadap rata-ratanya.
- Variasi Tertinggi: Fasilitas Umum memiliki nilai KV tertinggi (108.98%). Ini menunjukkan data dalam kategori ini memiliki tingkat variabilitas atau dispersi yang sangat tinggi, bahkan melebihi nilai rata-ratanya sendiri, menjadikannya yang paling tidak konsisten.
- Kesimpulan Umum: Terdapat perbedaan signifikan dalam konsistensi data di antara kategori fasilitas. Data terkait fasilitas sendiri jauh lebih homogen dibandingkan dengan data untuk fasilitas umum, bersama, atau tidak ada fasilitas.


📈 Visualisasi Deskriptif

Pie Chart

rata_rata <- c(mean(sendiri), mean(Bersama), mean(Umum), mean(Tidak_ada))
labels <- c("Sendiri", "Bersama", "Umum", "Tidak Ada")
colors <- c("#FF6B6B", "#4ECDC4", "#45B7D1", "#FFA07A")

pie(rata_rata, 
    labels = paste(labels, "\n", round(rata_rata, 2), "%"),
    col = colors,
    main = "Distribusi Rata-rata Fasilitas Tempat BAB di Indonesia 2021")

Data visualisasi menunjukkan bahwa mayoritas signifikan dari fasilitas tempat buang air besar (BAB) di Indonesia pada tahun 2021 adalah Fasilitas Sendiri, mencakup hampir tiga perempat dari total distribusi (74,64%). Tiga kategori lainnya memiliki proporsi yang jauh lebih kecil dan relatif seimbang satu sama lain:
- Fasilitas Bersama menyumbang 6,05%.
- Kategori Tidak Ada Fasilitas sedikit di bawahnya dengan 6,02%.
- Fasilitas Umum merupakan bagian terkecil, hanya 2,65%.
Kesimpulannya, pada tahun 2021, mayoritas masyarakat Indonesia memiliki akses terhadap fasilitas BAB pribadi atau milik sendiri, sementara akses terhadap fasilitas bersama, umum, atau ketiadaan fasilitas secara total jauh lebih sedikit porsinya dalam data rata-rata ini.


Histogram

par(mfrow=c(2,2))

hist(sendiri, 
     main = "Histogram Fasilitas Sendiri",
     xlab = "Persentase (%)",
     ylab = "Frekuensi",
     col = "#FF6B6B",
     border = "white",
     breaks = 10)

hist(Bersama, 
     main = "Histogram Fasilitas Bersama",
     xlab = "Persentase (%)",
     ylab = "Frekuensi",
     col = "#4ECDC4",
     border = "white",
     breaks = 10)

hist(Umum, 
     main = "Histogram Fasilitas Umum",
     xlab = "Persentase (%)",
     ylab = "Frekuensi",
     col = "#45B7D1",
     border = "white",
     breaks = 10)

hist(Tidak_ada, 
     main = "Histogram Tidak Ada Fasilitas",
     xlab = "Persentase (%)",
     ylab = "Frekuensi",
     col = "#FFA07A",
     border = "white",
     breaks = 10)

par(mfrow=c(1,1))

Penjelasan Singkat Histogram
1. Histogram Fasilitas Sendiri
Histogram ini menunjukkan distribusi persentase rumah tangga yang memiliki fasilitas sendiri. Sebagian besar frekuensi terkonsentrasi pada rentang persentase tinggi, menandakan bahwa banyak wilayah memiliki proporsi rumah tangga yang cukup besar dengan fasilitas pribadi. Ini mencerminkan tingkat kemandirian dan akses yang baik terhadap fasilitas dasar di banyak daerah.
2. Histogram Fasilitas Bersama
Distribusi pada histogram ini relatif menyebar, dengan frekuensi yang cukup tinggi di rentang persentase menengah. Artinya, fasilitas bersama masih cukup umum digunakan, terutama di wilayah yang mungkin belum sepenuhnya mampu menyediakan fasilitas pribadi untuk setiap rumah tangga. Ini bisa mencerminkan kondisi sosial atau ekonomi yang mendorong penggunaan fasilitas komunal.
3. Histogram Fasilitas Umum
Frekuensi pada histogram ini cenderung rendah dan tersebar di rentang persentase yang kecil. Hal ini menunjukkan bahwa penggunaan fasilitas umum tidak dominan, dan hanya sebagian kecil wilayah yang memiliki proporsi signifikan rumah tangga yang mengandalkan fasilitas umum. Ini bisa menandakan keterbatasan akses atau kualitas fasilitas publik.
4. Histogram Tidak Ada Fasilitas
Histogram ini memperlihatkan frekuensi tinggi pada rentang persentase rendah, yang berarti sebagian besar wilayah memiliki proporsi kecil rumah tangga tanpa fasilitas. Ini adalah indikator positif bahwa mayoritas rumah tangga memiliki akses terhadap setidaknya satu bentuk fasilitas, meskipun masih ada daerah yang perlu perhatian khusus.


Boxplot

boxplot(sendiri, Bersama, Umum, Tidak_ada,
        names = c("Sendiri", "Bersama", "Umum", "Tidak Ada"),
        main = "Boxplot Perbandingan Fasilitas Tempat BAB",
        ylab = "Persentase (%)",
        col = c("#FF6B6B", "#4ECDC4", "#45B7D1", "#FFA07A"),
        border = "darkgray",
        notch = TRUE)
## Warning in (function (z, notch = FALSE, width = NULL, varwidth = FALSE, : some
## notches went outside hinges ('box'): maybe set notch=FALSE

Penjelasan Singkat Boxplot
1. Fasilitas Sendiri
Boxplot ini menunjukkan bahwa fasilitas pribadi memiliki nilai persentase tertinggi dibandingkan kategori lain. Median berada di kisaran tinggi, dan rentang interkuartilnya relatif sempit, menandakan konsistensi antar wilayah dalam kepemilikan fasilitas sendiri. Tidak terdapat outlier ekstrem, yang memperkuat kesimpulan bahwa mayoritas wilayah memiliki proporsi rumah tangga yang tinggi dengan akses ke fasilitas BAB pribadi.
2. Fasilitas Bersama
Distribusi fasilitas bersama memiliki median yang lebih rendah dibandingkan fasilitas sendiri, dengan rentang interkuartil yang lebih lebar. Ini menunjukkan variasi yang cukup besar antar wilayah dalam penggunaan fasilitas bersama. Terdapat beberapa outlier di bagian atas, menandakan bahwa ada wilayah tertentu dengan proporsi tinggi rumah tangga yang menggunakan fasilitas bersama, meskipun secara umum penggunaannya lebih terbatas.
3. Fasilitas Umum
Boxplot fasilitas umum menunjukkan median yang rendah dan rentang distribusi yang sempit, menandakan bahwa sebagian besar wilayah memiliki persentase kecil rumah tangga yang menggunakan fasilitas umum. Outlier yang muncul di bagian atas menunjukkan bahwa ada beberapa wilayah dengan penggunaan fasilitas umum yang lebih tinggi dari rata-rata, namun secara keseluruhan penggunaannya tidak dominan.
4. Tidak Ada Fasilitas
Kategori ini memiliki median paling rendah di antara semua jenis fasilitas, dengan rentang distribusi yang sempit dan beberapa outlier di bagian atas. Ini menunjukkan bahwa sebagian besar wilayah memiliki proporsi sangat kecil rumah tangga tanpa fasilitas BAB, meskipun masih ada beberapa daerah yang perlu perhatian karena tingginya angka rumah tangga tanpa akses fasilitas.


Scatter Plot

par(mfrow=c(2,2))

# sendiri ~ bersama
plot(Bersama, sendiri,
     main = "Scatter Plot: Sendiri vs Bersama",
     xlab = "Fasilitas Bersama (%)",
     ylab = "Fasilitas Sendiri (%)",
     pch = 19,
     col = "#FF6B6B")
abline(lm(sendiri ~ Bersama), col = "blue", lwd = 2)

# sendiri ~ umum
plot(Umum, sendiri,
     main = "Scatter Plot: Sendiri vs Umum",
     xlab = "Fasilitas Umum (%)",
     ylab = "Fasilitas Sendiri (%)",
     pch = 19,
     col = "#4ECDC4")
abline(lm(sendiri ~ Umum), col = "blue", lwd = 2)

# umum ~ bersama
plot(Bersama, Umum,
     main = "Scatter Plot: Umum vs Bersama",
     xlab = "Fasilitas Bersama (%)",
     ylab = "Fasilitas Umum (%)",
     pch = 19,
     col = "#45B7D1")
abline(lm(Umum ~ Bersama), col = "blue", lwd = 2)

# sendiri ~ tidak_ada
plot(Tidak_ada, sendiri,
     main = "Scatter Plot: Sendiri vs Tidak Ada",
     xlab = "Tidak Ada Fasilitas (%)",
     ylab = "Fasilitas Sendiri (%)",
     pch = 19,
     col = "#FFA07A")
abline(lm(sendiri ~ Tidak_ada), col = "blue", lwd = 2)

par(mfrow=c(1,1))

Penjelasan Singkat Scatter Plot
1. Scatter Plot: Sendiri vs Bersama Plot ini menunjukkan hubungan antara persentase fasilitas sendiri dan fasilitas bersama. Garis tren yang naik mengindikasikan korelasi positif, artinya wilayah dengan proporsi tinggi fasilitas bersama cenderung juga memiliki proporsi tinggi fasilitas sendiri. Ini bisa terjadi di daerah dengan infrastruktur campuran, di mana sebagian rumah tangga memiliki fasilitas pribadi sementara lainnya berbagi fasilitas.
2. Scatter Plot: Sendiri vs Umum
Hubungan antara fasilitas sendiri dan fasilitas umum terlihat lemah, dengan sebaran titik yang tidak membentuk pola jelas. Meskipun garis tren sedikit naik, korelasinya rendah. Ini menunjukkan bahwa keberadaan fasilitas umum tidak banyak berpengaruh terhadap proporsi fasilitas pribadi, kemungkinan karena fasilitas umum digunakan di area dengan keterbatasan akses pribadi.
3. Scatter Plot: Umum vs Bersama
Plot ini memperlihatkan korelasi sedang antara fasilitas umum dan fasilitas bersama. Garis tren yang naik menunjukkan bahwa wilayah dengan banyak fasilitas bersama juga cenderung memiliki fasilitas umum. Ini bisa mencerminkan pola pembangunan di daerah padat penduduk atau perkotaan, di mana fasilitas komunal lebih dominan dibanding fasilitas pribadi.
4. Scatter Plot: Sendiri vs Tidak Ada
Hubungan antara fasilitas sendiri dan tidak ada fasilitas menunjukkan korelasi yang sangat lemah. Garis tren sedikit naik, tetapi sebaran titik menunjukkan bahwa wilayah dengan banyak fasilitas pribadi tidak selalu memiliki sedikit rumah tangga tanpa fasilitas. Ini bisa menandakan ketimpangan internal di suatu wilayah, di mana sebagian besar rumah tangga memiliki fasilitas sendiri, tetapi masih ada kelompok yang sama sekali tidak memiliki akses.


🔬 Analisis Hierarchical Clustering

Persiapan Data

Provinsi <- c("ACEH", "SUMATERA UTARA", "SUMATERA BARAT", "RIAU", "JAMBI",
              "SUMATERA SELATAN", "BENGKULU", "LAMPUNG", "KEP. BANGKA BELITUNG",
              "KEP. RIAU", "DKI JAKARTA", "JAWA BARAT", "JAWA TENGAH",
              "DI YOGYAKARTA", "JAWA TIMUR", "BANTEN", "BALI",
              "NUSA TENGGARA BARAT", "NUSA TENGGARA TIMUR", "KALIMANTAN BARAT",
              "KALIMANTAN TENGAH", "KALIMANTAN SELATAN", "KALIMANTAN TIMUR",
              "KALIMANTAN UTARA", "SULAWESI UTARA", "SULAWESI TENGAH",
              "SULAWESI SELATAN", "SULAWESI TENGGARA", "GORONTALO",
              "SULAWESI BARAT", "MALUKU", "MALUKU UTARA", "PAPUA BARAT",
              "PAPUA BARAT DAYA", "PAPUA", "PAPUA SELATAN", "PAPUA TENGAH",
              "PAPUA PEGUNUNGAN")

data_FTBAB <- data.frame(
  sendiri = c(FTBAB_1$data_1),
  Bersama = c(FTBAB_1$data_2),
  Umum = c(FTBAB_1$data_3),
  Tidak_ada = c(FTBAB_1$data_4)
)

rownames(data_FTBAB) <- Provinsi
print(data_FTBAB)
##                      sendiri Bersama  Umum Tidak_ada
## ACEH                   80.38    3.61  3.26     12.22
## SUMATERA UTARA         88.91    2.50  1.50      7.02
## SUMATERA BARAT         79.04    5.73  3.62     11.37
## RIAU                   92.30    2.57  0.75      4.28
## JAMBI                  87.90    3.38  1.50      7.20
## SUMATERA SELATAN       82.81    5.93  3.34      7.76
## BENGKULU               88.62    3.28  0.94      7.08
## LAMPUNG                91.92    4.69  0.79      2.57
## KEP. BANGKA BELITUNG   92.46    2.12  2.13      3.15
## KEP. RIAU              94.55    4.59  0.34      0.48
## DKI JAKARTA            86.46   10.52  2.90      0.10
## JAWA BARAT             86.16    7.37  2.94      3.47
## JAWA TENGAH            88.66    6.05  1.09      4.15
## DI YOGYAKARTA          83.80   14.72  0.85      0.58
## JAWA TIMUR             83.80    7.89  1.22      7.01
## BANTEN                 88.04    3.21  1.08      7.52
## BALI                   85.95   11.00  0.06      2.97
## NUSA TENGGARA BARAT    73.32   12.74  1.30     12.27
## NUSA TENGGARA TIMUR    79.20   11.89  1.41      7.36
## KALIMANTAN BARAT       84.50    3.99  1.60      9.78
## KALIMANTAN TENGAH      84.60    7.74  6.95      0.71
## KALIMANTAN SELATAN     87.24    8.26  3.30      1.02
## KALIMANTAN TIMUR       93.53    3.67  0.97      1.71
## KALIMANTAN UTARA       92.44    2.39  2.21      2.93
## SULAWESI UTARA         81.86    9.74  1.87      6.47
## SULAWESI TENGAH        76.90    4.72  4.13     14.15
## SULAWESI SELATAN       88.62    6.93  1.28      3.10
## SULAWESI TENGGARA      85.64    5.10  1.73      7.44
## GORONTALO              67.43   11.68  8.48     12.34
## SULAWESI BARAT         77.96    6.12  3.48     12.22
## MALUKU                 72.87    9.33  6.30     11.38
## MALUKU UTARA           69.73    8.81 12.97      8.42
## PAPUA BARAT            75.48    9.16 10.00      5.15
## PAPUA BARAT DAYA        0.00    0.00  0.00      0.00
## PAPUA                  63.34    8.39  4.44     23.24
## PAPUA SELATAN           0.00    0.00  0.00      0.00
## PAPUA TENGAH            0.00    0.00  0.00      0.00
## PAPUA PEGUNUNGAN        0.00    0.00  0.00      0.00

PENJELASAN SINGKAT

Pembuatan tabel diatas digunakan untuk mempermudah clustering dan terbaca oleh sistem


Scaling Data

data_scaled <- scale(data_FTBAB)
print(data_scaled)
##                          sendiri       Bersama        Umum   Tidak_ada
## ACEH                  0.21281930 -0.6402464916  0.21087553  1.20362983
## SUMATERA UTARA        0.52922720 -0.9317576857 -0.39834069  0.19473336
## SUMATERA BARAT        0.16311396 -0.0834863733  0.33548794  1.03871406
## RIAU                  0.65497430 -0.9133740969 -0.65794987 -0.33687748
## JAMBI                 0.49176272 -0.7006497120 -0.39834069  0.22965670
## SUMATERA SELATAN      0.30295661 -0.0309618338  0.23856718  0.33830709
## BENGKULU              0.51847007 -0.7269119818 -0.59218221  0.20637447
## LAMPUNG               0.64087875 -0.3566139785 -0.64410405 -0.66864920
## KEP. BANGKA BELITUNG  0.66090926 -1.0315543107 -0.18026897 -0.55611844
## KEP. RIAU             0.73843476 -0.3828762482 -0.79986956 -1.07414797
## DKI JAKARTA           0.43834803  1.1744763470  0.08626312 -1.14787502
## JAWA BARAT            0.42721996  0.3472148504  0.10010894 -0.49403250
## JAWA TENGAH           0.51995381  0.0005528899 -0.54026037 -0.36209989
## DI YOGYAKARTA         0.33967921  2.2774916759 -0.62333531 -1.05474612
## JAWA TIMUR            0.33967921  0.4837786530 -0.49526145  0.19279317
## BANTEN                0.49695582 -0.7452955706 -0.54372183  0.29174263
## BALI                  0.41943032  1.3005352418 -0.89679032 -0.59104178
## NUSA TENGGARA BARAT  -0.04906109  1.7574987351 -0.46756980  1.21333076
## NUSA TENGGARA TIMUR   0.16904893  1.5342694424 -0.42949379  0.26069967
## KALIMANTAN BARAT      0.36564469 -0.5404498666 -0.36372613  0.73022456
## KALIMANTAN TENGAH     0.36935404  0.4443852484  1.48815271 -1.02952371
## KALIMANTAN SELATAN    0.46728099  0.5809490510  0.22472135 -0.96937796
## KALIMANTAN TIMUR      0.70059935 -0.6244891298 -0.58179784 -0.83550516
## KALIMANTAN UTARA      0.66016739 -0.9606461824 -0.15257733 -0.59880252
## SULAWESI UTARA        0.26771774  0.9696306431 -0.27026682  0.08802315
## SULAWESI TENGAH       0.08373379 -0.3487352976  0.51202218  1.57808564
## SULAWESI SELATAN      0.51847007  0.2316608636 -0.47449271 -0.56581937
## SULAWESI TENGGARA     0.40793132 -0.2489386726 -0.31872720  0.27622115
## GORONTALO            -0.26754204  1.4791186760  2.01775544  1.22691206
## SULAWESI BARAT        0.12305294  0.0189364787  0.28702756  1.20362983
## MALUKU               -0.06575318  0.8619553372  1.26315808  1.04065425
## MALUKU UTARA         -0.18222689  0.7253915346  3.57194909  0.46635933
## PAPUA BARAT           0.03106096  0.8173094786  2.54389672 -0.16808134
## PAPUA BARAT DAYA     -2.76875942 -1.5883144291 -0.91755905 -1.16727688
## PAPUA                -0.41925461  0.6150900017  0.61932731  3.34171428
## PAPUA SELATAN        -2.76875942 -1.5883144291 -0.91755905 -1.16727688
## PAPUA TENGAH         -2.76875942 -1.5883144291 -0.91755905 -1.16727688
## PAPUA PEGUNUNGAN     -2.76875942 -1.5883144291 -0.91755905 -1.16727688
## attr(,"scaled:center")
##   sendiri   Bersama      Umum Tidak_ada 
## 74.642632  6.047895  2.650789  6.016316 
## attr(,"scaled:scale")
##   sendiri   Bersama      Umum Tidak_ada 
## 26.958872  3.807744  2.888958  5.154146

Penjelasan:
Scaling data dalam analisis clustering sangat penting untuk memastikan bahwa semua variabel memiliki pengaruh yang seimbang dalam proses pengelompokan, terutama saat menggunakan algoritma berbasis jarak seperti K-Means atau K-Medoids.

Contoh sederhana:
Jika satu fitur berkisar antara 0–1000 (misalnya pendapatan) dan fitur lain antara 0–1 (misalnya rasio kepemilikan fasilitas), maka fitur pendapatan akan sangat mendominasi hasil pengelompokan jika tidak dilakukan scaling.


Perhitungan Jarak

jarak_antar_list <- dist(data_scaled, method = "euclidean")

Penjelasan Singkat
Dalam hal ini kita menghitung jarak antar data menggunakan sebuah methode yang bernama euclidean.


Model Clustering

FTBAB_model <- hclust(jarak_antar_list, method = "complete")

Penjelasan Singkat
Baris kode ini membentuk model clustering hierarki berdasarkan jarak yang sudah dihitung. Metode complete berarti pengelompokan berdasarkan jarak maksimum antar anggota cluster ini adalah tahap inti dari hierarchical clustering.


Cluster Metode Silhouette Score

set.seed(123)
kmeans_model <- kmeans(data_scaled, centers = 6, nstart = 25)
library(cluster)
sil <- silhouette(kmeans_model$cluster, jarak_antar_list)
library(factoextra)
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_silhouette(sil)
##   cluster size ave.sil.width
## 1       1    3          0.38
## 2       2   15          0.45
## 3       3    4          0.33
## 4       4    6          0.31
## 5       5    4          1.00
## 6       6    6          0.20

Penelasan Singkat Analisis menggunakan metode Silhouette Score

Saya menggunakan metode ini bertujuan untuk evaluasi kualitas pengelompokan data berdasarkan tingkat kecocokkan setiap observasi dengan cluster-nya.
Nilai silhouette ini berkisar -1 sampai 1, di mana nilai mendekati -1 itu kurang cocok sedangkan nilai yang mendekati 1 itu kecocokannya sangat tinggi atau memang cocok.

Secara keseluruhan, nilai rata-rata silhouette antar cluster berkisar antara 0.20 hingga 1.00, yang mencerminkan bahwa sebagian cluster sudah cukup baik, namun masih terdapat kelompok yang perlu dievaluasi ulang untuk meningkatkan akurasi dan stabilitas model.


Dendrogram

plot(FTBAB_model, 
     main = "Dendogram Analisis Fasilitas Tempat BAB Indonesia",
     xlab = "Provinsi",
     ylab = "Tingkat Perbedaan",
     sub = "berdasarkan sendiri, bersama, umum, tidak ada",
     hang = -1)

k_groups <- 6
rect.hclust(FTBAB_model, k = k_groups, border = "red")


Penjelasan:


🟥 Cluster 1: Papua, Papua Tengah, Papua Barat Daya, Papua Pegunungan
Karakteristik:
• Tingkat fasilitas sendiri relatif rendah.
• Proporsi fasilitas umum dan tidak ada fasilitas cenderung lebih tinggi dibanding wilayah lain.
• Mengindikasikan keterbatasan infrastruktur sanitasi dasar dan tantangan geografis yang memengaruhi akses.


🟥 Cluster 2: D.I Yogyakarta, Bali, NTT, NTB, Sulawesi Barat, Sulawesi Tenggara, Sulawesi Selatan
Karakteristik:
• Proporsi fasilitas sendiri cukup tinggi, namun masih terdapat penggunaan fasilitas bersama.
• Wilayah ini menunjukkan transisi antara daerah dengan infrastruktur mapan dan daerah yang masih berkembang.
• Kombinasi antara urban dan semi-urban dengan akses sanitasi yang cukup baik.


🟥 Cluster 3: Sumatera Selatan, Sumatera Utara, Sumatera Barat, Bengkulu, Jambi, Kalimantan Barat, Kalimantan Tengah
Karakteristik:
• Dominasi fasilitas sendiri, namun fasilitas bersama masih digunakan secara signifikan.
• Infrastruktur sanitasi relatif stabil, namun belum sepenuhnya merata.
• Wilayah ini cenderung memiliki pola pemukiman campuran antara kota kecil dan pedesaan.


🟥 Cluster 4: Kep. Bangka Belitung, Kalimantan Timur, Kalimantan Utara, Kalimantan Selatan, Sulawesi Tengah, Sulawesi Utara
Karakteristik:
• Proporsi fasilitas bersama dan umum cukup tinggi.
• Menunjukkan adanya ketergantungan pada fasilitas komunal, mungkin karena faktor sosial atau tata ruang.
• Perlu perhatian dalam peningkatan akses fasilitas pribadi.


🟥 Cluster 5: DKI Jakarta, Banten, Jawa Barat, Jawa Tengah, Jawa Timur
Karakteristik:
• Sangat dominan dalam penggunaan fasilitas sendiri.
• Infrastruktur sanitasi sangat baik dan merata.
• Wilayah urban dan suburban dengan standar sanitasi tinggi dan akses luas terhadap fasilitas pribadi.


🟥 Cluster 6: Gorontalo, Maluku Utara, Maluku, Papua Barat
Karakteristik:
• Proporsi fasilitas umum dan tidak ada fasilitas masih terlihat.
• Wilayah ini menunjukkan tantangan dalam pemerataan akses sanitasi.
• Perlu intervensi kebijakan untuk peningkatan fasilitas dasar, terutama di daerah terpencil dan kepulauan.


Hasil Clustering

cluster_assignment <- cutree(FTBAB_model, k = k_groups)
final_data <- cbind(data_FTBAB, Cluster = cluster_assignment)
print(final_data)
##                      sendiri Bersama  Umum Tidak_ada Cluster
## ACEH                   80.38    3.61  3.26     12.22       1
## SUMATERA UTARA         88.91    2.50  1.50      7.02       1
## SUMATERA BARAT         79.04    5.73  3.62     11.37       1
## RIAU                   92.30    2.57  0.75      4.28       2
## JAMBI                  87.90    3.38  1.50      7.20       1
## SUMATERA SELATAN       82.81    5.93  3.34      7.76       1
## BENGKULU               88.62    3.28  0.94      7.08       1
## LAMPUNG                91.92    4.69  0.79      2.57       2
## KEP. BANGKA BELITUNG   92.46    2.12  2.13      3.15       2
## KEP. RIAU              94.55    4.59  0.34      0.48       2
## DKI JAKARTA            86.46   10.52  2.90      0.10       2
## JAWA BARAT             86.16    7.37  2.94      3.47       2
## JAWA TENGAH            88.66    6.05  1.09      4.15       2
## DI YOGYAKARTA          83.80   14.72  0.85      0.58       3
## JAWA TIMUR             83.80    7.89  1.22      7.01       3
## BANTEN                 88.04    3.21  1.08      7.52       1
## BALI                   85.95   11.00  0.06      2.97       3
## NUSA TENGGARA BARAT    73.32   12.74  1.30     12.27       3
## NUSA TENGGARA TIMUR    79.20   11.89  1.41      7.36       3
## KALIMANTAN BARAT       84.50    3.99  1.60      9.78       1
## KALIMANTAN TENGAH      84.60    7.74  6.95      0.71       2
## KALIMANTAN SELATAN     87.24    8.26  3.30      1.02       2
## KALIMANTAN TIMUR       93.53    3.67  0.97      1.71       2
## KALIMANTAN UTARA       92.44    2.39  2.21      2.93       2
## SULAWESI UTARA         81.86    9.74  1.87      6.47       3
## SULAWESI TENGAH        76.90    4.72  4.13     14.15       1
## SULAWESI SELATAN       88.62    6.93  1.28      3.10       2
## SULAWESI TENGGARA      85.64    5.10  1.73      7.44       1
## GORONTALO              67.43   11.68  8.48     12.34       4
## SULAWESI BARAT         77.96    6.12  3.48     12.22       1
## MALUKU                 72.87    9.33  6.30     11.38       4
## MALUKU UTARA           69.73    8.81 12.97      8.42       4
## PAPUA BARAT            75.48    9.16 10.00      5.15       4
## PAPUA BARAT DAYA        0.00    0.00  0.00      0.00       5
## PAPUA                  63.34    8.39  4.44     23.24       6
## PAPUA SELATAN           0.00    0.00  0.00      0.00       5
## PAPUA TENGAH            0.00    0.00  0.00      0.00       5
## PAPUA PEGUNUNGAN        0.00    0.00  0.00      0.00       5

Ringkasan Statistik per Cluster

summary_stats <- aggregate(. ~ Cluster, data = final_data, mean)
print(summary_stats)
##   Cluster  sendiri   Bersama     Umum Tidak_ada
## 1       1 83.70000  4.324545 2.380000  9.432727
## 2       2 89.91167  5.575000 2.137500  2.305833
## 3       3 81.32167 11.330000 1.118333  6.110000
## 4       4 71.37750  9.745000 9.437500  9.322500
## 5       5  0.00000  0.000000 0.000000  0.000000
## 6       6 63.34000  8.390000 4.440000 23.240000

☕ Kesimpulan

Dari analisis hierarchical clustering yang telah dilakukan, provinsi-provinsi di Indonesia dapat dikelompokkan menjadi 4 cluster berdasarkan karakteristik fasilitas tempat Buang Air Besar dari setiap daerah.


© 2024 Mareko F. Nazara | Data Analysis with R