Extreme Gradient Boosting (XGBoost) merupakan algoritma machine
learning berbasis ensemble learning dengan pendekatan
boosting, yang menggabungkan banyak model sederhana (umumnya
decision tree) secara bertahap untuk membentuk model yang lebih
kuat dan akurat. Prinsip utama dari metode ini adalah setiap model baru
dibangun untuk memperbaiki kesalahan dari model sebelumnya melalui
optimisasi berbasis gradient descent terhadap fungsi objektif
yang mencakup komponen loss function dan regularisasi. XGBoost
merupakan pengembangan dari metode Gradient Boosting yang
dirancang lebih efisien dan scalable, sehingga mampu menangani
data berukuran besar, mengakomodasi missing values, serta
mengurangi risiko overfitting melalui pengaturan parameter
seperti kedalaman pohon (max_depth), laju pembelajaran
(eta), dan subsampling (Chen & Guestrin, 2016;
Friedman, 2001).
Dalam praktiknya, XGBoost banyak digunakan untuk permasalahan
supervised learning seperti klasifikasi dan regresi, khususnya
ketika data memiliki hubungan yang kompleks dan tidak linear. Algoritma
ini sangat efektif dalam menghasilkan prediksi dengan tingkat akurasi
tinggi, sehingga sering digunakan dalam berbagai bidang seperti ekonomi,
kesehatan, hingga analisis sosial, termasuk dalam memprediksi backlog
kelayakhunian berbasis data rumah tangga. XGBoost umumnya digunakan
ketika tersedia dataset berukuran besar dengan banyak variabel
prediktor, serta ketika tujuan utama adalah memperoleh performa prediksi
yang optimal. Meskipun demikian, model ini cenderung lebih kompleks
untuk diinterpretasikan dibandingkan metode statistik tradisional,
sehingga penggunaannya sering dikombinasikan dengan teknik
interpretabilitas tambahan. Dengan keunggulan dalam akurasi, efisiensi,
dan kemampuan menangkap pola non-linear, XGBoost menjadi salah satu
metode yang paling populer dalam analisis data modern (James et al.,
2021).
knitr::opts_chunk$set(echo = TRUE)
Prepare Data ML
data_ml <- dataku %>%
mutate(
backlog_ml = ifelse(BACK_LOG == 100, 1, 0)
) %>%
select(
backlog_ml,
r1602, # status kepemilikan
luas_cap,
r1606, # atap
r1607, # dinding
r1608, # lantai
r1610a, # air minum
r1614a, # sanitasi
r301, # jumlah ART
r105 # karakteristik KRT
) %>%
drop_na()
## r1602 luas_cap r1606 r1607 r1608 r1610a r1614a r301 r105
## 1 1 60.0 3 1 2 2 4 2 1
## 2 1 48.0 2 1 5 2 5 1 1
## 3 1 50.0 5 1 2 5 5 1 1
## 4 1 31.5 2 1 5 6 6 2 2
## 5 1 22.5 2 1 2 2 4 4 1
## 6 1 10.0 2 1 2 5 5 4 2
## [1] 0 0 1 1 0 0
Train-Test Split
Pada tahap ini dilakukan proses pembagian data menjadi dua bagian,
yaitu data latih (training set) dan data uji (testing
set). Proses ini diawali dengan fungsi set.seed(123)
yang bertujuan untuk memastikan bahwa hasil pembagian data bersifat
reproducible, artinya hasil yang diperoleh akan tetap sama
setiap kali kode dijalankan. Selanjutnya, fungsi
createDataPartition(y, p = 0.8, list = FALSE) digunakan
untuk membagi data berdasarkan proporsi 80% untuk data latih dan 20%
untuk data uji, dengan mempertimbangkan distribusi variabel target (y)
agar tetap seimbang (stratified sampling). Indeks hasil
pembagian tersebut kemudian digunakan untuk memisahkan matriks fitur
(X) dan variabel target (y) menjadi
X_train, X_test, y_train, dan
y_test.
set.seed(123)
trainIndex <- createDataPartition(y, p = 0.8, list = FALSE)
X_train <- X[trainIndex, ]
X_test <- X[-trainIndex, ]
y_train <- y[trainIndex]
y_test <- y[-trainIndex]
Model XGBOOST
Model machine learning yang digunakan adalah algoritma
Extreme Gradient Boosting (XGBoost). Data latih dan
data uji terlebih dahulu dikonversi ke dalam format
xgb.DMatrix, yaitu struktur data yang dioptimalkan untuk
komputasi XGBoost. Selanjutnya, ditentukan parameter model seperti
objective = “binary:logistic” untuk klasifikasi biner, serta eval_metric
= “auc” untuk mengukur kemampuan model dalam membedakan rumah tangga
backlog dan tidak backlog. Parameter lain seperti max_depth, eta,
subsample, dan colsample_bytree digunakan untuk mengatur
kompleksitas model agar pembelajaran lebih stabil dan mengurangi risiko
overfitting.
Proses pelatihan dilakukan menggunakan fungsi xgb.train
dengan maksimum 100 iterasi, di mana performa model dimonitor pada data
latih dan data uji melalui watchlist. Mekanisme early
stopping diterapkan untuk menghentikan pelatihan secara otomatis
jika tidak terjadi peningkatan performa dalam beberapa iterasi, sehingga
model yang dihasilkan tetap optimal. Tujuan dari tahap ini adalah
membangun model prediktif yang mampu menangkap hubungan non-linear antar
variabel dan mengestimasi probabilitas backlog perumahan secara
akurat.
Hasilnya adalah model yang telah terlatih dan mampu melakukan
prediksi dengan baik. Peningkatan dan kestabilan nilai AUC pada data uji
menunjukkan bahwa model berhasil mempelajari pola yang relevan tanpa
mengalami overfitting. Dengan demikian, model XGBoost ini dapat
digunakan untuk mengidentifikasi rumah tangga dengan risiko backlog
serta mendukung perumusan kebijakan perumahan yang lebih tepat
sasaran.
dtrain <- xgb.DMatrix(data = X_train, label = y_train)
dtest <- xgb.DMatrix(data = X_test, label = y_test)
params <- list(
objective = "binary:logistic",
eval_metric = "auc",
max_depth = 6,
eta = 0.1,
subsample = 0.8,
colsample_bytree = 0.8
)
model_xgb <- xgb.train(
params = params,
data = dtrain,
nrounds = 100,
watchlist = list(train = dtrain, test = dtest),
early_stopping_rounds = 10,
print_every_n = 20
)
## [1] train-auc:0.845382 test-auc:0.844776
## Multiple eval metrics are present. Will use test_auc for early stopping.
## Will train until test_auc hasn't improved in 10 rounds.
##
## [21] train-auc:0.911918 test-auc:0.912659
## [41] train-auc:0.919002 test-auc:0.919931
## [61] train-auc:0.921596 test-auc:0.922524
## [81] train-auc:0.923140 test-auc:0.923807
## [100] train-auc:0.924289 test-auc:0.924736
Hasil pelatihan model XGBoost menunjukkan bahwa nilai Area
Under Curve (AUC) baik pada data latih maupun data uji
mengalami peningkatan secara konsisten seiring bertambahnya jumlah
iterasi (boosting rounds). Pada iterasi awal, nilai AUC berada di
kisaran 0,845 baik untuk data latih maupun data uji, yang
mengindikasikan bahwa model sudah memiliki kemampuan awal yang cukup
baik dalam membedakan rumah tangga backlog dan tidak backlog. Seiring
proses pelatihan, nilai AUC meningkat secara bertahap hingga mencapai
sekitar 0,924 pada iterasi ke-100 untuk data latih dan 0,925 untuk data
uji.
Nilai AUC yang mendekati 1 menunjukkan bahwa model memiliki kemampuan
diskriminasi yang sangat baik. Dalam konteks ini, nilai AUC sekitar
0,92–0,93 mengindikasikan bahwa model mampu mengklasifikasikan rumah
tangga backlog dan tidak backlog dengan tingkat akurasi yang tinggi.
Secara praktis, hal ini berarti bahwa terdapat probabilitas lebih dari
92% bahwa model akan memberikan skor probabilitas yang lebih tinggi
kepada rumah tangga yang benar-benar mengalami backlog dibandingkan yang
tidak.
Perbandingan antara nilai AUC pada data latih
(train-auc) dan data uji (test-auc)
menunjukkan bahwa kedua nilai tersebut sangat berdekatan di setiap
iterasi. Hal ini merupakan indikasi kuat bahwa model tidak mengalami
overfitting, karena performa pada data yang tidak dilatih (data
uji) tetap sejalan dengan performa pada data latih. Bahkan, dalam
beberapa iterasi, nilai AUC pada data uji sedikit lebih tinggi
dibandingkan data latih, yang menunjukkan bahwa model memiliki kemampuan
generalisasi yang baik terhadap data baru.
Evaluasi
pred_prob <- predict(model_xgb, dtest)
pred_class <- ifelse(pred_prob > 0.5, 1, 0)
confusionMatrix(as.factor(pred_class), as.factor(y_test))
## Confusion Matrix and Statistics
##
## Reference
## Prediction 0 1
## 0 49044 5605
## 1 406 13637
##
## Accuracy : 0.9125
## 95% CI : (0.9104, 0.9146)
## No Information Rate : 0.7199
## P-Value [Acc > NIR] : < 2.2e-16
##
## Kappa : 0.7635
##
## Mcnemar's Test P-Value : < 2.2e-16
##
## Sensitivity : 0.9918
## Specificity : 0.7087
## Pos Pred Value : 0.8974
## Neg Pred Value : 0.9711
## Prevalence : 0.7199
## Detection Rate : 0.7140
## Detection Prevalence : 0.7956
## Balanced Accuracy : 0.8502
##
## 'Positive' Class : 0
##
roc_obj <- roc(y_test, pred_prob)
## Setting levels: control = 0, case = 1
## Setting direction: controls < cases
auc(roc_obj)
## Area under the curve: 0.9247
Hasil evaluasi model menunjukkan bahwa performa klasifikasi yang
dihasilkan tergolong sangat baik. Nilai accuracy sebesar 0,9125
mengindikasikan bahwa sekitar 91,25% prediksi model sesuai dengan
kondisi sebenarnya. Nilai ini jauh lebih tinggi dibandingkan No
Information Rate (0,7199), yang berarti model memiliki kemampuan
prediksi yang signifikan secara statistik (p-value < 2.2e-16). Selain
itu, nilai Kappa sebesar 0,7635 menunjukkan tingkat kesepakatan yang
kuat antara hasil prediksi dan data aktual, setelah mengoreksi
kemungkinan kesesuaian yang terjadi secara kebetulan.
Dari confusion matrix, terlihat bahwa model sangat baik dalam
mengidentifikasi kelas tidak backlog (kelas 0) dengan nilai sensitivity
sebesar 0,9918, yang berarti hampir seluruh rumah tangga yang tidak
mengalami backlog berhasil dikenali dengan benar. Namun, kemampuan model
dalam mendeteksi rumah tangga backlog (kelas 1) relatif lebih rendah,
tercermin dari specificity sebesar 0,7087, yang menunjukkan masih
terdapat sebagian rumah tangga backlog yang tidak terdeteksi. Meskipun
demikian, nilai balanced accuracy sebesar 0,8502 menunjukkan bahwa
secara keseluruhan model tetap memiliki performa yang seimbang antara
kedua kelas.
Lebih lanjut, nilai Area Under Curve (AUC) sebesar 0,9247
mengindikasikan bahwa model memiliki kemampuan diskriminasi yang sangat
baik dalam membedakan rumah tangga backlog dan tidak backlog. Dengan
performa ini, model XGBoost dapat dianggap cukup andal untuk digunakan
dalam memprediksi probabilitas backlog perumahan serta mendukung
penentuan prioritas kebijakan berbasis data.
## Setting levels: control = 0, case = 1
## Setting direction: controls < cases

Feature Importance
importance_matrix <- xgb.importance(model = model_xgb)
xgb.plot.importance(importance_matrix)

Grafik menunjukkan tingkat kepentingan relatif (importance)
dari masing-masing variabel dalam memprediksi backlog perumahan. Semakin
panjang bar, semakin besar kontribusi variabel tersebut dalam
meningkatkan akurasi model.
Variabel yang paling dominan adalah r1614a (akses
sanitasi), diikuti oleh r1606 (jenis atap) dan
r1602 (status kepemilikan rumah). Hal ini mengindikasikan
bahwa kondisi sanitasi merupakan faktor paling penting dalam menentukan
apakah suatu rumah tangga mengalami backlog. Selanjutnya, kondisi fisik
bangunan seperti atap, serta status kepemilikan rumah, juga memiliki
pengaruh yang signifikan terhadap status kelayakhunian. Variabel
luas_cap (luas lantai per kapita) dan r1610a
(akses air minum) juga memiliki kontribusi yang cukup besar, yang
menunjukkan bahwa aspek kepadatan hunian dan akses air layak merupakan
indikator penting dalam menentukan kualitas perumahan.
Probability
Backlog
dataku$prob_backlog <- predict(model_xgb, xgb.DMatrix(X))
head(dataku$prob_backlog, 15)
## [1] 0.0655616596 0.1917896420 0.9990670085 0.9430428743 0.0770765394
## [6] 0.1093887314 0.0007621722 0.0001942274 0.1643930525 0.1319696307
## [11] 0.0648792610 0.1076658145 0.0834242180 0.9049150944 0.1102087647
Kode
dataku$prob_backlog <- predict(model_xgb, xgb.DMatrix(X))
digunakan untuk menghasilkan probabilitas backlog perumahan pada setiap
rumah tangga berdasarkan model XGBoost yang telah dilatih. Nilai yang
dihasilkan berada pada rentang 0 hingga 1, di mana semakin mendekati 1
menunjukkan semakin tinggi kemungkinan rumah tangga tersebut mengalami
backlog. Nilai probabilitas ini kemudian disimpan dalam variabel baru
prob_backlog, sehingga memungkinkan analisis yang lebih detail
dibandingkan sekadar klasifikasi biner (backlog vs tidak backlog).
Hasil head(dataku$prob_backlog, 15) menampilkan 15 observasi pertama
dari probabilitas tersebut. Terlihat bahwa terdapat variasi risiko yang
cukup lebar antar rumah tangga. Misalnya, nilai sangat rendah seperti
0,00019 atau 0,00076 menunjukkan rumah tangga dengan risiko backlog yang
hampir tidak ada, sementara nilai sangat tinggi seperti 0,99907 dan
0,94304 mengindikasikan rumah tangga dengan kemungkinan backlog yang
sangat besar. Nilai menengah seperti 0,10–0,19 mencerminkan risiko
rendah hingga sedang, sedangkan nilai di atas 0,90 dapat dikategorikan
sebagai prioritas tinggi untuk intervensi.
Dengan adanya probabilitas ini, model tidak hanya memberikan
keputusan klasifikasi, tetapi juga menyediakan skor risiko yang lebih
granular. Hal ini sangat bermanfaat dalam konteks kebijakan perumahan,
karena memungkinkan pemerintah atau pemangku kepentingan untuk melakukan
targeting program secara lebih tepat sasaran, misalnya dengan
memprioritaskan rumah tangga dengan probabilitas backlog tertinggi
sebagai penerima bantuan perumahan.

References
[1] Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree
boosting system. Proceedings of the 22nd ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, 785–794.
[2] Friedman, J. H. (2001). Greedy function approximation: A gradient
boosting machine. Annals of Statistics, 29(5), 1189–1232.
[3] James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021).
An introduction to statistical learning: With applications in R (2nd
ed.). Springer.
Direktorat Statistik Kesejahteraan Rakyat, BPS, saptahas@bps.go.id
---
title: "Predicting Housing Backlog in Indonesia using XGBoost (Susenas Data)"
author: "Sapta Hastho Ponco"
date: "`r Sys.Date()`"
output:
  html_document:
    code_download: yes
    code_folding: show
    number_sections: yes
    theme: journal
    toc: yes
    toc_float: yes
  word_document:
    toc: yes
---

```{=html}
<style>
body{
text-align: justify}
</style>
```

Extreme Gradient Boosting (XGBoost) merupakan algoritma machine learning berbasis _ensemble learning_ dengan pendekatan _boosting_, yang menggabungkan banyak model sederhana (umumnya _decision tree_) secara bertahap untuk membentuk model yang lebih kuat dan akurat. Prinsip utama dari metode ini adalah setiap model baru dibangun untuk memperbaiki kesalahan dari model sebelumnya melalui optimisasi berbasis _gradient descent_ terhadap fungsi objektif yang mencakup komponen _loss function_ dan regularisasi. XGBoost merupakan pengembangan dari metode _Gradient Boosting_ yang dirancang lebih efisien dan _scalable_, sehingga mampu menangani data berukuran besar, mengakomodasi _missing values_, serta mengurangi risiko _overfitting_ melalui pengaturan parameter seperti kedalaman pohon (`max_depth`), laju pembelajaran (`eta`), dan subsampling (Chen & Guestrin, 2016; Friedman, 2001).

Dalam praktiknya, XGBoost banyak digunakan untuk permasalahan _supervised learning_ seperti klasifikasi dan regresi, khususnya ketika data memiliki hubungan yang kompleks dan tidak linear. Algoritma ini sangat efektif dalam menghasilkan prediksi dengan tingkat akurasi tinggi, sehingga sering digunakan dalam berbagai bidang seperti ekonomi, kesehatan, hingga analisis sosial, termasuk dalam memprediksi backlog kelayakhunian berbasis data rumah tangga. XGBoost umumnya digunakan ketika tersedia dataset berukuran besar dengan banyak variabel prediktor, serta ketika tujuan utama adalah memperoleh performa prediksi yang optimal. Meskipun demikian, model ini cenderung lebih kompleks untuk diinterpretasikan dibandingkan metode statistik tradisional, sehingga penggunaannya sering dikombinasikan dengan teknik interpretabilitas tambahan. Dengan keunggulan dalam akurasi, efisiensi, dan kemampuan menangkap pola non-linear, XGBoost menjadi salah satu metode yang paling populer dalam analisis data modern (James et al., 2021).


```{r setup, include=TRUE}
knitr::opts_chunk$set(echo = TRUE)
```


```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(tidyverse)
library(survey)
library(janitor)
library(scales)
library(haven)
library(openxlsx)
library(sf)
library(viridis)
```

```{r, echo=FALSE}
setwd("D:\\2. Pengembangan diri\\1 Exercise Bagus\\Housing Analysis")
```

```{r, message=FALSE, warning=FALSE, echo=FALSE}
dataku <- read_sav("KOR25GAB_0309_HOUSING.sav") %>%
  clean_names()
```

```{r, echo=FALSE}
# Backlog Kelayakhunian
dataku <- dataku %>%
  mutate(kabu = r101*100 + r102) %>%
  rename(prov="r101", kab="r102") %>%
  mutate(denom=100) %>%
  mutate(indic1_layak = dplyr::case_when(dataku$r1609a<=3 & dataku$r1609b==1 & dataku$r1609c<=2~100, (dataku$r105 ==2 & dataku$r1609a<=3 & dataku$r1609b==1 & dataku$r1609c==4~100)),
  indic1_layak=case_when(indic1_layak==100~100,is.na(indic1_layak)~0)) %>%
  mutate(drinkw=car::recode(dataku$r1610a,"3:5=100;7=100;10=100;else=0")) %>%
  mutate(bottle=car::recode(dataku$r1610a,"1:2=100;else=0")) %>%
  mutate(bathing=car::recode(dataku$r1614a,"3:5=100;7=100;10=100;else=0")) %>%
  mutate(indic2_layak = dplyr::case_when(drinkw==100 | (bottle==100 & bathing==100)~100)) %>%
  mutate(indic2_layak = ifelse(is.na(indic2_layak), 0, indic2_layak)) %>%
  mutate(luas_cap=r1604/r301) %>%
  mutate(indic3_layak = dplyr::case_when(luas_cap>=7.20~100,luas_cap<7.20~0)) %>%
  mutate(roof=car::recode(dataku$r1606,"1:4=100;else=0")) %>%
  mutate(wall=car::recode(dataku$r1607,"1:3=100;else=0")) %>%
  mutate(floor=car::recode(dataku$r1608,"1:5=100;else=0")) %>%
  mutate(indic4_layak = dplyr::case_when((roof==100 & floor==100 & wall==100)~100)) %>%
  mutate(indic4_layak = ifelse(is.na(indic4_layak), 0, indic4_layak))

dataku <- dataku %>%
  mutate(RLH = dplyr::case_when((indic1_layak==100 & indic2_layak==100 & indic3_layak==100 & indic4_layak==100)~100)) %>%
  mutate(RLH = ifelse(is.na(RLH), 0, RLH)) %>% 
  mutate(
    BACK_LOG = ifelse(r1602== 1 & RLH == 0, 100, 0),
    BACK_LOG_LABEL = factor(
      BACK_LOG,
      levels = c(0, 100),
      labels = c("Tidak", "Backlog")
    )
  )
```
  

```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(caret)
library(xgboost)
library(Matrix)
library(pROC)
library(parallelly)
```


# Prepare Data ML

```{r}
data_ml <- dataku %>%
  mutate(
    backlog_ml = ifelse(BACK_LOG == 100, 1, 0)
  ) %>%
  select(
    backlog_ml,
    r1602,        # status kepemilikan
    luas_cap,
    r1606,        # atap
    r1607,        # dinding
    r1608,        # lantai
    r1610a,       # air minum
    r1614a,       # sanitasi
    r301,         # jumlah ART
    r105          # karakteristik KRT
  ) %>%
  drop_na()
```

```{r, echo=FALSE}
# Dummy Encoding
dummies <- dummyVars(backlog_ml ~ ., data = data_ml)
X <- predict(dummies, newdata = data_ml) %>% as.matrix()
y <- data_ml$backlog_ml
head(X)
head(y)
```

# Train-Test Split

Pada tahap ini dilakukan proses pembagian data menjadi dua bagian, yaitu data latih (_training set_) dan data uji (_testing set_). Proses ini diawali dengan fungsi `set.seed(123)` yang bertujuan untuk memastikan bahwa hasil pembagian data bersifat _reproducible_, artinya hasil yang diperoleh akan tetap sama setiap kali kode dijalankan. Selanjutnya, fungsi `createDataPartition(y, p = 0.8, list = FALSE)` digunakan untuk membagi data berdasarkan proporsi 80% untuk data latih dan 20% untuk data uji, dengan mempertimbangkan distribusi variabel target (y) agar tetap seimbang (_stratified sampling_). Indeks hasil pembagian tersebut kemudian digunakan untuk memisahkan matriks fitur (`X`) dan variabel target (`y`) menjadi `X_train`, `X_test`, `y_train`, dan `y_test`.

```{r}
set.seed(123)
trainIndex <- createDataPartition(y, p = 0.8, list = FALSE)

X_train <- X[trainIndex, ]
X_test  <- X[-trainIndex, ]
y_train <- y[trainIndex]
y_test  <- y[-trainIndex]
```




# Model XGBOOST

Model machine learning yang digunakan adalah algoritma **Extreme Gradient Boosting (XGBoost)**. Data latih dan data uji terlebih dahulu dikonversi ke dalam format `xgb.DMatrix`, yaitu struktur data yang dioptimalkan untuk komputasi XGBoost. Selanjutnya, ditentukan parameter model seperti objective = "binary:logistic" untuk klasifikasi biner, serta eval_metric = "auc" untuk mengukur kemampuan model dalam membedakan rumah tangga backlog dan tidak backlog. Parameter lain seperti _max_depth, eta, subsample_, dan _colsample_bytree_ digunakan untuk mengatur kompleksitas model agar pembelajaran lebih stabil dan mengurangi risiko overfitting.

Proses pelatihan dilakukan menggunakan fungsi `xgb.train` dengan maksimum 100 iterasi, di mana performa model dimonitor pada data latih dan data uji melalui _watchlist_. Mekanisme _early stopping_ diterapkan untuk menghentikan pelatihan secara otomatis jika tidak terjadi peningkatan performa dalam beberapa iterasi, sehingga model yang dihasilkan tetap optimal. Tujuan dari tahap ini adalah membangun model prediktif yang mampu menangkap hubungan non-linear antar variabel dan mengestimasi probabilitas backlog perumahan secara akurat.

Hasilnya adalah model yang telah terlatih dan mampu melakukan prediksi dengan baik. Peningkatan dan kestabilan nilai AUC pada data uji menunjukkan bahwa model berhasil mempelajari pola yang relevan tanpa mengalami overfitting. Dengan demikian, model XGBoost ini dapat digunakan untuk mengidentifikasi rumah tangga dengan risiko backlog serta mendukung perumusan kebijakan perumahan yang lebih tepat sasaran.

```{r}
dtrain <- xgb.DMatrix(data = X_train, label = y_train)
dtest  <- xgb.DMatrix(data = X_test, label = y_test)

params <- list(
  objective = "binary:logistic",
  eval_metric = "auc",
  max_depth = 6,
  eta = 0.1,
  subsample = 0.8,
  colsample_bytree = 0.8
)

model_xgb <- xgb.train(
  params = params,
  data = dtrain,
  nrounds = 100,
  watchlist = list(train = dtrain, test = dtest),
  early_stopping_rounds = 10,
  print_every_n = 20
)
```


Hasil pelatihan model XGBoost menunjukkan bahwa nilai **Area Under Curve (AUC)** baik pada data latih maupun data uji mengalami peningkatan secara konsisten seiring bertambahnya jumlah iterasi (boosting rounds). Pada iterasi awal, nilai AUC berada di kisaran 0,845 baik untuk data latih maupun data uji, yang mengindikasikan bahwa model sudah memiliki kemampuan awal yang cukup baik dalam membedakan rumah tangga backlog dan tidak backlog. Seiring proses pelatihan, nilai AUC meningkat secara bertahap hingga mencapai sekitar 0,924 pada iterasi ke-100 untuk data latih dan 0,925 untuk data uji.

Nilai AUC yang mendekati 1 menunjukkan bahwa model memiliki kemampuan diskriminasi yang sangat baik. Dalam konteks ini, nilai AUC sekitar 0,92–0,93 mengindikasikan bahwa model mampu mengklasifikasikan rumah tangga backlog dan tidak backlog dengan tingkat akurasi yang tinggi. Secara praktis, hal ini berarti bahwa terdapat probabilitas lebih dari 92% bahwa model akan memberikan skor probabilitas yang lebih tinggi kepada rumah tangga yang benar-benar mengalami backlog dibandingkan yang tidak.

Perbandingan antara nilai AUC pada data latih (`train-auc`) dan data uji (`test-auc`) menunjukkan bahwa kedua nilai tersebut sangat berdekatan di setiap iterasi. Hal ini merupakan indikasi kuat bahwa model tidak mengalami _overfitting_, karena performa pada data yang tidak dilatih (data uji) tetap sejalan dengan performa pada data latih. Bahkan, dalam beberapa iterasi, nilai AUC pada data uji sedikit lebih tinggi dibandingkan data latih, yang menunjukkan bahwa model memiliki kemampuan generalisasi yang baik terhadap data baru.

# Evaluasi



```{r}
pred_prob <- predict(model_xgb, dtest)
pred_class <- ifelse(pred_prob > 0.5, 1, 0)

confusionMatrix(as.factor(pred_class), as.factor(y_test))

roc_obj <- roc(y_test, pred_prob)
auc(roc_obj)
```

Hasil evaluasi model menunjukkan bahwa performa klasifikasi yang dihasilkan tergolong sangat baik. Nilai accuracy sebesar 0,9125 mengindikasikan bahwa sekitar 91,25% prediksi model sesuai dengan kondisi sebenarnya. Nilai ini jauh lebih tinggi dibandingkan _No Information Rate_ (0,7199), yang berarti model memiliki kemampuan prediksi yang signifikan secara statistik (p-value < 2.2e-16). Selain itu, nilai Kappa sebesar 0,7635 menunjukkan tingkat kesepakatan yang kuat antara hasil prediksi dan data aktual, setelah mengoreksi kemungkinan kesesuaian yang terjadi secara kebetulan.

Dari confusion matrix, terlihat bahwa model sangat baik dalam mengidentifikasi kelas tidak backlog (kelas 0) dengan nilai sensitivity sebesar 0,9918, yang berarti hampir seluruh rumah tangga yang tidak mengalami backlog berhasil dikenali dengan benar. Namun, kemampuan model dalam mendeteksi rumah tangga backlog (kelas 1) relatif lebih rendah, tercermin dari specificity sebesar 0,7087, yang menunjukkan masih terdapat sebagian rumah tangga backlog yang tidak terdeteksi. Meskipun demikian, nilai balanced accuracy sebesar 0,8502 menunjukkan bahwa secara keseluruhan model tetap memiliki performa yang seimbang antara kedua kelas.

Lebih lanjut, nilai Area Under Curve (AUC) sebesar 0,9247 mengindikasikan bahwa model memiliki kemampuan diskriminasi yang sangat baik dalam membedakan rumah tangga backlog dan tidak backlog. Dengan performa ini, model XGBoost dapat dianggap cukup andal untuk digunakan dalam memprediksi probabilitas backlog perumahan serta mendukung penentuan prioritas kebijakan berbasis data.


```{r, echo=FALSE}
library(pROC)
library(ggplot2)

roc_obj <- roc(y_test, pred_prob)

# Plot ROC
plot(roc_obj, 
     col = "blue", 
     lwd = 2,
     main = "ROC Curve - XGBoost Model")

# Tambahkan garis diagonal (random model)
abline(a = 0, b = 1, lty = 2, col = "red")

# Teks AUC
auc_value <- auc(roc_obj)
legend("bottomright", 
       legend = paste("AUC =", round(auc_value, 4)),
       col = "blue", 
       lwd = 2)
```

# Feature Importance

```{r}
importance_matrix <- xgb.importance(model = model_xgb)
xgb.plot.importance(importance_matrix)
```

Grafik menunjukkan tingkat kepentingan relatif (_importance_) dari masing-masing variabel dalam memprediksi backlog perumahan. Semakin panjang bar, semakin besar kontribusi variabel tersebut dalam meningkatkan akurasi model.

Variabel yang paling dominan adalah `r1614a` (akses sanitasi), diikuti oleh `r1606` (jenis atap) dan `r1602` (status kepemilikan rumah). Hal ini mengindikasikan bahwa kondisi sanitasi merupakan faktor paling penting dalam menentukan apakah suatu rumah tangga mengalami backlog. Selanjutnya, kondisi fisik bangunan seperti atap, serta status kepemilikan rumah, juga memiliki pengaruh yang signifikan terhadap status kelayakhunian. Variabel `luas_cap` (luas lantai per kapita) dan `r1610a` (akses air minum) juga memiliki kontribusi yang cukup besar, yang menunjukkan bahwa aspek kepadatan hunian dan akses air layak merupakan indikator penting dalam menentukan kualitas perumahan.


# Probability Backlog


```{r}
dataku$prob_backlog <- predict(model_xgb, xgb.DMatrix(X))
head(dataku$prob_backlog, 15)
```

Kode `dataku$prob_backlog <- predict(model_xgb, xgb.DMatrix(X))` digunakan untuk menghasilkan probabilitas backlog perumahan pada setiap rumah tangga berdasarkan model XGBoost yang telah dilatih. Nilai yang dihasilkan berada pada rentang 0 hingga 1, di mana semakin mendekati 1 menunjukkan semakin tinggi kemungkinan rumah tangga tersebut mengalami backlog. Nilai probabilitas ini kemudian disimpan dalam variabel baru prob_backlog, sehingga memungkinkan analisis yang lebih detail dibandingkan sekadar klasifikasi biner (backlog vs tidak backlog).

Hasil head(dataku$prob_backlog, 15) menampilkan 15 observasi pertama dari probabilitas tersebut. Terlihat bahwa terdapat variasi risiko yang cukup lebar antar rumah tangga. Misalnya, nilai sangat rendah seperti 0,00019 atau 0,00076 menunjukkan rumah tangga dengan risiko backlog yang hampir tidak ada, sementara nilai sangat tinggi seperti 0,99907 dan 0,94304 mengindikasikan rumah tangga dengan kemungkinan backlog yang sangat besar. Nilai menengah seperti 0,10–0,19 mencerminkan risiko rendah hingga sedang, sedangkan nilai di atas 0,90 dapat dikategorikan sebagai prioritas tinggi untuk intervensi.

Dengan adanya probabilitas ini, model tidak hanya memberikan keputusan klasifikasi, tetapi juga menyediakan skor risiko yang lebih granular. Hal ini sangat bermanfaat dalam konteks kebijakan perumahan, karena memungkinkan pemerintah atau pemangku kepentingan untuk melakukan targeting program secara lebih tepat sasaran, misalnya dengan memprioritaskan rumah tangga dengan probabilitas backlog tertinggi sebagai penerima bantuan perumahan.

```{r, echo=FALSE}
ggplot(dataku, aes(x = prob_backlog)) +
  geom_histogram(bins = 30, fill = "steelblue") +
  labs(
    title = "Distribusi Probabilitas Backlog (XGBoost)",
    x = "Probabilitas",
    y = "Frekuensi"
  ) +
  theme_minimal()
```

# _References_

[1] Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785–794.

[2] Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5), 1189–1232.

[3] James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning: With applications in R (2nd ed.). Springer.


--------------------------------------------------------------------------------
> Direktorat Statistik Kesejahteraan Rakyat, BPS, saptahas@bps.go.id




