Extreme Gradient Boosting (XGBoost) merupakan algoritma machine learning berbasis ensemble learning dengan pendekatan boosting, yang menggabungkan banyak model sederhana (umumnya decision tree) secara bertahap untuk membentuk model yang lebih kuat dan akurat. Prinsip utama dari metode ini adalah setiap model baru dibangun untuk memperbaiki kesalahan dari model sebelumnya melalui optimisasi berbasis gradient descent terhadap fungsi objektif yang mencakup komponen loss function dan regularisasi. XGBoost merupakan pengembangan dari metode Gradient Boosting yang dirancang lebih efisien dan scalable, sehingga mampu menangani data berukuran besar, mengakomodasi missing values, serta mengurangi risiko overfitting melalui pengaturan parameter seperti kedalaman pohon (max_depth), laju pembelajaran (eta), dan subsampling (Chen & Guestrin, 2016; Friedman, 2001).

Dalam praktiknya, XGBoost banyak digunakan untuk permasalahan supervised learning seperti klasifikasi dan regresi, khususnya ketika data memiliki hubungan yang kompleks dan tidak linear. Algoritma ini sangat efektif dalam menghasilkan prediksi dengan tingkat akurasi tinggi, sehingga sering digunakan dalam berbagai bidang seperti ekonomi, kesehatan, hingga analisis sosial, termasuk dalam memprediksi backlog kelayakhunian berbasis data rumah tangga. XGBoost umumnya digunakan ketika tersedia dataset berukuran besar dengan banyak variabel prediktor, serta ketika tujuan utama adalah memperoleh performa prediksi yang optimal. Meskipun demikian, model ini cenderung lebih kompleks untuk diinterpretasikan dibandingkan metode statistik tradisional, sehingga penggunaannya sering dikombinasikan dengan teknik interpretabilitas tambahan. Dengan keunggulan dalam akurasi, efisiensi, dan kemampuan menangkap pola non-linear, XGBoost menjadi salah satu metode yang paling populer dalam analisis data modern (James et al., 2021).

knitr::opts_chunk$set(echo = TRUE)

1 Prepare Data ML

data_ml <- dataku %>%
  mutate(
    backlog_ml = ifelse(BACK_LOG == 100, 1, 0)
  ) %>%
  select(
    backlog_ml,
    r1602,        # status kepemilikan
    luas_cap,
    r1606,        # atap
    r1607,        # dinding
    r1608,        # lantai
    r1610a,       # air minum
    r1614a,       # sanitasi
    r301,         # jumlah ART
    r105          # karakteristik KRT
  ) %>%
  drop_na()
##   r1602 luas_cap r1606 r1607 r1608 r1610a r1614a r301 r105
## 1     1     60.0     3     1     2      2      4    2    1
## 2     1     48.0     2     1     5      2      5    1    1
## 3     1     50.0     5     1     2      5      5    1    1
## 4     1     31.5     2     1     5      6      6    2    2
## 5     1     22.5     2     1     2      2      4    4    1
## 6     1     10.0     2     1     2      5      5    4    2
## [1] 0 0 1 1 0 0

2 Train-Test Split

Pada tahap ini dilakukan proses pembagian data menjadi dua bagian, yaitu data latih (training set) dan data uji (testing set). Proses ini diawali dengan fungsi set.seed(123) yang bertujuan untuk memastikan bahwa hasil pembagian data bersifat reproducible, artinya hasil yang diperoleh akan tetap sama setiap kali kode dijalankan. Selanjutnya, fungsi createDataPartition(y, p = 0.8, list = FALSE) digunakan untuk membagi data berdasarkan proporsi 80% untuk data latih dan 20% untuk data uji, dengan mempertimbangkan distribusi variabel target (y) agar tetap seimbang (stratified sampling). Indeks hasil pembagian tersebut kemudian digunakan untuk memisahkan matriks fitur (X) dan variabel target (y) menjadi X_train, X_test, y_train, dan y_test.

set.seed(123)
trainIndex <- createDataPartition(y, p = 0.8, list = FALSE)

X_train <- X[trainIndex, ]
X_test  <- X[-trainIndex, ]
y_train <- y[trainIndex]
y_test  <- y[-trainIndex]

3 Model XGBOOST

Model machine learning yang digunakan adalah algoritma Extreme Gradient Boosting (XGBoost). Data latih dan data uji terlebih dahulu dikonversi ke dalam format xgb.DMatrix, yaitu struktur data yang dioptimalkan untuk komputasi XGBoost. Selanjutnya, ditentukan parameter model seperti objective = “binary:logistic” untuk klasifikasi biner, serta eval_metric = “auc” untuk mengukur kemampuan model dalam membedakan rumah tangga backlog dan tidak backlog. Parameter lain seperti max_depth, eta, subsample, dan colsample_bytree digunakan untuk mengatur kompleksitas model agar pembelajaran lebih stabil dan mengurangi risiko overfitting.

Proses pelatihan dilakukan menggunakan fungsi xgb.train dengan maksimum 100 iterasi, di mana performa model dimonitor pada data latih dan data uji melalui watchlist. Mekanisme early stopping diterapkan untuk menghentikan pelatihan secara otomatis jika tidak terjadi peningkatan performa dalam beberapa iterasi, sehingga model yang dihasilkan tetap optimal. Tujuan dari tahap ini adalah membangun model prediktif yang mampu menangkap hubungan non-linear antar variabel dan mengestimasi probabilitas backlog perumahan secara akurat.

Hasilnya adalah model yang telah terlatih dan mampu melakukan prediksi dengan baik. Peningkatan dan kestabilan nilai AUC pada data uji menunjukkan bahwa model berhasil mempelajari pola yang relevan tanpa mengalami overfitting. Dengan demikian, model XGBoost ini dapat digunakan untuk mengidentifikasi rumah tangga dengan risiko backlog serta mendukung perumusan kebijakan perumahan yang lebih tepat sasaran.

dtrain <- xgb.DMatrix(data = X_train, label = y_train)
dtest  <- xgb.DMatrix(data = X_test, label = y_test)

params <- list(
  objective = "binary:logistic",
  eval_metric = "auc",
  max_depth = 6,
  eta = 0.1,
  subsample = 0.8,
  colsample_bytree = 0.8
)

model_xgb <- xgb.train(
  params = params,
  data = dtrain,
  nrounds = 100,
  watchlist = list(train = dtrain, test = dtest),
  early_stopping_rounds = 10,
  print_every_n = 20
)
## [1]  train-auc:0.845382  test-auc:0.844776 
## Multiple eval metrics are present. Will use test_auc for early stopping.
## Will train until test_auc hasn't improved in 10 rounds.
## 
## [21] train-auc:0.911918  test-auc:0.912659 
## [41] train-auc:0.919002  test-auc:0.919931 
## [61] train-auc:0.921596  test-auc:0.922524 
## [81] train-auc:0.923140  test-auc:0.923807 
## [100]    train-auc:0.924289  test-auc:0.924736

Hasil pelatihan model XGBoost menunjukkan bahwa nilai Area Under Curve (AUC) baik pada data latih maupun data uji mengalami peningkatan secara konsisten seiring bertambahnya jumlah iterasi (boosting rounds). Pada iterasi awal, nilai AUC berada di kisaran 0,845 baik untuk data latih maupun data uji, yang mengindikasikan bahwa model sudah memiliki kemampuan awal yang cukup baik dalam membedakan rumah tangga backlog dan tidak backlog. Seiring proses pelatihan, nilai AUC meningkat secara bertahap hingga mencapai sekitar 0,924 pada iterasi ke-100 untuk data latih dan 0,925 untuk data uji.

Nilai AUC yang mendekati 1 menunjukkan bahwa model memiliki kemampuan diskriminasi yang sangat baik. Dalam konteks ini, nilai AUC sekitar 0,92–0,93 mengindikasikan bahwa model mampu mengklasifikasikan rumah tangga backlog dan tidak backlog dengan tingkat akurasi yang tinggi. Secara praktis, hal ini berarti bahwa terdapat probabilitas lebih dari 92% bahwa model akan memberikan skor probabilitas yang lebih tinggi kepada rumah tangga yang benar-benar mengalami backlog dibandingkan yang tidak.

Perbandingan antara nilai AUC pada data latih (train-auc) dan data uji (test-auc) menunjukkan bahwa kedua nilai tersebut sangat berdekatan di setiap iterasi. Hal ini merupakan indikasi kuat bahwa model tidak mengalami overfitting, karena performa pada data yang tidak dilatih (data uji) tetap sejalan dengan performa pada data latih. Bahkan, dalam beberapa iterasi, nilai AUC pada data uji sedikit lebih tinggi dibandingkan data latih, yang menunjukkan bahwa model memiliki kemampuan generalisasi yang baik terhadap data baru.

4 Evaluasi

pred_prob <- predict(model_xgb, dtest)
pred_class <- ifelse(pred_prob > 0.5, 1, 0)

confusionMatrix(as.factor(pred_class), as.factor(y_test))
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction     0     1
##          0 49044  5605
##          1   406 13637
##                                           
##                Accuracy : 0.9125          
##                  95% CI : (0.9104, 0.9146)
##     No Information Rate : 0.7199          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.7635          
##                                           
##  Mcnemar's Test P-Value : < 2.2e-16       
##                                           
##             Sensitivity : 0.9918          
##             Specificity : 0.7087          
##          Pos Pred Value : 0.8974          
##          Neg Pred Value : 0.9711          
##              Prevalence : 0.7199          
##          Detection Rate : 0.7140          
##    Detection Prevalence : 0.7956          
##       Balanced Accuracy : 0.8502          
##                                           
##        'Positive' Class : 0               
## 
roc_obj <- roc(y_test, pred_prob)
## Setting levels: control = 0, case = 1
## Setting direction: controls < cases
auc(roc_obj)
## Area under the curve: 0.9247

Hasil evaluasi model menunjukkan bahwa performa klasifikasi yang dihasilkan tergolong sangat baik. Nilai accuracy sebesar 0,9125 mengindikasikan bahwa sekitar 91,25% prediksi model sesuai dengan kondisi sebenarnya. Nilai ini jauh lebih tinggi dibandingkan No Information Rate (0,7199), yang berarti model memiliki kemampuan prediksi yang signifikan secara statistik (p-value < 2.2e-16). Selain itu, nilai Kappa sebesar 0,7635 menunjukkan tingkat kesepakatan yang kuat antara hasil prediksi dan data aktual, setelah mengoreksi kemungkinan kesesuaian yang terjadi secara kebetulan.

Dari confusion matrix, terlihat bahwa model sangat baik dalam mengidentifikasi kelas tidak backlog (kelas 0) dengan nilai sensitivity sebesar 0,9918, yang berarti hampir seluruh rumah tangga yang tidak mengalami backlog berhasil dikenali dengan benar. Namun, kemampuan model dalam mendeteksi rumah tangga backlog (kelas 1) relatif lebih rendah, tercermin dari specificity sebesar 0,7087, yang menunjukkan masih terdapat sebagian rumah tangga backlog yang tidak terdeteksi. Meskipun demikian, nilai balanced accuracy sebesar 0,8502 menunjukkan bahwa secara keseluruhan model tetap memiliki performa yang seimbang antara kedua kelas.

Lebih lanjut, nilai Area Under Curve (AUC) sebesar 0,9247 mengindikasikan bahwa model memiliki kemampuan diskriminasi yang sangat baik dalam membedakan rumah tangga backlog dan tidak backlog. Dengan performa ini, model XGBoost dapat dianggap cukup andal untuk digunakan dalam memprediksi probabilitas backlog perumahan serta mendukung penentuan prioritas kebijakan berbasis data.

## Setting levels: control = 0, case = 1
## Setting direction: controls < cases

5 Feature Importance

importance_matrix <- xgb.importance(model = model_xgb)
xgb.plot.importance(importance_matrix)

Grafik menunjukkan tingkat kepentingan relatif (importance) dari masing-masing variabel dalam memprediksi backlog perumahan. Semakin panjang bar, semakin besar kontribusi variabel tersebut dalam meningkatkan akurasi model.

Variabel yang paling dominan adalah r1614a (akses sanitasi), diikuti oleh r1606 (jenis atap) dan r1602 (status kepemilikan rumah). Hal ini mengindikasikan bahwa kondisi sanitasi merupakan faktor paling penting dalam menentukan apakah suatu rumah tangga mengalami backlog. Selanjutnya, kondisi fisik bangunan seperti atap, serta status kepemilikan rumah, juga memiliki pengaruh yang signifikan terhadap status kelayakhunian. Variabel luas_cap (luas lantai per kapita) dan r1610a (akses air minum) juga memiliki kontribusi yang cukup besar, yang menunjukkan bahwa aspek kepadatan hunian dan akses air layak merupakan indikator penting dalam menentukan kualitas perumahan.

6 Probability Backlog

dataku$prob_backlog <- predict(model_xgb, xgb.DMatrix(X))
head(dataku$prob_backlog, 15)
##  [1] 0.0655616596 0.1917896420 0.9990670085 0.9430428743 0.0770765394
##  [6] 0.1093887314 0.0007621722 0.0001942274 0.1643930525 0.1319696307
## [11] 0.0648792610 0.1076658145 0.0834242180 0.9049150944 0.1102087647

Kode dataku$prob_backlog <- predict(model_xgb, xgb.DMatrix(X)) digunakan untuk menghasilkan probabilitas backlog perumahan pada setiap rumah tangga berdasarkan model XGBoost yang telah dilatih. Nilai yang dihasilkan berada pada rentang 0 hingga 1, di mana semakin mendekati 1 menunjukkan semakin tinggi kemungkinan rumah tangga tersebut mengalami backlog. Nilai probabilitas ini kemudian disimpan dalam variabel baru prob_backlog, sehingga memungkinkan analisis yang lebih detail dibandingkan sekadar klasifikasi biner (backlog vs tidak backlog).

Hasil head(dataku$prob_backlog, 15) menampilkan 15 observasi pertama dari probabilitas tersebut. Terlihat bahwa terdapat variasi risiko yang cukup lebar antar rumah tangga. Misalnya, nilai sangat rendah seperti 0,00019 atau 0,00076 menunjukkan rumah tangga dengan risiko backlog yang hampir tidak ada, sementara nilai sangat tinggi seperti 0,99907 dan 0,94304 mengindikasikan rumah tangga dengan kemungkinan backlog yang sangat besar. Nilai menengah seperti 0,10–0,19 mencerminkan risiko rendah hingga sedang, sedangkan nilai di atas 0,90 dapat dikategorikan sebagai prioritas tinggi untuk intervensi.

Dengan adanya probabilitas ini, model tidak hanya memberikan keputusan klasifikasi, tetapi juga menyediakan skor risiko yang lebih granular. Hal ini sangat bermanfaat dalam konteks kebijakan perumahan, karena memungkinkan pemerintah atau pemangku kepentingan untuk melakukan targeting program secara lebih tepat sasaran, misalnya dengan memprioritaskan rumah tangga dengan probabilitas backlog tertinggi sebagai penerima bantuan perumahan.

7 References

[1] Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785–794.

[2] Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5), 1189–1232.

[3] James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning: With applications in R (2nd ed.). Springer.


Direktorat Statistik Kesejahteraan Rakyat, BPS,

---
title: "Predicting Housing Backlog in Indonesia using XGBoost (Susenas Data)"
author: "Sapta Hastho Ponco"
date: "`r Sys.Date()`"
output:
  html_document:
    code_download: yes
    code_folding: show
    number_sections: yes
    theme: journal
    toc: yes
    toc_float: yes
  word_document:
    toc: yes
---

```{=html}
<style>
body{
text-align: justify}
</style>
```

Extreme Gradient Boosting (XGBoost) merupakan algoritma machine learning berbasis _ensemble learning_ dengan pendekatan _boosting_, yang menggabungkan banyak model sederhana (umumnya _decision tree_) secara bertahap untuk membentuk model yang lebih kuat dan akurat. Prinsip utama dari metode ini adalah setiap model baru dibangun untuk memperbaiki kesalahan dari model sebelumnya melalui optimisasi berbasis _gradient descent_ terhadap fungsi objektif yang mencakup komponen _loss function_ dan regularisasi. XGBoost merupakan pengembangan dari metode _Gradient Boosting_ yang dirancang lebih efisien dan _scalable_, sehingga mampu menangani data berukuran besar, mengakomodasi _missing values_, serta mengurangi risiko _overfitting_ melalui pengaturan parameter seperti kedalaman pohon (`max_depth`), laju pembelajaran (`eta`), dan subsampling (Chen & Guestrin, 2016; Friedman, 2001).

Dalam praktiknya, XGBoost banyak digunakan untuk permasalahan _supervised learning_ seperti klasifikasi dan regresi, khususnya ketika data memiliki hubungan yang kompleks dan tidak linear. Algoritma ini sangat efektif dalam menghasilkan prediksi dengan tingkat akurasi tinggi, sehingga sering digunakan dalam berbagai bidang seperti ekonomi, kesehatan, hingga analisis sosial, termasuk dalam memprediksi backlog kelayakhunian berbasis data rumah tangga. XGBoost umumnya digunakan ketika tersedia dataset berukuran besar dengan banyak variabel prediktor, serta ketika tujuan utama adalah memperoleh performa prediksi yang optimal. Meskipun demikian, model ini cenderung lebih kompleks untuk diinterpretasikan dibandingkan metode statistik tradisional, sehingga penggunaannya sering dikombinasikan dengan teknik interpretabilitas tambahan. Dengan keunggulan dalam akurasi, efisiensi, dan kemampuan menangkap pola non-linear, XGBoost menjadi salah satu metode yang paling populer dalam analisis data modern (James et al., 2021).


```{r setup, include=TRUE}
knitr::opts_chunk$set(echo = TRUE)
```


```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(tidyverse)
library(survey)
library(janitor)
library(scales)
library(haven)
library(openxlsx)
library(sf)
library(viridis)
```

```{r, echo=FALSE}
setwd("D:\\2. Pengembangan diri\\1 Exercise Bagus\\Housing Analysis")
```

```{r, message=FALSE, warning=FALSE, echo=FALSE}
dataku <- read_sav("KOR25GAB_0309_HOUSING.sav") %>%
  clean_names()
```

```{r, echo=FALSE}
# Backlog Kelayakhunian
dataku <- dataku %>%
  mutate(kabu = r101*100 + r102) %>%
  rename(prov="r101", kab="r102") %>%
  mutate(denom=100) %>%
  mutate(indic1_layak = dplyr::case_when(dataku$r1609a<=3 & dataku$r1609b==1 & dataku$r1609c<=2~100, (dataku$r105 ==2 & dataku$r1609a<=3 & dataku$r1609b==1 & dataku$r1609c==4~100)),
  indic1_layak=case_when(indic1_layak==100~100,is.na(indic1_layak)~0)) %>%
  mutate(drinkw=car::recode(dataku$r1610a,"3:5=100;7=100;10=100;else=0")) %>%
  mutate(bottle=car::recode(dataku$r1610a,"1:2=100;else=0")) %>%
  mutate(bathing=car::recode(dataku$r1614a,"3:5=100;7=100;10=100;else=0")) %>%
  mutate(indic2_layak = dplyr::case_when(drinkw==100 | (bottle==100 & bathing==100)~100)) %>%
  mutate(indic2_layak = ifelse(is.na(indic2_layak), 0, indic2_layak)) %>%
  mutate(luas_cap=r1604/r301) %>%
  mutate(indic3_layak = dplyr::case_when(luas_cap>=7.20~100,luas_cap<7.20~0)) %>%
  mutate(roof=car::recode(dataku$r1606,"1:4=100;else=0")) %>%
  mutate(wall=car::recode(dataku$r1607,"1:3=100;else=0")) %>%
  mutate(floor=car::recode(dataku$r1608,"1:5=100;else=0")) %>%
  mutate(indic4_layak = dplyr::case_when((roof==100 & floor==100 & wall==100)~100)) %>%
  mutate(indic4_layak = ifelse(is.na(indic4_layak), 0, indic4_layak))

dataku <- dataku %>%
  mutate(RLH = dplyr::case_when((indic1_layak==100 & indic2_layak==100 & indic3_layak==100 & indic4_layak==100)~100)) %>%
  mutate(RLH = ifelse(is.na(RLH), 0, RLH)) %>% 
  mutate(
    BACK_LOG = ifelse(r1602== 1 & RLH == 0, 100, 0),
    BACK_LOG_LABEL = factor(
      BACK_LOG,
      levels = c(0, 100),
      labels = c("Tidak", "Backlog")
    )
  )
```
  

```{r, message=FALSE, warning=FALSE, echo=FALSE}
library(caret)
library(xgboost)
library(Matrix)
library(pROC)
library(parallelly)
```


# Prepare Data ML

```{r}
data_ml <- dataku %>%
  mutate(
    backlog_ml = ifelse(BACK_LOG == 100, 1, 0)
  ) %>%
  select(
    backlog_ml,
    r1602,        # status kepemilikan
    luas_cap,
    r1606,        # atap
    r1607,        # dinding
    r1608,        # lantai
    r1610a,       # air minum
    r1614a,       # sanitasi
    r301,         # jumlah ART
    r105          # karakteristik KRT
  ) %>%
  drop_na()
```

```{r, echo=FALSE}
# Dummy Encoding
dummies <- dummyVars(backlog_ml ~ ., data = data_ml)
X <- predict(dummies, newdata = data_ml) %>% as.matrix()
y <- data_ml$backlog_ml
head(X)
head(y)
```

# Train-Test Split

Pada tahap ini dilakukan proses pembagian data menjadi dua bagian, yaitu data latih (_training set_) dan data uji (_testing set_). Proses ini diawali dengan fungsi `set.seed(123)` yang bertujuan untuk memastikan bahwa hasil pembagian data bersifat _reproducible_, artinya hasil yang diperoleh akan tetap sama setiap kali kode dijalankan. Selanjutnya, fungsi `createDataPartition(y, p = 0.8, list = FALSE)` digunakan untuk membagi data berdasarkan proporsi 80% untuk data latih dan 20% untuk data uji, dengan mempertimbangkan distribusi variabel target (y) agar tetap seimbang (_stratified sampling_). Indeks hasil pembagian tersebut kemudian digunakan untuk memisahkan matriks fitur (`X`) dan variabel target (`y`) menjadi `X_train`, `X_test`, `y_train`, dan `y_test`.

```{r}
set.seed(123)
trainIndex <- createDataPartition(y, p = 0.8, list = FALSE)

X_train <- X[trainIndex, ]
X_test  <- X[-trainIndex, ]
y_train <- y[trainIndex]
y_test  <- y[-trainIndex]
```




# Model XGBOOST

Model machine learning yang digunakan adalah algoritma **Extreme Gradient Boosting (XGBoost)**. Data latih dan data uji terlebih dahulu dikonversi ke dalam format `xgb.DMatrix`, yaitu struktur data yang dioptimalkan untuk komputasi XGBoost. Selanjutnya, ditentukan parameter model seperti objective = "binary:logistic" untuk klasifikasi biner, serta eval_metric = "auc" untuk mengukur kemampuan model dalam membedakan rumah tangga backlog dan tidak backlog. Parameter lain seperti _max_depth, eta, subsample_, dan _colsample_bytree_ digunakan untuk mengatur kompleksitas model agar pembelajaran lebih stabil dan mengurangi risiko overfitting.

Proses pelatihan dilakukan menggunakan fungsi `xgb.train` dengan maksimum 100 iterasi, di mana performa model dimonitor pada data latih dan data uji melalui _watchlist_. Mekanisme _early stopping_ diterapkan untuk menghentikan pelatihan secara otomatis jika tidak terjadi peningkatan performa dalam beberapa iterasi, sehingga model yang dihasilkan tetap optimal. Tujuan dari tahap ini adalah membangun model prediktif yang mampu menangkap hubungan non-linear antar variabel dan mengestimasi probabilitas backlog perumahan secara akurat.

Hasilnya adalah model yang telah terlatih dan mampu melakukan prediksi dengan baik. Peningkatan dan kestabilan nilai AUC pada data uji menunjukkan bahwa model berhasil mempelajari pola yang relevan tanpa mengalami overfitting. Dengan demikian, model XGBoost ini dapat digunakan untuk mengidentifikasi rumah tangga dengan risiko backlog serta mendukung perumusan kebijakan perumahan yang lebih tepat sasaran.

```{r}
dtrain <- xgb.DMatrix(data = X_train, label = y_train)
dtest  <- xgb.DMatrix(data = X_test, label = y_test)

params <- list(
  objective = "binary:logistic",
  eval_metric = "auc",
  max_depth = 6,
  eta = 0.1,
  subsample = 0.8,
  colsample_bytree = 0.8
)

model_xgb <- xgb.train(
  params = params,
  data = dtrain,
  nrounds = 100,
  watchlist = list(train = dtrain, test = dtest),
  early_stopping_rounds = 10,
  print_every_n = 20
)
```


Hasil pelatihan model XGBoost menunjukkan bahwa nilai **Area Under Curve (AUC)** baik pada data latih maupun data uji mengalami peningkatan secara konsisten seiring bertambahnya jumlah iterasi (boosting rounds). Pada iterasi awal, nilai AUC berada di kisaran 0,845 baik untuk data latih maupun data uji, yang mengindikasikan bahwa model sudah memiliki kemampuan awal yang cukup baik dalam membedakan rumah tangga backlog dan tidak backlog. Seiring proses pelatihan, nilai AUC meningkat secara bertahap hingga mencapai sekitar 0,924 pada iterasi ke-100 untuk data latih dan 0,925 untuk data uji.

Nilai AUC yang mendekati 1 menunjukkan bahwa model memiliki kemampuan diskriminasi yang sangat baik. Dalam konteks ini, nilai AUC sekitar 0,92–0,93 mengindikasikan bahwa model mampu mengklasifikasikan rumah tangga backlog dan tidak backlog dengan tingkat akurasi yang tinggi. Secara praktis, hal ini berarti bahwa terdapat probabilitas lebih dari 92% bahwa model akan memberikan skor probabilitas yang lebih tinggi kepada rumah tangga yang benar-benar mengalami backlog dibandingkan yang tidak.

Perbandingan antara nilai AUC pada data latih (`train-auc`) dan data uji (`test-auc`) menunjukkan bahwa kedua nilai tersebut sangat berdekatan di setiap iterasi. Hal ini merupakan indikasi kuat bahwa model tidak mengalami _overfitting_, karena performa pada data yang tidak dilatih (data uji) tetap sejalan dengan performa pada data latih. Bahkan, dalam beberapa iterasi, nilai AUC pada data uji sedikit lebih tinggi dibandingkan data latih, yang menunjukkan bahwa model memiliki kemampuan generalisasi yang baik terhadap data baru.

# Evaluasi



```{r}
pred_prob <- predict(model_xgb, dtest)
pred_class <- ifelse(pred_prob > 0.5, 1, 0)

confusionMatrix(as.factor(pred_class), as.factor(y_test))

roc_obj <- roc(y_test, pred_prob)
auc(roc_obj)
```

Hasil evaluasi model menunjukkan bahwa performa klasifikasi yang dihasilkan tergolong sangat baik. Nilai accuracy sebesar 0,9125 mengindikasikan bahwa sekitar 91,25% prediksi model sesuai dengan kondisi sebenarnya. Nilai ini jauh lebih tinggi dibandingkan _No Information Rate_ (0,7199), yang berarti model memiliki kemampuan prediksi yang signifikan secara statistik (p-value < 2.2e-16). Selain itu, nilai Kappa sebesar 0,7635 menunjukkan tingkat kesepakatan yang kuat antara hasil prediksi dan data aktual, setelah mengoreksi kemungkinan kesesuaian yang terjadi secara kebetulan.

Dari confusion matrix, terlihat bahwa model sangat baik dalam mengidentifikasi kelas tidak backlog (kelas 0) dengan nilai sensitivity sebesar 0,9918, yang berarti hampir seluruh rumah tangga yang tidak mengalami backlog berhasil dikenali dengan benar. Namun, kemampuan model dalam mendeteksi rumah tangga backlog (kelas 1) relatif lebih rendah, tercermin dari specificity sebesar 0,7087, yang menunjukkan masih terdapat sebagian rumah tangga backlog yang tidak terdeteksi. Meskipun demikian, nilai balanced accuracy sebesar 0,8502 menunjukkan bahwa secara keseluruhan model tetap memiliki performa yang seimbang antara kedua kelas.

Lebih lanjut, nilai Area Under Curve (AUC) sebesar 0,9247 mengindikasikan bahwa model memiliki kemampuan diskriminasi yang sangat baik dalam membedakan rumah tangga backlog dan tidak backlog. Dengan performa ini, model XGBoost dapat dianggap cukup andal untuk digunakan dalam memprediksi probabilitas backlog perumahan serta mendukung penentuan prioritas kebijakan berbasis data.


```{r, echo=FALSE}
library(pROC)
library(ggplot2)

roc_obj <- roc(y_test, pred_prob)

# Plot ROC
plot(roc_obj, 
     col = "blue", 
     lwd = 2,
     main = "ROC Curve - XGBoost Model")

# Tambahkan garis diagonal (random model)
abline(a = 0, b = 1, lty = 2, col = "red")

# Teks AUC
auc_value <- auc(roc_obj)
legend("bottomright", 
       legend = paste("AUC =", round(auc_value, 4)),
       col = "blue", 
       lwd = 2)
```

# Feature Importance

```{r}
importance_matrix <- xgb.importance(model = model_xgb)
xgb.plot.importance(importance_matrix)
```

Grafik menunjukkan tingkat kepentingan relatif (_importance_) dari masing-masing variabel dalam memprediksi backlog perumahan. Semakin panjang bar, semakin besar kontribusi variabel tersebut dalam meningkatkan akurasi model.

Variabel yang paling dominan adalah `r1614a` (akses sanitasi), diikuti oleh `r1606` (jenis atap) dan `r1602` (status kepemilikan rumah). Hal ini mengindikasikan bahwa kondisi sanitasi merupakan faktor paling penting dalam menentukan apakah suatu rumah tangga mengalami backlog. Selanjutnya, kondisi fisik bangunan seperti atap, serta status kepemilikan rumah, juga memiliki pengaruh yang signifikan terhadap status kelayakhunian. Variabel `luas_cap` (luas lantai per kapita) dan `r1610a` (akses air minum) juga memiliki kontribusi yang cukup besar, yang menunjukkan bahwa aspek kepadatan hunian dan akses air layak merupakan indikator penting dalam menentukan kualitas perumahan.


# Probability Backlog


```{r}
dataku$prob_backlog <- predict(model_xgb, xgb.DMatrix(X))
head(dataku$prob_backlog, 15)
```

Kode `dataku$prob_backlog <- predict(model_xgb, xgb.DMatrix(X))` digunakan untuk menghasilkan probabilitas backlog perumahan pada setiap rumah tangga berdasarkan model XGBoost yang telah dilatih. Nilai yang dihasilkan berada pada rentang 0 hingga 1, di mana semakin mendekati 1 menunjukkan semakin tinggi kemungkinan rumah tangga tersebut mengalami backlog. Nilai probabilitas ini kemudian disimpan dalam variabel baru prob_backlog, sehingga memungkinkan analisis yang lebih detail dibandingkan sekadar klasifikasi biner (backlog vs tidak backlog).

Hasil head(dataku$prob_backlog, 15) menampilkan 15 observasi pertama dari probabilitas tersebut. Terlihat bahwa terdapat variasi risiko yang cukup lebar antar rumah tangga. Misalnya, nilai sangat rendah seperti 0,00019 atau 0,00076 menunjukkan rumah tangga dengan risiko backlog yang hampir tidak ada, sementara nilai sangat tinggi seperti 0,99907 dan 0,94304 mengindikasikan rumah tangga dengan kemungkinan backlog yang sangat besar. Nilai menengah seperti 0,10–0,19 mencerminkan risiko rendah hingga sedang, sedangkan nilai di atas 0,90 dapat dikategorikan sebagai prioritas tinggi untuk intervensi.

Dengan adanya probabilitas ini, model tidak hanya memberikan keputusan klasifikasi, tetapi juga menyediakan skor risiko yang lebih granular. Hal ini sangat bermanfaat dalam konteks kebijakan perumahan, karena memungkinkan pemerintah atau pemangku kepentingan untuk melakukan targeting program secara lebih tepat sasaran, misalnya dengan memprioritaskan rumah tangga dengan probabilitas backlog tertinggi sebagai penerima bantuan perumahan.

```{r, echo=FALSE}
ggplot(dataku, aes(x = prob_backlog)) +
  geom_histogram(bins = 30, fill = "steelblue") +
  labs(
    title = "Distribusi Probabilitas Backlog (XGBoost)",
    x = "Probabilitas",
    y = "Frekuensi"
  ) +
  theme_minimal()
```

# _References_

[1] Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785–794.

[2] Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5), 1189–1232.

[3] James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning: With applications in R (2nd ed.). Springer.


--------------------------------------------------------------------------------
> Direktorat Statistik Kesejahteraan Rakyat, BPS, saptahas@bps.go.id




