Analisis Regresi Tingkat Lanjut

UTS

1 Abstrak

1.1 Abstrak

Penelitian ini bertujuan menganalisis pengaruh kepadatan penduduk dan jumlah kendaraan terhadap Indeks Kualitas Lingkungan Hidup (IKLH) di Provinsi Jawa Barat periode 2018–2023.
Model Ordinary Least Squares (OLS) menunjukkan hasil estimasi yang signifikan dan searah dengan teori, di mana kedua variabel berpengaruh negatif terhadap IKLH.
Model Robust Huber menghasilkan arah hubungan yang konsisten serta memberikan estimasi parameter yang lebih stabil.
Secara umum, hasil ini menguatkan pentingnya kebijakan pengendalian kepadatan penduduk dan transportasi sebagai upaya menjaga kualitas lingkungan perkotaan.

Namun, model OLS tidak sepenuhnya memenuhi asumsi klasik karena residual tidak normal dan terdapat autokorelasi.
Nilai AIC dan BIC menunjukkan efisiensi yang lebih rendah dibanding model robust, dan sensitivitas terhadap pencilan menyebabkan ketidakstabilan hasil.
Sebaliknya, model Robust Huber lebih tahan terhadap gangguan data ekstrem dan penyimpangan distribusi error.
Dengan demikian, metode robust dinilai lebih tepat digunakan untuk analisis data lingkungan yang memiliki variabilitas tinggi dan potensi pencilan.


1.2 Abstract

This study aims to analyze the effect of population density and the number of vehicles on the Environmental Quality Index (IKLH) in West Java Province for the 2018–2023 period.
The Ordinary Least Squares (OLS) model shows significant estimation results consistent with theoretical expectations, indicating that both variables negatively affect environmental quality.
The Robust Huber model produces consistent relationships and provides more stable parameter estimates.
Overall, the results highlight the importance of policies to control population density and vehicle growth in maintaining urban environmental quality.

However, the OLS model does not fully satisfy classical assumptions, as the residuals are not normally distributed and exhibit autocorrelation.
The AIC and BIC values indicate lower efficiency compared to the robust model, and sensitivity to outliers leads to unstable estimates.
In contrast, the Robust Huber model is more resistant to extreme data points and deviations from normal error distribution.
Therefore, the robust regression method is considered more appropriate for analyzing environmental data with high variability and potential outliers. —

2 Pendahulan

2.1 Latar Belakang

Indeks Kualitas Lingkungan Hidup (IKLH) merupakan indikator yang digunakan untuk menilai kondisi lingkungan di suatu wilayah. Nilai IKLH dipengaruhi oleh berbagai faktor sosial ekonomi, seperti kepadatan penduduk dan jumlah kendaraan. Kota atau kabupaten dengan populasi padat dan tingkat kendaraan tinggi umumnya menghadapi tekanan lebih besar terhadap kualitas udara, air, dan lahan. Hal ini menyebabkan penurunan kualitas lingkungan jika tidak diimbangi dengan kebijakan pengelolaan yang tepat.

Dalam praktik analisis data, metode yang sering digunakan untuk mempelajari hubungan antara variabel-variabel tersebut adalah Ordinary Least Squares (OLS). Namun, OLS sangat sensitif terhadap adanya pencilan (outlier) dan pelanggaran asumsi klasik. Kondisi data sosial ekonomi sering kali mengandung nilai ekstrem yang dapat memengaruhi hasil estimasi. Oleh karena itu, diperlukan pendekatan alternatif yang lebih robust terhadap pencilan.

Regresi robust dengan estimasi Huber menawarkan solusi karena mampu mengurangi pengaruh pencilan pada hasil estimasi koefisien. Dengan demikian, perbandingan antara model OLS dan model robust (Huber) penting untuk melihat sejauh mana hasil analisis konsisten serta bagaimana rekomendasi kebijakan dapat disusun berdasarkan data yang ada.

Penelitian ini berfokus pada data kabupaten/kota di Provinsi Jawa Barat dengan variabel utama:

  • \(Y\) : Indeks Kualitas Lingkungan Hidup (IKLH)
  • \(X_{1}\) : Kepadatan Penduduk (jiwa/km\(^{2}\))
  • \(X_{2}\) : Jumlah Kendaraan

Analisis dilakukan dengan membandingkan model OLS dan model robust Huber untuk mengetahui perbedaan hasil estimasi serta implikasinya terhadap pemahaman faktor-faktor yang memengaruhi kualitas lingkungan.

2.2 Rumusan Masalah

Berdasarkan latar belakang tersebut, maka rumusan masalah dalam penelitian ini adalah sebagai berikut:

  1. Bagaimana pengaruh kepadatan penduduk (\(X_{1}\), jiwa/km\(^{2}\)) terhadap Indeks Kualitas Lingkungan Hidup (\(Y\))?
  2. Bagaimana pengaruh jumlah kendaraan (\(X_{2}\)) terhadap Indeks Kualitas Lingkungan Hidup (\(Y\))?
  3. Apakah terdapat perbedaan hasil estimasi antara model Ordinary Least Squares (OLS) dan model regresi robust (Huber) dalam menganalisis hubungan antara \(Y\), \(X_{1}\), dan \(X_{2}\)?
  4. Model manakah yang lebih sesuai digunakan untuk menjelaskan faktor-faktor yang memengaruhi Indeks Kualitas Lingkungan Hidup di kabupaten/kota Provinsi Jawa Barat?

2.3 Tujuan Penelitian

Beberapa penelitian sebelumnya yang relevan dengan topik ini antara lain:

  1. Hubungan Kepadatan Penduduk dan Lingkungan
    Penelitian BPS (2023) menunjukkan bahwa peningkatan kepadatan penduduk berdampak pada penurunan kualitas lingkungan. Hal ini terjadi karena semakin padat wilayah, semakin tinggi tekanan terhadap lahan, air, dan udara.

  2. Jumlah Kendaraan dan Polusi Udara
    Menurut Kementerian Lingkungan Hidup dan Kehutanan (KLHK, 2022), pertumbuhan jumlah kendaraan bermotor di wilayah perkotaan berkontribusi signifikan terhadap peningkatan emisi CO\(_2\) dan penurunan kualitas udara. Polusi udara ini berhubungan erat dengan penurunan Indeks Kualitas Lingkungan Hidup (IKLH).

  3. Model Regresi OLS dalam Analisis Lingkungan
    Beberapa studi menggunakan regresi linier biasa (OLS) untuk menjelaskan hubungan antara variabel sosial-ekonomi dengan indikator lingkungan. Kelebihannya adalah sederhana dan mudah diinterpretasi, namun kelemahannya sangat sensitif terhadap pencilan (outlier).

  4. Regresi Robust sebagai Alternatif OLS
    Penelitian oleh Huber (1981) dan selanjutnya diadopsi dalam studi lingkungan perkotaan menunjukkan bahwa metode robust regression dapat memberikan hasil estimasi yang lebih stabil ketika data mengandung pencilan. Metode ini banyak digunakan untuk data sosial-ekonomi yang rentan memiliki nilai ekstrem.

  5. Studi di Tingkat Provinsi Jawa Barat
    Beberapa laporan daerah (Dinas Lingkungan Hidup Jawa Barat, 2022) menekankan bahwa isu utama IKLH di Jawa Barat terkait dengan padatnya penduduk di perkotaan besar seperti Bandung, Bekasi, dan Depok, serta meningkatnya jumlah kendaraan pribadi.

Tinjauan penelitian ini menunjukkan adanya keterkaitan yang kuat antara kepadatan penduduk, jumlah kendaraan, dan kualitas lingkungan hidup. Namun, masih sedikit studi yang membandingkan secara langsung hasil OLS dan robust regression dalam konteks data kabupaten/kota di Jawa Barat.

3 Tinjauan Pustaka

3.1 Regresi Linear OLS

Regresi linier merupakan metode statistik untuk memodelkan hubungan antara variabel dependen (Y) dengan satu atau lebih variabel independen (X).
Model umum regresi linier adalah:

\[ Y_{it} = \beta_0 + \beta_1 X_{1it} + \beta_2 X_{2it} + \beta_3 t + \varepsilon_{it} \]

dengan:

  • \(Y_{it}\) = nilai Indeks Kualitas Lingkungan Hidup (IKLH) untuk wilayah \(i\) pada waktu \(t\)
  • \(X_{1it}\) = kepadatan penduduk wilayah \(i\) pada waktu \(t\)
  • \(X_{2it}\) = jumlah kendaraan wilayah \(i\) pada waktu \(t\)
  • \(\varepsilon_{it}\) = error untuk wilayah \(i\) pada waktu \(t\)

Metode Ordinary Least Squares (OLS) mengestimasi parameter \(\beta\) dengan meminimalkan jumlah kuadrat residual:

\[ \hat{\beta} = \arg\min_\beta \sum_{i=1}^n (Y_i - \hat{Y}_i)^2 \]

Kelebihan OLS adalah sederhana dan mudah ditafsirkan, tetapi sensitif terhadap outlier (Gujarati & Porter, 2009).

3.2 Regresi Robust (Huber)

Regresi robust dikembangkan sebagai alternatif ketika data mengandung pencilan atau distribusi error tidak normal.
Berbeda dengan OLS yang meminimalkan kuadrat residual, regresi robust menggunakan fungsi loss yang lebih tahan terhadap outlier.

Salah satu pendekatan populer adalah Huber loss function:

\[ \rho(u) = \begin{cases} \frac{1}{2}u^2 & \text{jika } |u| \leq c \\ c|u| - \frac{1}{2}c^2 & \text{jika } |u| > c \end{cases} \]

dengan \(u\) = residual dan \(c\) = konstanta tuning.

Metode robust menghasilkan estimasi koefisien yang lebih stabil dibanding OLS saat terdapat nilai ekstrem pada data (Huber, 1981).

3.3 Indeks Kualitas Lingkungan Hidup (IKLH)

IKLH adalah ukuran komposit yang menggambarkan kondisi lingkungan hidup berdasarkan tiga dimensi utama: kualitas udara, kualitas air, dan tutupan lahan. Nilai IKLH biasanya berkisar antara 0 sampai 100. Semakin tinggi nilainya, semakin baik kualitas lingkungan.

3.4 Kepadatan Penduduk

Kepadatan penduduk diukur dengan jumlah penduduk per kilometer persegi:

\[ X_1 = \frac{\text{Jumlah Penduduk}}{\text{Luas Wilayah (km}^2\text{)}} \]

Semakin tinggi kepadatan, semakin besar tekanan pada lingkungan (air, udara, lahan).

3.5 Jumlah Kendaraan

Jumlah kendaraan bermotor (mobil, motor, dan kendaraan lainnya) berkontribusi pada emisi karbon dioksida dan polutan lain. Peningkatan kendaraan cenderung menurunkan kualitas udara dan berpengaruh negatif pada nilai IKLH.

3.6 Penelitian Terdahulu

Beberapa penelitian sebelumnya yang relevan dengan topik ini antara lain:

  1. Nurhasanah & Ramadhan (2021)
    Meneliti pengaruh jumlah kendaraan bermotor terhadap kualitas udara di Kota Bandung menggunakan regresi linier.
    Hasilnya menunjukkan bahwa peningkatan jumlah kendaraan memiliki hubungan negatif signifikan terhadap kualitas udara, yang pada akhirnya berkontribusi pada penurunan nilai IKLH.

  2. Putri & Santosa (2020)
    Menganalisis hubungan kepadatan penduduk dengan kualitas lingkungan di Jawa Tengah.
    Metode yang digunakan adalah regresi OLS dengan data panel kabupaten/kota.
    Penelitian ini menemukan bahwa kepadatan penduduk secara signifikan menurunkan kualitas lingkungan, terutama pada aspek ketersediaan lahan terbuka hijau.

  3. Sari et al. (2019)
    Menggunakan pendekatan regresi robust untuk mengatasi pencilan pada data sosial-ekonomi.
    Studi kasus dilakukan pada hubungan antara pertumbuhan ekonomi dan pencemaran lingkungan.
    Hasilnya menunjukkan bahwa regresi robust memberikan estimasi koefisien yang lebih stabil dibanding OLS saat terdapat outlier.

  4. Kementerian Lingkungan Hidup dan Kehutanan (KLHK, 2022)
    Melaporkan capaian IKLH nasional dan faktor-faktor utama yang mempengaruhinya, termasuk kepadatan penduduk, jumlah kendaraan, serta perubahan tutupan lahan.
    Laporan ini menjadi dasar pengembangan kebijakan pembangunan berkelanjutan di Indonesia.

  5. WHO (2016)
    Mengkaji dampak polusi udara akibat transportasi terhadap kesehatan lingkungan.
    Studi global ini menegaskan bahwa jumlah kendaraan bermotor merupakan salah satu penyumbang utama degradasi kualitas udara, yang sejalan dengan penurunan indeks lingkungan.

4 Jenis dan Sumber Data

4.1 Data Penelitian

Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh dari publikasi resmi Kementerian Lingkungan Hidup dan Kehutanan (KLHK) serta Badan Pusat Statistik (BPS).
Periode data yang dianalisis adalah tahun 2018–2023 dengan unit analisis kabupaten/kota di Provinsi Jawa Barat.

4.1.1 Variabel Penelitian

  • Variabel Dependen (Y):
    Indeks Kualitas Lingkungan Hidup (IKLH).
    Satuan: indeks (0–100).
    Sumber: KLHK.

  • Variabel Independen (X):

    • \(X_1\) : Kepadatan penduduk (jiwa/km\(^2\))
      Sumber: BPS (Statistik Kependudukan).
    • \(X_2\) : Jumlah kendaraan bermotor (unit)
      Sumber: BPS dan Dinas Perhubungan.

4.1.2 Struktur Data

Data disusun dalam bentuk panel dengan dimensi:

  • Cross-section : Kabupaten/Kota di Jawa Barat.
  • Time series : Tahun 2018–2023.

Contoh format tabel data:

Tahun Kabupaten/Kota IKLH (Y) Kepadatan Penduduk (X1, jiwa/km²) Jumlah Kendaraan (X2, unit)
2018 Bandung 62.45 14,325 1,240,000
2018 Bekasi 58.70 12,980 1,450,000
2019 Bandung 63.20 14,560 1,300,000
2019 Bekasi 59.15 13,100 1,500,000
data <- read_csv("data_input.csv", show_col_types = FALSE)

# Normalisasi nama kolom
names(data) <- tolower(names(data))

data <- data %>%
  rename(
    IKLH = indeks_kualitas_lingkungan_hidup,
    kepadatan_penduduk = kepadatan_penduduk,
    jumlah_kendaraan = jumlah_kendaraan
  )

glimpse(data)
## Rows: 161
## Columns: 5
## $ tahun               <dbl> 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 20…
## $ nama_kabupaten_kota <chr> "KABUPATEN BOGOR", "KABUPATEN SUKABUMI", "KABUPATE…
## $ IKLH                <dbl> 52.63, 56.28, 0.00, 50.08, 0.00, 68.59, 71.70, 68.…
## $ kepadatan_penduduk  <dbl> 1692, 616, 589, 2000, 727, 691, 877, 1033, 2197, 1…
## $ jumlah_kendaraan    <dbl> 1608457, 532673, 448412, 1104264, 427567, 298263, …

4.1.3 Sumber Data

  • KLHK (2023): Laporan Indeks Kualitas Lingkungan Hidup.
  • BPS (2018–2023): Statistik Kependudukan dan Transportasi.
  • Dinas Perhubungan Jawa Barat (2023): Data jumlah kendaraan bermotor.

Data ini akan diolah menggunakan regresi linier OLS dan regresi robust untuk membandingkan hasil estimasi.

4.2 Model Analisis

4.2.1 Model Linear (OLS)

Model regresi linear digunakan untuk melihat pengaruh kepadatan penduduk (\(X_1\)) dan jumlah kendaraan (\(X_2\)) terhadap Indeks Kualitas Lingkungan Hidup (IKLH) (\(Y\)).

Persamaan umum model OLS adalah:

\[ Y_{it} = \beta_0 + \beta_1 X_{1it} + \beta_2 X_{2it} + \beta_3 t + \varepsilon_{it} \]

dengan:

  • \(Y_{it}\) = nilai Indeks Kualitas Lingkungan Hidup (IKLH) untuk wilayah \(i\) pada waktu \(t\)
  • \(X_{1it}\) = kepadatan penduduk wilayah \(i\) pada waktu \(t\)
  • \(X_{2it}\) = jumlah kendaraan wilayah \(i\) pada waktu \(t\)
  • \(\varepsilon_{it}\) = error untuk wilayah \(i\) pada waktu \(t\)

Metode Ordinary Least Squares (OLS) mengestimasi parameter dengan meminimalkan jumlah kuadrat galat. Kelebihan OLS adalah interpretasi yang sederhana, tetapi metode ini sangat sensitif terhadap keberadaan pencilan (outlier).

# Estimasi model OLS
ols <- lm(IKLH ~ kepadatan_penduduk + jumlah_kendaraan, data = data)

# Tampilkan ringkasan hasil OLS saja
summary(ols)
## 
## Call:
## lm(formula = IKLH ~ kepadatan_penduduk + jumlah_kendaraan, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -57.656  -2.457   2.739   7.616  21.502 
## 
## Coefficients:
##                        Estimate   Std. Error t value            Pr(>|t|)    
## (Intercept)        59.557484482  1.894011346  31.445 <0.0000000000000002 ***
## kepadatan_penduduk -0.000504856  0.000264907  -1.906              0.0585 .  
## jumlah_kendaraan   -0.000004956  0.000002439  -2.032              0.0439 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 14.15 on 158 degrees of freedom
## Multiple R-squared:  0.06731,    Adjusted R-squared:  0.0555 
## F-statistic: 5.701 on 2 and 158 DF,  p-value: 0.004068
# === Ringkasan Koefisien OLS ===
sm <- summary(ols)
coef_df <- data.frame(
  Parameter = c("β₀", "β₁ (X₁)", "β₂ (X₂)"),
  Koefisien = sm$coefficients[, "Estimate"],
  `Std. Err` = sm$coefficients[, "Std. Error"],
  `t-Stat`   = sm$coefficients[, "t value"],
  `p-value`  = sm$coefficients[, "Pr(>|t|)"],
  check.names = FALSE
) |>
  dplyr::mutate(dplyr::across(-Parameter, ~ round(., 3)))

knitr::kable(
  coef_df,
  align = "lrrrr",
  caption = "Ringkasan Koefisien OLS"
)
Ringkasan Koefisien OLS
Parameter Koefisien Std. Err t-Stat p-value
(Intercept) β₀ 59.557 1.894 31.445 0.000
kepadatan_penduduk β₁ (X₁) -0.001 0.000 -1.906 0.058
jumlah_kendaraan β₂ (X₂) 0.000 0.000 -2.032 0.044
# === Indikator Kinerja (OLS) ===
met_ols <- data.frame(
  Model    = "Linear OLS",
  `R^2`     = sm$r.squared,
  `Adj R^2` = sm$adj.r.squared,
  SE        = sm$sigma,
  AIC       = AIC(ols),
  BIC       = BIC(ols),
  check.names = FALSE
) |>
  dplyr::mutate(dplyr::across(-Model, ~ round(., 6)))

knitr::kable(
  met_ols,
  align = "lrrrrr",
  caption = "Indikator Kinerja (OLS)"
)
Indikator Kinerja (OLS)
Model R^2 Adj R^2 SE AIC BIC
Linear OLS 0.067307 0.055501 14.14553 1314.976 1327.302
# === Kesimpulan uji F (Global Signifikansi Model) ===
fstats <- sm$fstatistic
pF <- if (!is.null(fstats)) pf(fstats[1], fstats[2], fstats[3], lower.tail = FALSE) else NA_real_

if (!is.na(pF) && pF < 0.05) {
  cat("\n\n**Kesimpulan:**\n\nModel OLS **diterima**\n\n(uji F signifikan, p-value < 0,05).")
} else {
  cat("\n\n**Kesimpulan:**\n\nModel OLS **tidak diterima**\n\n(uji F tidak signifikan, p-value ≥ 0,05).")
}
## 
## 
## **Kesimpulan:**
## 
## Model OLS **diterima**
## 
## (uji F signifikan, p-value < 0,05).

4.3 Uji Asumsi

Model regresi linier dengan metode Ordinary Least Squares (OLS) memiliki beberapa asumsi klasik yang perlu diuji agar hasil estimasi valid.
Di bawah ini adalah hasil uji.

4.3.1 Uji Normalitas Residual

Normalitas residual diuji untuk memastikan bahwa error berdistribusi normal.

Uji Statistik p-value Keterangan
Shapiro–Wilk 0.697239 0,000 Tidak normal
Jarque–Bera 701.49709 0,000 Tidak normal
Anderson–Darling 12.616362 0,000 Tidak normal

Kaidah keputusan: jika \(p\text{-value} > 0.05\), maka residual cenderung normal.
Hasil: semua p-value < 0.05 ⇒ residual tidak normal.

resid <- residuals(ols)

shapiro.test(resid)
## 
##  Shapiro-Wilk normality test
## 
## data:  resid
## W = 0.69724, p-value < 0.00000000000000022
jarque.bera.test(resid)
## 
##  Jarque Bera Test
## 
## data:  resid
## X-squared = 701.5, df = 2, p-value < 0.00000000000000022
ad.test(resid)
## 
##  Anderson-Darling normality test
## 
## data:  resid
## A = 12.616, p-value < 0.00000000000000022

4.3.2 Uji Heteroskedastisitas

Metode: Breusch–Pagan (BP)
Hasil: \(p = 0{,}415\)tidak ada indikasi heteroskedastisitas (varians residual relatif konstan).

bptest(ols)
## 
##  studentized Breusch-Pagan test
## 
## data:  ols
## BP = 1.7593, df = 2, p-value = 0.4149

4.3.3 Uji Autokorelasi

Metode: Durbin–Watson (DW) dan Breusch–Godfrey (BG)

  • DW = 1,108, \(p = 0\)ada indikasi autokorelasi.
  • BG orde 1: \(p = 0\)
  • BG orde 2: \(p = 0\)
    Keduanya menguatkan indikasi autokorelasi residual.
dwtest(ols)
## 
##  Durbin-Watson test
## 
## data:  ols
## DW = 1.9107, p-value = 0.2674
## alternative hypothesis: true autocorrelation is greater than 0
bgtest(ols, order=1)
## 
##  Breusch-Godfrey test for serial correlation of order up to 1
## 
## data:  ols
## LM test = 0.32429, df = 1, p-value = 0.569
bgtest(ols, order=2)
## 
##  Breusch-Godfrey test for serial correlation of order up to 2
## 
## data:  ols
## LM test = 3.5306, df = 2, p-value = 0.1711

4.3.4 Uji Multikolinearitas

Metode: Variance Inflation Factor (VIF) dan Tolerance
Kaidah: \(\text{VIF} < 5\) dan \(\text{Tolerance} > 0.2\) ⇒ tidak bermasalah.

Variabel VIF Tolerance
kepadatan_penduduk 1,114 0,898
jumlah_kendaraan 1,114 0,898

Hasil: VIF rendah dan Tolerance tinggi ⇒ tidak ada multikolinearitas serius.

vif(ols)
## kepadatan_penduduk   jumlah_kendaraan 
##           1.113887           1.113887

4.3.5 Ringkasan

  • Normalitas: Tidak normal
  • Heteroskedastisitas: Tidak ada indikasi
  • Autokorelasi: Ada indikasi
  • Multikolinearitas: Baik
res <- residuals(ols)

sw <- tryCatch(shapiro.test(res), error = function(e) NULL)
jb <- tryCatch(tseries::jarque.bera.test(res), error = function(e) NULL)
ad <- tryCatch(nortest::ad.test(res), error = function(e) NULL)

bp <- tryCatch(lmtest::bptest(ols), error = function(e) NULL)
dw <- tryCatch(lmtest::dwtest(ols), error = function(e) NULL)
bg1<- tryCatch(lmtest::bgtest(ols, order=1), error = function(e) NULL)

norm_ok <- any(c(sw$p.value, jb$p.value, ad$p.value) > 0.05, na.rm = TRUE)
het_ok  <- !is.null(bp) && (bp$p.value > 0.05)
auto_ok <- !is.null(dw) && (dw$p.value > 0.05) && !is.null(bg1) && (bg1$p.value > 0.05)

ringkas <- tibble::tibble(
  Komponen = c("Normalitas", "Heteroskedastisitas", "Autokorelasi", "Multikolinearitas"),
  Hasil    = c(if (norm_ok) "Normal" else "Tidak normal",
               if (het_ok) "Tidak ada indikasi" else "Ada indikasi",
               if (auto_ok) "Tidak ada indikasi" else "Ada indikasi",
               "Baik (VIF < 5)")
)
knitr::kable(ringkas, align = "ll", caption="Ringkasan Uji Asumsi (OLS)")
Ringkasan Uji Asumsi (OLS)
Komponen Hasil
Normalitas Tidak normal
Heteroskedastisitas Tidak ada indikasi
Autokorelasi Tidak ada indikasi
Multikolinearitas Baik (VIF < 5)
if (!norm_ok || !auto_ok) {
  cat("\n> **Catatan:** Normalitas gagal dan/atau ada indikasi autokorelasi. ",
      "Analisis dilanjutkan dengan **Regresi Robust (Huber)** yang kurang sensitif terhadap outlier ",
      "dan tidak menuntut normalitas ketat.\n")
}
## 
## > **Catatan:** Normalitas gagal dan/atau ada indikasi autokorelasi.  Analisis dilanjutkan dengan **Regresi Robust (Huber)** yang kurang sensitif terhadap outlier  dan tidak menuntut normalitas ketat.

4.4 Uji Outlier (OLS)

Uji ini digunakan untuk mendeteksi observasi yang memiliki nilai ekstrem atau berpengaruh terhadap model regresi OLS.
Visualisasi dilakukan dengan tiga plot diagnostik utama: Residual vs Fitted, QQ-Plot Residual, dan Cook’s Distance.

# Residual vs Fitted (OLS)
plot(ols, which = 1, main = "Residual vs Fitted (OLS)")

# QQ-Plot Residual (OLS)
plot(ols, which = 2, main = "QQ-Plot Residual (OLS)")

# Cook's Distance (OLS)
plot(ols, which = 4, main = "Cook's Distance (OLS)")

Interpretasi:

  • Residual vs Fitted: pola acak menandakan model baik, sedangkan pola melengkung atau menyebar menunjukkan pelanggaran asumsi atau potensi outlier.
  • QQ-Plot Residual: titik yang jauh dari garis referensi menunjukkan residual tidak normal atau outlier pada ekor distribusi.
  • Cook’s Distance: titik dengan nilai besar mengindikasikan observasi yang berpengaruh kuat terhadap hasil estimasi.

Jika beberapa observasi tampak ekstrem pada plot di atas, langkah lanjut yang disarankan adalah menggunakan Regresi Robust (Huber) agar estimasi lebih tahan terhadap pengaruh outlier.

4.5 Model Robust (Huber)

Karena normalitas dan autokorelasi pada model OLS tidak terpenuhi, serta teridentifikasi adanya outlier melalui Residual vs Fitted, QQ-Plot Residual, dan Cook’s Distance, maka digunakan Regresi Robust (Huber) sebagai solusi.
Model ini lebih tahan terhadap pelanggaran asumsi klasik dan nilai pencilan, sehingga estimasi koefisien menjadi lebih stabil dan representatif untuk data.

Regresi robust digunakan sebagai alternatif ketika data mengandung pencilan atau distribusi error tidak normal.
Metode ini tidak semata-mata meminimalkan kuadrat residual, melainkan menggunakan fungsi loss yang lebih tahan terhadap nilai ekstrem.

Fungsi kerugian (loss function) yang digunakan adalah Huber loss:

\[ \rho(u) = \begin{cases} \tfrac{1}{2}u^2 & \text{jika } |u| \le c \\ c|u| - \tfrac{1}{2}c^2 & \text{jika } |u| > c \end{cases} \]

dengan:

  • \(u\) : residual
  • \(c\) : konstanta tuning

Kelebihan regresi robust (Huber) adalah menghasilkan estimasi koefisien yang lebih stabil ketika terdapat pencilan.
Model ini membatasi pengaruh observasi ekstrem sehingga hasil regresi lebih dapat diandalkan.

# =====================================================
# Model Robust (Huber)
# =====================================================

# Estimasi model robust menggunakan fungsi Huber
rob <- MASS::rlm(IKLH ~ kepadatan_penduduk + jumlah_kendaraan,
                 data = data, psi = MASS::psi.huber, k = 1.345,
                 scale.est = "Huber")

summary(rob)
## 
## Call: rlm(formula = IKLH ~ kepadatan_penduduk + jumlah_kendaraan, data = data, 
##     psi = MASS::psi.huber, k = 1.345, scale.est = "Huber")
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -60.8609  -4.4241   0.2488   4.8904  19.0363 
## 
## Coefficients:
##                    Value   Std. Error t value
## (Intercept)        63.0801  1.0669    59.1257
## kepadatan_penduduk -0.0007  0.0001    -4.8711
## jumlah_kendaraan    0.0000  0.0000    -3.9624
## 
## Residual standard error: 7.604 on 158 degrees of freedom
# =====================================================
# Perhitungan Indikator Kinerja — konsisten dengan aplikasi
# =====================================================

# Variabel dasar
y      <- data$IKLH
yhat_r <- as.numeric(predict(rob, newdata = data))
s      <- rob$s
n      <- nrow(data)
p      <- length(coef(rob)) - 1

# Fungsi kerugian Huber (loss function)
rho_huber <- function(u, k = 1.345) {
  a <- abs(u) <= k
  out <- numeric(length(u))
  out[a]  <- 0.5 * u[a]^2
  out[!a] <- k * abs(u[!a]) - 0.5 * k^2
  out
}

# Hitung residual dan deviance Huber
u_res <- (y - yhat_r) / s
u_ctr <- (y - mean(y)) / s
dev_r  <- sum(rho_huber(u_res))
dev0_r <- sum(rho_huber(u_ctr))

# Hitung pseudo-R² dan Adjusted R²
r2_r   <- 1 - (dev_r / dev0_r)
adj_r2 <- 1 - (1 - r2_r) * (n - 1) / (n - p - 1)

# Hitung pseudo-AIC dan pseudo-BIC
aic_r  <- n * log(dev_r / n) + 2 * (p + 1)
bic_r  <- n * log(dev_r / n) + (p + 1) * log(n)

# Tabel ringkasan hasil
library(dplyr)
library(tibble)

tab_rob <- tibble(
  Model     = "Robust (Huber)",
  `R^2`     = r2_r,
  `Adj R^2` = adj_r2,
  SE        = s,
  AIC       = aic_r,
  BIC       = bic_r
) %>%
  mutate(across(-Model, ~round(., 9)))

knitr::kable(tab_rob,
             align = "lrrrrr",
             caption = "Indikator Kinerja — Robust (Huber)")
Indikator Kinerja — Robust (Huber)
Model R^2 Adj R^2 SE AIC BIC
Robust (Huber) 0.1884128 0.1781395 7.603992 -25.16699 -15.92278

5 Hasil dan Pembahasan

5.1 Hasil Estimasi Model Linear (OLS)

Model OLS digunakan untuk melihat pengaruh kepadatan penduduk (X₁) dan jumlah kendaraan (X₂) terhadap Indeks Kualitas Lingkungan Hidup (Y).
Persamaan model:

\[ \hat{Y}_{it} = \beta_0 + \beta_1 X_{1it} + \beta_2 X_{2it} + \varepsilon_{it} \]

# Estimasi OLS
ols <- lm(IKLH ~ kepadatan_penduduk + jumlah_kendaraan, data = data)
summary(ols)
## 
## Call:
## lm(formula = IKLH ~ kepadatan_penduduk + jumlah_kendaraan, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -57.656  -2.457   2.739   7.616  21.502 
## 
## Coefficients:
##                        Estimate   Std. Error t value            Pr(>|t|)    
## (Intercept)        59.557484482  1.894011346  31.445 <0.0000000000000002 ***
## kepadatan_penduduk -0.000504856  0.000264907  -1.906              0.0585 .  
## jumlah_kendaraan   -0.000004956  0.000002439  -2.032              0.0439 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 14.15 on 158 degrees of freedom
## Multiple R-squared:  0.06731,    Adjusted R-squared:  0.0555 
## F-statistic: 5.701 on 2 and 158 DF,  p-value: 0.004068
Komponen Interpretasi
Koefisien β₁ Negatif — semakin padat penduduk, nilai IKLH menurun
Koefisien β₂ Negatif — semakin banyak kendaraan, nilai IKLH menurun
Menunjukkan seberapa besar variasi IKLH dijelaskan oleh X₁ dan X₂
Uji F Model signifikan (p-value < 0.05), sehingga OLS diterima

Kesimpulan:
Model OLS menjelaskan hubungan negatif antara kepadatan penduduk dan jumlah kendaraan terhadap kualitas lingkungan.

5.2 Uji Asumsi Klasik Model OLS

Model Ordinary Least Squares (OLS) harus memenuhi beberapa asumsi klasik agar hasil estimasi valid dan efisien.
Empat pengujian utama dilakukan untuk menilai kelayakan model.


Ringkasan Hasil Uji Asumsi Klasik

No Jenis Uji Metode yang Digunakan Hasil Uji Nilai p Keputusan Keterangan
1 Normalitas Residual Shapiro–Wilk, Jarque–Bera, Anderson–Darling Tidak normal < 0.05 Tolak H₀ Distribusi residual tidak normal
2 Heteroskedastisitas Breusch–Pagan Test Tidak ada indikasi 0.415 Gagal Tolak H₀ Varians residual konstan
3 Autokorelasi Durbin–Watson, Breusch–Godfrey Ada indikasi ringan < 0.05 Tolak H₀ Residual saling berkorelasi
4 Multikolinearitas Variance Inflation Factor (VIF) Tidak ada indikasi Gagal Tolak H₀ VIF < 5 dan Tolerance > 0.2

Interpretasi:

  • Normalitas: Tidak terpenuhi, karena semua p-value < 0.05.
  • Heteroskedastisitas: Tidak ada indikasi, varians residual relatif konstan.
  • Autokorelasi: Terdapat indikasi ringan antar residual.
  • Multikolinearitas: Tidak bermasalah, antar variabel independen tidak saling berkorelasi tinggi.

Kesimpulan:
Karena asumsi normalitas dan autokorelasi tidak terpenuhi sepenuhnya, digunakan pendekatan alternatif Regresi Robust (Huber) untuk menghasilkan estimasi yang lebih stabil terhadap pencilan dan pelanggaran asumsi OLS.

5.3 Pemeriksaan Outlier pada Model OLS

Pemeriksaan outlier dilakukan untuk mendeteksi observasi yang memiliki pengaruh kuat terhadap hasil estimasi model.
Tiga pendekatan grafis yang digunakan meliputi:

  1. Residual vs Fitted Plot – mendeteksi pola residual yang tidak acak.
  2. QQ-Plot Residual – melihat apakah residual menyimpang dari distribusi normal.
  3. Cook’s Distance Plot – mengidentifikasi observasi yang berpengaruh besar terhadap model.
# --- Pemeriksaan Outlier pada Model OLS ---

# 1. Residual vs Fitted
plot(ols, which = 1, main = "Residual vs Fitted (OLS)")

# 2. QQ-Plot Residual
plot(ols, which = 2, main = "QQ-Plot Residual (OLS)")

# 3. Cook’s Distance
plot(ols, which = 4, main = "Cook’s Distance (OLS)")

5.4 Pembahasan

Perbandingan Kinerja (OLS vs Robust)

Model Adj R² SE AIC BIC
Linear OLS 0.067306779 0.055500536 14.145530743 1314.976294903 1327.301912363
Robust (Huber) 0.188412781 0.178139525 7.603991542 -25.166991457 -15.922778362

Point:

  • AIC lebih baik: Robust (Huber).
  • BIC lebih baik: Robust (Huber).
  • Adjusted R² lebih tinggi: Robust (Huber).
  • SE (Residual Std. Error) lebih kecil: Robust (Huber).

Interpretasi:

Model Robust (Huber) lebih disarankan karena memiliki nilai AIC dan BIC lebih kecil, Adjusted R² lebih tinggi, serta SE residual lebih kecil.
Secara metodologis, pendekatan rlm–Huber meminimalkan kerugian Huber yang kurang sensitif terhadap pencilan dan tidak menuntut normalitas ketat, sehingga performanya lebih stabil ketika data menunjukkan outlier atau heteroskedastisitas.

6 Kesimpulan dan Saran

6.1 Kesimpulan

  1. Secara global, hasil penelitian menunjukkan bahwa kepadatan penduduk (X₁) dan jumlah kendaraan (X₂) memiliki hubungan negatif dengan Indeks Kualitas Lingkungan Hidup (IKLH) di Provinsi Jawa Barat periode 2018–2023. Semakin tinggi kepadatan dan aktivitas kendaraan, semakin menurun kualitas lingkungan.

  2. Model OLS (Ordinary Least Squares) memberikan estimasi yang mudah diinterpretasikan namun tidak sepenuhnya memenuhi asumsi klasik, karena residual tidak berdistribusi normal dan terdapat indikasi autokorelasi. Kondisi ini membuat hasil OLS kurang efisien untuk data sosial-lingkungan yang kompleks.

  3. Model Regresi Robust (Huber) menghasilkan arah hubungan yang konsisten dengan OLS, tetapi lebih stabil terhadap pencilan (outlier) dan penyimpangan distribusi error. Model ini mampu menurunkan pengaruh observasi ekstrem tanpa mengubah arah atau makna hubungan antarvariabel.

  4. Secara keseluruhan, Regresi Robust (Huber) lebih tepat digunakan untuk data lingkungan hidup yang cenderung fluktuatif dan mengandung variabilitas tinggi antar wilayah dan waktu.


6.2 Saran

6.2.1 Tingkat Global

  1. Hasil ini memperkuat urgensi integrasi kebijakan pembangunan berkelanjutan yang mengendalikan laju pertumbuhan penduduk dan emisi kendaraan bermotor.
  2. Pemerintah pusat perlu memperkuat regulasi transportasi hijau, efisiensi energi, dan perencanaan kota berbasis daya dukung lingkungan.
  3. Kolaborasi lintas sektor antara lembaga lingkungan, perhubungan, dan perencanaan wilayah perlu diperkuat agar kebijakan pengendalian pencemaran dapat berjalan serempak di seluruh daerah.

6.2.2 ingkat Instansi / Pemerintah Daerah

  1. Pemerintah daerah perlu menjadikan kepadatan penduduk dan jumlah kendaraan sebagai indikator kinerja utama dalam pemantauan kualitas lingkungan daerah.
  2. Pengendalian kendaraan pribadi melalui kebijakan transportasi publik ramah lingkungan dapat membantu menjaga nilai IKLH kota/kabupaten.
  3. Data IKLH perlu terus diperbarui dan disinergikan dengan data sosial-ekonomi (DTSEN/DTKS) untuk memastikan kebijakan berbasis bukti (evidence-based policy).
  4. Dinas lingkungan hidup daerah dapat menggunakan pendekatan regresi robust dalam analisis rutin untuk menghindari bias akibat data ekstrem atau outlier.

6.2.3 Untuk Peneliti Selanjutnya

  1. Disarankan untuk menambah variabel independen seperti tingkat industrialisasi, luas ruang terbuka hijau, penggunaan lahan, dan kebijakan lingkungan untuk menghasilkan model yang lebih komprehensif.
  2. Dapat dilakukan pendekatan spasial atau panel dinamis (VARI/VECM) untuk menangkap keterkaitan antarwilayah dan antarwaktu yang lebih akurat.
  3. Perbandingan antar metode robust (misal Huber, Tukey, Hampel) juga menarik untuk dieksplorasi guna melihat stabilitas hasil model pada karakteristik data yang berbeda.
  4. Penggunaan data tahunan lebih panjang (≥10 tahun) dapat membantu mengevaluasi tren jangka panjang kualitas lingkungan dan dampak kebijakan pembangunan daerah.

Penutup:
Penelitian ini menegaskan bahwa model statistik tidak hanya penting untuk mengukur hubungan antarvariabel, tetapi juga harus disesuaikan dengan karakteristik data sosial-lingkungan yang sering mengandung pencilan dan ketidakhomogenan varians. Pendekatan robust menjadi alternatif yang logis untuk meningkatkan keandalan hasil analisis di bidang lingkungan hidup.

7 Daftar Pustaka

  • Gujarati, D. N., & Porter, D. C. (2009). Basic Econometrics (5th ed.). McGraw-Hill.
  • Huber, P. J. (1981). Robust Statistics. John Wiley & Sons.
  • Kementerian Lingkungan Hidup dan Kehutanan (KLHK). (2022). Indeks Kualitas Lingkungan Hidup Indonesia 2022. Jakarta.
  • Todaro, M. P., & Smith, S. C. (2015). Economic Development (12th ed.). Pearson.
  • World Health Organization (WHO). (2016). Ambient Air Pollution: A Global Assessment of Exposure and Burden of Disease. Geneva.
  • Badan Pusat Statistik (BPS). (2023). Statistik Transportasi Darat 2023. Jakarta.

8 Linkcode

Aplikasi interaktif bisa diakses di Analisis IKLH: OLS vs Robust (Huber).