Halo aku mau nganalsiis kemiskinan menggunakan analisis ridge, lasso dan elastic nett Provinsi Sumatera Utara Variabel Y : Persentase Kemiskinan Variabel X : UHH, HLS, Rata-rata lama sekolah, Pengeluaran per Kapita, Jumlah Total Angkatan Kerja, TPAK (%), Jumlah Penduduk 2025, UMK 2025, TPT, KRT Pertanian, APS, PE, Bahan Bakar Masak, Sanitasi Taklayak, Jenis Lantai taklayak, Keluhan Kesehatan, Laju Penduduk, Rasio JK Semua Data dari Publikasi dan Tabel Dinamis yang tersedia di web BPS Sumut

library(readxl)
Data <- read_excel("Downloads/analisis kemiskinan data sumut.xlsx")



# Load library
library(glmnet)

# 1. Siapkan Variabel Dependen (Y) -> Persentase Kemiskinan
y <- Data$`Miskin (%)`

# 2. Siapkan Variabel Independen (X) 
# Ambil kolom variabelnya saja (sesuaikan indeks kolomnya)
x <- as.matrix( Data[, c("X1", "X2", "X3", "X3", 
                             "X4", "X5", "X6", "X7", 
                             "X8", "X9", "X10", "X11", 
                             "X12", "X13", 
                             "X14", "X15", "X16")])
#Mencari lamda terbaik
set.seed(123) # Biar hasil konsisten

# alpha = 0 artinya Ridge Regression
cv_ridge <- cv.glmnet(x, y, alpha = 0, standardize = TRUE)

# Ambil lambda paling optimal
best_lambda <- cv_ridge$lambda.min
print(paste("Lambda Optimal Sumut:", best_lambda))
[1] "Lambda Optimal Sumut: 1.37779764687927"
# Plot lambda (Bagus buat ditaruh di Bab 4)
plot(cv_ridge)

Nilai Lambda (λ) 1.37 ini menunjukkan bahwa model Ridge kamu memberikan penalti yang cukup kuat untuk “meredam” multikolinieritas di antara 17 variabel yang kamu punya.

#Eksekusi Model Ridge Baru 
# Fit model final
model_ridge_final <- glmnet(x, y, alpha = 0, lambda = best_lambda, standardize = TRUE)

# Tampilkan koefisien
coef(model_ridge_final)
18 x 1 sparse Matrix of class "dgCMatrix"
                       s0
(Intercept) -6.202407e+00
X1           5.570877e-01
X2          -5.941007e-01
X3          -5.078085e-01
X3          -5.082271e-01
X4          -2.142874e-04
X5           6.625567e-07
X6           1.641477e-02
X7           3.837907e-07
X8          -2.492073e-07
X9          -5.122148e-02
X10         -1.151732e-05
X11          1.019367e-01
X12         -1.862237e+00
X13          1.824346e-02
X14          2.112308e-02
X15          5.955808e-02
X16         -4.277213e-02
#Hitung Akurasi (R-Square & MSE)
# Prediksi
y_pred <- predict(model_ridge_final, s = best_lambda, newx = x)

# Hitung R-Squared
sst <- sum((y - mean(y))^2)
sse <- sum((y_pred - y)^2)
rsq <- 1 - (sse / sst)

# Hitung MSE & RMSE
mse <- mean((y - y_pred)^2)
rmse <- sqrt(mse)

print(paste("R-Squared Sumut:", rsq))
[1] "R-Squared Sumut: 0.857382753474833"
print(paste("MSE Sumut:", mse))
[1] "MSE Sumut: 2.47979971386065"
print(paste("RMSE Sumut:", rmse))
[1] "RMSE Sumut: 1.57473798260557"

R-Squared 85,7%: “Model yang Sangat Kuat” RMSE 1.57: “Akurasi Prediksi”

Nilai RMSE 1.57 artinya rata-rata kesalahan prediksi model kamu adalah sekitar 1,57 persen Kekuatan Ridge: Ridge sukses menangani variabel-variabel yang tadi “berantem” (multikol) dan mendudukkan mereka di porsi yang tepat.

# Plot koefisien Ridge
# Kita buat dulu objek fit yang berisi seluruh jalur lambda
fit_ridge <- glmnet(x, y, alpha = 0, standardize = TRUE)

# Sekarang baru di-plot
plot(fit_ridge, xvar = "lambda", label = TRUE)

  1. Arti Angka “17” di Atas

Angka 17 yang berjejer di bagian atas itu menunjukkan jumlah variabel independen. Di Ridge Regression, angkanya tetap 17 dari ujung kiri sampai ujung kanan. Ini membuktikan bahwa Ridge tidak membuang satu pun variabel, beda sama LASSO yang nanti angkanya bakal berkurang (misal jadi 10, 5, dst).

  1. Sumbu X: −log(λ)

Sisi Kanan (Angka Positif): Ini adalah kondisi saat Lambda sangat kecil (penaltinya rendah). Di sini koefisien variabel kamu terlihat “asli” dan bebas berekspresi. Kamu bisa lihat ada garis hitam (nomor 13) yang melesat tajam ke bawah.

Sisi Kiri (Angka Negatif): Ini adalah saat Lambda semakin besar (penalti diperketat). Perhatikan bagaimana semua garis warna-warni itu “dipaksa” mengumpul menuju angka 0.

  1. Siapa Garis yang Paling “Nendang”?

Lihat garis yang paling jauh dari garis tengah (0):

Garis Nomor 13 (Hitam ke bawah): Wah, ini adalah variabel paling dominan di Sumut! Berdasarkan data kamu, ini kemungkinan besar adalah Sanitasi/Kualitas Hidup. Dia punya pengaruh negatif yang sangat kuat terhadap kemiskinan.

Garis Nomor 1 (Hitam ke atas): Ini variabel dominan kedua yang pengaruhnya positif (meningkatkan kemiskinan).

Garis Nomor 2, 3, 4: Ini adalah pasukan pendukung yang juga punya pengaruh nyata.

# Gunakan lambda optimal yang tadi (1.377)
y_pred_sumut <- predict(model_ridge_final, s = 1.37779764687927, newx = x)
# Membuat dataframe untuk plot
plot_data <- data.frame(Aktual = y, Prediksi = as.vector(y_pred_sumut))

# Plot sederhana
plot(plot_data$Aktual, plot_data$Prediksi,
     main = "Kesesuaian Data Aktual vs Prediksi Ridge (Sumut)",
     xlab = "Data Kemiskinan Aktual (%)",
     ylab = "Hasil Prediksi Ridge (%)",
     pch = 19, col = "darkblue")
abline(0, 1, col = "red", lwd = 2) # Garis ideal

  1. Garis Merah adalah “Garis Kejujuran” Garis merah itu adalah garis y=x. Artinya, kalau titik biru pas kena garis merah, prediksi Ridge kamu 100% akurat sama dengan data BPS aslinya. Karena titik-titik kamu ngumpul rapat di situ, berarti model kamu Sakti Mandraguna buat memetakan kemiskinan Sumut.

  2. Analisis Titik yang “Melenceng” Lihat ada dua atau tiga titik di pojok kanan atas yang agak menjauh dari garis merah (prediksinya lebih rendah dari aslinya)?

Itu kemungkinan besar adalah Kabupaten Nias, Nias Barat, atau Nias Utara (yang kemiskinannya di atas 20%). Analisisnya: Kamu bisa bilang, meskipun model Ridge sudah bagus banget, tapi untuk wilayah kepulauan ekstrem seperti Nias, faktor kemiskinannya mungkin dipengaruhi variabel lain yang belum masuk model (misal: biaya logistik laut atau aksesibilitas geografis yang sangat sulit).

  1. “The Power of Ridge” Di bagian tengah (kemiskinan 5-10%), titik-titiknya rapi banget. Ini membuktikan bahwa untuk mayoritas kabupaten/kota di Sumut daratan, variabel yang kamu pakai (Pendidikan, Sanitasi, Morbiditas) sudah sangat cukup untuk menjelaskan kemiskinan.

##LASSO (Least Absolute Shrinkage and Selection Operator).##

set.seed(123)

# Cross-Validation untuk LASSO (alpha = 1)
cv_lasso_sumut <- cv.glmnet(x, y, alpha = 1, standardize = TRUE)

# Ambil lambda terbaik
best_lambda_lasso <- cv_lasso_sumut$lambda.min
print(paste("Lambda Optimal LASSO Sumut:", best_lambda_lasso))
[1] "Lambda Optimal LASSO Sumut: 0.109188107254409"
# Plot Cross-Validation LASSO
plot(cv_lasso_sumut)

Nilainya cukup kecil, yang artinya LASSO tidak akan terlalu brutal menghapus variabel, tapi tetap akan melakukan filtrasi yang signifikan.

  1. Fit Model LASSO & Seleksi Variabel
# Fit model final LASSO
model_lasso_sumut <- glmnet(x, y, alpha = 1, lambda = best_lambda_lasso, standardize = TRUE)

# Lihat variabel yang TIDAK nol
coef(model_lasso_sumut)
18 x 1 sparse Matrix of class "dgCMatrix"
                       s0
(Intercept) -3.126770e+01
X1           8.838726e-01
X2           .           
X3          -1.352752e+00
X3          -1.137099e-14
X4          -2.269811e-04
X5           1.183461e-06
X6           2.757770e-02
X7           .           
X8           .           
X9           .           
X10         -1.136743e-05
X11          .           
X12         -2.442108e+00
X13          .           
X14          2.785450e-02
X15          9.326466e-02
X16         -6.017968e-02
  1. Variabel yang “Gugur” (Jadi Titik .)

Variabel X2, X7, X8, X9, X11, dan X13 resmi dieliminasi.

Artinya: LASSO merasa variabel-variabel ini (mungkin TPT, UMK, atau beberapa indikator rumah tinggal) sudah terwakili oleh variabel lain yang lebih kuat. Ini bagus banget, San! Skripsi kamu jadi nggak “obesitas” variabel.

  1. Para “Juara Bertahan” (The Key Drivers)

X12 (-2.442): Lagi-lagi variabel Sanitasi/Fasilitas Rumah ini jadi pemenang mutlak. Koefisiennya makin kuat dibanding Ridge tadi. Ini variabel paling krusial buat nurunin kemiskinan di Sumut menurut model LASSO.

X3 (-1.352): Pendidikan (RLS/HLS) terbukti sangat tangguh. LASSO mempertahankan ini dengan koefisien negatif yang besar. Artinya, investasi di pendidikan itu “harga mati” buat Sumut.

X1 (0.883): Dimensi Kesehatan (Morbiditas/Angka Keluhan) tetap bertahan sebagai faktor yang meningkatkan kemiskinan.

  1. Fenomena X3 Dua Kali

Nah, di sini kelihatan jelas:

X3 yang pertama punya koefisien -1.35.

X3 yang kedua dapet koefisien -1.13e-14 (alias hampir NOL). Ini membuktikan kalau ada duplikasi data atau variabel yang sangat mirip di kolom X3 kamu. LASSO secara cerdas “mematikan” salah satunya agar tidak terjadi gangguan multikolinieritas.

#Hitung Akurasi LASSO (Bandingkan dengan Ridge)

# Prediksi
y_pred_lasso <- predict(model_lasso_sumut, s = best_lambda_lasso, newx = x)

# R-Squared LASSO
sst <- sum((y - mean(y))^2)
sse_lasso <- sum((y_pred_lasso - y)^2)
rsq_lasso <- 1 - (sse_lasso / sst)

# RMSE LASSO
rmse_lasso <- sqrt(mean((y - y_pred_lasso)^2))

print(paste("R-Squared LASSO:", rsq_lasso))
[1] "R-Squared LASSO: 0.886441059368236"
print(paste("RMSE LASSO:", rmse_lasso))
[1] "RMSE LASSO: 1.40518318854559"

R-Squared LASSO (88,6%) ternyata LEBIH TINGGI daripada Ridge (85,7%). Padahal LASSO sudah membuang beberapa variabel, tapi akurasinya justru makin tajam. Ini namanya model yang lean, mean, and powerful.

  1. Kenapa LASSO Menang dari Ridge? Biasanya Ridge lebih unggul kalau semua variabel punya pengaruh kecil yang merata. Tapi di data Sumut kamu, LASSO menang karena: Efek Pembersihan: Dengan membuang variabel “sampah” atau yang duplikat (seperti X3 kedua yang hampir nol), LASSO menghilangkan gangguan (noise) dalam model. Fokus pada Core Drivers: LASSO berhasil menemukan “sinyal” yang paling kuat dari variabel Sanitasi (X12) dan Pendidikan (X3).

  2. Akurasi Luar Biasa (RMSE 1.40) Nilai RMSE kamu turun dari 1.57 (Ridge) ke 1.40 (LASSO). Artinya, rata-rata melesetnya prediksi kamu cuma 1,4 persen poin. Untuk data kemiskinan yang variasinya lebar banget (Nias vs Deli Serdang), ini akurasi yang “sangat ngeri” bagusnya.

#Plot Perjalanan Seleksi (Coefficient Path)

fit_lasso <- glmnet(x, y, alpha = 1, standardize = TRUE)
plot(fit_lasso, xvar = "lambda", label = TRUE)

  1. Proses Seleksi Otomatis (Garis yang “Mati”) Perhatikan sisi kiri grafik (saat −log(λ) mendekati 0 atau angka negatif). Banyak garis yang tadinya warna-warni tiba-tiba menghilang dan menyatu ke garis nol. Itu adalah variabel-variabel “lemah” yang dipangkas oleh LASSO. atau bisa bilang: “Grafik ini membuktikan bahwa LASSO berhasil menyederhanakan model dari 17 prediktor menjadi hanya sekitar 11 prediktor utama tanpa kehilangan akurasi.”

  2. Tiga Naga Utama (Garis yang Bertahan Paling Lama)

Lihat tiga garis yang paling lebar jaraknya dari nol: Garis Nomor 13 (Hitam paling bawah): Ini variabel paling “sakti” (Sanitasi). Lihat betapa dia bertahan paling ujung, nggak mau menyerah ke angka nol. Artinya, sanitasi adalah akar masalah kemiskinan paling nyata di Sumut. Garis Nomor 3 (Hijau/Biru muda di bawah): Ini Pendidikan (RLS). Dia juga sangat dominan dan konsisten. Garis Nomor 1 (Hitam paling atas): Ini faktor kesehatan/morbiditas yang terus memperparah kemiskinan.

  1. “The Sweet Spot”

Lambda optimal ada di sekitar angka 6 (pada skala atas), di mana model menyisakan sekitar 11 variabel. Di situlah R-Squared kamu mencapai 88,6%.

##Elastic Nett 1. Mencari Alpha dan Lambda Terbaik Di Elastic Net, nggak cuma cari Lambda (λ), tapi juga cari Alpha (α). Alpha = 0 (Ridge) Alpha = 1 (LASSO) 0 < Alpha < 1 (Elastic Net) -> Biasanya kita pakai 0.5 sebagai titik tengah.

set.seed(123)

# Kita coba Alpha = 0.5 (Kombinasi 50-50 Ridge & LASSO)
cv_en_sumut <- cv.glmnet(x, y, alpha = 0.5, standardize = TRUE)

# Ambil Best Lambda
best_lambda_en <- cv_en_sumut$lambda.min
print(paste("Lambda Optimal Elastic Net:", best_lambda_en))
[1] "Lambda Optimal Elastic Net: 0.198976273481921"
# Plot Cross-Validation
plot(cv_en_sumut)

Nilainya 0.198, sedikit lebih tinggi dari lambda LASSO tadi (0.109). Ini menunjukkan Elastic Net memberikan penalti yang sedikit lebih “tegas” untuk menyeimbangkan antara seleksi variabel (seperti LASSO) dan stabilitas koefisien (seperti Ridge).

Fit Model Final & Cek Koefisien

# Fit model final
model_en_sumut <- glmnet(x, y, alpha = 0.5, lambda = best_lambda_en, standardize = TRUE)

# Tampilkan koefisien
coef(model_en_sumut)
18 x 1 sparse Matrix of class "dgCMatrix"
                       s0
(Intercept) -2.846282e+01
X1           8.422472e-01
X2           .           
X3          -6.539484e-01
X3          -6.920269e-01
X4          -2.347585e-04
X5           1.167630e-06
X6           2.864076e-02
X7           .           
X8           .           
X9           .           
X10         -1.151518e-05
X11          .           
X12         -2.390109e+00
X13          .           
X14          2.690348e-02
X15          8.998041e-02
X16         -5.841641e-02

Ada fenomena menarik yang terjadi di variabel X3 kamu:

  1. Pembuktian Grouping Effect (X3)

Ingat kan di LASSO tadi salah satu X3 “dimatikan” (jadi hampir nol)? Di Elastic Net, keduanya “dihidupkan” kembali dengan nilai yang hampir mirip (-0.65 dan -0.69). Interpretasinya: Elastic Net mendeteksi bahwa kedua variabel X3 ini (mungkin RLS dan HLS atau data duplikat) memiliki korelasi yang sangat kuat. Alih-alih memilih salah satu secara paksa seperti LASSO, Elastic Net membagi koefisiennya secara adil. Ini membuat model kamu jauh lebih stabil.

  1. Konsistensi Sang Juara (X12) Lagi dan lagi, X12 tetap menjadi pemegang koefisien negatif terbesar (-2.39). Ini membuktikan bahwa apa pun metodenya—Ridge, LASSO, atau Elastic Net—Sanitasi adalah faktor paling dominan dalam menjelaskan kemiskinan di Sumatera Utara. Hasil penelitian kamu sangat robust (tangguh)!

  2. Seleksi Variabel yang Bijak Meskipun tidak segalak LASSO, Elastic Net tetap berhasil membuang variabel yang tidak perlu (X2, X7, X8, X9, X11, X13 tetap jadi titik). Model tetap ringkas tapi tetap menjaga informasi dari variabel yang saling berkaitan.

Hitung Akurasi (The Moment of Truth)

# Prediksi
y_pred_en <- predict(model_en_sumut, s = best_lambda_en, newx = x)

# R-Squared Elastic Net
sst <- sum((y - mean(y))^2)
sse_en <- sum((y_pred_en - y)^2)
rsq_en <- 1 - (sse_en / sst)

# RMSE Elastic Net
rmse_en <- sqrt(mean((y - y_pred_en)^2))

print(paste("R-Squared Elastic Net:", rsq_en))
[1] "R-Squared Elastic Net: 0.884656277578749"
print(paste("RMSE Elastic Net:", rmse_en))
[1] "RMSE Elastic Net: 1.41618262120324"

Wah, hasilnya tipis banget ya! R-Squared Elastic Net kamu (88,46%) hampir setara dengan LASSO (88,64%). Meskipun secara angka LASSO unggul sedikit sekali di digit kedua belakang koma, Elastic Net memberikan stabilitas model yang lebih baik untuk data Sumut.

Plot Koefisien Path Elastic Net

fit_en <- glmnet(x, y, alpha = 0.5, standardize = TRUE)
plot(fit_en, xvar = "lambda", label = TRUE)

  1. Karakteristik “Grouping Effect”

Coba kamu perhatikan garis nomor 3 (hijau/biru muda di bawah). Di grafik ini, garisnya terlihat “berhimpitan” atau berjalan barengan. Inilah Grouping Effect. Di LASSO tadi, salah satunya dipaksa mati, tapi di Elastic Net, karena mereka dianggap satu kelompok (misal variabel pendidikan), mereka diperbolehkan masuk bareng dengan koefisien yang saling menyesuaikan. Ini bikin model kamu lebih stabil dan interpretasinya lebih adil secara ekonomi.

  1. Angka di Atas (0 → 17) Lihat pergerakan angka di atas plot: 0 → 9 → 13 → 17. Ini menunjukkan bahwa Elastic Net tetap melakukan seleksi variabel (seperti LASSO), tapi lebih lambat dan hati-hati. Saat −log(λ) makin ke kanan, variabel mulai masuk satu per satu sampai lengkap 17. Namun, saat penalti diperketat (makin ke kiri), dia menyisakan variabel-variabel yang benar-benar solid.

  2. Tiga Penguasa Sumatera Utara Sama seperti dua model sebelumnya, ada tiga garis yang paling “berani” menjauh dari nol: Garis 13 (Hitam Bawah): Tetap konsisten sebagai variabel paling dominan (Sanitasi). Pengaruhnya terhadap penurunan kemiskinan sangat masif. Garis 1 (Hitam Atas): Variabel kesehatan/morbiditas yang jadi faktor pendorong kemiskinan. Garis 3: Dimensi pendidikan yang stabil mendukung penurunan kemiskinan.

#PEMBAHASAN# Perbandingan Interpretasi Visual : Ridge: Menunjukkan bahwa semua variabel punya peran, meski kecil. LASSO: Menunjukkan efisiensi model dengan membuang variabel yang redundan. Elastic Net : Menunjukkan stabilitas model dengan tetap menjaga variabel yang berkorelasi (grouping) tanpa mengorbankan akurasi.

Syntax Gabungan

# 1. Ambil koefisien dari ketiga model (Pastikan nama modelnya sesuai)
coef_ridge <- as.matrix(coef(model_ridge_final, s = 1.37779764687927))
coef_lasso <- as.matrix(coef(model_lasso_sumut, s = 0.109188107254409))
coef_en    <- as.matrix(coef(model_en_sumut, s = 0.198976273481921))

# 2. Gabungkan menjadi satu tabel
tabel_perbandingan <- data.frame(
  Variabel = rownames(coef_ridge),
  Ridge = as.vector(coef_ridge),
  LASSO = as.vector(coef_lasso),
  Elastic_Net = as.vector(coef_en)
)

# 3. Bulatkan angka biar cantik (4 angka di belakang koma)
tabel_perbandingan[, 2:4] <- round(tabel_perbandingan[, 2:4], 4)

# 4. Tampilkan di Konsol
print(tabel_perbandingan)
      Variabel   Ridge    LASSO Elastic_Net
1  (Intercept) -6.2024 -31.2677    -28.4628
2           X1  0.5571   0.8839      0.8422
3           X2 -0.5941   0.0000      0.0000
4           X3 -0.5078  -1.3528     -0.6539
5           X3 -0.5082   0.0000     -0.6920
6           X4 -0.0002  -0.0002     -0.0002
7           X5  0.0000   0.0000      0.0000
8           X6  0.0164   0.0276      0.0286
9           X7  0.0000   0.0000      0.0000
10          X8  0.0000   0.0000      0.0000
11          X9 -0.0512   0.0000      0.0000
12         X10  0.0000   0.0000      0.0000
13         X11  0.1019   0.0000      0.0000
14         X12 -1.8622  -2.4421     -2.3901
15         X13  0.0182   0.0000      0.0000
16         X14  0.0211   0.0279      0.0269
17         X15  0.0596   0.0933      0.0900
18         X16 -0.0428  -0.0602     -0.0584
# 5. Ekspor ke CSV (Buka pakai Excel nanti)
write.csv(tabel_perbandingan, "Perbandingan_Koefisien_Sumut.csv", row.names = FALSE)

Syntax Tabel Performa Model (R-Square & RMSE)

# Buat tabel performa
tabel_performa <- data.frame(
  Metode = c("Ridge", "LASSO", "Elastic Net"),
  Alpha = c(0, 1, 0.5),
  R_Squared = c(0.8574, 0.8864, 0.8847),
  RMSE = c(1.5747, 1.4052, 1.4162)
)

print(tabel_performa)
       Metode Alpha R_Squared   RMSE
1       Ridge   0.0    0.8574 1.5747
2       LASSO   1.0    0.8864 1.4052
3 Elastic Net   0.5    0.8847 1.4162
# Ekspor
write.csv(tabel_performa, "Performa_Model_Sumut.csv", row.names = FALSE)

Konsistensi Variabel: Sebutkan bahwa variabel X12 (Sanitasi) dan X3 (Pendidikan) secara konsisten menjadi prediktor utama di ketiga metode dengan koefisien negatif yang kuat. Ini menunjukkan hasil yang Robust (Sangat Kuat).

Efisiensi LASSO: LASSO berhasil memberikan akurasi tertinggi (R 2 =88,6%) meskipun telah mereduksi jumlah variabel. Ini membuktikan bahwa tidak semua indikator kemiskinan memiliki pengaruh unik yang signifikan secara statistik di Sumut.

Stabilitas Elastic Net: Elastic Net memberikan hasil yang hampir sama dengan LASSO namun lebih stabil dalam menangani variabel yang saling berkorelasi (seperti dua variabel X3 kamu).

---
title: "R Notebook"
output: html_notebook
---
Halo aku mau nganalsiis kemiskinan menggunakan analisis ridge, lasso dan elastic nett Provinsi Sumatera Utara 
Variabel Y : Persentase Kemiskinan
Variabel X : UHH, HLS, Rata-rata lama sekolah, Pengeluaran per Kapita, Jumlah Total Angkatan Kerja, TPAK (%), Jumlah Penduduk 2025, UMK 2025, TPT, KRT Pertanian, APS, PE, Bahan Bakar Masak, Sanitasi Taklayak, Jenis Lantai taklayak, Keluhan Kesehatan, Laju Penduduk, Rasio JK
Semua Data dari Publikasi dan Tabel Dinamis yang tersedia di web BPS Sumut 


```{r}
library(readxl)
Data <- read_excel("Downloads/analisis kemiskinan data sumut.xlsx")



# Load library
library(glmnet)

# 1. Siapkan Variabel Dependen (Y) -> Persentase Kemiskinan
y <- Data$`Miskin (%)`

# 2. Siapkan Variabel Independen (X) 
# Ambil kolom variabelnya saja (sesuaikan indeks kolomnya)
x <- as.matrix( Data[, c("X1", "X2", "X3", "X3", 
                             "X4", "X5", "X6", "X7", 
                             "X8", "X9", "X10", "X11", 
                             "X12", "X13", 
                             "X14", "X15", "X16")])
```
```{R}
#Mencari lamda terbaik
set.seed(123) # Biar hasil konsisten

# alpha = 0 artinya Ridge Regression
cv_ridge <- cv.glmnet(x, y, alpha = 0, standardize = TRUE)

# Ambil lambda paling optimal
best_lambda <- cv_ridge$lambda.min
print(paste("Lambda Optimal Sumut:", best_lambda))

# Plot lambda (Bagus buat ditaruh di Bab 4)
plot(cv_ridge)

```
Nilai Lambda (λ) 1.37 ini menunjukkan bahwa model Ridge kamu memberikan penalti yang cukup kuat untuk "meredam" multikolinieritas di antara 17 variabel yang kamu punya.

```{r}
#Eksekusi Model Ridge Baru 
# Fit model final
model_ridge_final <- glmnet(x, y, alpha = 0, lambda = best_lambda, standardize = TRUE)

# Tampilkan koefisien
coef(model_ridge_final)
```
```{r}
#Hitung Akurasi (R-Square & MSE)
# Prediksi
y_pred <- predict(model_ridge_final, s = best_lambda, newx = x)

# Hitung R-Squared
sst <- sum((y - mean(y))^2)
sse <- sum((y_pred - y)^2)
rsq <- 1 - (sse / sst)

# Hitung MSE & RMSE
mse <- mean((y - y_pred)^2)
rmse <- sqrt(mse)

print(paste("R-Squared Sumut:", rsq))
print(paste("MSE Sumut:", mse))
print(paste("RMSE Sumut:", rmse))
```
R-Squared 85,7%: "Model yang Sangat Kuat"
RMSE 1.57: "Akurasi Prediksi"

Nilai RMSE 1.57 artinya rata-rata kesalahan prediksi model kamu adalah sekitar 1,57 persen
Kekuatan Ridge: Ridge sukses menangani variabel-variabel yang tadi "berantem" (multikol) dan mendudukkan mereka di porsi yang tepat.

```{r}
# Plot koefisien Ridge
# Kita buat dulu objek fit yang berisi seluruh jalur lambda
fit_ridge <- glmnet(x, y, alpha = 0, standardize = TRUE)

# Sekarang baru di-plot
plot(fit_ridge, xvar = "lambda", label = TRUE)
```
1. Arti Angka "17" di Atas

Angka 17 yang berjejer di bagian atas itu menunjukkan jumlah variabel independen. Di Ridge Regression, angkanya tetap 17 dari ujung kiri sampai ujung kanan. Ini membuktikan bahwa Ridge tidak membuang satu pun variabel, beda sama LASSO yang nanti angkanya bakal berkurang (misal jadi 10, 5, dst).

2. Sumbu X: −log(λ)

Sisi Kanan (Angka Positif): Ini adalah kondisi saat Lambda sangat kecil (penaltinya rendah). Di sini koefisien variabel kamu terlihat "asli" dan bebas berekspresi. Kamu bisa lihat ada garis hitam (nomor 13) yang melesat tajam ke bawah.

Sisi Kiri (Angka Negatif): Ini adalah saat Lambda semakin besar (penalti diperketat). Perhatikan bagaimana semua garis warna-warni itu "dipaksa" mengumpul menuju angka 0.

3. Siapa Garis yang Paling "Nendang"?

Lihat garis yang paling jauh dari garis tengah (0):

Garis Nomor 13 (Hitam ke bawah): Wah, ini adalah variabel paling dominan di Sumut! Berdasarkan data kamu, ini kemungkinan besar adalah Sanitasi/Kualitas Hidup. Dia punya pengaruh negatif yang sangat kuat terhadap kemiskinan.

Garis Nomor 1 (Hitam ke atas): Ini variabel dominan kedua yang pengaruhnya positif (meningkatkan kemiskinan).

Garis Nomor 2, 3, 4: Ini adalah pasukan pendukung yang juga punya pengaruh nyata.


```{r}
# Gunakan lambda optimal yang tadi (1.377)
y_pred_sumut <- predict(model_ridge_final, s = 1.37779764687927, newx = x)
# Membuat dataframe untuk plot
plot_data <- data.frame(Aktual = y, Prediksi = as.vector(y_pred_sumut))

# Plot sederhana
plot(plot_data$Aktual, plot_data$Prediksi,
     main = "Kesesuaian Data Aktual vs Prediksi Ridge (Sumut)",
     xlab = "Data Kemiskinan Aktual (%)",
     ylab = "Hasil Prediksi Ridge (%)",
     pch = 19, col = "darkblue")
abline(0, 1, col = "red", lwd = 2) # Garis ideal

```
1. Garis Merah adalah "Garis Kejujuran"
Garis merah itu adalah garis y=x. Artinya, kalau titik biru pas kena garis merah, prediksi Ridge kamu 100% akurat sama dengan data BPS aslinya. Karena titik-titik kamu ngumpul rapat di situ, berarti model kamu Sakti Mandraguna buat memetakan kemiskinan Sumut.

2. Analisis Titik yang "Melenceng"
Lihat ada dua atau tiga titik di pojok kanan atas yang agak menjauh dari garis merah (prediksinya lebih rendah dari aslinya)?

Itu kemungkinan besar adalah Kabupaten Nias, Nias Barat, atau Nias Utara (yang kemiskinannya di atas 20%).
Analisisnya: Kamu bisa bilang, meskipun model Ridge sudah bagus banget, tapi untuk wilayah kepulauan ekstrem seperti Nias, faktor kemiskinannya mungkin dipengaruhi variabel lain yang belum masuk model (misal: biaya logistik laut atau aksesibilitas geografis yang sangat sulit).

3. "The Power of Ridge"
Di bagian tengah (kemiskinan 5-10%), titik-titiknya rapi banget. Ini membuktikan bahwa untuk mayoritas kabupaten/kota di Sumut daratan, variabel yang kamu pakai (Pendidikan, Sanitasi, Morbiditas) sudah sangat cukup untuk menjelaskan kemiskinan.


##LASSO (Least Absolute Shrinkage and Selection Operator).##
```{r}
set.seed(123)

# Cross-Validation untuk LASSO (alpha = 1)
cv_lasso_sumut <- cv.glmnet(x, y, alpha = 1, standardize = TRUE)

# Ambil lambda terbaik
best_lambda_lasso <- cv_lasso_sumut$lambda.min
print(paste("Lambda Optimal LASSO Sumut:", best_lambda_lasso))

# Plot Cross-Validation LASSO
plot(cv_lasso_sumut)
```
Nilainya cukup kecil, yang artinya LASSO tidak akan terlalu brutal menghapus variabel, tapi tetap akan melakukan filtrasi yang signifikan.


2. Fit Model LASSO & Seleksi Variabel

```{r}
# Fit model final LASSO
model_lasso_sumut <- glmnet(x, y, alpha = 1, lambda = best_lambda_lasso, standardize = TRUE)

# Lihat variabel yang TIDAK nol
coef(model_lasso_sumut)
```
1. Variabel yang "Gugur" (Jadi Titik .)

Variabel X2, X7, X8, X9, X11, dan X13 resmi dieliminasi.

Artinya: LASSO merasa variabel-variabel ini (mungkin TPT, UMK, atau beberapa indikator rumah tinggal) sudah terwakili oleh variabel lain yang lebih kuat. Ini bagus banget, San! Skripsi kamu jadi nggak "obesitas" variabel.

2. Para "Juara Bertahan" (The Key Drivers)

X12 (-2.442): Lagi-lagi variabel Sanitasi/Fasilitas Rumah ini jadi pemenang mutlak. Koefisiennya makin kuat dibanding Ridge tadi. Ini variabel paling krusial buat nurunin kemiskinan di Sumut menurut model LASSO.

X3 (-1.352): Pendidikan (RLS/HLS) terbukti sangat tangguh. LASSO mempertahankan ini dengan koefisien negatif yang besar. Artinya, investasi di pendidikan itu "harga mati" buat Sumut.

X1 (0.883): Dimensi Kesehatan (Morbiditas/Angka Keluhan) tetap bertahan sebagai faktor yang meningkatkan kemiskinan.

3. Fenomena X3 Dua Kali

Nah, di sini kelihatan jelas:

X3 yang pertama punya koefisien -1.35.

X3 yang kedua dapet koefisien -1.13e-14 (alias hampir NOL).
Ini membuktikan kalau ada duplikasi data atau variabel yang sangat mirip di kolom X3 kamu. LASSO secara cerdas "mematikan" salah satunya agar tidak terjadi gangguan multikolinieritas.


#Hitung Akurasi LASSO (Bandingkan dengan Ridge)
```{r}
# Prediksi
y_pred_lasso <- predict(model_lasso_sumut, s = best_lambda_lasso, newx = x)

# R-Squared LASSO
sst <- sum((y - mean(y))^2)
sse_lasso <- sum((y_pred_lasso - y)^2)
rsq_lasso <- 1 - (sse_lasso / sst)

# RMSE LASSO
rmse_lasso <- sqrt(mean((y - y_pred_lasso)^2))

print(paste("R-Squared LASSO:", rsq_lasso))
print(paste("RMSE LASSO:", rmse_lasso))
```
R-Squared LASSO (88,6%) ternyata LEBIH TINGGI daripada Ridge (85,7%). Padahal LASSO sudah membuang beberapa variabel, tapi akurasinya justru makin tajam. Ini namanya model yang lean, mean, and powerful.

1. Kenapa LASSO Menang dari Ridge?
Biasanya Ridge lebih unggul kalau semua variabel punya pengaruh kecil yang merata. Tapi di data Sumut kamu, LASSO menang karena:
Efek Pembersihan: Dengan membuang variabel "sampah" atau yang duplikat (seperti X3 kedua yang hampir nol), LASSO menghilangkan gangguan (noise) dalam model.
Fokus pada Core Drivers: LASSO berhasil menemukan "sinyal" yang paling kuat dari variabel Sanitasi (X12) dan Pendidikan (X3).

2. Akurasi Luar Biasa (RMSE 1.40)
Nilai RMSE kamu turun dari 1.57 (Ridge) ke 1.40 (LASSO). Artinya, rata-rata melesetnya prediksi kamu cuma 1,4 persen poin. Untuk data kemiskinan yang variasinya lebar banget (Nias vs Deli Serdang), ini akurasi yang "sangat ngeri" bagusnya.

#Plot Perjalanan Seleksi (Coefficient Path)
```{r}
fit_lasso <- glmnet(x, y, alpha = 1, standardize = TRUE)
plot(fit_lasso, xvar = "lambda", label = TRUE)
```
1. Proses Seleksi Otomatis (Garis yang "Mati")
Perhatikan sisi kiri grafik (saat −log(λ) mendekati 0 atau angka negatif). Banyak garis yang tadinya warna-warni tiba-tiba menghilang dan menyatu ke garis nol. Itu adalah variabel-variabel "lemah" yang dipangkas oleh LASSO. atau bisa bilang: "Grafik ini membuktikan bahwa LASSO berhasil menyederhanakan model dari 17 prediktor menjadi hanya sekitar 11 prediktor utama tanpa kehilangan akurasi."

2. Tiga Naga Utama (Garis yang Bertahan Paling Lama)

Lihat tiga garis yang paling lebar jaraknya dari nol:
Garis Nomor 13 (Hitam paling bawah): Ini variabel paling "sakti"  (Sanitasi). Lihat betapa dia bertahan paling ujung, nggak mau menyerah ke angka nol. Artinya, sanitasi adalah akar masalah kemiskinan paling nyata di Sumut.
Garis Nomor 3 (Hijau/Biru muda di bawah): Ini Pendidikan (RLS). Dia juga sangat dominan dan konsisten.
Garis Nomor 1 (Hitam paling atas): Ini faktor kesehatan/morbiditas yang terus memperparah kemiskinan.

3. "The Sweet Spot"

Lambda optimal  ada di sekitar angka 6 (pada skala atas), di mana model  menyisakan sekitar 11 variabel. Di situlah R-Squared kamu mencapai 88,6%.


##Elastic Nett
1. Mencari Alpha dan Lambda Terbaik
Di Elastic Net, nggak cuma cari Lambda (λ), tapi juga cari Alpha (α).
Alpha = 0 (Ridge)
Alpha = 1 (LASSO)
0 < Alpha < 1 (Elastic Net) -> Biasanya kita pakai 0.5 sebagai titik tengah.

```{r}
set.seed(123)

# Kita coba Alpha = 0.5 (Kombinasi 50-50 Ridge & LASSO)
cv_en_sumut <- cv.glmnet(x, y, alpha = 0.5, standardize = TRUE)

# Ambil Best Lambda
best_lambda_en <- cv_en_sumut$lambda.min
print(paste("Lambda Optimal Elastic Net:", best_lambda_en))

# Plot Cross-Validation
plot(cv_en_sumut)

```
Nilainya 0.198, sedikit lebih tinggi dari lambda LASSO tadi (0.109). Ini menunjukkan Elastic Net memberikan penalti yang sedikit lebih "tegas" untuk menyeimbangkan antara seleksi variabel (seperti LASSO) dan stabilitas koefisien (seperti Ridge).

Fit Model Final & Cek Koefisien
```{r}
# Fit model final
model_en_sumut <- glmnet(x, y, alpha = 0.5, lambda = best_lambda_en, standardize = TRUE)

# Tampilkan koefisien
coef(model_en_sumut)
```
Ada fenomena menarik yang terjadi di variabel X3 kamu:

1. Pembuktian Grouping Effect (X3)

Ingat kan di LASSO tadi salah satu X3 "dimatikan" (jadi hampir nol)? Di Elastic Net, keduanya "dihidupkan" kembali dengan nilai yang hampir mirip (-0.65 dan -0.69).
Interpretasinya: Elastic Net mendeteksi bahwa kedua variabel X3 ini (mungkin RLS dan HLS atau data duplikat) memiliki korelasi yang sangat kuat. Alih-alih memilih salah satu secara paksa seperti LASSO, Elastic Net membagi koefisiennya secara adil. Ini membuat model kamu jauh lebih stabil.

2. Konsistensi Sang Juara (X12)
Lagi dan lagi, X12 tetap menjadi pemegang koefisien negatif terbesar (-2.39). Ini membuktikan bahwa apa pun metodenya—Ridge, LASSO, atau Elastic Net—Sanitasi adalah faktor paling dominan dalam menjelaskan kemiskinan di Sumatera Utara. Hasil penelitian kamu sangat robust (tangguh)!

3. Seleksi Variabel yang Bijak
Meskipun tidak segalak LASSO, Elastic Net tetap berhasil membuang variabel yang tidak perlu (X2, X7, X8, X9, X11, X13 tetap jadi titik). Model  tetap ringkas tapi tetap menjaga informasi dari variabel yang saling berkaitan.


Hitung Akurasi (The Moment of Truth)
```{r}
# Prediksi
y_pred_en <- predict(model_en_sumut, s = best_lambda_en, newx = x)

# R-Squared Elastic Net
sst <- sum((y - mean(y))^2)
sse_en <- sum((y_pred_en - y)^2)
rsq_en <- 1 - (sse_en / sst)

# RMSE Elastic Net
rmse_en <- sqrt(mean((y - y_pred_en)^2))

print(paste("R-Squared Elastic Net:", rsq_en))
print(paste("RMSE Elastic Net:", rmse_en))
```
Wah, hasilnya tipis banget ya! R-Squared Elastic Net kamu (88,46%) hampir setara dengan LASSO (88,64%). Meskipun secara angka LASSO unggul sedikit sekali di digit kedua belakang koma, Elastic Net memberikan stabilitas model yang lebih baik untuk data Sumut. 


Plot Koefisien Path Elastic Net
```{r}
fit_en <- glmnet(x, y, alpha = 0.5, standardize = TRUE)
plot(fit_en, xvar = "lambda", label = TRUE)
```
1. Karakteristik "Grouping Effect"

Coba kamu perhatikan garis nomor 3 (hijau/biru muda di bawah). Di grafik ini, garisnya terlihat "berhimpitan" atau berjalan barengan.
Inilah Grouping Effect. Di LASSO tadi, salah satunya dipaksa mati, tapi di Elastic Net, karena mereka dianggap satu kelompok (misal variabel pendidikan), mereka diperbolehkan masuk bareng dengan koefisien yang saling menyesuaikan.
Ini bikin model kamu lebih stabil dan interpretasinya lebih adil secara ekonomi.

2. Angka di Atas (0 → 17)
Lihat pergerakan angka di atas plot:
0 → 9 → 13 → 17.
Ini menunjukkan bahwa Elastic Net tetap melakukan seleksi variabel (seperti LASSO), tapi lebih lambat dan hati-hati.
Saat −log(λ) makin ke kanan, variabel mulai masuk satu per satu sampai lengkap 17. Namun, saat penalti diperketat (makin ke kiri), dia menyisakan variabel-variabel yang benar-benar solid.

3. Tiga Penguasa Sumatera Utara
Sama seperti dua model sebelumnya, ada tiga garis yang paling "berani" menjauh dari nol:
Garis 13 (Hitam Bawah): Tetap konsisten sebagai variabel paling dominan (Sanitasi). Pengaruhnya terhadap penurunan kemiskinan sangat masif.
Garis 1 (Hitam Atas): Variabel kesehatan/morbiditas yang jadi faktor pendorong kemiskinan.
Garis 3: Dimensi pendidikan yang stabil mendukung penurunan kemiskinan.



#PEMBAHASAN#
Perbandingan Interpretasi Visual :
Ridge: Menunjukkan bahwa semua variabel punya peran, meski kecil.
LASSO: Menunjukkan efisiensi model dengan membuang variabel yang redundan.
Elastic Net : Menunjukkan stabilitas model dengan tetap menjaga variabel yang berkorelasi (grouping) tanpa mengorbankan akurasi.

Syntax Gabungan 
```{r}
# 1. Ambil koefisien dari ketiga model (Pastikan nama modelnya sesuai)
coef_ridge <- as.matrix(coef(model_ridge_final, s = 1.37779764687927))
coef_lasso <- as.matrix(coef(model_lasso_sumut, s = 0.109188107254409))
coef_en    <- as.matrix(coef(model_en_sumut, s = 0.198976273481921))

# 2. Gabungkan menjadi satu tabel
tabel_perbandingan <- data.frame(
  Variabel = rownames(coef_ridge),
  Ridge = as.vector(coef_ridge),
  LASSO = as.vector(coef_lasso),
  Elastic_Net = as.vector(coef_en)
)

# 3. Bulatkan angka biar cantik (4 angka di belakang koma)
tabel_perbandingan[, 2:4] <- round(tabel_perbandingan[, 2:4], 4)

# 4. Tampilkan di Konsol
print(tabel_perbandingan)

# 5. Ekspor ke CSV (Buka pakai Excel nanti)
write.csv(tabel_perbandingan, "Perbandingan_Koefisien_Sumut.csv", row.names = FALSE)
```

Syntax Tabel Performa Model (R-Square & RMSE)
```{r}
# Buat tabel performa
tabel_performa <- data.frame(
  Metode = c("Ridge", "LASSO", "Elastic Net"),
  Alpha = c(0, 1, 0.5),
  R_Squared = c(0.8574, 0.8864, 0.8847),
  RMSE = c(1.5747, 1.4052, 1.4162)
)

print(tabel_performa)

# Ekspor
write.csv(tabel_performa, "Performa_Model_Sumut.csv", row.names = FALSE)
```

Konsistensi Variabel: Sebutkan bahwa variabel X12 (Sanitasi) dan X3 (Pendidikan) secara konsisten menjadi prediktor utama di ketiga metode dengan koefisien negatif yang kuat. Ini menunjukkan hasil yang Robust (Sangat Kuat).

Efisiensi LASSO: LASSO berhasil memberikan akurasi tertinggi (R 2 =88,6%) meskipun telah mereduksi jumlah variabel. Ini membuktikan bahwa tidak semua indikator kemiskinan memiliki pengaruh unik yang signifikan secara statistik di Sumut.

Stabilitas Elastic Net: Elastic Net memberikan hasil yang hampir sama dengan LASSO namun lebih stabil dalam menangani variabel yang saling berkorelasi (seperti dua variabel X3 kamu).








