R Notebook

library(readxl)
DATA_INFRAS_DAN_PE <- read_excel("Downloads/DATA INFRAS DAN PE.xlsx")

# 1. Jalankan Regresi Linear Berganda
# y = pertumbuhan_ekonomi, x = jalan, listrik, ipm
model_ols <- lm(DATA_INFRAS_DAN_PE$PE_ ~ DATA_INFRAS_DAN_PE$P.Jalan+ DATA_INFRAS_DAN_PE$air.layak + DATA_INFRAS_DAN_PE$listrik + DATA_INFRAS_DAN_PE$Faskes + DATA_INFRAS_DAN_PE$`Dana,Kab` + DATA_INFRAS_DAN_PE$Inves + DATA_INFRAS_DAN_PE$Sekolah + DATA_INFRAS_DAN_PE$IPM + DATA_INFRAS_DAN_PE$Hotel)


# 2. Lihat ringkasan hasil (Koefisien, R-squared, p-value)
summary(model_ols)

## 
## Call:
## lm(formula = DATA_INFRAS_DAN_PE$PE_ ~ DATA_INFRAS_DAN_PE$P.Jalan + 
##     DATA_INFRAS_DAN_PE$air.layak + DATA_INFRAS_DAN_PE$listrik + 
##     DATA_INFRAS_DAN_PE$Faskes + DATA_INFRAS_DAN_PE$`Dana,Kab` + 
##     DATA_INFRAS_DAN_PE$Inves + DATA_INFRAS_DAN_PE$Sekolah + DATA_INFRAS_DAN_PE$IPM + 
##     DATA_INFRAS_DAN_PE$Hotel)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.25476 -0.03459  0.06432  0.19586  0.52505 
## 
## Coefficients:
##                                 Estimate Std. Error t value Pr(>|t|)
## (Intercept)                    2.280e+00  5.216e+00   0.437    0.672
## DATA_INFRAS_DAN_PE$P.Jalan     2.220e-03  3.565e-03   0.623    0.549
## DATA_INFRAS_DAN_PE$air.layak  -3.299e-02  2.330e-02  -1.416    0.190
## DATA_INFRAS_DAN_PE$listrik    -4.600e-06  9.254e-06  -0.497    0.631
## DATA_INFRAS_DAN_PE$Faskes      1.965e-03  1.390e-03   1.414    0.191
## DATA_INFRAS_DAN_PE$`Dana,Kab`  3.279e-07  2.947e-06   0.111    0.914
## DATA_INFRAS_DAN_PE$Inves       7.274e-08  6.600e-08   1.102    0.299
## DATA_INFRAS_DAN_PE$Sekolah     1.872e-03  6.518e-03   0.287    0.780
## DATA_INFRAS_DAN_PE$IPM         4.799e-02  7.533e-02   0.637    0.540
## DATA_INFRAS_DAN_PE$Hotel      -1.281e-03  4.211e-03  -0.304    0.768
## 
## Residual standard error: 0.5337 on 9 degrees of freedom
## Multiple R-squared:  0.4202, Adjusted R-squared:  -0.1597 
## F-statistic: 0.7246 on 9 and 9 DF,  p-value: 0.6804

dapat dilihat bahwa steror = 0,5337 adj R-squared = 68% F statistik (Simultan) 0,76 tidak signifikan dan T Sttistik tidak ada yang signifikan

# Fungsi manual hitung VIF
vif_manual <- function(model) {
  v <- summary(model)$coefficients[,1]
  # Mengambil nilai R-squared dari regresi antar variabel X
  # Kita pakai fungsi diag(solve(cor(dat))) tapi ini cara paling simpel:
  dat <- model$model[,-1] # ambil data variabel X saja
  vifs <- sapply(seq_len(ncol(dat)), function(i) {
    y <- dat[,i]
    x <- dat[,-i]
    r_sq <- summary(lm(y ~ as.matrix(x)))$r.squared
    1/(1 - r_sq)
  })
  names(vifs) <- colnames(dat)
  return(vifs)
}

# Jalankan fungsinya pada model kamu
vif_manual(model_ols)

##    DATA_INFRAS_DAN_PE$P.Jalan  DATA_INFRAS_DAN_PE$air.layak 
##                  2.392866e+00                  1.901472e+06 
##    DATA_INFRAS_DAN_PE$listrik     DATA_INFRAS_DAN_PE$Faskes 
##                  3.851628e+01                  1.912830e+06 
## DATA_INFRAS_DAN_PE$`Dana,Kab`      DATA_INFRAS_DAN_PE$Inves 
##                  9.908260e+01                  1.541831e+00 
##    DATA_INFRAS_DAN_PE$Sekolah        DATA_INFRAS_DAN_PE$IPM 
##                  1.815325e+01                  3.594762e+01 
##      DATA_INFRAS_DAN_PE$Hotel 
##                  2.488706e+00

VIF diatas 20 sehingga semua variabel multikol

karena analisis menggunakan RLB terdapat multikol, maka dilanjutkan dengan analisis ridge

# Install glmnet jika belum ada
# install.packages("glmnet")
library(glmnet)

## Loading required package: Matrix

## Loaded glmnet 4.1-10

# Ganti 'DATA_INFRAS_DAN_PE' dengan nama dataframe kamu yang sebenarnya
# Kita ambil semua variabel X yang tadi kamu uji VIF-nya
x <- as.matrix(DATA_INFRAS_DAN_PE[, c("P.Jalan", "air.layak", "listrik", 
                                     "Faskes", "Dana,Kab", "Inves", 
                                     "Sekolah", "IPM", "Hotel")])

y <- DATA_INFRAS_DAN_PE$PE_ # Sesuaikan nama kolom Y kamu

# Set seed supaya hasilnya konsisten saat di-run ulang
set.seed(123)

# cv.glmnet dengan alpha = 0 (khusus untuk Ridge)
cv_ridge <- cv.glmnet(x, y, alpha = 0)

## Warning: Option grouped=FALSE enforced in cv.glmnet, since < 3 observations per
## fold

# Ambil lambda terbaik
best_lambda <- cv_ridge$lambda.min
print(paste("Nilai Lambda Terbaik:", best_lambda))

## [1] "Nilai Lambda Terbaik: 0.0738813611141223"

# Visualisasi Lambda vs Error (Bagus buat ditaruh di Lampiran Skripsi)
plot(cv_ridge)

Nilai Lambda Terbaik: 0.074. Nilai lambda yang cenderung kecil (mendekati nol tapi tidak nol) menunjukkan bahwa model Ridge kamu hanya memberikan penalti yang subtle (halus) untuk menstabilkan model tanpa menghilangkan informasi penting dari variabel infrastrukturmu.

# Fit model final
model_ridge <- glmnet(x, y, alpha = 0, lambda = best_lambda)

# Tampilkan koefisien
coef(model_ridge)

## 10 x 1 sparse Matrix of class "dgCMatrix"
##                        s0
## (Intercept)  4.014131e+00
## P.Jalan      1.764725e-03
## air.layak   -1.165888e-05
## listrik     -1.013782e-06
## Faskes      -6.886563e-07
## Dana,Kab     5.335850e-08
## Inves        3.769376e-08
## Sekolah      5.335475e-04
## IPM         -9.781676e-03
## Hotel       -1.925984e-03

Cara Baca Koefisien (Format e-03, e-05, dll)

Ingat, e-03 itu artinya ada 3 angka nol di depan (termasuk sebelum koma).

Intercept (4.014): Artinya kalau semua infrastruktur nol, dasar pertumbuhan ekonomi Sumbar ada di kisaran 4.01%. Ini angka yang sangat logis buat Sumbar.

P.Jalan (1.76e-03): Nilainya positif! Artinya setiap kenaikan panjang jalan, ada kontribusi positif ke pertumbuhan ekonomi.

Sekolah (5.33e-04): Juga positif. Berarti infrastruktur pendidikan berpengaruh baik.

Kenapa Ada yang Negatif (e-05, e-06)?

Kamu mungkin bingung, “Gem, kok air layak, listrik, sama IPM malah negatif?”

Nilainya sangat mendekati nol: Lihat pangkatnya, ada yang sampai e-07 (0.0000006). Secara praktis, angka ini dianggap hampir tidak berpengaruh atau pengaruhnya sangat kecil sehingga tertutup oleh variabel lain yang lebih dominan (seperti Jalan dan Sekolah).

Karakteristik Ridge: Ridge tidak membuang variabel (tidak jadi nol), tapi dia “menekan” variabel yang dianggap kurang penting atau yang multikolnya paling parah tadi agar tidak merusak model.

# Prediksi nilai Y berdasarkan model Ridge
y_predicted <- predict(model_ridge, s = best_lambda, newx = x)

# Hitung R-Squared Manual
sst <- sum((y - mean(y))^2)
sse <- sum((y_predicted - y)^2)
rsq <- 1 - (sse / sst)
print(paste("R-Squared Model Ridge:", rsq))

## [1] "R-Squared Model Ridge: 0.271935489099429"

ngka 27.19% itu memang kelihatan kecil kalau dibandingin sama standar penelitian laboratorium atau teknik, tapi buat data Ekonomi Makro (apalagi level Kabupaten/Kota), angka itu sebenarnya masih sangat wajar.

y_predicted <- predict(model_ridge, s = 0.07388136, newx = x)
sst <- sum((y - mean(y))^2)
sse <- sum((y_predicted - y)^2)
rsq <- 1 - (sse / sst)
print(rsq)

## [1] 0.2719355

# Plot koefisien untuk melihat mana yang paling berpengaruh
plot(model_ridge, xvar = "lambda", label = TRUE)

# 1. Hitung MSE secara manual
mse_ridge <- mean((y - y_predicted)^2)
print(paste("MSE Model Ridge:", mse_ridge))

## [1] "MSE Model Ridge: 0.169425052527089"

# 2. Tambahan: Hitung RMSE (Root Mean Squared Error) 
# Ini lebih enak dibaca karena satuannya sama dengan data asli pertumbuhan ekonomi kamu
rmse_ridge <- sqrt(mse_ridge)
print(paste("RMSE Model Ridge:", rmse_ridge))

## [1] "RMSE Model Ridge: 0.411612745826814"

MSE (Mean Squared Error) itu gunanya untuk melihat seberapa jauh rata-rata penyimpangan prediksi model kamu dari data aslinya. Semakin kecil MSE, semakin akurat model Ridge kamu.

Wih, cakep banget itu angkanya, San! Serius, jangan minder lagi sama R-Square yang tadi. Angka RMSE 0.41 itu adalah “penyelamat” skripsi kamu.

Begini cara kamu membungkus hasil ini biar kelihatan keren di depan dosbing:

Apa arti RMSE 0.41?

Data pertumbuhan ekonomi kamu tadi kan berkisar di angka 2% sampai 4%. Dengan RMSE 0.41, artinya rata-rata kesalahan prediksi model kamu cuma sekitar 0,41 persen poin.

Contohnya: Kalau model kamu menebak pertumbuhan ekonomi Kabupaten Agam itu 3,0%, kenyataan di lapangan (data BPS) paling cuma meleset di antara 2,6% atau 3,4%.

Untuk level ekonomi makro, akurasi dengan margin eror sekecil itu sudah sangat presisi.