Analisis Regresi Linear Berganda
IPM Jawa Tengah 2022
Indeks Pembangunan Manusia (IPM) merupakan salah satu indikator penting yang digunakan untuk mengukur tingkat kesejahteraan masyarakat di suatu wilayah. IPM menggambarkan pencapaian pembangunan manusia berdasarkan tiga dimensi utama, yaitu kesehatan, pendidikan, dan standar hidup yang layak.
Dalam penelitian ini, dilakukan analisis terhadap data IPM kabupaten/kota di Provinsi Jawa Tengah tahun 2022 dengan menggunakan metode Regresi Linear Berganda. Metode ini digunakan untuk mengetahui hubungan serta pengaruh beberapa variabel penjelas terhadap variabel respon.
Melalui analisis Regresi Linear Berganda diharapkan dapat diketahui seberapa besar pengaruh masing-masing variabel prediktor terhadap IPM serta memperoleh model yang dapat digunakan untuk menjelaskan hubungan antar variabel tersebut.
Data yang digunakan dalam analisis ini merupakan data Indeks Pembangunan Manusia (IPM) kabupaten/kota di Provinsi Jawa Tengah tahun 2022.
Variabel yang digunakan dalam analisis ini meliputi:
Data dibaca ke dalam R menggunakan fungsi read.csv() dengan pemisah ;
## Nama.Wilayah IPM HLS UHH RLS
## 1 Cilacap 70.99 12.66 74.59 7.18
## 2 Banyumas 73.17 13.21 74.16 7.78
## 3 Purbalingga 69.54 12.01 73.89 7.33
## 4 Banjarnegara 68.61 11.81 74.40 6.84
## 5 Kebumen 70.79 13.36 74.85 7.85
## 6 Purworejo 73.60 13.52 75.20 8.32
Dataset terdiri dari 35 observasi dan 5 variabel yaitu Nama_Wilayah, IPM, HLS, UHH, dan RLS.
## 'data.frame': 35 obs. of 5 variables:
## $ Nama.Wilayah: chr "Cilacap" "Banyumas" "Purbalingga" "Banjarnegara" ...
## $ IPM : num 71 73.2 69.5 68.6 70.8 ...
## $ HLS : num 12.7 13.2 12 11.8 13.4 ...
## $ UHH : num 74.6 74.2 73.9 74.4 74.8 ...
## $ RLS : num 7.18 7.78 7.33 6.84 7.85 8.32 6.88 7.81 8.08 9.09 ...
## Nama.Wilayah IPM HLS UHH
## Length:35 Min. :67.03 Min. :11.78 Min. :73.80
## Class :character 1st Qu.:70.78 1st Qu.:12.45 1st Qu.:74.45
## Mode :character Median :73.15 Median :12.91 Median :74.93
## Mean :73.50 Mean :13.02 Mean :75.43
## 3rd Qu.:75.89 3rd Qu.:13.35 3rd Qu.:76.36
## Max. :84.35 Max. :15.54 Max. :77.82
## RLS
## Min. : 6.350
## 1st Qu.: 7.295
## Median : 7.790
## Mean : 8.141
## 3rd Qu.: 8.895
## Max. :10.950
Berdasarkan hasil statistik deskriptif diperoleh informasi sebagai berikut:
Tahap prapemrosesan dilakukan untuk memastikan tipe data setiap variabel sesuai untuk analisis regresi.
# Mengubah variabel Nama Wilayah menjadi tipe karakter
if("Nama Wilayah" %in% names(data)) {
data$`Nama Wilayah` <- as.character(data$`Nama Wilayah`)
}
# Pastikan variabel utama numerik
data$IPM <- as.numeric(data$IPM)
data$HLS <- as.numeric(data$HLS)
data$UHH <- as.numeric(data$UHH)
data$RLS <- as.numeric(data$RLS)
summary(data[, c("IPM","HLS","UHH","RLS")])## IPM HLS UHH RLS
## Min. :67.03 Min. :11.78 Min. :73.80 Min. : 6.350
## 1st Qu.:70.78 1st Qu.:12.45 1st Qu.:74.45 1st Qu.: 7.295
## Median :73.15 Median :12.91 Median :74.93 Median : 7.790
## Mean :73.50 Mean :13.02 Mean :75.43 Mean : 8.141
## 3rd Qu.:75.89 3rd Qu.:13.35 3rd Qu.:76.36 3rd Qu.: 8.895
## Max. :84.35 Max. :15.54 Max. :77.82 Max. :10.950
Rata-rata dari masing-masing variabel adalah:
Eksplorasi data dilakukan untuk melihat hubungan awal antara variabel respon IPM dengan variabel prediktor yaitu HLS, UHH, dan RLS.
Scatter plot digunakan untuk melihat pola hubungan antara variabel respon dan variabel prediktor secara visual.
•> IPM vs HLS
ggplot(data, aes(x = HLS, y = IPM)) +
geom_point() + geom_smooth(method="lm", se=FALSE) +
labs(title="Scatterplot IPM vs HLS")Berdasarkan scatter plot antara IPM dan HLS, terlihat adanya kecenderungan hubungan yang positif, dimana nilai IPM cenderung meningkat seiring dengan meningkatnya nilai HLS.
•> IPM vs UHH
ggplot(data, aes(x = UHH, y = IPM)) +
geom_point() + geom_smooth(method="lm", se=FALSE) +
labs(title="Scatterplot IPM vs UHH")Scatter plot antara IPM dan UHH juga menunjukkan pola hubungan positif, dimana wilayah dengan UHH yang lebih tinggi cenderung memiliki nilai IPM yang lebih tinggi.
•> IPM vs RLS
ggplot(data, aes(x = RLS, y = IPM)) +
geom_point() + geom_smooth(method="lm", se=FALSE) +
labs(title="Scatterplot IPM vs RLS")Begitu pula scatter plot antara IPM dan RLS memperlihatkan pola hubungan positif yang cukup kuat, dimana peningkatan RLS diikuti dengan peningkatan nilai IPM.
Secara umum, ketiga variabel prediktor menunjukkan kecenderungan hubungan positif terhadap IPM, sehingga variabel tersebut berpotensi digunakan dalam model regresi linear berganda.
## IPM HLS UHH RLS
## IPM 1.0000000 0.9287522 0.8273528 0.9718182
## HLS 0.9287522 1.0000000 0.7719177 0.9153519
## UHH 0.8273528 0.7719177 1.0000000 0.7856653
## RLS 0.9718182 0.9153519 0.7856653 1.0000000
Interpretasi hasil korelasi:
Nilai korelasi yang cukup tinggi antar variabel prediktor ini dapat mengindikasikan adanya potensi multikolinieritas, sehingga perlu dilakukan pengujian lebih lanjut pada tahap analisis regresi.
Model regresi linear berganda digunakan untuk mengetahui pengaruh variabel Harapan Lama Sekolah (HLS), Umur Harapan Hidup (UHH), dan Rata-rata Lama Sekolah (RLS) terhadap Indeks Pembangunan Manusia (IPM).
Bentuk umum model regresi linear berganda adalah:
\[ IPM = \beta_0 + \beta_1 HLS + \beta_2 UHH + \beta_3 RLS + \epsilon \]
dengan:
\(\beta_0\) : intercept (konstanta)
\(\beta_1, \beta_2, \beta_3\) : koefisien regresi
\(\epsilon\) : error
Estimasi parameter model dilakukan menggunakan metode Ordinary Least Squares (OLS) dengan fungsi lm() pada R.
##
## Call:
## lm(formula = IPM ~ HLS + UHH + RLS, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.06604 -0.64736 0.08906 0.48848 1.88223
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.8668 13.4211 0.437 0.6650
## HLS 0.9509 0.4364 2.179 0.0371 *
## UHH 0.4739 0.1989 2.383 0.0235 *
## RLS 2.3965 0.3251 7.371 2.67e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9211 on 31 degrees of freedom
## Multiple R-squared: 0.961, Adjusted R-squared: 0.9573
## F-statistic: 254.9 on 3 and 31 DF, p-value: < 2.2e-16
b <- coef(model)
b0 <- round(b[1],4)
b1 <- round(b["HLS"],4)
b2 <- round(b["UHH"],4)
b3 <- round(b["RLS"],4)\[ \widehat{IPM} = 5.8668 + 0.9509(HLS) + 0.4739(UHH) + 2.3965(RLS) \]
Interpretasi koefisien model:
Nilai fitted value merupakan nilai prediksi yang dihasilkan oleh model regresi, sedangkan residual merupakan selisih antara nilai aktual dengan nilai prediksi.
•> Nilai fitted
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 67.61 70.54 72.77 73.50 75.38 83.61
Berdasarkan hasil ringkasan tersebut diperoleh bahwa nilai fitted value memiliki rata-rata sebesar 73.50, yang menunjukkan nilai prediksi IPM rata-rata yang dihasilkan oleh model.
•> Nilai residual
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -2.06604 -0.64736 0.08906 0.00000 0.48848 1.88223
Sedangkan nilai residual memiliki rata-rata mendekati 0, yang menunjukkan bahwa model regresi telah memenuhi salah satu sifat dasar residual pada model regresi.
Sebelum model regresi digunakan untuk interpretasi lebih lanjut, perlu dilakukan pengujian terhadap beberapa asumsi dasar regresi.
Uji normalitas digunakan untuk mengetahui apakah residual pada model regresi berdistribusi normal atau tidak.
•> Secara Visual
Berdasarkan grafik Normal Q-Q Plot dapat dilihat bahwa plot mengikuti garis lurus, sehingga dapat disimpulkan bahwa residual berdistribusi normal. Maka asumsi normalitas terpenuhi secara visual.
•> Secara Formal
Hipotesis
H₀ : residual data berdistribusi normal
H₁ : residual data tidak berdistribusi normal
Taraf Signifikansi
\(\alpha\) = 5%
Statistik Uji
##
## Shapiro-Wilk normality test
##
## data: resid_val
## W = 0.9881, p-value = 0.9631
Berdasarkan output uji normalitas menggunakan Shapiro–Wilk test, diperoleh nilai statistik uji sebesar 0.97228 ≈ 0.972 dengan nilai p-value sebesar 0.9631.
Daerah Kritis
Tolak H₀ jika nilai p-value < \(\alpha\) (0.05).
Keputusan
H₀ gagal ditolak karena nilai p-value (0.9631) > \(\alpha\) (0.05).
Kesimpulan
Pada taraf signifikansi 5%, H₀ gagal ditolak karena nilai p-value (0.9631) > \(\alpha\) (0.05) sehingga dapat disimpulkan bahwa residual data berdistribusi normal.
Uji linieritas bertujuan untuk mengetahui apakah hubungan antara variabel prediktor dan variabel respon bersifat linear.
•> Secara Visual
plot(fitted_val, resid_val,
xlab = "Fitted Values",
ylab = "Residuals",
main = "Residual vs Fitted")
abline(h = 0, lty = 2)Berdasarkan grafik Residual vs Fitted di atas dapat dilihat bahwa plot data menyebar secara acak atau tidak membentuk pola tertentu, maka dapat disimpulkan bahwa uji linieritas secara visual terpenuhi.
•> Secara Formal
Hipotesis
H₀ : Terdapat hubungan yang linear
H₁ : Tidak terdapat hubungan yang linear
Taraf signifikansi
\(\alpha\) = 5%
Statistik Uji
##
## RESET test
##
## data: model
## RESET = 1.858, df1 = 2, df2 = 29, p-value = 0.1741
Berdasarkan hasil uji diperoleh nilai p-value sebesar 0.1741
Daerah Kritis
Tolak H₀ jika p-value < \(\alpha\) (0.05).
Keputusan
H₀ gagal ditola* karena nilai p-value (0.1741) > \(\alpha\) (0.05).
Kesimpulan
Pada taraf signifikansi 5%, H₀ gagal ditolak karena nilai p-value (0.1741) > \(\alpha\) (0.05) sehingga dapat disimpulkan bahwa terdapat hubungan yang linier antara variabel X₁, X₂, dan X₃ dengan variabel Y.
Uji homoskedastisitas dilakukan untuk mengetahui apakah varians residual pada model regresi bersifat konstan atau tidak.
•> Secara Visual
Berdasarkan output diatas, dapat dilihat bahwa plot menyebar secara acak sehingga dapat disimpulkan bahwa asumsi homoskedastisitas secara visual terpenuhi.
•> Secara Formal
Hipotesis
H₀ : Tidak terjadi gejala heteroskedastisitas (varians residual konstan)
H₁ : Terdapat gejala heteroskedastisitas (varians residual tidak konstan)
Taraf signifikansi
\(\alpha\) = 5%
Statistik Uji
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 1.271, df = 3, p-value = 0.736
Berdasarkan hasil uji diperoleh nilai p-value sebesar 0.736
Daerah Kritis
Tolak H₀ jika p-value < \(\alpha\) (0.05).
Keputusan
H₀ gagal ditolak karena nilai p-value (0.736) > \(\alpha\) (0.05).
Kesimpulan
Pada taraf signifikansi 5%, H₀ gagal ditolak karena nilai p-value (0.736) > \(\alpha\) (0.05) sehingga dapat disimpulkan bahwa tidak terjadi gejala heteroskedastisitas atau dengan kata lain asumsi homoskedastisitas terpenuhi.
Uji autokorelasi dilakukan untuk mengetahui apakah terdapat korelasi antara residual (error) pada suatu observasi dengan residual pada observasi lainnya dalam model regresi.
Hipotesis
Taraf Signifikansi
Statistik Uji
##
## Durbin-Watson test
##
## data: model
## DW = 1.7504, p-value = 0.1571
## alternative hypothesis: true autocorrelation is greater than 0
Pada output di atas diperoleh nilai Durbin–Watson (DW) sebesar 1.7504 dengan nilai p-value sebesar 0.1571.
Dengan \(\alpha\) = 5%, \(n = 35\), dan \(k = 3\) diperoleh nilai:
Daerah Kritis
Tolak H₀ jika p-value < \(\alpha\) (0.05).
Keputusan dan Kesimpulan
Pada taraf signifikansi 5%, diperoleh nilai DW = 1.7504 yang berada pada interval \(d_U < DW < 4 - d_U\), yaitu (1.6528 < 1.7504 < 2.3472). Selain itu, nilai p-value (0.1571) > \(\alpha\) (0.05).
Dengan demikian H₀ gagal ditolak, sehingga dapat disimpulkan bahwa tidak terdapat autokorelasi pada residual model regresi.
Apabila nilai DW berada pada daerah ragu-ragu, maka dapat dilakukan pengujian lanjutan menggunakan Runs Test untuk memastikan ada atau tidaknya autokorelasi.
Uji multikolinearitas dilakukan untuk mengetahui apakah terdapat hubungan (korelasi) yang kuat antar variabel independen/prediktor dalam model regresi.
## HLS UHH RLS
## 6.457505 2.735509 6.818791
Berdasarkan output di atas, diperoleh nilai VIF untuk HLS sebesar 6,457505, UHH sebesar 2,735509, dan RLS sebesar 6,818791. Ketiga nilai VIF tersebut kurang dari 10, sehingga dapat disimpulkan bahwa tidak terdapat masalah multikolinearitas pada model regresi yang digunakan.
Uji F digunakan untuk mengetahui apakah variabel HLS, UHH, dan RLS secara simultan berpengaruh terhadap variabel respon yaitu IPM.
Hipotesis
\(H_0\) : \(\beta_1 = \beta_2 = \beta_3 = 0\) (model regresi tidak sesuai atau tidak terdapat pengaruh secara simultan)
\(H_1\) : minimal terdapat satu \(\beta_i \neq 0\) (model regresi sesuai atau terdapat pengaruh secara simultan)
Taraf Signifikansi
\(\alpha\) = 5%
Statistik Uji
## Analysis of Variance Table
##
## Response: IPM
## Df Sum Sq Mean Sq F value Pr(>F)
## HLS 1 582.41 582.41 686.391 < 2.2e-16 ***
## UHH 1 20.37 20.37 24.012 2.858e-05 ***
## RLS 1 46.11 46.11 54.338 2.673e-08 ***
## Residuals 31 26.30 0.85
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
fstat <- summary(model)$fstatistic[1]
df1 <- summary(model)$fstatistic[2]
df2 <- summary(model)$fstatistic[3]
pfval <- pf(fstat, df1, df2, lower.tail = FALSE)Berdasarkan output ANOVA, diperoleh nilai statistik uji F sebesar 254.9138 dengan derajat bebas \((3, 31)\) dan p-value = 0.0000000000000000000006367.
Daerah Kritis
Tolak H₀ jika p-value < \(\alpha\) (0.05).
Keputusan
H₀ ditolak Karena nilai p-value = 0.0000000000000000000006367 < \(\alpha\) (0.05).
Kesimpulan
Pada taraf signifikansi 5%, H₀ ditolak sehingga dapat disimpulkan bahwa model regresi yang dibangun signifikan atau sesuai digunakan. Artinya, variabel HLS, UHH, dan RLS secara simultan berpengaruh terhadap IPM.
Uji t digunakan untuk mengetahui pengaruh masing-masing variabel prediktor terhadap variabel respon yaitu IPM.
Hipotesis
\(H_0\) : \(\beta_j = 0\) (koefisien parameter tidak berpengaruh signifikan terhadap IPM)
\(H_1\) : \(\beta_j \neq 0\) (koefisien parameter berpengaruh signifikan terhadap IPM)
Taraf Signifikansi
\(\alpha\) = 5%
Statistik Uji
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.8667910 13.4210989 0.4371319 6.650458e-01
## HLS 0.9508585 0.4363667 2.1790352 3.705108e-02
## UHH 0.4739281 0.1988863 2.3829102 2.349033e-02
## RLS 2.3964654 0.3251015 7.3714370 2.672648e-08
Berdasarkan output diatas diperoleh nilai statistik uji dan p-value sebagai berikut:
Daerah Kritis
Tolak H₀ jika p-value < \(\alpha\) (0.05).
Keputusan
Kesimpulan
Berdasarkan uji t pada taraf signifikansi 5% diperoleh bahwa:
Dengan demikian, secara parsial variabel yang memiliki p-value < 0,05 dinyatakan memiliki pengaruh signifikan terhadap variabel respon IPM.
Koefisien determinasi digunakan untuk mengetahui seberapa besar variasi variabel respon dapat dijelaskan oleh variabel prediktor dalam model regresi.
## [1] 0.9610426
## [1] 0.9572725
Berdasarkan output model summary diperoleh nilai:
\[ R^2 = 0.961 \; \text{atau} \; 96.1\% \]
Artinya sebesar 96.1% variabilitas dari variabel IPM dapat dijelaskan oleh variabel HLS, UHH, dan RLS dalam model regresi. Sedangkan sisanya sebesar 3.9% dijelaskan oleh faktor lain di luar model atau oleh komponen error. Nilai Adjusted R² sebesar 0.9573 menunjukkan besarnya variasi IPM yang dapat dijelaskan oleh model setelah mempertimbangkan jumlah variabel prediktor yang digunakan.
Mean Square Error (MSE) digunakan untuk mengukur rata-rata kuadrat kesalahan antara nilai aktual dan nilai prediksi dari model regresi. Semakin kecil nilai MSE, maka semakin baik kemampuan model dalam melakukan prediksi terhadap variabel respon.
## [1] 20.3744
Berdasarkan tabel ANOVA diperoleh nilai:
\[ MSE = 20.3744 \]
Nilai MSE tersebut menunjukkan rata-rata kuadrat selisih antara nilai IPM aktual dan nilai IPM hasil prediksi model regresi. Berdasarkan hasil perhitungan diperoleh nilai MSE = 20.3744, sehingga dapat dikatakan bahwa model regresi yang diperoleh cukup baik dalam memprediksi nilai IPM.
Berdasarkan hasil uji F, model regresi yang dibangun terbukti signifikan sehingga layak digunakan untuk analisis lebih lanjut. Selanjutnya berdasarkan uji t, diperoleh bahwa koefisien parameter regresi untuk variabel HLS, UHH, dan RLS memiliki pengaruh terhadap variabel respon IPM.
Dengan demikian model regresi linear berganda yang diperoleh adalah:
b <- coef(model)
b0 <- round(b[1],4)
b1 <- round(b["HLS"],4)
b2 <- round(b["UHH"],4)
b3 <- round(b["RLS"],4)\[ \widehat{IPM} = 5.8668 + 0.9509(HLS) + 0.4739(UHH) + 2.3965(RLS) \]
Model regresi linear berganda yang diperoleh menunjukkan bahwa variabel Harapan Lama Sekolah (HLS), Umur Harapan Hidup (UHH), dan Rata-rata Lama Sekolah (RLS) memiliki pengaruh terhadap Indeks Pembangunan Manusia (IPM). Hal ini menunjukkan bahwa perubahan pada ketiga variabel tersebut dapat memengaruhi perubahan nilai IPM pada wilayah Jawa Tengah.
Dengan demikian, model regresi yang diperoleh dapat digunakan untuk memprediksi nilai Indeks Pembangunan Manusia (IPM) berdasarkan nilai HLS, UHH, dan RLS. Model ini juga dapat digunakan sebagai dasar untuk memahami hubungan antara indikator pendidikan dan kesehatan terhadap tingkat pembangunan manusia.