1, Pendahuluan

Pembangunan manusia merupakan salah satu indikator penting dalam menilai keberhasilan pembangunan suatu daerah. Keberhasilan tersebut tidak hanya dilihat dari aspek ekonomi, tetapi juga dari kualitas hidup masyarakat yang tercermin dalam Indeks Pembangunan Manusia (IPM). IPM menggambarkan capaian pembangunan dari dimensi kesehatan, pendidikan, dan standar hidup layak. Di Provinsi Sumatera Utara, setiap kabupaten/kota memiliki tingkat pembangunan yang berbeda-beda, sehingga nilai IPM antarwilayah juga menunjukkan variasi. Perbedaan ini dipengaruhi oleh berbagai faktor yang berkaitan dengan kualitas sumber daya manusia dan kesejahteraan masyarakat.

Beberapa faktor yang diduga berpengaruh terhadap IPM adalah Rata-Rata Lama Sekolah, Umur Harapan Hidup saat Lahir, dan Pengeluaran Perkapita. Rata-Rata Lama Sekolah mencerminkan tingkat pendidikan masyarakat, Umur Harapan Hidup saat Lahir menunjukkan derajat kesehatan, sedangkan Pengeluaran Perkapita menggambarkan kemampuan masyarakat dalam memenuhi kebutuhan hidup yang layak. Untuk mengetahui pengaruh ketiga variabel tersebut terhadap IPM di setiap kabupaten/kota di Provinsi Sumatera Utara, dapat digunakan analisis regresi linear berganda. Melalui analisis ini, dapat diketahui seberapa besar pengaruh masing-masing variabel terhadap IPM sehingga hasil penelitian diharapkan dapat menjadi bahan pertimbangan dalam penyusunan kebijakan pembangunan manusia yang lebih efektif dan merata.

2. Data

Data yang digunakan dalam penelitian ini adalah data sekunder yang bersumber dari Badan Pusat Statistik (BPS) Provinsi Sumatera Utara, khususnya publikasi Indeks Pembangunan Manusia Provinsi Sumatera Utara dan tabel statistik terkait kabupaten/kota. Unit analisis dalam penelitian ini adalah seluruh kabupaten/kota di Provinsi Sumatera Utara.

Adapun variabel yang digunakan terdiri sebagai berikut:

Indeks Pembangunan Manusia (IPM) (\(Y\))
Rata-Rata Lama Sekolah (\(X_{1}\))
Umur Harapan Hidup saat Lahir (\(X_{2}\))
Pengeluaran Riil per Kapita yang Disesuaikan (\(X_{3}\))

3. Tinjauan Pustaka

3.1. Regresi Linear Berganda

Suatu model regresi linear yang melibatkan lebih dari satu variabel bebas yang bertujuan untuk menjelaskan hubungan antara variabel dependen dengan faktor-faktor yang memengaruhinya disebut dengan regresi linear berganda. Analisis regresi linear berganda adalah pengembangan dari analisis regresi linear sederhana, di mana terdapat lebih dari satu variabel independen \((X)\). Analisis ini digunakan untuk melihat sejumlah variabel independen \((X_1, X_2, \ldots, X_n)\) terhadap variabel dependen \((Y)\).

Asumsi-asumsi yang digunakan adalah sebagai berikut:

Model regresinya linear dalam parameter
Nilai rata-rata dari error adalah nol
Variansi error adalah konstan (homoskedastisitas)
Tidak terjadi autokorelasi pada error
Tidak terjadi multikolinearitas pada variabel bebas
Error berdistribusi normal

Sementara model regresi berganda sendiri adalah:

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon \]

dengan:

\(Y\) = Variabel terikat
\(X_i\) = Variabel bebas \((i = 1, 2, 3, \ldots, k)\)
\(\beta_0\) = Intersep
\(\beta_i\) = Koefisien regresi \((i = 1, 2, 3, \ldots, k)\)
\(\varepsilon\) = Error

3.2 Uji Asumsi Klasik

Agar estimator model regresi bersifat Best Linear Unbiased Estimator (BLUE) melalui pendekatan Ordinary Least Squares (OLS), model wajib memenuhi pengujian asumsi klasik berikut:

3.2.1 Linieritas

Uji linearitas digunakan untuk mengetahui apakah hubungan antara variabel independen dan variabel dependen bersifat linear. Uji ini penting dilakukan sebagai salah satu prasyarat dalam analisis regresi linear.

Secara visual, linearitas dapat diamati melalui grafik scatterplot antara variabel independen \((X)\) dan variabel dependen \((Y)\). Hubungan dikatakan linear apabila sebaran titik menunjukkan pola yang cenderung mengikuti garis lurus.

Secara formal, uji linearitas dilakukan dengan melihat nilai signifikansi pada baris Deviation from Linearity dalam tabel ANOVA. Hipotesis yang digunakan adalah:

\(H_0\) : Hubungan antara variabel independen dan variabel dependen bersifat linear
\(H_1\) : Hubungan antara variabel independen dan variabel dependen tidak bersifat linear

Dengan taraf signifikansi \(\alpha = 0{,}05\), keputusan diambil sebagai berikut:

Jika nilai Sig. Deviation from Linearity \(> 0{,}05\), maka hubungan dinyatakan linear
Jika nilai Sig. Deviation from Linearity \(\leq 0{,}05\), maka hubungan dinyatakan tidak linear

3.2.2 Normalitas Residual

Uji normalitas digunakan dalam model regresi untuk mengetahui apakah nilai residual atau sisaan dari model regresi berdistribusi normal atau tidak. Model regresi yang baik adalah model yang memiliki residual yang berdistribusi normal. Pengujian normalitas residual dalam penelitian ini dilakukan melalui uji formal dan uji visual.

Uji Formal

Secara formal, uji normalitas residual dapat dilakukan menggunakan uji Kolmogorov-Smirnov dan Shapiro-Wilk. Pada penelitian ini, pengujian normalitas dilakukan dengan memperhatikan nilai signifikansi (p-value) dari hasil uji tersebut.

Hipotesis yang digunakan adalah:

\(H_0\) : Residual data berdistribusi normal
\(H_1\) : Residual data tidak berdistribusi normal

Taraf signifikansi yang digunakan adalah:

\[ \alpha = 5\% = 0{,}05 \]

Statistik uji Kolmogorov-Smirnov dirumuskan sebagai:

\[ D = \max \left| F_n(x) - F_0(x) \right| \]

dengan:

\(D\) = statistik uji Kolmogorov-Smirnov
\(F_n(x)\) = fungsi distribusi kumulatif empiris dari data residual
\(F_0(x)\) = fungsi distribusi kumulatif teoritis dari distribusi normal

Kriteria keputusan yang digunakan adalah:

Tolak \(H_0\) jika nilai signifikansi \((\text{sig.}) < \alpha\)
Gagal menolak \(H_0\) jika nilai signifikansi \((\text{sig.}) \geq \alpha\)

Dengan demikian, residual dikatakan berdistribusi normal apabila nilai signifikansi lebih besar atau sama dengan 0,05.

Uji Visual

Selain menggunakan uji formal, normalitas residual juga dapat dilihat secara visual melalui grafik Normal Q-Q Plot. Pada grafik ini, residual dikatakan berdistribusi normal apabila titik-titik plot berada di sekitar dan mengikuti garis diagonal. Sebaliknya, jika titik-titik menyebar jauh dari garis diagonal, maka terdapat indikasi bahwa residual tidak berdistribusi normal.

3.2.3 Non-Multikolinearitas

Uji multikolinearitas bertujuan untuk mengetahui apakah dalam model regresi terdapat korelasi yang tinggi antar variabel independen. Model regresi yang baik seharusnya tidak mengalami korelasi yang tinggi antar variabel bebas, karena kondisi tersebut dapat menyebabkan ketidakstabilan dalam penaksiran koefisien regresi.

Salah satu cara yang umum digunakan untuk mendeteksi adanya multikolinearitas adalah dengan melihat nilai Variance Inflation Factor (VIF). Nilai VIF untuk variabel independen ke-\(i\) dirumuskan sebagai berikut:

\[ VIF_i = \frac{1}{1 - R_i^2}, \quad i = 1, 2, \ldots, n \]

dengan:

\(VIF_i\) = nilai Variance Inflation Factor untuk variabel independen ke-\(i\)
\(R_i^2\) = koefisien determinasi hasil regresi variabel independen ke-\(i\) terhadap variabel independen lainnya

Nilai VIF yang semakin besar menunjukkan adanya multikolinearitas yang semakin tinggi. Kriteria yang digunakan dalam pengujian multikolinearitas adalah sebagai berikut:

Jika nilai \(VIF < 10\), maka asumsi non-multikolinearitas terpenuhi
Jika nilai \(VIF \geq 10\), maka asumsi non-multikolinearitas tidak terpenuhi

Dengan demikian, model regresi yang baik adalah model yang memiliki nilai VIF untuk setiap variabel independen kurang dari 10.

3.2.4 Homoskedastisitas

Uji homoskedastisitas digunakan untuk menguji apakah residual pada model regresi memiliki varians yang konstan pada setiap tingkat nilai prediksi. Dalam analisis regresi, asumsi homoskedastisitas perlu dipenuhi agar model yang dihasilkan memberikan estimasi yang baik serta pengujian statistik, seperti uji \(t\) dan uji \(F\), dapat dilakukan secara tepat.

Secara visual, uji homoskedastisitas dapat diamati melalui grafik Scatterplot SRESID by ZPRED. Jika titik-titik pada grafik menyebar secara acak, tidak membentuk pola tertentu, dan tersebar secara merata di sekitar garis horizontal, maka dapat disimpulkan bahwa asumsi homoskedastisitas terpenuhi. Namun, jika titik-titik membentuk pola tertentu, seperti pola kipas, mengerucut, atau bergelombang, maka menunjukkan adanya gejala heteroskedastisitas.

3.2.5 Non-Autokorelasi

Uji autokorelasi bertujuan untuk mengetahui apakah terdapat korelasi antara residual pada suatu pengamatan dengan residual pada pengamatan lainnya. Dalam analisis regresi, asumsi yang harus dipenuhi adalah tidak adanya autokorelasi antar residual. Salah satu metode yang umum digunakan untuk mendeteksi autokorelasi adalah uji Durbin-Watson.

Hipotesis yang digunakan adalah sebagai berikut:

\(H_0\) : Tidak terdapat autokorelasi
\(H_1\) : Terdapat autokorelasi

Statistik uji Durbin-Watson adalah:

\[ d = \frac{\sum_{i=2}^{n}(e_i - e_{i-1})^2}{\sum_{i=1}^{n} e_i^2} \]

dengan:

\(d\) = statistik uji Durbin-Watson
\(e_i\) = residual pada pengamatan ke-\(i\)
\(e_{i-1}\) = residual pada pengamatan ke-\((i-1)\)
\(n\) = banyaknya pengamatan

Kriteria pengambilan keputusan adalah sebagai berikut:

Jika \(0 < d < d_L\), maka terjadi autokorelasi positif
Jika \(d_L < d < d_U\), maka keputusan berada pada daerah ragu-ragu
Jika \(d_U < d < 4 - d_U\), maka tidak terdapat autokorelasi
Jika \(4 - d_U < d < 4 - d_L\), maka keputusan berada pada daerah ragu-ragu
Jika \(4 - d_L < d < 4\), maka terjadi autokorelasi negatif

Keterangan:

\(d_L\) = batas bawah Durbin-Watson
\(d_U\) = batas atas Durbin-Watson

3.3 Uji Signifikansi

3.3.1 Uji F

Uji F digunakan untuk mengetahui apakah variabel independen secara bersama-sama berpengaruh terhadap variabel dependen. Model regresi yang baik adalah model yang menunjukkan adanya hubungan linear yang signifikan antara variabel dependen dan variabel independen.

Hipotesis yang digunakan adalah:

\(H_0\) : \(\beta_1 = \beta_2 = \cdots = \beta_k = 0\)
\(H_1\) : Minimal ada satu \(\beta_i \neq 0\)

Taraf signifikansi yang digunakan adalah:

\[ \alpha = 0{,}05 \]

Statistik uji:

\[ F_{hitung} = \frac{JKR / k}{JKS / (n - k - 1)} \]

dengan:

\(JKR\) = Jumlah Kuadrat Regresi
\(JKS\) = Jumlah Kuadrat Sisa
\(k\) = banyaknya variabel independen
\(n\) = banyaknya pengamatan

Kriteria pengujian:

Tolak \(H_0\) jika \(F_{hitung} > F_{tabel}\)
Tolak \(H_0\) jika nilai signifikansi \(< 0{,}05\)

3.3.2 Uji t

Uji \(t\) digunakan untuk mengetahui pengaruh masing-masing variabel independen secara parsial terhadap variabel dependen. Uji ini bertujuan untuk mengetahui apakah setiap koefisien regresi memiliki pengaruh yang signifikan terhadap variabel dependen.

Hipotesis yang digunakan adalah sebagai berikut:

\(H_0\) : \(\beta_i = 0\) (variabel independen ke-\(i\) tidak berpengaruh signifikan terhadap variabel dependen)
\(H_1\) : \(\beta_i \neq 0\) (variabel independen ke-\(i\) berpengaruh signifikan terhadap variabel dependen)

Taraf signifikansi yang digunakan adalah:

\[ \alpha = 0{,}05 \]

Statistik uji yang digunakan adalah:

\[ t_{hitung} = \frac{\hat{\beta}_i}{s(\hat{\beta}_i)} \]

dengan:

\(\hat{\beta}_i\) = penduga koefisien regresi untuk variabel independen ke-\(i\)
\(s(\hat{\beta}_i)\) = simpangan baku dari penduga koefisien regresi ke-\(i\)

Nilai \(t_{hitung}\) dapat dilihat pada tabel Coefficients.

Kriteria pengambilan keputusan adalah sebagai berikut:

Jika nilai signifikansi (p-value) \(< \alpha\), maka \(H_0\) ditolak
Jika \(\left|t_{hitung}\right| > t_{\alpha/2,\, n-k-1}\), maka \(H_0\) ditolak

Dengan demikian, apabila \(H_0\) ditolak, maka variabel independen ke-\(i\) berpengaruh signifikan secara parsial terhadap variabel dependen.

3.4 Koefisien Determinasi

Koefisien determinasi digunakan untuk mengukur seberapa besar proporsi variasi variabel dependen yang dapat dijelaskan oleh variabel independen dalam model regresi. Koefisien determinasi dinyatakan dengan simbol \(R^2\). Nilai \(R^2\) berada pada rentang 0 sampai 1. Semakin mendekati 1, maka model regresi semakin baik dalam menjelaskan variasi variabel dependen. Sebaliknya, jika nilai \(R^2\) mendekati 0, maka kemampuan model dalam menjelaskan variasi variabel dependen semakin rendah.

Nilai koefisien determinasi dapat dilihat pada tabel Model Summary. Secara matematis, koefisien determinasi dirumuskan sebagai berikut:

\[ R^2 = \frac{JKR}{JKT} \]

dengan:

\(R^2\) = koefisien determinasi
\(JKR\) = jumlah kuadrat regresi
\(JKT\) = jumlah kuadrat total

Adapun sifat-sifat koefisien determinasi adalah sebagai berikut:

Jika \(R^2 = 1\), maka model memiliki kecocokan sempurna, artinya seluruh variasi variabel dependen dapat dijelaskan oleh variabel independen
Jika \(R^2 = 0\), maka model tidak memiliki kemampuan dalam menjelaskan variasi variabel dependen

Apabila nilai koefisien determinasi sebesar \(a\%\), maka sebesar \(a\%\) variasi variabel dependen dapat dijelaskan oleh variabel independen, sedangkan sisanya sebesar \((100 - a)\%\) dijelaskan oleh variabel lain di luar model.

3.5 Model Akhir

Model akhir merupakan model regresi yang telah memenuhi kriteria fit dan hanya memuat variabel independen yang memiliki pengaruh signifikan terhadap variabel dependen berdasarkan hasil pengujian yang telah dilakukan sebelumnya. Dengan demikian, model akhir digunakan sebagai model terbaik untuk menjelaskan hubungan antara variabel bebas dan variabel terikat dalam penelitian.

3.6 Mean Square Error (MSE)

Mean Squared Error (MSE) merupakan ukuran yang digunakan untuk menilai besar kecilnya kesalahan prediksi yang dihasilkan oleh model. MSE diperoleh dari rata-rata kuadrat selisih antara nilai aktual dan nilai prediksi. Semakin kecil nilai MSE, maka semakin baik kemampuan model dalam melakukan prediksi.

Secara matematis, MSE dirumuskan sebagai berikut:

\[ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]

dengan:

\(y_i\) = nilai aktual indeks pada pengamatan ke-\(i\)
\(\hat{y}_i\) = nilai prediksi indeks pada pengamatan ke-\(i\)
\(n\) = jumlah sampel

Nilai MSE yang kecil menunjukkan bahwa hasil prediksi model semakin mendekati nilai aktual, sehingga model dapat dikatakan memiliki kinerja yang lebih baik.

4. Analisis dan Pembahasan

Pada tahap ini dilakukan eksplorasi dan visualisasi data untuk memahami karakteristik masing-masing variabel penelitian sebelum dilakukan analisis regresi linear berganda.

4.1 Eksplorasi & Visualisasi data

4.1.1 Statistik Deskriptif Variabel

# Import data
data_ipm <- read_excel("C:/Users/HP/Downloads/Data Komlan Anareg.xlsx")

# Ubah nama kolom
colnames(data_ipm) <- c("Kabupaten_Kota", "IPM", "RLS", "UHH", "PPK")

# Statistik deskriptif
desc <- describe(data_ipm[, c("IPM", "RLS", "UHH", "PPK")])
desc

##     vars  n     mean      sd   median  trimmed     mad     min      max   range
## IPM    1 33    71.79    4.42    71.67    71.89    3.20   62.93    81.76   18.83
## RLS    2 33     9.29    1.37     9.40     9.39    1.02    5.88    11.50    5.62
## UHH    3 33    69.53    2.51    69.77    69.70    2.25   63.05    74.25   11.20
## PPK    4 33 10716.09 2092.46 11439.00 10826.59 1470.74 6152.00 15503.00 9351.00
##      skew kurtosis     se
## IPM -0.17    -0.09   0.77
## RLS -0.69     0.19   0.24
## UHH -0.60     0.28   0.44
## PPK -0.44    -0.21 364.25

4.1.2 Distribusi tiap Variabel

par(mfrow = c(2,2))

hist(data_ipm$IPM,
     main = "Histogram IPM",
     xlab = "IPM",
     col = "lightblue",
     border = "black")

hist(data_ipm$RLS,
     main = "Histogram RLS",
     xlab = "Rata-Rata Lama Sekolah",
     col = "lightgreen",
     border = "black")

hist(data_ipm$UHH,
     main = "Histogram UHH",
     xlab = "Umur Harapan Hidup",
     col = "lightpink",
     border = "black")

hist(data_ipm$PPK,
     main = "Histogram PPK",
     xlab = "Pengeluaran Per Kapita",
     col = "lightyellow",
     border = "black")

par(mfrow = c(1,1))

Berdasarkan histogram, variabel IPM, RLS, dan UHH menunjukkan distribusi yang relatif terpusat pada nilai tengah dan secara visual cukup mendekati distribusi normal, meskipun tidak sepenuhnya simetris. Variabel UHH tampak memiliki sebaran yang paling stabil. Sementara itu, variabel PPK menunjukkan penyebaran yang lebih besar dan cenderung tidak simetris, sehingga mengindikasikan adanya variasi pengeluaran per kapita yang cukup tinggi antar kabupaten/kota di Provinsi Sumatera Utara.

4.1.3 Scaterplot Hubungan antar Variabel dengan IPM

par(mfrow = c(2,2))

plot(data_ipm$RLS, data_ipm$IPM,
     main = "Scatterplot RLS terhadap IPM",
     xlab = "RLS",
     ylab = "IPM",
     pch = 19,
     col = "blue")
abline(lm(IPM ~ RLS, data = data_ipm), col = "red", lwd = 2)

plot(data_ipm$UHH, data_ipm$IPM,
     main = "Scatterplot UHH terhadap IPM",
     xlab = "UHH",
     ylab = "IPM",
     pch = 19,
     col = "darkgreen")
abline(lm(IPM ~ UHH, data = data_ipm), col = "red", lwd = 2)

plot(data_ipm$PPK, data_ipm$IPM,
     main = "Scatterplot PPK terhadap IPM",
     xlab = "PPK",
     ylab = "IPM",
     pch = 19,
     col = "purple")
abline(lm(IPM ~ PPK, data = data_ipm), col = "red", lwd = 2)

Berdasarkan scatterplot antara variabel bebas dengan IPM, terlihat bahwa Rata-Rata Lama Sekolah (RLS), Umur Harapan Hidup (UHH), dan Pengeluaran Per Kapita (PPK) sama-sama memiliki kecenderungan hubungan positif terhadap IPM. Hal ini ditunjukkan oleh pola sebaran titik yang cenderung mengikuti garis regresi yang menaik. Secara visual, hubungan RLS terhadap IPM tampak paling kuat karena titik-titik data relatif lebih rapat mengikuti arah garis. Sementara itu, hubungan UHH terhadap IPM dan PPK terhadap IPM juga menunjukkan pola positif, meskipun dengan penyebaran data yang sedikit lebih besar.

4.2 Model Awal

# Membentuk model regresi awal
model <- lm(IPM ~ RLS + UHH + PPK, data = data_ipm)

# Menampilkan ringkasan model
summary(model)

## 
## Call:
## lm(formula = IPM ~ RLS + UHH + PPK, data = data_ipm)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.88898 -0.25128 -0.00493  0.27862  0.66832 
## 
## Coefficients:
##                Estimate  Std. Error t value             Pr(>|t|)    
## (Intercept) 15.98151644  2.11524070   7.555   0.0000000249869867 ***
## RLS          1.62113151  0.08807946  18.405 < 0.0000000000000002 ***
## UHH          0.44137990  0.03211156  13.745   0.0000000000000313 ***
## PPK          0.00093932  0.00005603  16.765 < 0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4305 on 29 degrees of freedom
## Multiple R-squared:  0.9914, Adjusted R-squared:  0.9905 
## F-statistic:  1115 on 3 and 29 DF,  p-value: < 0.00000000000000022

# Koefisien model
coef(model)

##   (Intercept)           RLS           UHH           PPK 
## 15.9815164410  1.6211315099  0.4413798953  0.0009393217

Model awal sebagai berikut: \[ \widehat{Y} = 15.982 + 1.621\,X_1 + 0.441\,X_2 + 0.001\,X_3 \]

4.3 Pengujian Asumsi Klasik

4.3.1 Linieritas

par(mfrow = c(2,2))

plot(data_ipm$RLS, data_ipm$IPM,
     main = "Scatterplot RLS terhadap IPM",
     xlab = "Rata-Rata Lama Sekolah",
     ylab = "Indeks Pembangunan Manusia",
     pch = 19, col = "blue")
abline(lm(IPM ~ RLS, data = data_ipm), col = "red", lwd = 2)

plot(data_ipm$UHH, data_ipm$IPM,
     main = "Scatterplot UHH terhadap IPM",
     xlab = "Umur Harapan Hidup",
     ylab = "Indeks Pembangunan Manusia",
     pch = 19, col = "darkgreen")
abline(lm(IPM ~ UHH, data = data_ipm), col = "red", lwd = 2)

plot(data_ipm$PPK, data_ipm$IPM,
     main = "Scatterplot PPK terhadap IPM",
     xlab = "Pengeluaran Per Kapita",
     ylab = "Indeks Pembangunan Manusia",
     pch = 19, col = "purple")
abline(lm(IPM ~ PPK, data = data_ipm), col = "red", lwd = 2)

Ketiga variabel independen yaitu RLS, UHH, dan PPK menunjukkan hubungan linear positif terhadap IPM.

4.3.2 Uji Normalitas Residual

\(H_0\): Residual berdistribusi normal
\(H_1\): Residual tidak berdistribusi normal

error <- model$residuals

# Menampilkan Histogram dan Q-Q Plot
par(mfrow=c(1,2))
hist(error, breaks=10, col="lightblue", main="Histogram Residual", xlab="Residual")
qqnorm(error, col="steelblue", main="Q-Q Plot Residual")
qqline(error, col="red", lwd=2)

# Uji Kolmogorov-Smirnov
ks_test <- ks.test(error, "pnorm", mean(error), sd(error))
ks_test

## 
##  Exact one-sample Kolmogorov-Smirnov test
## 
## data:  error
## D = 0.057091, p-value = 0.9997
## alternative hypothesis: two-sided

Interpretasi Normalitas: Berdasarkan visualisasi grafik Histogram, kemencengan data dapat terlihat, dan pada Q-Q Plot diharapkan titik-titik menyebar mengikuti garis diagonal merah. Secara formal, uji Kolmogorov-Smirnov menghasilkan p-value sebesar 0.9997. Karena nilai p-value tersebut lebih besar dari 0.05 (> 0.05), maka kita gagal menolak \(H_0\). Artinya, asumsi normalitas residual terpenuhi.

4.3.3 Non-Multikolinearitas

vif_model <- vif(model)
vif_model

##      RLS      UHH      PPK 
## 2.500181 1.125409 2.373340

Nilai VIF adalah untuk setiap variabel Kurang dari 10 sehingga Tidak terjadi Multikolinieritas.

4.3.4 Homoskedastisitas

\(H_0\): Varians residual konstan (Homoskedastisitas)
\(H_1\): Varians residual tidak konstan (Heteroskedastisitas)

# Plot Visualisasi Homoskedastisitas
plot(fitted(model), residuals(model),
     col = "steelblue",
     pch = 19,
     main = "Scatterplot SRESID by ZPRED",
     xlab = "ZPRED",
     ylab = "SRESID")
abline(h = 0, col = "red", lwd = 2, lty = 2)

# Uji Formal Breusch-Pagan
bp_test <- bptest(model)
bp_test

## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 0.88792, df = 3, p-value = 0.8283

Interpretasi Homoskedastisitas: Secara visual dari scatterplot di atas, apabila titik-titik menyebar secara acak di atas dan di bawah angka 0 tanpa membentuk pola tertentu, maka terindikasi homoskedastisitas. Secara pengujian formal melalui Uji Breusch-Pagan, diperoleh nilai p-value sebesar 0.8283. Karena nilai tersebut lebih besar dari 0.05 (> 0.05), maka kita gagal menolak \(H_0\). Kesimpulannya, asumsi homoskedastisitas terpenuhi.

4.3.5 Non-Autokorelasi

\(H_0\): Tidak terdapat autokorelasi antar residual
\(H_1\): Terdapat autokorelasi antar residual

dw_test <- dwtest(model)
dw_test

## 
##  Durbin-Watson test
## 
## data:  model
## DW = 1.7631, p-value = 0.1943
## alternative hypothesis: true autocorrelation is greater than 0

Interpretasi Autokorelasi: Dari pengujian Durbin-Watson, diperoleh nilai statistik DW sebesar 1.7631 dengan nilai p-value sebesar 0.1943. Karena nilai p-value lebih besar dari 0.05 (> 0.05), maka gagal menolak \(H_0\). Artinya, tidak terdapat masalah autokorelasi antar residual di dalam observasi.

4.4 Uji Signifikansi

4,4.1 Uji F

\(H_0\) : \(\beta_1 = \beta_2 = \beta_3 = 0\)
(variabel independen secara simultan tidak berpengaruh terhadap IPM)
\(H_1\) : minimal ada satu \(\beta_i \neq 0\)
(variabel independen secara simultan berpengaruh terhadap IPM)

anova_model <- anova(model)
anova_model

## Analysis of Variance Table
## 
## Response: IPM
##           Df Sum Sq Mean Sq F value                Pr(>F)    
## RLS        1 532.77  532.77 2874.72 < 0.00000000000000022 ***
## UHH        1  34.87   34.87  188.13   0.00000000000003298 ***
## PPK        1  52.09   52.09  281.05 < 0.00000000000000022 ***
## Residuals 29   5.37    0.19                                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

f_hitung <- summary(model)$fstatistic[1]
df1 <- summary(model)$fstatistic[2]
df2 <- summary(model)$fstatistic[3]
p_value_f <- pf(f_hitung, df1, df2, lower.tail = FALSE)
f_tabel <- qf(0.95, df1, df2)

Interpretasi Uji F:
Berdasarkan hasil pengujian simultan, diperoleh nilai \(F_{hitung}\) sebesar 1114.6349 dan nilai \(F_{tabel}\) sebesar 2.934 dengan p-value sebesar 0. Karena Fhitung lebih besar dari Ftabel dan nilai p-value lebih kecil dari 0,05, maka keputusan yang diperoleh adalah menolak H0. Dengan demikian, variabel independen secara simultan berpengaruh signifikan terhadap variabel dependen.

4,4.1 Uji t

\(H_0\) : \(\beta_i = 0\)
(variabel independen ke-\(i\) tidak berpengaruh signifikan terhadap IPM)
\(H_1\) : \(\beta_i \neq 0\)
(variabel independen ke-\(i\) berpengaruh signifikan terhadap IPM)

coef_table <- summary(model)$coefficients
coef_table

##                  Estimate    Std. Error   t value                 Pr(>|t|)
## (Intercept) 15.9815164410 2.11524069613  7.555413 0.0000000249869866608595
## RLS          1.6211315099 0.08807946066 18.405330 0.0000000000000000154097
## UHH          0.4413798953 0.03211155653 13.745204 0.0000000000000312633501
## PPK          0.0009393217 0.00005602989 16.764655 0.0000000000000001844268

Interpretasi Variabel RLS memiliki p-value sebesar 0, variabel UHH sebesar 0, dan variabel PPK sebesar 0. Dengan taraf signifikansi 0,05, maka:

Variabel RLS berpengaruh signifikan terhadap IPM.

Variabel UHH berpengaruh signifikan terhadap IPM.

Variabel PPK berpengaruh signifikan terhadap IPM.

4.5 Koefisien Determinasi

r_squared <- summary(model)$r.squared
r_squared

## [1] 0.9914021

Nilai koefisien determinasi \(R^2\) yang diperoleh adalah sebesar 0.9914 atau 99.14%. Hal ini menunjukkan bahwa variabel independen dalam model mampu menjelaskan variasi variabel dependen sebesar 99.14%, sedangkan sisanya sebesar 0.86% dijelaskan oleh faktor lain di luar model.

4.6 Model Akhir

Semua asumsi terpenuhi sehingga model akhir sama dengan model awal

# Membentuk model regresi awal
model <- lm(IPM ~ RLS + UHH + PPK, data = data_ipm)

# Menampilkan ringkasan model
summary(model)

## 
## Call:
## lm(formula = IPM ~ RLS + UHH + PPK, data = data_ipm)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.88898 -0.25128 -0.00493  0.27862  0.66832 
## 
## Coefficients:
##                Estimate  Std. Error t value             Pr(>|t|)    
## (Intercept) 15.98151644  2.11524070   7.555   0.0000000249869867 ***
## RLS          1.62113151  0.08807946  18.405 < 0.0000000000000002 ***
## UHH          0.44137990  0.03211156  13.745   0.0000000000000313 ***
## PPK          0.00093932  0.00005603  16.765 < 0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4305 on 29 degrees of freedom
## Multiple R-squared:  0.9914, Adjusted R-squared:  0.9905 
## F-statistic:  1115 on 3 and 29 DF,  p-value: < 0.00000000000000022

# Koefisien model
coef(model)

##   (Intercept)           RLS           UHH           PPK 
## 15.9815164410  1.6211315099  0.4413798953  0.0009393217

: \[ \widehat{Y} = 15.982 + 1.621\,X_1 + 0.441\,X_2 + 0.001\,X_3 \] Atau dapat ditulis juga sebagai berikut \[ \widehat{Y} = 15.982 + 1.621\,RLS + 0.441\,UHH + 0.001\,PPK \]

4.7 Mean Square Error

# Nilai aktual
anova_model <- anova(model)
mse <- anova_model["Residuals", "Mean Sq"]
mse

## [1] 0.1853297

Nilai Mean Square Error (MSE) yang diperoleh dari tabel ANOVA pada baris residual adalah sebesar 0.1853. Nilai ini menunjukkan rata-rata kuadrat galat (residual) dari model regresi. Semakin kecil nilai MSE, maka semakin baik model dalam menjelaskan data. Nilai yang didapat tersebut tergolong rendah sehingga dapat dikatakan bahwa model regresi nya cukup baik

5. Kesimpulan

Berdasarkan hasil analisis regresi linear berganda, diperoleh persamaan model sebagai berikut:

\[ \widehat{IPM} = 15.982 + 1.621\,RLS + 0.441\,UHH + 0.001\,PPK \]

Berdasarkan pengujian asumsi klasik, model regresi menunjukkan bahwa asumsi normalitas residual terpenuhi, non-multikolinearitas terpenuhi, homoskedastisitas terpenuhi, dan non-autokorelasi terpenuhi.

Hasil uji F menunjukkan bahwa model signifikan secara simultan dengan nilai p-value sebesar 0. Secara parsial, variabel yang berpengaruh signifikan adalah RLS, UHH, PPK terhadap IPM.

Interpretasi koefisien model menunjukkan bahwa setiap kenaikan 1 satuan RLS akan menaikkan IPM sebesar 1.621 satuan, setiap kenaikan 1 satuan UHH akan menaikkan IPM sebesar 0.441 satuan, dan setiap kenaikan 1 satuan PPK akan menaikkan IPM sebesar 0.001 satuan, dengan asumsi variabel lain konstan.

Nilai \(R^2\) sebesar 0.9914 menunjukkan bahwa model mampu menjelaskan 99.14% variasi IPM, sedangkan sisanya sebesar 0.86% dijelaskan oleh faktor lain di luar model. Nilai MSE sebesar 0.1853 menunjukkan rata-rata kuadrat galat model.

Analisis Regresi Linear Berganda Pengaruh Rata-Rata Lama Sekolah, Umur Harapan Hidup saat Lahir, dan Pengeluaran Perkapita Terhadap Indeks Pembangunan Manusia di Setiap Kota/Kabupaten di Provinsi Sumatera Utara

Shafrizal Mudhofir

2026-03-09

1, Pendahuluan

2. Data

3. Tinjauan Pustaka

3.1. Regresi Linear Berganda

3.2 Uji Asumsi Klasik

3.2.1 Linieritas

3.2.2 Normalitas Residual

Uji Formal

Uji Visual

3.2.3 Non-Multikolinearitas

3.2.4 Homoskedastisitas

3.2.5 Non-Autokorelasi

3.3 Uji Signifikansi

3.3.1 Uji F

3.3.2 Uji t

3.4 Koefisien Determinasi

3.5 Model Akhir

3.6 Mean Square Error (MSE)

4. Analisis dan Pembahasan

4.1 Eksplorasi & Visualisasi data

4.1.1 Statistik Deskriptif Variabel

4.1.2 Distribusi tiap Variabel

4.1.3 Scaterplot Hubungan antar Variabel dengan IPM

4.2 Model Awal

4.3 Pengujian Asumsi Klasik

4.3.1 Linieritas

4.3.2 Uji Normalitas Residual

4.3.3 Non-Multikolinearitas

4.3.4 Homoskedastisitas

4.3.5 Non-Autokorelasi

4.4 Uji Signifikansi

4,4.1 Uji F

4,4.1 Uji t

4.5 Koefisien Determinasi

4.6 Model Akhir

4.7 Mean Square Error

5. Kesimpulan