Analisis regresi adalah suatu analisis statistika yang digunakan untuk menjelaskan hubungan suatu variabel respon \(Y\) dengan menggunakan satu atau lebih variabel input \(X_1, X_2, \ldots, X_k\). Jika \(k = 1\), maka regresi yang terbentuk disebut regresi linier sederhana. Regresi linier berganda adalah persamaan regresi yang menggambarkan hubungan antara lebih dari satu peubah bebas (X) dan satu peubah tak bebas (Y). Hubungan antara peubah-peubah tersebut dapat dituliskan dalam bentuk:
\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_3 X_{3i} + \cdots + \beta_p X_{pi} + \varepsilon_i, \quad i = 1,2,\ldots,n \]
Pada model ini,
- \(Y_i\) adalah peubah tak bebas
(respon),
- \(X_{1i}, X_{2i}, \ldots, X_{pi}\)
adalah peubah bebas (prediktor),
- \(\beta_0, \beta_1, \ldots, \beta_p\)
adalah parameter regresi,
- \(\varepsilon_i\) adalah galat atau
error pada pengamatan ke-\(i\).
data <- read.delim("clipboard")
head(data)
## Y X1 X2 X3
## 1 66.85 6.14 71.74 7301
## 2 71.32 8.84 71.72 10251
## 3 73.72 9.51 71.61 11829
## 4 72.47 8.87 71.76 10690
## 5 76.84 10.09 74.10 12115
## 6 77.89 10.59 74.22 12676
summary(data)
## Y X1 X2 X3
## Min. :66.85 Min. : 6.140 Min. :71.52 Min. : 6382
## 1st Qu.:72.47 1st Qu.: 8.840 1st Qu.:72.30 1st Qu.: 9395
## Median :74.63 Median : 9.510 Median :73.65 Median :11632
## Mean :74.47 Mean : 9.387 Mean :73.25 Mean :10911
## 3rd Qu.:77.13 3rd Qu.:10.090 3rd Qu.:74.10 3rd Qu.:12115
## Max. :82.98 Max. :11.620 Max. :74.76 Max. :15674
Pembahasan:
Penelitian ini menggunakan data yang bersumber dari Badan Pusat
Statistik (BPS) Provinsi Sumatera Utara. Variabel penelitian adalah
segala sesuatu yang menjadi objek pengamatan penelitian. Pada laporan
ini terdapat tiga variabel independen, yaitu \(X_{1}\) (Pengeluaran per kapita), \(X_{2}\) (Angka harapan hidup), dan \(X_{3}\) (Tingkat kemiskinan), serta satu
variabel dependen yaitu \(Y\) (Indeks
pembangunan manusia) menurut Provinsi Sumatera Utara Tahun 2023.
pairs(~Y + X1 + X2 + X3, data = data, main="Scatterplot")
Pembahasan:
Scatterplot digunakan untuk melihat pola hubungan awal antar
variabel.
cor(data[, c("Y","X1","X2","X3")])
## Y X1 X2 X3
## Y 1.0000000 0.9359601 0.7544975 0.9066020
## X1 0.9359601 1.0000000 0.6529525 0.7722856
## X2 0.7544975 0.6529525 1.0000000 0.5691507
## X3 0.9066020 0.7722856 0.5691507 1.0000000
Pembahasan:
Korelasi menunjukkan kekuatan hubungan linear antara Y dan variabel
prediktornya.
model <-lm(Y~., data = data)
summary(model)
##
## Call:
## lm(formula = Y ~ ., data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.8477 -0.3181 -0.1014 0.3911 1.1784
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.991e+00 7.808e+00 0.255 0.8
## X1 1.332e+00 1.175e-01 11.336 3.57e-12 ***
## X2 7.065e-01 1.138e-01 6.210 8.97e-07 ***
## X3 7.538e-04 6.916e-05 10.900 9.02e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5173 on 29 degrees of freedom
## Multiple R-squared: 0.9827, Adjusted R-squared: 0.9809
## F-statistic: 549.2 on 3 and 29 DF, p-value: < 2.2e-16
Pembahasan:
Model regresi awal terbentuk dan ringkasan model ditampilkan.
res <- residuals(model)
hist(res, main="Histogram Residual", probability=TRUE)
lines(density(res))
qqnorm(res)
qqline(res, col="red")
shapiro.test(res)
##
## Shapiro-Wilk normality test
##
## data: res
## W = 0.9461, p-value = 0.1023
Pembahasan:
Jika histogram & Q-Q plot mendekati normal, serta p-value Shapiro
> 0.05 → residual normal.
plot(model$fitted.values, res,
main="Residual vs Fitted",
xlab="Fitted", ylab="Residual")
abline(h=0, col="red")
library(lmtest)
bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 0.97626, df = 3, p-value = 0.807
Pembahasan:
p-value Breusch–Pagan > 0.05 → tidak ada heteroskedastisitas.
library(car)
vif(model)
## X1 X2 X3
## 2.974315 1.775502 2.523749
Pembahasan:
VIF < 10 → tidak ada multikolinearitas parah antar variabel.
coef(model)
## (Intercept) X1 X2 X3
## 1.9913237662 1.3321647268 0.7065378666 0.0007537932
confint(model)
## 2.5 % 97.5 %
## (Intercept) -1.397778e+01 1.796043e+01
## X1 1.091810e+00 1.572519e+00
## X2 4.738393e-01 9.392364e-01
## X3 6.123517e-04 8.952347e-04
Pembahasan:
Model regresi linier berganda yang diperoleh dinyatakan sebagai:
\[ \hat{Y}_i = 1.991 + 1.332X_1 + 0.7065X_2 + 0.0007538X_3 + \varepsilon_i \]
Nilai \(\hat{\beta}_0 = 1.991\) menunjukkan bahwa ketika semua variabel independen bernilai nol, nilai prediksi \(Y\) adalah sebesar 1.991. Nilai ini merupakan intercept atau titik potong awal dari model regresi. Koefisien regresi \(\hat{\beta}_1 = 1.332\) mengindikasikan bahwa setiap peningkatan satu unit pada variabel \(X_1\) akan meningkatkan nilai \(Y\) sebesar 1.332, dengan asumsi variabel lainnya tetap konstan. Koefisien \(\hat{\beta}_2 = 0.7065\) menunjukkan bahwa setiap peningkatan satu unit pada variabel \(X_2\) akan meningkatkan nilai \(Y\) sebesar 0.7065, dengan asumsi variabel lainnya tetap konstan. Koefisien \(\hat{\beta}_3 = 7.538 \times 10^{-4}\) berarti setiap peningkatan satu unit pada variabel \(X_3\) akan meningkatkan nilai \(Y\) sebesar 0.0007538, dengan asumsi variabel lainnya tetap konstan.mHasil ini menunjukkan bahwa ketiga variabel \(X_1\), \(X_2\), dan \(X_3\) memberikan pengaruh positif terhadap variabel \(Y\). Nilai Adjusted R-squared sebesar 0.9809 mengindikasikan bahwa model memiliki kemampuan prediktif yang sangat baik dan mampu menjelaskan sebagian besar variasi dalam indeks pembangunan manusia.
anova(model)
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 392.99 392.99 1468.831 < 2.2e-16 ***
## X2 1 16.07 16.07 60.071 1.512e-08 ***
## X3 1 31.79 31.79 118.805 9.023e-12 ***
## Residuals 29 7.76 0.27
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pembahasan: Karena nilai p-value<0.05, maka dapat disimpulkan bahwa pada taraf nyata 1% cukup bukti untuk menyatakan bahwa setidaknya ada salah satu variabel X dengan variabel Y benar-benar terdapat hubungan linier.
summary(model)$coefficients
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.9913237662 7.807977e+00 0.2550371 8.004945e-01
## X1 1.3321647268 1.175195e-01 11.3356876 3.567530e-12
## X2 0.7065378666 1.137762e-01 6.2098900 8.969881e-07
## X3 0.0007537932 6.915677e-05 10.8997749 9.022781e-12
Pembahasan:
Hasil uji parsial menunjukkan bahwa masing-masing variabel independen
juga secara signifikan berpengaruh terhadap variabel dependen, dengan
nilai p-value untuk setiap variabel lebih kecil dari 1%.
summary(model)$r.squared
## [1] 0.9827042
summary(model)$adj.r.squared
## [1] 0.980915
Pembahasan:
R-squared dan adjusted R-squared menunjukkan seberapa baik model
menjelaskan variasi Y. Nilai Adjusted R-squared sebesar 0.9809
mengindikasikan bahwa model memiliki kemampuan prediktif yang sangat
baik dan mampu menjelaskan sebagian besar variasi dalam indeks
pembangunan manusia.
plot(data$Y, model$fitted.values,
main="Y Aktual vs Y Prediksi",
xlab="Y Aktual", ylab="Y Prediksi")
abline(0, 1, col="blue", lwd=2)
Pembahasan:
Semakin dekat titik ke garis 45°, semakin baik kemampuan prediksi
model.
Analisis regresi yang dilakukan pada penelitian ini mencakup seluruh rangkaian tahapan mulai dari pengumpulan data, eksplorasi awal, pemeriksaan asumsi-asumsi dasar regresi, proses estimasi parameter, pengujian hipotesis, hingga evaluasi keseluruhan performa model. Data yang telah dikumpulkan terlebih dahulu dieksplorasi untuk memahami karakteristik masing-masing variabel, termasuk pola hubungan awal antara variabel independen dan variabel dependen. Setelah itu dilakukan pengujian asumsi seperti normalitas residual, homoskedastisitas, multikolinearitas, dan linearitas untuk memastikan bahwa model regresi yang dibangun memenuhi syarat analisis yang benar. Tahap estimasi parameter dilakukan untuk memperoleh nilai koefisien regresi dari setiap variabel prediktor, sehingga dapat diketahui besar serta arah pengaruh variabel X1, X2, dan X3 terhadap variabel Y. Pengujian hipotesis selanjutnya dilakukan untuk menilai apakah masing-masing koefisien berpengaruh signifikan terhadap model. Terakhir, evaluasi model dilakukan menggunakan indikator seperti R-squared, adjusted R-squared, analisis residual, serta akurasi prediksi.
Secara keseluruhan, model regresi yang dihasilkan dapat digunakan untuk menilai dan menginterpretasikan pengaruh variabel X1, X2, dan X3 terhadap Y. Evaluasi menunjukkan bahwa model memiliki kemampuan yang baik dalam menjelaskan variasi data dan memberikan prediksi yang cukup akurat, sehingga layak digunakan sebagai dasar analisis maupun pengambilan keputusan yang terkait dengan variabel-variabel tersebut.