Pendahuluan

Analisis regresi adalah suatu analisis statistika yang digunakan untuk menjelaskan hubungan suatu variabel respon \(Y\) dengan menggunakan satu atau lebih variabel input \(X_1, X_2, \ldots, X_k\). Jika \(k = 1\), maka regresi yang terbentuk disebut regresi linier sederhana. Regresi linier berganda adalah persamaan regresi yang menggambarkan hubungan antara lebih dari satu peubah bebas (X) dan satu peubah tak bebas (Y). Hubungan antara peubah-peubah tersebut dapat dituliskan dalam bentuk:

\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_3 X_{3i} + \cdots + \beta_p X_{pi} + \varepsilon_i, \quad i = 1,2,\ldots,n \]

Pada model ini,
- \(Y_i\) adalah peubah tak bebas (respon),
- \(X_{1i}, X_{2i}, \ldots, X_{pi}\) adalah peubah bebas (prediktor),
- \(\beta_0, \beta_1, \ldots, \beta_p\) adalah parameter regresi,
- \(\varepsilon_i\) adalah galat atau error pada pengamatan ke-\(i\).


1. Mengumpulkan Data

data <- read.delim("clipboard")
head(data)
##       Y    X1    X2    X3
## 1 66.85  6.14 71.74  7301
## 2 71.32  8.84 71.72 10251
## 3 73.72  9.51 71.61 11829
## 4 72.47  8.87 71.76 10690
## 5 76.84 10.09 74.10 12115
## 6 77.89 10.59 74.22 12676
summary(data)
##        Y               X1               X2              X3       
##  Min.   :66.85   Min.   : 6.140   Min.   :71.52   Min.   : 6382  
##  1st Qu.:72.47   1st Qu.: 8.840   1st Qu.:72.30   1st Qu.: 9395  
##  Median :74.63   Median : 9.510   Median :73.65   Median :11632  
##  Mean   :74.47   Mean   : 9.387   Mean   :73.25   Mean   :10911  
##  3rd Qu.:77.13   3rd Qu.:10.090   3rd Qu.:74.10   3rd Qu.:12115  
##  Max.   :82.98   Max.   :11.620   Max.   :74.76   Max.   :15674

Pembahasan:
Penelitian ini menggunakan data yang bersumber dari Badan Pusat Statistik (BPS) Provinsi Sumatera Utara. Variabel penelitian adalah segala sesuatu yang menjadi objek pengamatan penelitian. Pada laporan ini terdapat tiga variabel independen, yaitu \(X_{1}\) (Pengeluaran per kapita), \(X_{2}\) (Angka harapan hidup), dan \(X_{3}\) (Tingkat kemiskinan), serta satu variabel dependen yaitu \(Y\) (Indeks pembangunan manusia) menurut Provinsi Sumatera Utara Tahun 2023.


2. Eksplorasi Data

pairs(~Y + X1 + X2 + X3, data = data, main="Scatterplot")

Pembahasan:
Scatterplot digunakan untuk melihat pola hubungan awal antar variabel.

cor(data[, c("Y","X1","X2","X3")])
##            Y        X1        X2        X3
## Y  1.0000000 0.9359601 0.7544975 0.9066020
## X1 0.9359601 1.0000000 0.6529525 0.7722856
## X2 0.7544975 0.6529525 1.0000000 0.5691507
## X3 0.9066020 0.7722856 0.5691507 1.0000000

Pembahasan:
Korelasi menunjukkan kekuatan hubungan linear antara Y dan variabel prediktornya.


3. Uji Asumsi

3.1 Summary model

model <-lm(Y~., data = data)
summary(model)
## 
## Call:
## lm(formula = Y ~ ., data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.8477 -0.3181 -0.1014  0.3911  1.1784 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.991e+00  7.808e+00   0.255      0.8    
## X1          1.332e+00  1.175e-01  11.336 3.57e-12 ***
## X2          7.065e-01  1.138e-01   6.210 8.97e-07 ***
## X3          7.538e-04  6.916e-05  10.900 9.02e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5173 on 29 degrees of freedom
## Multiple R-squared:  0.9827, Adjusted R-squared:  0.9809 
## F-statistic: 549.2 on 3 and 29 DF,  p-value: < 2.2e-16

Pembahasan:
Model regresi awal terbentuk dan ringkasan model ditampilkan.


3.2 Normalitas Residual

res <- residuals(model)

hist(res, main="Histogram Residual", probability=TRUE)
lines(density(res))

qqnorm(res)
qqline(res, col="red")

shapiro.test(res)
## 
##  Shapiro-Wilk normality test
## 
## data:  res
## W = 0.9461, p-value = 0.1023

Pembahasan:
Jika histogram & Q-Q plot mendekati normal, serta p-value Shapiro > 0.05 → residual normal.


3.3 Homoskedastisitas

plot(model$fitted.values, res,
     main="Residual vs Fitted",
     xlab="Fitted", ylab="Residual")
abline(h=0, col="red")

library(lmtest)
bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 0.97626, df = 3, p-value = 0.807

Pembahasan:
p-value Breusch–Pagan > 0.05 → tidak ada heteroskedastisitas.


3.4 Multikolinearitas

library(car)
vif(model)
##       X1       X2       X3 
## 2.974315 1.775502 2.523749

Pembahasan:
VIF < 10 → tidak ada multikolinearitas parah antar variabel.


4. Estimasi Parameter

coef(model)
##  (Intercept)           X1           X2           X3 
## 1.9913237662 1.3321647268 0.7065378666 0.0007537932
confint(model)
##                     2.5 %       97.5 %
## (Intercept) -1.397778e+01 1.796043e+01
## X1           1.091810e+00 1.572519e+00
## X2           4.738393e-01 9.392364e-01
## X3           6.123517e-04 8.952347e-04

Pembahasan:
Model regresi linier berganda yang diperoleh dinyatakan sebagai:

\[ \hat{Y}_i = 1.991 + 1.332X_1 + 0.7065X_2 + 0.0007538X_3 + \varepsilon_i \]

Nilai \(\hat{\beta}_0 = 1.991\) menunjukkan bahwa ketika semua variabel independen bernilai nol, nilai prediksi \(Y\) adalah sebesar 1.991. Nilai ini merupakan intercept atau titik potong awal dari model regresi. Koefisien regresi \(\hat{\beta}_1 = 1.332\) mengindikasikan bahwa setiap peningkatan satu unit pada variabel \(X_1\) akan meningkatkan nilai \(Y\) sebesar 1.332, dengan asumsi variabel lainnya tetap konstan. Koefisien \(\hat{\beta}_2 = 0.7065\) menunjukkan bahwa setiap peningkatan satu unit pada variabel \(X_2\) akan meningkatkan nilai \(Y\) sebesar 0.7065, dengan asumsi variabel lainnya tetap konstan. Koefisien \(\hat{\beta}_3 = 7.538 \times 10^{-4}\) berarti setiap peningkatan satu unit pada variabel \(X_3\) akan meningkatkan nilai \(Y\) sebesar 0.0007538, dengan asumsi variabel lainnya tetap konstan.mHasil ini menunjukkan bahwa ketiga variabel \(X_1\), \(X_2\), dan \(X_3\) memberikan pengaruh positif terhadap variabel \(Y\). Nilai Adjusted R-squared sebesar 0.9809 mengindikasikan bahwa model memiliki kemampuan prediktif yang sangat baik dan mampu menjelaskan sebagian besar variasi dalam indeks pembangunan manusia.



5. Pengujian Hipotesis

5.1 Uji F (Simulltan)

anova(model)
## Analysis of Variance Table
## 
## Response: Y
##           Df Sum Sq Mean Sq  F value    Pr(>F)    
## X1         1 392.99  392.99 1468.831 < 2.2e-16 ***
## X2         1  16.07   16.07   60.071 1.512e-08 ***
## X3         1  31.79   31.79  118.805 9.023e-12 ***
## Residuals 29   7.76    0.27                       
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Pembahasan: Karena nilai p-value<0.05, maka dapat disimpulkan bahwa pada taraf nyata 1% cukup bukti untuk menyatakan bahwa setidaknya ada salah satu variabel X dengan variabel Y benar-benar terdapat hubungan linier.


5.2 Uji t (Parsial)

summary(model)$coefficients
##                 Estimate   Std. Error    t value     Pr(>|t|)
## (Intercept) 1.9913237662 7.807977e+00  0.2550371 8.004945e-01
## X1          1.3321647268 1.175195e-01 11.3356876 3.567530e-12
## X2          0.7065378666 1.137762e-01  6.2098900 8.969881e-07
## X3          0.0007537932 6.915677e-05 10.8997749 9.022781e-12

Pembahasan:
Hasil uji parsial menunjukkan bahwa masing-masing variabel independen juga secara signifikan berpengaruh terhadap variabel dependen, dengan nilai p-value untuk setiap variabel lebih kecil dari 1%.


6. Evaluasi Model

6.1 Goodness of Fit

summary(model)$r.squared
## [1] 0.9827042
summary(model)$adj.r.squared
## [1] 0.980915

Pembahasan:
R-squared dan adjusted R-squared menunjukkan seberapa baik model menjelaskan variasi Y. Nilai Adjusted R-squared sebesar 0.9809 mengindikasikan bahwa model memiliki kemampuan prediktif yang sangat baik dan mampu menjelaskan sebagian besar variasi dalam indeks pembangunan manusia.


6.2 Plot Y Aktual vs Prediksi

plot(data$Y, model$fitted.values,
     main="Y Aktual vs Y Prediksi",
     xlab="Y Aktual", ylab="Y Prediksi")
abline(0, 1, col="blue", lwd=2)

Pembahasan:
Semakin dekat titik ke garis 45°, semakin baik kemampuan prediksi model.


Kesimpulan

Analisis regresi yang dilakukan pada penelitian ini mencakup seluruh rangkaian tahapan mulai dari pengumpulan data, eksplorasi awal, pemeriksaan asumsi-asumsi dasar regresi, proses estimasi parameter, pengujian hipotesis, hingga evaluasi keseluruhan performa model. Data yang telah dikumpulkan terlebih dahulu dieksplorasi untuk memahami karakteristik masing-masing variabel, termasuk pola hubungan awal antara variabel independen dan variabel dependen. Setelah itu dilakukan pengujian asumsi seperti normalitas residual, homoskedastisitas, multikolinearitas, dan linearitas untuk memastikan bahwa model regresi yang dibangun memenuhi syarat analisis yang benar. Tahap estimasi parameter dilakukan untuk memperoleh nilai koefisien regresi dari setiap variabel prediktor, sehingga dapat diketahui besar serta arah pengaruh variabel X1, X2, dan X3 terhadap variabel Y. Pengujian hipotesis selanjutnya dilakukan untuk menilai apakah masing-masing koefisien berpengaruh signifikan terhadap model. Terakhir, evaluasi model dilakukan menggunakan indikator seperti R-squared, adjusted R-squared, analisis residual, serta akurasi prediksi.

Secara keseluruhan, model regresi yang dihasilkan dapat digunakan untuk menilai dan menginterpretasikan pengaruh variabel X1, X2, dan X3 terhadap Y. Evaluasi menunjukkan bahwa model memiliki kemampuan yang baik dalam menjelaskan variasi data dan memberikan prediksi yang cukup akurat, sehingga layak digunakan sebagai dasar analisis maupun pengambilan keputusan yang terkait dengan variabel-variabel tersebut.