Pendahuluan

Analisis regresi adalah proses dalam statistika yang digunakan untuk mengetahui antara dua buah variabel (variabel respon Y dan predictor X) atau lebih. Analisis regresi linear sederhana adalah suatu bentuk analisis yang digunakan untuk mengetahui hubungan secara linier antara suatu variable independen (X) dengan variabel dependen (Y).

Pada analisis ini, digunakan data alokasi anggaran kesehatan dalam persentase sebagai variabel X dan angka harapan hidup dalam tahun sebagai variabel Y.

Deskripsi Data

data_regresi <- readxl::read_excel("D:\\Semester 6\\Komputasi Statistika Lanjut\\datareg.xlsx")
X <- data_regresi$`Alokasi Anggaran Kesehatan`
Y <- data_regresi$`Angka Harapan Hidup`
head(data_regresi)
## # A tibble: 6 × 2
##   `Alokasi Anggaran Kesehatan` `Angka Harapan Hidup`
##                          <dbl>                 <dbl>
## 1                         7.27                  76.5
## 2                         5.53                  76.4
## 3                         8.33                  80.4
## 4                         2.96                  61.6
## 5                         5.85                  78.5
## 6                         9.71                  75.4
summary(data_regresi)
##  Alokasi Anggaran Kesehatan Angka Harapan Hidup
##  Min.   : 2.200             Min.   :54.98      
##  1st Qu.: 4.800             1st Qu.:66.12      
##  Median : 6.900             Median :71.75      
##  Mean   : 7.227             Mean   :71.68      
##  3rd Qu.: 9.355             3rd Qu.:76.82      
##  Max.   :19.970             Max.   :84.78

Pembahasan

Model Regresi

Bentuk umum persamaan regresi linier: \[ y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon \]

Estimasi Parameter

model = lm(Y ~ X, data = data_regresi)
summary(model)
## 
## Call:
## lm(formula = Y ~ X, data = data_regresi)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -18.4280  -3.9532   0.4085   5.2080  12.5472 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  65.2688     1.2316  52.997  < 2e-16 ***
## X             0.8866     0.1564   5.668 5.65e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.59 on 180 degrees of freedom
## Multiple R-squared:  0.1514, Adjusted R-squared:  0.1467 
## F-statistic: 32.12 on 1 and 180 DF,  p-value: 5.654e-08

Maka, persamaan model regresi: \[ Angka Harapan Hidup = 65.2688 + 0.8866 Alokasi Anggaran Kesehatan \]

Uji Asumsi

Uji Normalitas

nortest::lillie.test(model$residuals)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  model$residuals
## D = 0.059731, p-value = 0.1165

Asumsi normalitas terpenuhi karena nilai signifikansi > α, yaitu 0,1165 > 0,05.

Uji Linearitas

plot(model,1)

Secara visual terlihat bahwa plot-plot pada grafik menyebar secara acak dan tidak membentuk pola tertentu. Maka dapat disimpulkan bahwa asumsi linearitas terpenuhi.

Uji Homoskedastisitas

Secara visual:

plot(model,3)

Pada grafik Scatterplot di atas, dapat dilihat bahwa plot – plot menyebar secara acak dan tidak membentuk pola tertentu.

Secara formal:

glejser_test <- lm(abs(model$residuals)~X, data = data_regresi)
summary(glejser_test)
## 
## Call:
## lm(formula = abs(model$residuals) ~ X, data = data_regresi)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.0318 -3.2725 -0.4676  3.1767 10.6419 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.10656    0.71544   4.342 2.35e-05 ***
## X            0.29707    0.09087   3.269  0.00129 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.829 on 180 degrees of freedom
## Multiple R-squared:  0.05604,    Adjusted R-squared:  0.0508 
## F-statistic: 10.69 on 1 and 180 DF,  p-value: 0.001293

Asumsi Homoskedastisitas tidak terpenuhi karena nilai signifikansi F hitung < α, yaitu 0,001 < 0,05 sehingga residual regresi bersifat heteroskedastisitas.

Uji Non-Autokorelasi

lmtest::dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 1.8905, p-value = 0.2295
## alternative hypothesis: true autocorrelation is greater than 0

Asumsi Non-Autokorelasi terpenuhi karena nilai p-value < α, yaitu 0,2295 < 0.05.

Koefisien Determinasi

summary(model)
## 
## Call:
## lm(formula = Y ~ X, data = data_regresi)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -18.4280  -3.9532   0.4085   5.2080  12.5472 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  65.2688     1.2316  52.997  < 2e-16 ***
## X             0.8866     0.1564   5.668 5.65e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.59 on 180 degrees of freedom
## Multiple R-squared:  0.1514, Adjusted R-squared:  0.1467 
## F-statistic: 32.12 on 1 and 180 DF,  p-value: 5.654e-08

Dari output didapatkan nilai \(R^2\) sebesar 0,1514 atau 15,14% yang berarti bahwa 15,14% variabel Y (angka harapan hidup) dipengaruhi variabel X (alokasi anggaran kesehatan) dan 84,9% lainnya dipengaruhi oleh faktor lain.

Scatterplot

plot(Y, X, main = 'Scatterplot Data', xlab='Alokasi Anggaran Kesehatan (%)', ylab='Angka Harapan Hidup(%)')