Analisis regresi adalah proses dalam statistika yang digunakan untuk mengetahui antara dua buah variabel (variabel respon Y dan predictor X) atau lebih. Analisis regresi linear sederhana adalah suatu bentuk analisis yang digunakan untuk mengetahui hubungan secara linier antara suatu variable independen (X) dengan variabel dependen (Y).
Pada analisis ini, digunakan data alokasi anggaran kesehatan dalam persentase sebagai variabel X dan angka harapan hidup dalam tahun sebagai variabel Y.
data_regresi <- readxl::read_excel("D:\\Semester 6\\Komputasi Statistika Lanjut\\datareg.xlsx")
X <- data_regresi$`Alokasi Anggaran Kesehatan`
Y <- data_regresi$`Angka Harapan Hidup`
head(data_regresi)## # A tibble: 6 × 2
## `Alokasi Anggaran Kesehatan` `Angka Harapan Hidup`
## <dbl> <dbl>
## 1 7.27 76.5
## 2 5.53 76.4
## 3 8.33 80.4
## 4 2.96 61.6
## 5 5.85 78.5
## 6 9.71 75.4
## Alokasi Anggaran Kesehatan Angka Harapan Hidup
## Min. : 2.200 Min. :54.98
## 1st Qu.: 4.800 1st Qu.:66.12
## Median : 6.900 Median :71.75
## Mean : 7.227 Mean :71.68
## 3rd Qu.: 9.355 3rd Qu.:76.82
## Max. :19.970 Max. :84.78
Bentuk umum persamaan regresi linier: \[
y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon
\]
##
## Call:
## lm(formula = Y ~ X, data = data_regresi)
##
## Residuals:
## Min 1Q Median 3Q Max
## -18.4280 -3.9532 0.4085 5.2080 12.5472
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 65.2688 1.2316 52.997 < 2e-16 ***
## X 0.8866 0.1564 5.668 5.65e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.59 on 180 degrees of freedom
## Multiple R-squared: 0.1514, Adjusted R-squared: 0.1467
## F-statistic: 32.12 on 1 and 180 DF, p-value: 5.654e-08
Maka, persamaan model regresi: \[ Angka Harapan Hidup = 65.2688 + 0.8866 Alokasi Anggaran Kesehatan \]
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: model$residuals
## D = 0.059731, p-value = 0.1165
Asumsi normalitas terpenuhi karena nilai signifikansi > α, yaitu 0,1165 > 0,05.
Secara visual terlihat bahwa plot-plot pada grafik menyebar secara acak dan tidak membentuk pola tertentu. Maka dapat disimpulkan bahwa asumsi linearitas terpenuhi.
Secara visual:
Pada grafik Scatterplot di atas, dapat dilihat bahwa plot – plot menyebar secara acak dan tidak membentuk pola tertentu.
Secara formal:
##
## Call:
## lm(formula = abs(model$residuals) ~ X, data = data_regresi)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.0318 -3.2725 -0.4676 3.1767 10.6419
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.10656 0.71544 4.342 2.35e-05 ***
## X 0.29707 0.09087 3.269 0.00129 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.829 on 180 degrees of freedom
## Multiple R-squared: 0.05604, Adjusted R-squared: 0.0508
## F-statistic: 10.69 on 1 and 180 DF, p-value: 0.001293
Asumsi Homoskedastisitas tidak terpenuhi karena nilai signifikansi F hitung < α, yaitu 0,001 < 0,05 sehingga residual regresi bersifat heteroskedastisitas.
##
## Call:
## lm(formula = Y ~ X, data = data_regresi)
##
## Residuals:
## Min 1Q Median 3Q Max
## -18.4280 -3.9532 0.4085 5.2080 12.5472
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 65.2688 1.2316 52.997 < 2e-16 ***
## X 0.8866 0.1564 5.668 5.65e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.59 on 180 degrees of freedom
## Multiple R-squared: 0.1514, Adjusted R-squared: 0.1467
## F-statistic: 32.12 on 1 and 180 DF, p-value: 5.654e-08
Dari output didapatkan nilai \(R^2\) sebesar 0,1514 atau 15,14% yang berarti bahwa 15,14% variabel Y (angka harapan hidup) dipengaruhi variabel X (alokasi anggaran kesehatan) dan 84,9% lainnya dipengaruhi oleh faktor lain.