Analisis regresi berganda adalah sebuah metode statistik yang digunakan untuk memodelkan hubungan antara satu variabel dependen (variabel respons) dengan dua atau lebih variabel independen (variabel prediktor). Tujuan dari analisis regresi berganda adalah untuk menentukan sejauh mana variabel-variabel prediktor tersebut berkontribusi terhadap variasi variabel respons.
Dalam analisis regresi berganda, kita mencari persamaan regresi yang terbaik untuk menggambarkan hubungan antara variabel respons dan variabel prediktor. Persamaan regresi berganda umumnya dinyatakan sebagai :
Y = β₀ + β₁X₁ + β₂X₂ + ... + βₚXₚ + ε
Pada analisis ini, akan dilakukan analisis regresi berganda untuk mengetahui pengaruh imunisasi penyakit polio dan terjadinya insiden HIV terhadap harapan hidup di Indonesia tahun 2000 - 2015. Tujuannya adalah untuk mengetahui signifikansi pengaruh dari kedua penyakit tersebut terhadap usia harapan hidup Indonesia.
Data yang akan digunakan dalam analisis kali ini adalah data penyakit polio dan HIV di Indonesia yang diambil dari tahun 2000 - 2015. Syntax yang akan digunakan untuk mengimpor data adalah sebagai berikut :
library(tidyverse)
library(openintro)
library(dplyr)
library(stats)
library(lmtest)
library(olsrr)
library(readxl)
data_case_method_dataset <- read_excel("data_case_method - dataset.xlsx")
View(data_case_method_dataset)
negara_filter <- c("Indonesia")
filtered_data <- data_case_method_dataset %>%
filter(Country %in% negara_filter) %>%
select(Country, Year, Polio, Incidents_HIV, Life_expectancy)
data_sorted <- filtered_data %>%
arrange(Year)
knitr::kable(data_sorted)
| Country | Year | Polio | Incidents_HIV | Life_expectancy |
|---|---|---|---|---|
| Indonesia | 2000 | 72 | 0.06 | 65.8 |
| Indonesia | 2001 | 77 | 0.11 | 66.0 |
| Indonesia | 2002 | 80 | 0.17 | 66.3 |
| Indonesia | 2003 | 80 | 0.19 | 66.6 |
| Indonesia | 2004 | 79 | 0.20 | 67.0 |
| Indonesia | 2005 | 79 | 0.21 | 67.3 |
| Indonesia | 2006 | 78 | 0.22 | 67.7 |
| Indonesia | 2007 | 77 | 0.22 | 68.1 |
| Indonesia | 2008 | 83 | 0.21 | 68.5 |
| Indonesia | 2009 | 85 | 0.21 | 68.9 |
| Indonesia | 2010 | 82 | 0.21 | 69.2 |
| Indonesia | 2011 | 81 | 0.20 | 69.5 |
| Indonesia | 2012 | 87 | 0.20 | 69.9 |
| Indonesia | 2013 | 92 | 0.18 | 70.2 |
| Indonesia | 2014 | 90 | 0.17 | 70.5 |
| Indonesia | 2015 | 85 | 0.15 | 70.8 |
Setelah data kita bersihkan, kita bisa mulai melakukan perhitungan regresi linier berganda. Persamaan regresi linier berganda dilakukan dengan syntax berikut :
model <- lm(Life_expectancy ~ Polio + Incidents_HIV, data = data_sorted)
summary(model)
##
## Call:
## lm(formula = Life_expectancy ~ Polio + Incidents_HIV, data = data_sorted)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.48888 -0.66388 -0.03851 0.55483 1.80103
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 46.5472 4.0073 11.616 3.08e-08 ***
## Polio 0.2574 0.0516 4.988 0.000248 ***
## Incidents_HIV 3.8371 6.1142 0.628 0.541152
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9769 on 13 degrees of freedom
## Multiple R-squared: 0.7004, Adjusted R-squared: 0.6544
## F-statistic: 15.2 on 2 and 13 DF, p-value: 0.0003954
Setelah mengetahui hasil yang muncul, kita bisa melakukan uji asumsi klasik. Syntax yang digunakan adalah :
ks.test(model$residual, ecdf(model$residual))
##
## Exact one-sample Kolmogorov-Smirnov test
##
## data: model$residual
## D = 0.0625, p-value = 1
## alternative hypothesis: two-sided
bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 0.39131, df = 2, p-value = 0.8223
ols_vif_tol(model)
## Variables Tolerance VIF
## 1 Polio 0.8974563 1.11426
## 2 Incidents_HIV 0.8974563 1.11426
bgtest(model)
##
## Breusch-Godfrey test for serial correlation of order up to 1
##
## data: model
## LM test = 3.4151, df = 1, p-value = 0.0646
Berdasarkan output diatas, maka dapat disimpulkan bahwa persamaan regresi yang terbentuk adalah :
Y = 46.5472 + 0.2574X1 + 3.8371X2
Dengan variabel X1 merupakan imunisasi polio dan X2 merupakan insiden HIV. Kemudian, dilakukan uji klasik berupa Normalitas, Homoskesdatisitas, Multikolinearitas, dan Autokorelasi.
H0 : Sisaan berdistribusi normal H1 : Sisaan tidak berdistribusi normal
Dari output hasi uji asumsi, diketahui nilai p-value yakni 1 > 0,05 (α), maka H0 diterima sehingga sisaan berdistribusi normal.
H0 : Tidak terjadi gejala heteroskedastisitas (homoskedastisitas) H1 : Terjadi gejala heteroskedastisitas (homoskedastisitas)
Dari output hasi uji asumsi, diketahui nilai p-value yakni 0.8223 < 0,05 (α), maka H1 diterima sehingga terjadi gejala heteroskedastisitas.
H0 : Tidak terjadi multikolinieritas H1 : Terjadi multikolinieritas
Berdasarkan output diperoleh hasil TOL untuk masing-masing variabel independen > 0.1. Nilai VIF masing-masing variabel independen juga < 10, maka menghasilkan keputusan terima H0 dengan taraf nyata 5% sudah cukup bukti bahwa tidak terjadi multikolinieritas.
H0 : Tidak terjadi autokorelasi H1 : Terjadi autokorelasi
Berdasarkan output diperoleh hasil p−value dari Breusch-Godfrey test sebesar 0.0646. Hal ini berarti bahwa p−value(0.0646)< α(0.05), maka menghasilkan keputusan terima H1. Dengan taraf nyata 5%, maka terjadi autokorelasi.
Data yang ditampilkan bisa saja memiliki berapa perubahan dikarenakan harapan hidup bisa berubab-ubah oleh faktor lain yang ada dalam data. Pengumpulan data bisa dilengkapi dengan faktor-faktor lain, seperti penyakit-penyakit tambahan atau faktor eksternal seperti lingkungan. Dengan penambahan tambahan faktor, kita bisa lebih mendapat gambaran lebih luas terhadap penyebab angka harapan hidup yang ada di Indonesia bisa di angka tersebut.