Peta Wilayah Asia
Insight
Dari dataset yang diberikan, penguji tertarik untuk menguji apakah terdapat pengaruh antara variabel kematian anak di bawah lima tahun (Under_five_deaths), kematian orang dewasa (Adult_mortality), BMI (ukuran status gizi pada orang dewasa) dan PDB per kapita (GDP_per_capita) dengan rata-rata harapan hidup (Life_expectancy) di wilayah Asia pada tahun 2015. Dalam memprediksi dan mengukur nilai dari pengaruh suatu variabel prediktor yang bersifat independent terhadap variabel respon yang bersifat dependent dapat digunakan analisis regresi.
Analisis regresi merupakan suatu kajian dari hubungan antara satu variabel, dengan satu atau lebih variabel.
Dalam pengujian ini, karena terdapat 4 variabel bebas maka akan dilakukan analisis linier berganda. Dengan adanya regresi dapat menentukan model yang dapat menduga/meramalkan nilai dari peubah respon yang dipengaruhi peubah prediktor. Persamaan regresi ini merupakan suatu fungsi prediksi variabel yang mempengaruhi variabel lain. Dalam laporan ini akan dibahas analisis regresi linier berganda beserta uji asumsinya.
Analisis Data
Uji Regresi Linier
Analisis regresi merupakan suatu metode atau teknik analisis hipotesis penelitian untuk menguji ada tidaknya pengaruh antara variabel satu dengan variabel lain yang dinyatakan dalam bentuk persamaan matematik (regresi). Analisis regresi linear berganda berfungsi untuk mencari pengaruh dari dua atau lebih variabel independent (variabel bebas atau X) terhadap variabel dependent (variabel terikat atau Y). Persamaan regresi linear dapat diekspresikan dalam persamaan berikut:
\[ Y_i=\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_nX_n+\epsilon \]
Keterangan:
\(Y\) = variable tak bebas (nilai variabel yang akan diprediksi)
\(\beta_0\) = konstanta
\(\beta_1,\beta_2,\beta_n\) = nilai koefisien regresi
\(X_1,X_2,X_n\) = variabel bebas
Uji Signifikan
Uji Signifikansi Simultan (Uji F): Uji F diperlukan untuk mengetahui adanya pengaruh simultan dari semua variabel independen yang dirumuskan terhadap variabel dependen.
Uji Parsial (Uji t): Uji t pada dasarnya dilakukan untuk menguji pengaruh dari masing-masing variabel independen terhadap variabel dependen.
Uji Asumsi Klasik
Uji ini merupakan syarat sebelum melakukan analisis regresi linear berganda untuk uji hipotesis penelitian. Maka ada beberapa asumsi atau persyaratan yang harus terpenuhi dalam model regresi. Persyaratan atau asumsi ini dibuktikan melalui serangkaian uji asumsi klasik mencakup:
Uji Normalitas, dimana asumsi yang harus terpenuhi adalah model regresi berdistribusi normal.
Uji Homokedastisitas, dalam model regresi tidak terjadi gejala heteroskedastisitas.
Uji Autokorelasi (khusus untuk data time series), persyaratan yang harus terpenuhi adalah tidak terjadi autokorelasi.
Uji Multikolinearitas, dimana model regresi yang baik adalah tidak terjadi gejala multikolinearitas.
Source Code
Library
Berikut ini adalah beberapa package yang dipakai dalam pengujian ini:
#package yang digunakan
library(lmtest)
library(car)
library(ggpubr)
library(readxl)
library(DT)
Data
Berikut ini merupakan data yang digunakan dalam pengujian ini atau dapat diunduh di sini.
#input data
data <- read_excel("C:\\Users\\user\\Documents\\punya cantika\\smt4\\sim\\data_cm2.xlsx")
dataset1<- datatable(data,
options = list(
scrollX = TRUE,
pageLength = 10,
lengthMenu = c(5, 10, 15, 20)
))
dataset1
Model Regresi
Untuk membuat model regresi linier berganda, penguji menggunakan
fungsi lm() dari paket
stats (yang merupakan bagian dari base
R).
#membuat model regresi
RE<-lm(data$Life_expectancy ~ data$Under_five_deaths+data$Adult_mortality+data$BMI+data$GDP_per_capita, data = data)
summary(RE)
##
## Call:
## lm(formula = data$Life_expectancy ~ data$Under_five_deaths +
## data$Adult_mortality + data$BMI + data$GDP_per_capita, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.07808 -0.55609 0.02576 0.47680 2.15584
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.059e+01 3.511e+00 25.802 < 2e-16 ***
## data$Under_five_deaths -1.283e-01 1.726e-02 -7.434 1.95e-07 ***
## data$Adult_mortality -4.049e-02 7.414e-03 -5.461 1.74e-05 ***
## data$BMI -3.988e-01 1.391e-01 -2.868 0.00894 **
## data$GDP_per_capita 7.807e-05 2.556e-05 3.054 0.00582 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.214 on 22 degrees of freedom
## Multiple R-squared: 0.9469, Adjusted R-squared: 0.9373
## F-statistic: 98.11 on 4 and 22 DF, p-value: 1.077e-13
Sehingga diperoleh model regresi sebagai berikut:
\[ Y = 90.59-0.1283X_1-0.04049X_2-0.399X_3+0.000078X_4 \]
yang berarti bahwa:
Setiap kenaikan satu persen kematian anak di bawah lima tahun (Under_five_deaths) akan mengurangi rata-rata harapan hidup (Life_expectancy) sebesar 12.83%.
Setiap kenaikan satu persen kematian orang dewasa (Adult_mortality) akan mengurangi rata-rata harapan hidup (Life_expectancy) sebesar 4.05%.
Setiap kenaikan satu persen BMI (ukuran status gizi pada orang dewasa) akan mengurangi rata-rata harapan hidup (Life_expectancy) sebesar 39.9%.
Setiap kenaikan satu persen PDB per kapita (GDP_per_capita)akan menaikkan rata-rata harapan hidup (Life_expectancy) sebesar 0.0078%.
Selain itu, diperoleh nilai Adjusted R-squared = 0.9373 yang berarti bahwa rata-rata harapan hidup (Life_expectancy) mampu dijelaskan secara bersama-sama oleh variabel kematian anak di bawah lima tahun (Under_five_deaths), kematian orang dewasa (Adult_mortality), BMI (ukuran status gizi pada orang dewasa) dan PDB per kapita (GDP_per_capita) sebesar 93.73% sedangkan sisanya 6.27% disebabkan variabel lain yang belum masuk dalam model.
Uji Signifikan
Uji Signifikansi Simultan (Uji F)
Menurut hasil dari pembentukan model regresi, terdapat cukup bukti untuk menolak hipotesis nol (H0: semua parameter regresi tidak berpengaruh signifikan terhadap model) karena p-value = (1.077e-13) lebih kecil dari alpha (0.05). Maka dapat disimpulkan bahwa semua parameter regresi berpengaruh signifikan terhadap model.
Uji t
Menurut hasil dari pembentukan model regresi, terdapat cukup bukti untuk menolak hipotesis nol (H0: parameter regresi ke-i tidak berpengaruh signifikan terhadap model) karena p-value semua variabel <0.05, maka dapat disimpulkan bahwa variabel X1, X2, X3,X4 berpengaruh signifikan terhadap variabel Y.
Uji Asumsi
Uji Normalitas
Q-Q plot (Quantile-Quantile plot) ditarik antara sampel yang
diberikan dan distribusi normal. Garis referensi 45 derajat juga diplot
untuk menilai seberapa dekat nilai sampel dengan distribusi normal.
Untuk menggambar plot Q-Q, penguji menggunakan fungsi
ggqqplot() yang tersedia dalam paket
ggpubr.
ggqqplot(RE$residuals) +
ggtitle("Q-Q Plot of Residuals")
Dalam contoh ini, semua titik jatuh di sepanjang garis referensi, sehingga kita dapat mengasumsikan normalitas pada residual data.
Penguji juga menggunakan fungsi
shapiro.test() untuk menguji normalitas
data dengan Uji Shapiro-Wilk.
shapiro.test(RE$residuals)
##
## Shapiro-Wilk normality test
##
## data: RE$residuals
## W = 0.96832, p-value = 0.558
Menurut hasil uji Shapiro-Wilk, tidak ada cukup bukti untuk menolak hipotesis nol (H0: Residu data terdistribusi normal) karena p-value (0.558) lebih besar dari alpha (0.05). Maka dapat disimpulkan bahwa residu data berdistribusi normal.
Uji Homokedastisitas
Homoskedastisitas adalah kondisi dimana terdapat varians yang sama dari setiap residualnya. Asumsi homoskedastisitas dapat diperiksa dengan memperhatikan plot Scale-location, yang disebut juga plot spread-location.
plot(RE, 3)
Plot ini menunjukkan bahwa residu tersebar merata di sepanjang rentang prediktor. Garis horizontal sebaiknya terlihat dengan titik sebaran yang sama. Dalam contoh ini, terlihat bahwa garis horizontal disertai titik-titik sebaran yang sama. Sehingga, kita dapat mengasumsikan homogenitas variansi.
Penguji menggunakan fungsi bptest()
untuk menguji homokedastisitas data dengan Uji Breusch-Pagan.
bptest(RE)
##
## studentized Breusch-Pagan test
##
## data: RE
## BP = 1.869, df = 4, p-value = 0.7598
Menurut hasil uji Breusch-Pagan, tidak ada cukup bukti untuk menolak hipotesis nol (H0: Variansi residu data homogen) karena p-value (0.7598) lebih besar dari alpha (0.05). Maka dapat disimpulkan bahwa variansi residu data homogen.
Uji Autokorelasi
Penguji menggunakan fungsi dwtest()
untuk menguji asumsi autokorelasi dengan menggunakan uji Durbin Watson.
Durbin Watson menguji apakah error memiliki kondisi
autokorelasi dengan dirinya sendiri.
dwtest(RE)
##
## Durbin-Watson test
##
## data: RE
## DW = 1.8058, p-value = 0.348
## alternative hypothesis: true autocorrelation is greater than 0
Menurut hasil uji Durbin Watson, tidak ada cukup bukti untuk menolak hipotesis nol (H0: Tidak ada autokorelasi pada residu data) karena p-value (0.348) lebih besar dari alpha (0.05). Maka dapat disimpulkan bahwa tidak terdapat autokorelasi pada residu data.
Uji Multikolinearitas
Asumsi linearitas dapat diperiksa dengan memperhatikan Residuals vs Fitted plot.
plot(RE, 1)
Adanya pola dapat menunjukkan adanya masalah dengan beberapa aspek model linier. Dalam pengujian ini, tidak terdapat pola pada plot residual. Hal ini menunjukkan bahwa terdapat hubungan linier antara variabel independen dan variabel dependen.
vif(RE)
## data$Under_five_deaths data$Adult_mortality data$BMI
## 1.991889 2.377022 1.115820
## data$GDP_per_capita
## 1.856145
Berdasarkan pengujian yang telah dilakukan, diperoleh nilai Variance Inflation Factor (VIF) menunjukkan tidak ada nilai VIF<10, maka tidak terjadi multikolinearitas pada residu data.
Kesimpulan
Pada pengujian ini diperoleh kesimpulan, sebagai berikut:
Diperoleh model regresi sebagai berikut: \[ Y = 90.59-0.1283X_1-0.04049X_2-0.399X_3+0.000078X_4 \]
yang berarti bahwa:
- Setiap kenaikan satu persen kematian anak di bawah lima tahun (Under_five_deaths) akan mengurangi rata-rata harapan hidup (Life_expectancy) sebesar 12.83%.
- Setiap kenaikan satu persen kematian orang dewasa (Adult_mortality) akan mengurangi rata-rata harapan hidup (Life_expectancy) sebesar 4.05%.
- Setiap kenaikan satu persen BMI (ukuran status gizi pada orang dewasa) akan mengurangi rata-rata harapan hidup (Life_expectancy) sebesar 39.9%.
- Setiap kenaikan satu persen PDB per kapita (GDP_per_capita) akan menaikkan rata-rata harapan hidup (Life_expectancy) sebesar 0.0078%.
Diperoleh nilai Adjusted R-squared = 0.9373 yang berarti bahwa rata-rata harapan hidup (Life_expectancy) mampu dijelaskan secara bersama-sama oleh variabel kematian anak di bawah lima tahun (Under_five_deaths), kematian orang dewasa (Adult_mortality), BMI (ukuran status gizi pada orang dewasa) dan PDB per kapita (GDP_per_capita) sebesar 93.73% sedangkan sisanya 6.27% disebabkan variabel lain yang belum masuk dalam model.
Diperoleh bahwa model memiliki data residu yang berdistribusi normal, tidak ada autokorelasi, tidak terdapat autokorelasi pada residu data, tidak terjadi multikolinearitas pada residu data karena nilai p-value > 0.05, sehingga model sudah sesuai atau tidak terdapat kekurangcocokan model.