Analisis Regresi Faktor-Faktor yang Memengaruhi Life Expentancy di wilayah Asia pada Tahun 2015

Cantika Puspitaningrum | MO722027

Peta Wilayah Asia

Insight

Dari dataset yang diberikan, penguji tertarik untuk menguji apakah terdapat pengaruh antara variabel kematian anak di bawah lima tahun (Under_five_deaths), kematian orang dewasa (Adult_mortality), BMI (ukuran status gizi pada orang dewasa) dan PDB per kapita (GDP_per_capita) dengan rata-rata harapan hidup (Life_expectancy) di wilayah Asia pada tahun 2015. Dalam memprediksi dan mengukur nilai dari pengaruh suatu variabel prediktor yang bersifat independent terhadap variabel respon yang bersifat dependent dapat digunakan analisis regresi.

Analisis regresi merupakan suatu kajian dari hubungan antara satu variabel, dengan satu atau lebih variabel.

Dalam pengujian ini, karena terdapat 4 variabel bebas maka akan dilakukan analisis linier berganda. Dengan adanya regresi dapat menentukan model yang dapat menduga/meramalkan nilai dari peubah respon yang dipengaruhi peubah prediktor. Persamaan regresi ini merupakan suatu fungsi prediksi variabel yang mempengaruhi variabel lain. Dalam laporan ini akan dibahas analisis regresi linier berganda beserta uji asumsinya.

Analisis Data

Uji Regresi Linier

Analisis regresi merupakan suatu metode atau teknik analisis hipotesis penelitian untuk menguji ada tidaknya pengaruh antara variabel satu dengan variabel lain yang dinyatakan dalam bentuk persamaan matematik (regresi). Analisis regresi linear berganda berfungsi untuk mencari pengaruh dari dua atau lebih variabel independent (variabel bebas atau X) terhadap variabel dependent (variabel terikat atau Y). Persamaan regresi linear dapat diekspresikan dalam persamaan berikut:

\[ Y_i=\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_nX_n+\epsilon \]

Keterangan:

\(Y\) = variable tak bebas (nilai variabel yang akan diprediksi)

\(\beta_0\) = konstanta

\(\beta_1,\beta_2,\beta_n\) = nilai koefisien regresi

\(X_1,X_2,X_n\) = variabel bebas


Uji Signifikan

  1. Uji Signifikansi Simultan (Uji F): Uji F diperlukan untuk mengetahui adanya pengaruh simultan dari semua variabel independen yang dirumuskan terhadap variabel dependen.

  2. Uji Parsial (Uji t): Uji t pada dasarnya dilakukan untuk menguji pengaruh dari masing-masing variabel independen terhadap variabel dependen.


Uji Asumsi Klasik

Uji ini merupakan syarat sebelum melakukan analisis regresi linear berganda untuk uji hipotesis penelitian. Maka ada beberapa asumsi atau persyaratan yang harus terpenuhi dalam model regresi. Persyaratan atau asumsi ini dibuktikan melalui serangkaian uji asumsi klasik mencakup:

  1. Uji Normalitas, dimana asumsi yang harus terpenuhi adalah model regresi berdistribusi normal.

  2. Uji Homokedastisitas, dalam model regresi tidak terjadi gejala heteroskedastisitas.

  3. Uji Autokorelasi (khusus untuk data time series), persyaratan yang harus terpenuhi adalah tidak terjadi autokorelasi.

  4. Uji Multikolinearitas, dimana model regresi yang baik adalah tidak terjadi gejala multikolinearitas.

Source Code

Library

Berikut ini adalah beberapa package yang dipakai dalam pengujian ini:

#package yang digunakan
library(lmtest)
library(car)
library(ggpubr)
library(readxl)
library(DT)

Data

Berikut ini merupakan data yang digunakan dalam pengujian ini atau dapat diunduh di sini.

#input data
data <- read_excel("C:\\Users\\user\\Documents\\punya cantika\\smt4\\sim\\data_cm2.xlsx")
dataset1<- datatable(data,
                     options = list(
                       scrollX = TRUE,
                       pageLength = 10,
                       lengthMenu = c(5, 10, 15, 20)
                     ))
dataset1

Model Regresi

Untuk membuat model regresi linier berganda, penguji menggunakan fungsi lm() dari paket stats (yang merupakan bagian dari base R).

#membuat model regresi
RE<-lm(data$Life_expectancy ~ data$Under_five_deaths+data$Adult_mortality+data$BMI+data$GDP_per_capita, data = data)
summary(RE)
## 
## Call:
## lm(formula = data$Life_expectancy ~ data$Under_five_deaths + 
##     data$Adult_mortality + data$BMI + data$GDP_per_capita, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.07808 -0.55609  0.02576  0.47680  2.15584 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             9.059e+01  3.511e+00  25.802  < 2e-16 ***
## data$Under_five_deaths -1.283e-01  1.726e-02  -7.434 1.95e-07 ***
## data$Adult_mortality   -4.049e-02  7.414e-03  -5.461 1.74e-05 ***
## data$BMI               -3.988e-01  1.391e-01  -2.868  0.00894 ** 
## data$GDP_per_capita     7.807e-05  2.556e-05   3.054  0.00582 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.214 on 22 degrees of freedom
## Multiple R-squared:  0.9469, Adjusted R-squared:  0.9373 
## F-statistic: 98.11 on 4 and 22 DF,  p-value: 1.077e-13

Sehingga diperoleh model regresi sebagai berikut:

\[ Y = 90.59-0.1283X_1-0.04049X_2-0.399X_3+0.000078X_4 \]

yang berarti bahwa:

  • Setiap kenaikan satu persen kematian anak di bawah lima tahun (Under_five_deaths) akan mengurangi rata-rata harapan hidup (Life_expectancy) sebesar 12.83%.

  • Setiap kenaikan satu persen kematian orang dewasa (Adult_mortality) akan mengurangi rata-rata harapan hidup (Life_expectancy) sebesar 4.05%.

  • Setiap kenaikan satu persen BMI (ukuran status gizi pada orang dewasa) akan mengurangi rata-rata harapan hidup (Life_expectancy) sebesar 39.9%.

  • Setiap kenaikan satu persen PDB per kapita (GDP_per_capita)akan menaikkan rata-rata harapan hidup (Life_expectancy) sebesar 0.0078%.

Selain itu, diperoleh nilai Adjusted R-squared = 0.9373 yang berarti bahwa rata-rata harapan hidup (Life_expectancy) mampu dijelaskan secara bersama-sama oleh variabel kematian anak di bawah lima tahun (Under_five_deaths), kematian orang dewasa (Adult_mortality), BMI (ukuran status gizi pada orang dewasa) dan PDB per kapita (GDP_per_capita) sebesar 93.73% sedangkan sisanya 6.27% disebabkan variabel lain yang belum masuk dalam model.

Uji Signifikan

Uji Signifikansi Simultan (Uji F)

Menurut hasil dari pembentukan model regresi, terdapat cukup bukti untuk menolak hipotesis nol (H0: semua parameter regresi tidak berpengaruh signifikan terhadap model) karena p-value = (1.077e-13) lebih kecil dari alpha (0.05). Maka dapat disimpulkan bahwa semua parameter regresi berpengaruh signifikan terhadap model.

Uji t

Menurut hasil dari pembentukan model regresi, terdapat cukup bukti untuk menolak hipotesis nol (H0: parameter regresi ke-i tidak berpengaruh signifikan terhadap model) karena p-value semua variabel <0.05, maka dapat disimpulkan bahwa variabel X1, X2, X3,X4 berpengaruh signifikan terhadap variabel Y.

Uji Asumsi

Uji Normalitas

Q-Q plot (Quantile-Quantile plot) ditarik antara sampel yang diberikan dan distribusi normal. Garis referensi 45 derajat juga diplot untuk menilai seberapa dekat nilai sampel dengan distribusi normal. Untuk menggambar plot Q-Q, penguji menggunakan fungsi ggqqplot() yang tersedia dalam paket ggpubr.

ggqqplot(RE$residuals) +
  ggtitle("Q-Q Plot of Residuals")

Dalam contoh ini, semua titik jatuh di sepanjang garis referensi, sehingga kita dapat mengasumsikan normalitas pada residual data.

Penguji juga menggunakan fungsi shapiro.test() untuk menguji normalitas data dengan Uji Shapiro-Wilk.

shapiro.test(RE$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  RE$residuals
## W = 0.96832, p-value = 0.558

Menurut hasil uji Shapiro-Wilk, tidak ada cukup bukti untuk menolak hipotesis nol (H0: Residu data terdistribusi normal) karena p-value (0.558) lebih besar dari alpha (0.05). Maka dapat disimpulkan bahwa residu data berdistribusi normal.


Uji Homokedastisitas

Homoskedastisitas adalah kondisi dimana terdapat varians yang sama dari setiap residualnya. Asumsi homoskedastisitas dapat diperiksa dengan memperhatikan plot Scale-location, yang disebut juga plot spread-location.

plot(RE, 3)

Plot ini menunjukkan bahwa residu tersebar merata di sepanjang rentang prediktor. Garis horizontal sebaiknya terlihat dengan titik sebaran yang sama. Dalam contoh ini, terlihat bahwa garis horizontal disertai titik-titik sebaran yang sama. Sehingga, kita dapat mengasumsikan homogenitas variansi.

Penguji menggunakan fungsi bptest() untuk menguji homokedastisitas data dengan Uji Breusch-Pagan.

bptest(RE)
## 
##  studentized Breusch-Pagan test
## 
## data:  RE
## BP = 1.869, df = 4, p-value = 0.7598

Menurut hasil uji Breusch-Pagan, tidak ada cukup bukti untuk menolak hipotesis nol (H0: Variansi residu data homogen) karena p-value (0.7598) lebih besar dari alpha (0.05). Maka dapat disimpulkan bahwa variansi residu data homogen.


Uji Autokorelasi

Penguji menggunakan fungsi dwtest() untuk menguji asumsi autokorelasi dengan menggunakan uji Durbin Watson. Durbin Watson menguji apakah error memiliki kondisi autokorelasi dengan dirinya sendiri.

dwtest(RE)
## 
##  Durbin-Watson test
## 
## data:  RE
## DW = 1.8058, p-value = 0.348
## alternative hypothesis: true autocorrelation is greater than 0

Menurut hasil uji Durbin Watson, tidak ada cukup bukti untuk menolak hipotesis nol (H0: Tidak ada autokorelasi pada residu data) karena p-value (0.348) lebih besar dari alpha (0.05). Maka dapat disimpulkan bahwa tidak terdapat autokorelasi pada residu data.


Uji Multikolinearitas

Asumsi linearitas dapat diperiksa dengan memperhatikan Residuals vs Fitted plot.

plot(RE, 1)

Adanya pola dapat menunjukkan adanya masalah dengan beberapa aspek model linier. Dalam pengujian ini, tidak terdapat pola pada plot residual. Hal ini menunjukkan bahwa terdapat hubungan linier antara variabel independen dan variabel dependen.

vif(RE)
## data$Under_five_deaths   data$Adult_mortality               data$BMI 
##               1.991889               2.377022               1.115820 
##    data$GDP_per_capita 
##               1.856145

Berdasarkan pengujian yang telah dilakukan, diperoleh nilai Variance Inflation Factor (VIF) menunjukkan tidak ada nilai VIF<10, maka tidak terjadi multikolinearitas pada residu data.

Kesimpulan

Pada pengujian ini diperoleh kesimpulan, sebagai berikut:

  • Diperoleh model regresi sebagai berikut: \[ Y = 90.59-0.1283X_1-0.04049X_2-0.399X_3+0.000078X_4 \]

    yang berarti bahwa:

    • Setiap kenaikan satu persen kematian anak di bawah lima tahun (Under_five_deaths) akan mengurangi rata-rata harapan hidup (Life_expectancy) sebesar 12.83%.
    • Setiap kenaikan satu persen kematian orang dewasa (Adult_mortality) akan mengurangi rata-rata harapan hidup (Life_expectancy) sebesar 4.05%.
    • Setiap kenaikan satu persen BMI (ukuran status gizi pada orang dewasa) akan mengurangi rata-rata harapan hidup (Life_expectancy) sebesar 39.9%.
    • Setiap kenaikan satu persen PDB per kapita (GDP_per_capita) akan menaikkan rata-rata harapan hidup (Life_expectancy) sebesar 0.0078%.
  • Diperoleh nilai Adjusted R-squared = 0.9373 yang berarti bahwa rata-rata harapan hidup (Life_expectancy) mampu dijelaskan secara bersama-sama oleh variabel kematian anak di bawah lima tahun (Under_five_deaths), kematian orang dewasa (Adult_mortality), BMI (ukuran status gizi pada orang dewasa) dan PDB per kapita (GDP_per_capita) sebesar 93.73% sedangkan sisanya 6.27% disebabkan variabel lain yang belum masuk dalam model.

  • Diperoleh bahwa model memiliki data residu yang berdistribusi normal, tidak ada autokorelasi, tidak terdapat autokorelasi pada residu data, tidak terjadi multikolinearitas pada residu data karena nilai p-value > 0.05, sehingga model sudah sesuai atau tidak terdapat kekurangcocokan model.