Angka harapan hidup adalah salah satu indikator penting yang mencerminkan kualitas hidup dan kesejahteraan suatu negara. Wilayah Afrika mengalami berbagai perubahan sosial, ekonomi, dan berbagai kebijakan dari tahun ke tahun yang berpengaruh pada angka harapan hidup penduduknya. Oleh karena itu, memahami faktor-faktor yang mempengaruhi angka harapan hidup sangat penting untuk merumuskan kebijakan yang dapat meningkatkan kesejahteraan masyarakat.

Analisis regresi linier berganda adalah teknik statistik yang efektif untuk menilai hubungan antara satu variabel dependen (respons) dengan dua atau lebih variabel independen (prediktor). Model regresi linier berganda dinyatakan dalam bentuk persamaan matematis berikut:

\[\hat{Y} = \beta_0 + \beta_1X_1 + \beta_2X_2 +...+\beta_pX_p + \epsilon\]

Menurut Drapper dan Smith (1992), tujuan utama dari pembentukan model regresi linier adalah untuk mengukur sejauh mana pengaruh linier satu atau lebih variabel prediktor terhadap variabel respons. Selain itu, model ini juga digunakan untuk memperkirakan atau memprediksi nilai variabel respons berdasarkan nilai-nilai yang diketahui atau ditentukan dari variabel prediktor. Dengan menggunakan analisis regresi linier berganda, kita dapat mengidentifikasi dan mengukur pengaruh berbagai faktor terhadap angka harapan hidup di wilayah Afrika pada tahun 2015. Analisis ini memberikan wawasan mendalam tentang bagaimana berbagai faktor bekerja secara bersamaan mempengaruhi hasil akhir yang diukur oleh variabel dependen. Selain itu, analisis ini sering digunakan untuk menentukan variabel independen mana yang paling signifikan serta untuk membangun model prediktif yang dapat membantu dalam pengambilan keputusan yang lebih baik.

Analisis regresi linier berganda melibatkan beberapa asumsi, antara lain:

  1. Asumsi linearitas
  2. Asumsi Multikolinearitas
  3. Asumsi non-heteroskedastisitas
  4. Asumsi normalitas
Jika asumsi-asumsi tersebut tidak terpenuhi, maka mungkin diperlukan transformasi variabel atau penggunaan metode regresi alternatif yang lebih tepat.


Library


Dataset yang diberikan berisi informasi mengenai angka harapan hidup, kesehatan, imunisasi, serta data ekonomi dan demografis dari 179 negara selama periode 2000-2015. Setelah penyesuaian, dataset ini terdiri dari 21 variabel dan 2.864 baris data. Data tersebut memungkinkan analisis menyeluruh terhadap faktor-faktor yang mempengaruhi angka harapan hidup di berbagai negara selama rentang waktu tersebut. Pada kesempatan ini, akan dilakukan uji regresi linier berganda pada data life expectancy dan health di Africa dengan menggunakan data tahun 2015. Sebelum lanjut ke tahap berikutnya, perlu disiapkan beberapa (library) yang akan digunakan sebagai berikut.

library(readxl)
library(dplyr)
library(readr)
library(ggplot2)
library(lmtest)
library(car)


Data


Kemudian, akan diambil 3 variabel independen yaitu:

  1. Adult_mortality : Jumlah kematian orang dewasa per 1000 populasi.
  2. Hepatitis_B : Persentase cakupan imunisasi Hepatitis B (HepB3) pada anak-anak usia 1 tahun.
  3. Incidents_HIV : Angka kejadian HIV per 1000 populasi pada usia 15-49 tahun
Variabel dependen yang akan digunakan adalah Life_Expectancy yang merupakan rata-rata angka harapan hidup laki-laki dan perempuan di wilayah Afrika pada tahun 2015.

# Memuat Data dari Excel
data <- read_excel("E:/Semester 4/Sistem Informasi Manajemen/5. data_case_method - dataset.xlsx")

# Memilih data di Africa dan Tahun 2015
data_filtered <- filter(data, Region == "Africa" & Year == 2015) %>%
  select(Life_expectancy, Adult_mortality, Hepatitis_B, GDP_per_capita)

# Menampilkan data
data_filtered
## # A tibble: 51 × 4
##    Life_expectancy Adult_mortality Hepatitis_B GDP_per_capita
##              <dbl>           <dbl>       <dbl>          <dbl>
##  1            57.6           340.           84           1383
##  2            60.9           262.           97            661
##  3            76.1            95.8          95           4178
##  4            65.5           218.           69            467
##  5            55.4           435.           90           3680
##  6            67.3           249.           95           6403
##  7            59.3           260.           81            497
##  8            59.4           243.           64           3128
##  9            53.1           363.           46            776
## 10            57             270.           87            603
## # ℹ 41 more rows


Statistik Deskriptif


Untuk memahami lebih lanjut tentang setiap variabel, dapat dimulai dengan melihat statistik deskriptif untuk setiap variabel dalam dataset. Hal ini memberikan gambaran tentang sebaran nilai dan distribusi data untuk setiap variabel.

# Statistik deskriptif per variabel
summary(data_filtered)
##  Life_expectancy Adult_mortality   Hepatitis_B    GDP_per_capita 
##  Min.   :50.90   Min.   : 70.91   Min.   :40.00   Min.   :  306  
##  1st Qu.:58.45   1st Qu.:224.02   1st Qu.:76.00   1st Qu.:  657  
##  Median :62.00   Median :257.96   Median :88.00   Median : 1338  
##  Mean   :62.47   Mean   :263.63   Mean   :81.49   Mean   : 2705  
##  3rd Qu.:64.95   3rd Qu.:313.60   3rd Qu.:93.50   3rd Qu.: 3346  
##  Max.   :76.10   Max.   :513.48   Max.   :99.00   Max.   :15158
Melalui analisis statistik deskriptif di atas, kita dapat menemukan nilai minimum, kuartil bawah, median, rata-rata, kuartil atas, dan nilai maksimum dari keempat variabel tersebut. Untuk variabel Angka Harapan Hidup (Life_Expectancy), ditemukan bahwa nilai minimum adalah 50.90 tahun, kuartil bawah adalah 58.45 tahun, median adalah 62.00 tahun, rata-rata adalah 62.47 tahun, kuartil atas adalah 64.95 tahun, dan nilai maksimum adalah 76.10 tahun. Hal yang sama juga berlaku untuk variabel jumlah kematian orang dewasa (Adult_mortality), persentase cakupan imunisasi Hepatitis B (Hepatitis_B), dan Produk Domestik Bruto per Kapita (GDP_per_capita).


Nilai Korelasi Masing-Masing Variabel


Setelah melihat statistik deskriptif, langkah selanjutnya adalah melihat hubungan antar variabel dengan mencari nilai korelasinya. Hal ini dapat membantu untuk memahami seberapa erat atau lemah hubungan antara variabel-variabel tersebut, yang merupakan langkah penting dalam analisis regresi linier berganda.

# Matriks korelasi
cor_matrix <- cor(data_filtered)
cor_matrix <- round(cor_matrix, 2)
cor_matrix
##                 Life_expectancy Adult_mortality Hepatitis_B GDP_per_capita
## Life_expectancy            1.00           -0.91        0.55           0.46
## Adult_mortality           -0.91            1.00       -0.36          -0.27
## Hepatitis_B                0.55           -0.36        1.00           0.15
## GDP_per_capita             0.46           -0.27        0.15           1.00

Dari hasil output di atas, dapat dilihat bahwa:

  • Terdapat korelasi negatif yang sangat kuat (-0.91) menunjukkan bahwa peningkatan angka kematian dewasa (Adult_mortality) berkorelasi dengan penurunan angka harapan hidup (Life_expectancy).
  • Hepatitis_B dan Life_expectancy memiliki korelasi positif yang sedang, dengan nilai korelasi sebesar 0.55.
  • GDP_per_capita dan Life_expectancy menunjukkan korelasi yang positif yang sedang, dengan nilai korelasi 0.46.



Model Regresi Linier Berganda


# Model Regresi
model <- lm(Life_expectancy ~ Adult_mortality + Hepatitis_B + GDP_per_capita, data = data_filtered)
summary(model)
## 
## Call:
## lm(formula = Life_expectancy ~ Adult_mortality + Hepatitis_B + 
##     GDP_per_capita, data = data_filtered)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.6985 -1.2640  0.1845  1.1605  3.9571 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      6.810e+01  1.881e+00  36.198  < 2e-16 ***
## Adult_mortality -5.438e-02  3.184e-03 -17.078  < 2e-16 ***
## Hepatitis_B      9.233e-02  1.685e-02   5.479 1.64e-06 ***
## GDP_per_capita   4.353e-04  8.491e-05   5.126 5.48e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.835 on 47 degrees of freedom
## Multiple R-squared:  0.923,  Adjusted R-squared:  0.9181 
## F-statistic: 187.9 on 3 and 47 DF,  p-value: < 2.2e-16

Melalui output diatas, diperoleh:

  • Model regresi linear berganda yaitu: \[\hat{Y} = 68,10 - 0,05438 X_1 + 0,09233 X_2 + 0,0004353 X_3\] Artinya, jika semua variabel independen (Adult_mortality, Hepatitis_B, dan GDP_per_capita) bernilai nol, maka nilai Life_expectancy diperkirakan akan menjadi 68.10 tahun.

  • Setiap peningkatan satu unit dalam jumlah kematian orang dewasa (Adult_mortality) dikaitkan dengan penurunan rata-rata dalam Life_expectancy sebesar 0.05438 tahun, dengan asumsi variabel lainnya konstan.

  • Setiap peningkatan satu persen dalam tingkat imunisasi Hepatitis B (Hepatitis_B) dikaitkan dengan peningkatan rata-rata dalam Life_expectancy sebesar 0.09233 tahun, dengan asumsi variabel lainnya konstan.

  • Setiap peningkatan satu dollar dalam GDP per kapita dikaitkan dengan peningkatan rata-rata dalam Life_expectancy sebesar 0.0004353 tahun, dengan asumsi variabel lainnya konstan.

  • Nilai Koefisien Determinasi (diperoleh dari Multiple R-squared dan Adjusted R-Square) menunjukkan seberapa baik model ini cocok dengan data yang diamati. Nilai yang tinggi dari kedua koefisien ini, yaitu sekitar 0.923 dan 0.9181, menunjukkan bahwa sekitar 92.3% dari variabilitas dalam Life_expectancy dapat dijelaskan oleh model ini setelah memperhitungkan jumlah prediktor. Sisanya, sekitar 7.7%, mungkin dapat dijelaskan oleh variabel lain yang tidak termasuk dalam model ini.

  • Residual standard error sebesar 1.835, menunjukkan bahwa rata-rata kesalahan (residual) dari prediksi model adalah sekitar 1.835 tahun.


A. Uji Simultan dan Uji Parsial


1. Uji Simultan (Uji F)

Uji F menguji signifikansi keseluruhan model regresi, yaitu apakah setidaknya satu variabel independen berkontribusi secara signifikan terhadap variabel dependen.

  1. Hipotesis

    \(H_0\) : \(β_0\) = \(β_1\) = \(β_2\) = \(β_3\) = 0 (\(X_1\), \(X_2\), dan \(X_3\) secara simultan tidak berpengaruh signifikan terhadap model)

    \(H_1\) : \(β_0\) ≠ 0 atau \(β_i\) ≠ 0 ; i = 1,2, 3 (Paling tidak terdapat 1 variabel βi yang tidak sama dengan 0 atauberpengaruh signifikan terhadap model)

  2. Taraf Signifikansi

    α = 0.05

  3. Daerah kritis

    \(H_0\) ditolak jika p-value < α = 0,05 atau F-value > \(F tabel_(α;k;n-k-1)\) = \(F tabel_(0,05; 3; 47)\) = 2,80

  4. Statistik Uji

summary(model) 
## 
## Call:
## lm(formula = Life_expectancy ~ Adult_mortality + Hepatitis_B + 
##     GDP_per_capita, data = data_filtered)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.6985 -1.2640  0.1845  1.1605  3.9571 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      6.810e+01  1.881e+00  36.198  < 2e-16 ***
## Adult_mortality -5.438e-02  3.184e-03 -17.078  < 2e-16 ***
## Hepatitis_B      9.233e-02  1.685e-02   5.479 1.64e-06 ***
## GDP_per_capita   4.353e-04  8.491e-05   5.126 5.48e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.835 on 47 degrees of freedom
## Multiple R-squared:  0.923,  Adjusted R-squared:  0.9181 
## F-statistic: 187.9 on 3 and 47 DF,  p-value: < 2.2e-16

  1. Kesimpulan Karena didapatkan F value sebesar 187.9 > 2.80 (F tabel) atau p-value sebesar 2.2e-16 < 0.05 maka \(H_0\) ditolak, sehingga menunjukkan bahwa setidaknya satu variabel independen secara signifikan mempengaruhi life expectancy.


2. Uji Parsial (Uji T)

Uji t dilakukan untuk masing-masing variabel independen untuk menguji apakah koefisien regresi masing-masing variabel signifikan secara individu terhadap variabel dependen, dengan mempertimbangkan variabel lain dalam model. Nilai p yang kurang dari 0.05 menunjukkan bahwa masing-masing variabel independen memiliki pengaruh signifikan terhadap life expectancy setelah mempertimbangkan variabel lain dalam model.

  1. Hipotesis

    \(H_0\) : \(β_i\) = 0; i = 1, 2, 3 (Variabel \(X_i\) tidak berpengaruh signifikan terhadap model)

    \(H_1\) : \(β_i\) ≠ 0; i= 1, 2, 3 (Variabel \(X_i\) berpengaruh signifikan terhadap model)

  2. Taraf Signifikansi

    α = 0.05

  3. Daerah Kritis

    \(H_0\) ditolak jika p-value < α = 0.05

  4. Statistik Uji

summary(model) 
## 
## Call:
## lm(formula = Life_expectancy ~ Adult_mortality + Hepatitis_B + 
##     GDP_per_capita, data = data_filtered)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.6985 -1.2640  0.1845  1.1605  3.9571 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      6.810e+01  1.881e+00  36.198  < 2e-16 ***
## Adult_mortality -5.438e-02  3.184e-03 -17.078  < 2e-16 ***
## Hepatitis_B      9.233e-02  1.685e-02   5.479 1.64e-06 ***
## GDP_per_capita   4.353e-04  8.491e-05   5.126 5.48e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.835 on 47 degrees of freedom
## Multiple R-squared:  0.923,  Adjusted R-squared:  0.9181 
## F-statistic: 187.9 on 3 and 47 DF,  p-value: < 2.2e-16

  1. Kesimpulan
    • Untuk Adult_mortality, nilai p-value < 2e-16 < 0,05, maka \(H_0\) ditolak sehingga variabel Adult_mortality berpengaruh signifikan terhadap model Y (Life_expectancy).
    • Untuk Hepatitis_B, nilai p-value 1.64e-06 < 0,05, maka \(H_0\) ditolak sehingga variabel Hepatitis_B berpengaruh signifikan terhadap model Y (Life_expectancy).
    • Untuk GDP_per_capita , nilai p-value 5.48e-06 < 0,05, maka \(H_0\) ditolak sehingga variabel GDP_per_capita berpengaruh signifikan terhadap model Y (Life_expectancy).


B. Uji Asumsi Klasik


1. Uji Asumsi Linearitas

# Uji Asumsi Linearitas menggunkan Ramsey RESET 
ramsey_test <- resettest(model, power = 2)
ramsey_test
## 
##  RESET test
## 
## data:  model
## RESET = 3.7689, df1 = 1, df2 = 46, p-value = 0.05835

Karena nilai p-value = 0.05835 > 0.05, maka tidak ada cukup bukti untuk menolak asumsi linearitas. Oleh karena itu, dapat disimpulkan bahwa model regresi linear berganda tersebut memenuhi asumsi linearitas.


2. Uji Normalitas Residual

# Histogram 
ggplot(data.frame(Residual=resid(model)), aes(x=Residual)) +
  geom_histogram(binwidth=0.5, fill="pink", color="black") +
  labs(x = "Residual", y = "Count", title = "Histogram of Residuals")  +
  theme(panel.background = element_rect(fill = "white"))

# Grafik QQ Plot untuk normalitas residual
qqnorm(resid(model))
qqline(resid(model))

# Uji Normalitas residual model
shapiro.test(resid(model))
## 
##  Shapiro-Wilk normality test
## 
## data:  resid(model)
## W = 0.98385, p-value = 0.7101
ks.test(resid(model), "pnorm", mean = mean(resid(model)), sd = sd(resid(model)))
## 
##  Exact one-sample Kolmogorov-Smirnov test
## 
## data:  resid(model)
## D = 0.094991, p-value = 0.7111
## alternative hypothesis: two-sided

Melalui berbagai metode uji normalitas, diperoleh hasil sebagai berikut:

  • Pada histogram ini, terlihat bahwa distribusi residual tidak sepenuhnya simetris dan tidak memiliki bentuk lonceng yang sempurna. Ada beberapa puncak (multimodal) dan penyebaran residual terlihat cukup luas, dengan beberapa residual berada di sekitar -5 dan 5 yang menunjukkan adanya beberapa outlier. Ini menunjukkan adanya variasi yang tidak terjelaskan oleh model dan kemungkinan adanya outliers yang mempengaruhi hasil prediksi. Oleh karena itu, perlu dilakukan pemeriksaan lebih lanjut mengenai normalitas residual dan outliers untuk memastikan keandalan model regresi yang digunakan.
  • Plot normal Q-Q menunjukkan pola yang mendekati distribusi normal, dengan titik-titik yang tersebar di sekitar garis diagonal.
  • Hasil Uji Shapiro-Wilk menunjukkan nilai p-value sebesar 0.7101, sedangkan Kolmogorov-Smirnov test sebesar 0.7111, yang berarti keduanya menunjukkan hasil yang lebih besar dari taraf signifikansi 0.05. Hal ini menunjukkan bahwa tidak terdapat cukup bukti untuk menolak asumsi normalitas, sehingga asumsi residual berdistribusi normal terpenuhi.


3. Uji Non-Heteroskedastisitas

# Grafik Residual Plot untuk non-heteroskedastisitas
plot(model, which = 1)

# Uji non-Heteroskedastisitas
bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 0.39349, df = 3, p-value = 0.9416

  • Berdasarkan plot residual non-heteroskedastisitas, tidak terlihat adanya pola yang jelas dalam penyebaran titik-titik data. Hal ini menunjukkan bahwa tidak ada perbedaan variansi residual di sepanjang rentang nilai fitted values, menunjukkan bahwa asumsi non-heteroskedastisitas terpenuhi.
  • Selain itu, hasil uji Breusch-Pagan dengan p-value sebesar 0.9416 juga menunjukkan bahwa asumsi non-heteroskedastisitas terpenuhi, karena nilai p-value lebih besar dari 0.05.


4. Uji Non-Multikolinearitas

# Uji Multikolinearitas
vif(model)
## Adult_mortality     Hepatitis_B  GDP_per_capita 
##        1.218696        1.156342        1.083811
vif_values <- vif(model)

# Membuat plot VIF
plot(vif_values, type = "bar", main = "VIF Plot")

  • Dari hasil plot VIF tersebut, didapatkan bahwa nilai VIF untuk semua variabel independen berada di bawah 10. Hal ini menunjukkan bahwa tidak ada variabel independen yang memiliki tingkat multikolinearitas yang tinggi.
  • Multikolinearitas terjadi ketika dua atau lebih variabel independen sangat berkorelasi satu sama lain, yang dapat menyebabkan masalah dalam mengestimasi koefisien regresi dengan tepat. karena keempat hasil VIF ini menunjukkan bahwa variabel independen dalam model regresi linier berganda tidak mengalami multikolinearitas yang signifikan maka model dapat digunakan dengan tingkat keandalan yang baik untuk memahami hubungan antara variabel independen dan dependen.


5. Uji Autokorelasi Residual

# Uji autokorelasi residual
dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 1.6072, p-value = 0.0797
## alternative hypothesis: true autocorrelation is greater than 0

Berdasarkan hasil uji autokorelasi yang diperoleh, nilai p-value sebesar 0.0797 > 0.05. Ini menunjukkan bahwa tidak ada bukti yang cukup untuk menolak hipotesis nol yang menyatakan tidak adanya autokorelasi. Dengan kata lain, asumsi bahwa tidak terjadi autokorelasi dalam model regresi ini terpenuhi.



Kesimpulan

Model regresi linier berganda ini menunjukkan bahwa variabel jumlah kematian orang dewasa, persentase cakupan imunisasi Hepatitis B, dan GDP per Kapita memiliki pengaruh signifikan terhadap angka harapan hidup di wilayah Afrika pada tahun 2015. Namun, beberapa hasil koefisien perlu ditinjau lebih lanjut untuk memastikan interpretasi yang benar dan memastikan tidak adanya kesalahan dalam data atau model. Secara keseluruhan, model ini menunjukkan bahwa:

  • Semua koefisien variabel independen (Adult_mortality, Hepatitis_B, dan GDP_per_capita) memiliki tanda tiga bintang (***) yang menunjukkan bahwa ketiga variabel signifikan pada tingkat signifikansi 0.001. Dengan kata lain, ada bukti kuat bahwa ketiga variabel independen tersebut secara signifikan mempengaruhi Life_expectancy.
  • Jumlah kematian orang dewasa memiliki dampak negatif yang signifikan terhadap harapan hidup.
  • Tingkat vaksinasi Hepatitis B memiliki dampak positif yang signifikan terhadap harapan hidup.
  • GDP per kapita juga memiliki dampak positif yang signifikan terhadap harapan hidup, meskipun koefisiennya relatif kecil.


Daftar Referensi

  1. Maryani, H. dan Kristiana, L. (2018) “PEMODELAN ANGKA HARAPAN HIDUP ( AHH ) LAKI-LAKI DAN PEREMPUAN DI INDONESIA TAHUN 2016 Modeling Life Expectancy for Men and Women in Indonesia 2016,” Buletin Penelitian Sistem Kesehatan, 21(2), hal. 71–81.
  2. Wahidah Alwi, Adnan Sauddin dan Nahda Islamiah. M (2023) “Faktor-Faktor Yang Mempengaruhi Angka Harapan Hidup Di Sulawesi Selatan Menggunakan Analisis Regresi,” Jurnal MSA ( Matematika dan Statistika serta Aplikasinya), 11(1), hal. 72–80.
  3. https://rpubs.com/Nurita31/ANALISISREGRESI