Angka harapan hidup adalah salah satu indikator penting yang mencerminkan kualitas hidup dan kesejahteraan suatu negara. Wilayah Afrika mengalami berbagai perubahan sosial, ekonomi, dan berbagai kebijakan dari tahun ke tahun yang berpengaruh pada angka harapan hidup penduduknya. Oleh karena itu, memahami faktor-faktor yang mempengaruhi angka harapan hidup sangat penting untuk merumuskan kebijakan yang dapat meningkatkan kesejahteraan masyarakat.
Analisis regresi linier berganda adalah teknik statistik yang efektif untuk menilai hubungan antara satu variabel dependen (respons) dengan dua atau lebih variabel independen (prediktor). Model regresi linier berganda dinyatakan dalam bentuk persamaan matematis berikut:
\[\hat{Y} = \beta_0 + \beta_1X_1 + \beta_2X_2 +...+\beta_pX_p + \epsilon\]
Menurut Drapper dan Smith (1992), tujuan utama dari pembentukan model regresi linier adalah untuk mengukur sejauh mana pengaruh linier satu atau lebih variabel prediktor terhadap variabel respons. Selain itu, model ini juga digunakan untuk memperkirakan atau memprediksi nilai variabel respons berdasarkan nilai-nilai yang diketahui atau ditentukan dari variabel prediktor. Dengan menggunakan analisis regresi linier berganda, kita dapat mengidentifikasi dan mengukur pengaruh berbagai faktor terhadap angka harapan hidup di wilayah Afrika pada tahun 2015. Analisis ini memberikan wawasan mendalam tentang bagaimana berbagai faktor bekerja secara bersamaan mempengaruhi hasil akhir yang diukur oleh variabel dependen. Selain itu, analisis ini sering digunakan untuk menentukan variabel independen mana yang paling signifikan serta untuk membangun model prediktif yang dapat membantu dalam pengambilan keputusan yang lebih baik.
Analisis regresi linier berganda melibatkan beberapa asumsi, antara lain:
Dataset yang diberikan berisi informasi mengenai angka harapan hidup, kesehatan, imunisasi, serta data ekonomi dan demografis dari 179 negara selama periode 2000-2015. Setelah penyesuaian, dataset ini terdiri dari 21 variabel dan 2.864 baris data. Data tersebut memungkinkan analisis menyeluruh terhadap faktor-faktor yang mempengaruhi angka harapan hidup di berbagai negara selama rentang waktu tersebut. Pada kesempatan ini, akan dilakukan uji regresi linier berganda pada data life expectancy dan health di Africa dengan menggunakan data tahun 2015. Sebelum lanjut ke tahap berikutnya, perlu disiapkan beberapa (library) yang akan digunakan sebagai berikut.
library(readxl)
library(dplyr)
library(readr)
library(ggplot2)
library(lmtest)
library(car)
Kemudian, akan diambil 3 variabel independen yaitu:
# Memuat Data dari Excel
data <- read_excel("E:/Semester 4/Sistem Informasi Manajemen/5. data_case_method - dataset.xlsx")
# Memilih data di Africa dan Tahun 2015
data_filtered <- filter(data, Region == "Africa" & Year == 2015) %>%
select(Life_expectancy, Adult_mortality, Hepatitis_B, GDP_per_capita)
# Menampilkan data
data_filtered
## # A tibble: 51 × 4
## Life_expectancy Adult_mortality Hepatitis_B GDP_per_capita
## <dbl> <dbl> <dbl> <dbl>
## 1 57.6 340. 84 1383
## 2 60.9 262. 97 661
## 3 76.1 95.8 95 4178
## 4 65.5 218. 69 467
## 5 55.4 435. 90 3680
## 6 67.3 249. 95 6403
## 7 59.3 260. 81 497
## 8 59.4 243. 64 3128
## 9 53.1 363. 46 776
## 10 57 270. 87 603
## # ℹ 41 more rows
# Statistik deskriptif per variabel
summary(data_filtered)
## Life_expectancy Adult_mortality Hepatitis_B GDP_per_capita
## Min. :50.90 Min. : 70.91 Min. :40.00 Min. : 306
## 1st Qu.:58.45 1st Qu.:224.02 1st Qu.:76.00 1st Qu.: 657
## Median :62.00 Median :257.96 Median :88.00 Median : 1338
## Mean :62.47 Mean :263.63 Mean :81.49 Mean : 2705
## 3rd Qu.:64.95 3rd Qu.:313.60 3rd Qu.:93.50 3rd Qu.: 3346
## Max. :76.10 Max. :513.48 Max. :99.00 Max. :15158
Melalui analisis statistik deskriptif di atas, kita dapat menemukan
nilai minimum, kuartil bawah, median, rata-rata, kuartil atas, dan nilai
maksimum dari keempat variabel tersebut. Untuk variabel Angka Harapan
Hidup (Life_Expectancy), ditemukan bahwa nilai minimum adalah 50.90
tahun, kuartil bawah adalah 58.45 tahun, median adalah 62.00 tahun,
rata-rata adalah 62.47 tahun, kuartil atas adalah 64.95 tahun, dan nilai
maksimum adalah 76.10 tahun. Hal yang sama juga berlaku untuk variabel
jumlah kematian orang dewasa (Adult_mortality), persentase cakupan
imunisasi Hepatitis B (Hepatitis_B), dan Produk Domestik Bruto per
Kapita (GDP_per_capita).
Setelah melihat statistik deskriptif, langkah selanjutnya adalah melihat hubungan antar variabel dengan mencari nilai korelasinya. Hal ini dapat membantu untuk memahami seberapa erat atau lemah hubungan antara variabel-variabel tersebut, yang merupakan langkah penting dalam analisis regresi linier berganda.
# Matriks korelasi
cor_matrix <- cor(data_filtered)
cor_matrix <- round(cor_matrix, 2)
cor_matrix
## Life_expectancy Adult_mortality Hepatitis_B GDP_per_capita
## Life_expectancy 1.00 -0.91 0.55 0.46
## Adult_mortality -0.91 1.00 -0.36 -0.27
## Hepatitis_B 0.55 -0.36 1.00 0.15
## GDP_per_capita 0.46 -0.27 0.15 1.00
Dari hasil output di atas, dapat dilihat bahwa:
# Model Regresi
model <- lm(Life_expectancy ~ Adult_mortality + Hepatitis_B + GDP_per_capita, data = data_filtered)
summary(model)
##
## Call:
## lm(formula = Life_expectancy ~ Adult_mortality + Hepatitis_B +
## GDP_per_capita, data = data_filtered)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.6985 -1.2640 0.1845 1.1605 3.9571
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.810e+01 1.881e+00 36.198 < 2e-16 ***
## Adult_mortality -5.438e-02 3.184e-03 -17.078 < 2e-16 ***
## Hepatitis_B 9.233e-02 1.685e-02 5.479 1.64e-06 ***
## GDP_per_capita 4.353e-04 8.491e-05 5.126 5.48e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.835 on 47 degrees of freedom
## Multiple R-squared: 0.923, Adjusted R-squared: 0.9181
## F-statistic: 187.9 on 3 and 47 DF, p-value: < 2.2e-16
Melalui output diatas, diperoleh:
Uji F menguji signifikansi keseluruhan model regresi, yaitu apakah setidaknya satu variabel independen berkontribusi secara signifikan terhadap variabel dependen.
Hipotesis
\(H_0\) : \(β_0\) = \(β_1\) = \(β_2\) = \(β_3\) = 0 (\(X_1\), \(X_2\), dan \(X_3\) secara simultan tidak berpengaruh signifikan terhadap model)
\(H_1\) : \(β_0\) ≠ 0 atau \(β_i\) ≠ 0 ; i = 1,2, 3 (Paling tidak terdapat 1 variabel βi yang tidak sama dengan 0 atauberpengaruh signifikan terhadap model)
Taraf Signifikansi
α = 0.05
Daerah kritis
\(H_0\) ditolak jika p-value < α = 0,05 atau F-value > \(F tabel_(α;k;n-k-1)\) = \(F tabel_(0,05; 3; 47)\) = 2,80
Statistik Uji
summary(model)
##
## Call:
## lm(formula = Life_expectancy ~ Adult_mortality + Hepatitis_B +
## GDP_per_capita, data = data_filtered)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.6985 -1.2640 0.1845 1.1605 3.9571
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.810e+01 1.881e+00 36.198 < 2e-16 ***
## Adult_mortality -5.438e-02 3.184e-03 -17.078 < 2e-16 ***
## Hepatitis_B 9.233e-02 1.685e-02 5.479 1.64e-06 ***
## GDP_per_capita 4.353e-04 8.491e-05 5.126 5.48e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.835 on 47 degrees of freedom
## Multiple R-squared: 0.923, Adjusted R-squared: 0.9181
## F-statistic: 187.9 on 3 and 47 DF, p-value: < 2.2e-16
Uji t dilakukan untuk masing-masing variabel independen untuk menguji apakah koefisien regresi masing-masing variabel signifikan secara individu terhadap variabel dependen, dengan mempertimbangkan variabel lain dalam model. Nilai p yang kurang dari 0.05 menunjukkan bahwa masing-masing variabel independen memiliki pengaruh signifikan terhadap life expectancy setelah mempertimbangkan variabel lain dalam model.
Hipotesis
\(H_0\) : \(β_i\) = 0; i = 1, 2, 3 (Variabel \(X_i\) tidak berpengaruh signifikan terhadap model)
\(H_1\) : \(β_i\) ≠ 0; i= 1, 2, 3 (Variabel \(X_i\) berpengaruh signifikan terhadap model)
Taraf Signifikansi
α = 0.05
Daerah Kritis
\(H_0\) ditolak jika p-value < α = 0.05
Statistik Uji
summary(model)
##
## Call:
## lm(formula = Life_expectancy ~ Adult_mortality + Hepatitis_B +
## GDP_per_capita, data = data_filtered)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.6985 -1.2640 0.1845 1.1605 3.9571
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.810e+01 1.881e+00 36.198 < 2e-16 ***
## Adult_mortality -5.438e-02 3.184e-03 -17.078 < 2e-16 ***
## Hepatitis_B 9.233e-02 1.685e-02 5.479 1.64e-06 ***
## GDP_per_capita 4.353e-04 8.491e-05 5.126 5.48e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.835 on 47 degrees of freedom
## Multiple R-squared: 0.923, Adjusted R-squared: 0.9181
## F-statistic: 187.9 on 3 and 47 DF, p-value: < 2.2e-16
# Uji Asumsi Linearitas menggunkan Ramsey RESET
ramsey_test <- resettest(model, power = 2)
ramsey_test
##
## RESET test
##
## data: model
## RESET = 3.7689, df1 = 1, df2 = 46, p-value = 0.05835
Karena nilai p-value = 0.05835 > 0.05, maka tidak ada cukup bukti untuk menolak asumsi linearitas. Oleh karena itu, dapat disimpulkan bahwa model regresi linear berganda tersebut memenuhi asumsi linearitas.
# Histogram
ggplot(data.frame(Residual=resid(model)), aes(x=Residual)) +
geom_histogram(binwidth=0.5, fill="pink", color="black") +
labs(x = "Residual", y = "Count", title = "Histogram of Residuals") +
theme(panel.background = element_rect(fill = "white"))
# Grafik QQ Plot untuk normalitas residual
qqnorm(resid(model))
qqline(resid(model))
# Uji Normalitas residual model
shapiro.test(resid(model))
##
## Shapiro-Wilk normality test
##
## data: resid(model)
## W = 0.98385, p-value = 0.7101
ks.test(resid(model), "pnorm", mean = mean(resid(model)), sd = sd(resid(model)))
##
## Exact one-sample Kolmogorov-Smirnov test
##
## data: resid(model)
## D = 0.094991, p-value = 0.7111
## alternative hypothesis: two-sided
Melalui berbagai metode uji normalitas, diperoleh hasil sebagai berikut:
# Grafik Residual Plot untuk non-heteroskedastisitas
plot(model, which = 1)
# Uji non-Heteroskedastisitas
bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 0.39349, df = 3, p-value = 0.9416
# Uji Multikolinearitas
vif(model)
## Adult_mortality Hepatitis_B GDP_per_capita
## 1.218696 1.156342 1.083811
vif_values <- vif(model)
# Membuat plot VIF
plot(vif_values, type = "bar", main = "VIF Plot")
# Uji autokorelasi residual
dwtest(model)
##
## Durbin-Watson test
##
## data: model
## DW = 1.6072, p-value = 0.0797
## alternative hypothesis: true autocorrelation is greater than 0
Berdasarkan hasil uji autokorelasi yang diperoleh, nilai p-value sebesar 0.0797 > 0.05. Ini menunjukkan bahwa tidak ada bukti yang cukup untuk menolak hipotesis nol yang menyatakan tidak adanya autokorelasi. Dengan kata lain, asumsi bahwa tidak terjadi autokorelasi dalam model regresi ini terpenuhi.
Model regresi linier berganda ini menunjukkan bahwa variabel jumlah kematian orang dewasa, persentase cakupan imunisasi Hepatitis B, dan GDP per Kapita memiliki pengaruh signifikan terhadap angka harapan hidup di wilayah Afrika pada tahun 2015. Namun, beberapa hasil koefisien perlu ditinjau lebih lanjut untuk memastikan interpretasi yang benar dan memastikan tidak adanya kesalahan dalam data atau model. Secara keseluruhan, model ini menunjukkan bahwa: