Angka harapan hidup atau life expectancy adalah indikator kunci yang mencerminkan kualitas kesehatan dan kesejahteraan suatu populasi. Di Benua Amerika, angka harapan hidup dipengaruhi oleh berbagai faktor, termasuk tingkat kematian orang dewasa dan indeks massa tubuh (BMI). Tingkat kematian orang dewasa per 1000 populasi merupakan indikator yang mengukur jumlah kematian dalam kelompok usia dewasa di setiap 1000 orang per tahun. Tingkat kematian ini dapat dipengaruhi oleh berbagai faktor seperti penyakit kronis, kecelakaan, kekerasan, dan kondisi sosial ekonomi. Di banyak negara di Benua Amerika, variasi tingkat kematian orang dewasa mencerminkan perbedaan dalam akses terhadap layanan kesehatan, kualitas perawatan kesehatan, dan faktor-faktor determinan sosial lainnya. BMI adalah ukuran yang digunakan untuk mengkategorikan berat badan seseorang berdasarkan tinggi badannya dan sering digunakan untuk mengidentifikasi risiko kesehatan yang berkaitan dengan berat badan. Orang dengan BMI rendah (underweight) atau tinggi (overweight dan obese) lebih rentan terhadap penyakit serius dan komplikasi kesehatan yang dapat mengurangi angka harapan hidup. Analisis mengenai pengaruh angka kematian orang dewasa per 1000 populasi (Adult Mortality) dan BMI terhadap angka harapan hidup dapat memberikan wawasan yang berharga dalam pengembangan kebijakan kesehatan yang efektif dan tepat.
Regresi linear berganda adalah metode statistik yang digunakan untuk memahami hubungan antara satu variabel dependen (angka harapan hidup) dan dua atau lebih variabel independen (Adult mortality dan BMI). Dengan menggunakan regresi linear berganda, dapat mengukur sejauh mana angka kematian orang dewasa per 1000 populasi secara bersamaan mempengaruhi angka harapan hidup di Benua Amerika pada tahun 2012. Model regresi linier berganda diekspresikan dalam persamaan matematis sebagai berikut.
\[\begin{equation} Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_p X_p + \epsilon \end{equation}\]
dengan \(Y\) adalah variabel dependen, \(X_1, X_2 ,..., X_n\) adalah variabel-variabel independen, \(\epsilon\) adalah sesatan dan \(\beta_0,\beta_1,...,\beta_n\) adalah parameter-parameter regresi.
Data yang digunakan dalam analisis ini merupakan kumpulan data yang telah disaring secara teliti agar sesuai dengan keperluan analisis yang diinginkan. Variabel yang digunakan adalah \(Y\) (Life Expectancy) : Angka harapan hidup, \(X_1\) (Adult Mortality) : Angka kematian orang dewasa per 1000 populasi, dan \(X_2\) (Body Massa Index) : Indeks massa tubuh.
# Memuat paket atau package yang diperlukan
library(readxl)
library(car)
library(lmtest)
library(knitr)
library(markdown)
library(ggplot2)
#Mengimport data dari file excel
AS <- read_excel("D:/KULIAH SEM 4/5. data_case_method - dataset.xlsx", sheet = "America")
## # A tibble: 68 × 4
## Country X1 X2 Y
## <chr> <dbl> <dbl> <dbl>
## 1 Brazil 150. 26.1 74.2
## 2 St. Lucia 141. 29.1 75.1
## 3 Guatemala 170. 26.2 72.2
## 4 St. Vincent and the Grenadines 158. 26.8 71.9
## 5 United States 105. 28.6 78.7
## 6 Dominican Republic 166. 26.1 72.5
## 7 Argentina 121. 27.3 75.6
## 8 Sao Tome and Principe 196. 24.6 68.3
## 9 Canada 67.4 26.9 81.6
## 10 Costa Rica 90.4 27 79.1
## # ℹ 58 more rows
Statistika deskriptif adalah alat analisis yang penting dalam menyajikan dan merangkum informasi dari suatu set data. Dengan menggunakan berbagai ukuran statistik, statistika deskriptif memberikan gambaran yang jelas tentang pola dan karakteristik yang ada dalam data. Diantara ukuran statistik yang umum digunakan adalah nilai minimum (Min) yang menunjukkan titik terendah dalam data, kuartil pertama (Q1) dan kuartil ketiga (Q3) yang memberikan informasi tentang distribusi data pada kuartil bawah dan atas, serta median (Q2) yang menyajikan nilai tengah dari data saat diurutkan. Selain itu, terdapat nilai rata-rata (mean) dan nilai maksimum (Max) menunjukkan titik tertinggi dalam data.
# Statistik deskriptif untuk semua variabel
summary(AS)
## Country X1 X2 Y
## Length:68 Min. : 65.97 Min. :24.60 Min. :61.30
## Class :character 1st Qu.:116.65 1st Qu.:26.30 1st Qu.:72.40
## Mode :character Median :144.29 Median :26.80 Median :74.05
## Mean :143.49 Mean :26.89 Mean :74.26
## 3rd Qu.:166.54 3rd Qu.:27.50 3rd Qu.:76.50
## Max. :252.57 Max. :29.80 Max. :81.90
Berdasarkan hasil statistika deskriptif diatas, dapat diketahui bahwa \(X_2\) atau BMI memiliki gambaran statistik terendah karena memiliki nilai data terkecil sehingga gambaran statistiknya juga bernilai kecil. Berbanding terbalik dengan \(X_1\) atau Adult Mortality yang memiliki gambaran statistik tertinggi karena memiliki nilai data terbesar sehingga gambaran statistiknya juga bernilai tinggi.
# Scatterplot Y vs X1
ggplot(AS, aes(x = AS$X1, y = AS$Y)) +
geom_point() +
labs(x = "X1", y = "Y", title = "Scatterplot of Y vs X1")
Dari plot diatas dapat dilihat bahwa plot linear ke kiri sehingga dapat diketahui bahwa Adult Mortality memiliki hubungan negatif dengan Life Expectancy. Selain itu, plotnya cukup terlihat jelas bentuk linearnya.
# Scatterploy Y vs X2
ggplot(AS, aes(x = AS$X2, y = AS$Y)) +
geom_point() +
labs(x = "X2", y = "Y", title = "Scatterplot of Y vs X1")
Dari plot diatas dapat dilihat bahwa plot linear ke kanan sehingga dapat diketahui bahwa BMI memiliki hubungan positif dengan Life Expectancy.
\(H_0\) : Kedua variabel independen secara simultan tidak berpengaruh signifikan terhadap angka harapan hidup
\(H_1\) : Minimal terdapat satu variabel independen yang berpengaruh signifikan terhadap Rata-rata angka harapan hidup
# Uji F
model <- lm(Y ~ X1+X2, data=AS)
summary(model)
##
## Call:
## lm(formula = Y ~ X1 + X2, data = AS)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.7211 -0.4793 -0.0113 0.6493 2.2555
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 76.294525 4.006068 19.045 < 2e-16 ***
## X1 -0.090466 0.003657 -24.736 < 2e-16 ***
## X2 0.406951 0.140686 2.893 0.00519 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.06 on 65 degrees of freedom
## Multiple R-squared: 0.9226, Adjusted R-squared: 0.9202
## F-statistic: 387.5 on 2 and 65 DF, p-value: < 2.2e-16
Variabel \(X_1\) : Adult Mortality
\(H_0\) : Adult Mortality tidak berpengaruh signifikan terhadap Life Expectancy
\(H_1\) : Adult Mortality berpengaruh signifikan terhadap Life Expectancy
Variabel \(X_2\) : Body Massa Index
\(H_0\) : BMI tidak berpengaruh signifikan terhadap Life Expectancy
\(H_1\) : BMI berpengaruh signifikan terhadap Life Expectancy
# Uji T
summary(model)
##
## Call:
## lm(formula = Y ~ X1 + X2, data = AS)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.7211 -0.4793 -0.0113 0.6493 2.2555
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 76.294525 4.006068 19.045 < 2e-16 ***
## X1 -0.090466 0.003657 -24.736 < 2e-16 ***
## X2 0.406951 0.140686 2.893 0.00519 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.06 on 65 degrees of freedom
## Multiple R-squared: 0.9226, Adjusted R-squared: 0.9202
## F-statistic: 387.5 on 2 and 65 DF, p-value: < 2.2e-16
# Membangun model regresi
model <- lm(Y ~ X1+X2, data=AS)
\(H_0\) : Model regresi linear berganda memenuhi asumsi linearitas
\(H_1\) : Model regresi linear berganda tidak memenuhi asumsi linearitas
# Uji Asumsi Linearitas menggunakan Ramsey RESET
ramsey_test <- resettest(model, power = 2)
ramsey_test
##
## RESET test
##
## data: model
## RESET = 3.0866, df1 = 1, df2 = 64, p-value = 0.08372
\(H_0\) : Residu berdistribusi normal
\(H_1\) : Residu tidak berdistribusi normal
# Grafik QQ Plot untuk normalitas residual
qqnorm(resid(model))
qqline(resid(model))
# Uji Normalitas residu
shapiro.test(resid(model))
##
## Shapiro-Wilk normality test
##
## data: resid(model)
## W = 0.98162, p-value = 0.4142
\(H_0\) : Terdapat homoskedastisitas residu
\(H_1\) : Tidak terdapat homoskedastisitas residu
# Grafik Residual Plot untuk homoskedastisitas
plot(model, which = 1)
# Uji Homoskedastisitas
bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 4.5484, df = 2, p-value = 0.1029
\(H_0\) : Tidak terjadi multikolinearitas
\(H_1\) : Terjadi multikolinearitas
# Membuat plot VIF
vif_values <- vif(model)
plot(vif_values, type = "bar", main = "VIF Plot")
# Uji Multikolinearitas
vif(model)
## X1 X2
## 1.152777 1.152777
\(H_0\) : Tidak ada autokorelasi antar residu
\(H_1\) : Terjadi autokorelasi antar residu
# Uji autokorelasi residual
dwtest(model)
##
## Durbin-Watson test
##
## data: model
## DW = 1.8852, p-value = 0.3222
## alternative hypothesis: true autocorrelation is greater than 0
| Uji Asumsi | Keterangan |
|---|---|
| Linearitas | Terpenuhi |
| Normalitas Residu | Terpenuhi |
| Homoskedastisitas | Terpenuhi |
| Non Multikolinearitas | Terpenuhi |
| Non Autokorelasi | Terpenuhi |
# Membangun persamaan model regresi linier berganda
model <- lm(Y ~ X1+X2, data=AS)
model
##
## Call:
## lm(formula = Y ~ X1 + X2, data = AS)
##
## Coefficients:
## (Intercept) X1 X2
## 76.29453 -0.09047 0.40695
summary(model)
##
## Call:
## lm(formula = Y ~ X1 + X2, data = AS)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.7211 -0.4793 -0.0113 0.6493 2.2555
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 76.294525 4.006068 19.045 < 2e-16 ***
## X1 -0.090466 0.003657 -24.736 < 2e-16 ***
## X2 0.406951 0.140686 2.893 0.00519 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.06 on 65 degrees of freedom
## Multiple R-squared: 0.9226, Adjusted R-squared: 0.9202
## F-statistic: 387.5 on 2 and 65 DF, p-value: < 2.2e-16
Berdasarkan hasil analisis regresi diatas didapatkan persamaan regresi: \[\begin{equation} Y = 76,29453 - 0,09047X_1 + 0,40695X_2 \end{equation}\] Interpretasi: Bahwa setiap kenaikan satu kematian orang dewasa(\(X_1\)) akan menurunkan angka harapan hidup (\(Y\)) sebesar 0,09047, dan setiap kenaikan satu angka BMI(\(X_2\)) akan menaikkan angka harapan hidup sebesar 0,40695. Selain itu, nilai Koefisien Determinasi (diperoleh dari Adjusted R-Square) memiliki nilai 0,9202 atau 92,02%. Artinya, variabel independen dalam model regresi ini mampu menjelaskan variasi dari variabel dependen sebesar 92,02%. Sedangkan 7,98% lainnya dapat dijelaskan oleh variabel lain yang tidak termasuk dalam model ini.
Berdasarkan analisis diatas dapat disimpulkan bahwa variabel \(X_1\) (Adult Mortality) dan \(X_2\) (BMI) berpengaruh signfikan terhadap \(Y\) (Life Expectancy) secara bersama-sama atau simultan dan secara parsial dengan persamaan model regresi linear berganda adalah Berdasarkan hasil analisis regresi diatas didapatkan persamaan regresi: \(Y = 76,29453 - 0,09047X_1 + 0,40695X_2\). Berdasarkan uji asumsi klasik, semua uji asumsi yakni uji asumsi linearitas, uji normalitas residu, uji homoskedastisitas, uji non multikolinearitas, dan uji non autokorelasi terpenuhi sehingga model regresi ini layak untuk digunakan.