Regresi Data Panel
Regresi data panel adalah suatu metode gabungan antara data cross section dan data time series. Dalam hal ini, unit cross section yang sama diukur pada waktu yang berbeda. Dalam regresi data panel, metode yang akan digunakan bergantung pada asumsi yang dibuat mengenai intersep, slope koefisien, dan error. Model regresi data panel dibagi menjadi tiga, yaitu:
- Common Effect Model
- Fixed Effect Model
- Random Effect Model
Pada analisis akan digunakan metode Regresi Data Panel untuk mengetahui faktor-faktor yang mempengaruhi angka harapan hidup di Asia. Pemodelan harapan hidup dengan regresi panel pada analisis menggunakan variabel bebas rata-rata lama sekolah, PDB per kapita, dan indeks massa tubuh karena ketiga variabel tersebut memiliki pengaruh dalam angka harapan hidup. Pendidikan menjadi salah satu cara untuk meningkatkan kualitas hidup manusia secara ekonomi dan sosial.Pendidikan yang tinggi akan membuat seseorang paham bagaimana cara menjaga kesehatan badannya. Dimensi kesehatan yang dapat diukur melalui variabel indeks massa tubuh menunjukkan bagaimana tingkat kesehatan suatu negara. Semakin tingginya tingkat kesehatan di suatu negara, maka semakin tinggi pula harapan untuk hidup di negara tersebut. Selain itu, faktor ekonomi berkaitan dengan kemampuan seseorang untuk mengakses layanan kesehatan, sehingga jika ekonomi cenderung stabil maka angka harapan hidup akan meningkat. Ketiga faktor ini diperkirakan saling berpengaruh satu sama lainnya dalam meningkatkan nilai harapan hidup.
Library
Berikut adalah library-library yang akan digunakan dalam analisis:
library(readxl)
library(dplyr)
library(plm)
library(ggplot2)
library(lmtest)
library(corrplot)
Input Data
Tahap ini adalah tahap import data dari Microsoft Excel ke RStudio. Data yang digunakan dalam analisis ini memuat variabel-variabel berikut:
- Country: Daftar negara di Asia
- Year: Memuat tahun 2011-2015
- Life_expectancy: Rata-rata harapan hidup kedua jenis kelamin
- GDP_per_capita: PDB per kapita dalam USD ($) saat ini
- Schooling: rata-rata lama sekolah untuk usia 25 tahun keatas
- BMI: rata-rata indeks massa tubuh
dataCMSIM = read_excel("D:/SEMESTER 4/SIM/SIM_CM2.xlsx")
dataCMSIM
## # A tibble: 135 × 6
## Country Year Life_expectancy GDP_per_capita Schooling BMI
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Afghanistan 2011 61.6 512 3.3 22.8
## 2 Afghanistan 2012 62.1 558 3.4 22.9
## 3 Afghanistan 2013 62.5 569 3.5 23
## 4 Afghanistan 2014 63 565 3.5 23.2
## 5 Afghanistan 2015 63.4 556 3.6 23.3
## 6 Azerbaijan 2011 71.2 5153 10.7 26.5
## 7 Azerbaijan 2012 71.5 5195 10.7 26.6
## 8 Azerbaijan 2013 71.8 5426 10.8 26.7
## 9 Azerbaijan 2014 72 5506 10.7 26.8
## 10 Azerbaijan 2015 72.3 5500 10.7 26.9
## # … with 125 more rows
Eksplorasi Data
Plot
Berikut disajikan plot yang menggambarkan nilai angka harapan hidup dari tahun 2011-2015 untuk setiap negara:
ggplot(data = dataCMSIM, aes(x=Year, y=Life_expectancy, group = Country, colour = Country))+ theme_bw()+ geom_line(size=1)+ geom_point(size=3, shape=19, fill="blue")+ labs(colour="Country", title = "Angka Harapan Hidup di Asia", subtitle = "Tahun 2011-2015")+ theme(plot.title = element_text(hjust= 0.5, face = "bold"), plot.subtitle = element_text(hjust = 0.5))
Line chart di atas menampilkan angka harapan hidup tahun 2011-2015 untuk beberapa negara di Asia. Dari plot terlihat bahwa Negara Jepang memiliki angka harapan hidup yang paling tinggi dibandingkan dengan negara lainnya dengan kecenderungan tiap tahun semakin meningkat. Sedangkan angka harapan hidup terendah dimiliki oleh Negara Afganistan, namun terjadi peningkatan angka harapan hidup untuk setiap tahunnya. Dari plot ini terlihat bahwa terdapat perbedaan angka harapan hidup untuk tiap negara.
Map Chart
Visualisasi geospasial dari rata-rata angka harapan hidup dari tahun 2011-2015 untuk negara di Asia disajikan dengan bantuan software Tableau sebagai berikut:
Dari visualisasi geospasial di atas, warna merah pada peta negara menunjukkan bahwa angka harapan hidup di negara tersebut lebih tinggi dibandingkan negara lainnya. Sebaliknya, semakin muda warna yang ditunjukkan, maka semakin rendah angka harapan hidup di negara tersebut. Pada peta visualisasi, terlihat bahwa Jepang memiliki nilai harapan hidup yang lebih tinggi dibanding negara lainnya di Asia. Sedangkan Afganistan merupakan negara dengan nilai harapan hidup yang paling rendah.
Penentuan Model Estimasi
Membentuk Model
- Common Effect Model
cem <- plm(Life_expectancy ~ GDP_per_capita + Schooling + BMI, data = dataCMSIM, model = "pooling")
summary(cem)
## Pooling Model
##
## Call:
## plm(formula = Life_expectancy ~ GDP_per_capita + Schooling +
## BMI, data = dataCMSIM, model = "pooling")
##
## Balanced Panel: n = 27, T = 5, N = 135
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -5.47933 -2.15033 -0.58238 2.07800 8.23280
##
## Coefficients:
## Estimate Std. Error t-value Pr(>|t|)
## (Intercept) 8.1360e+01 3.8248e+00 21.2719 < 2.2e-16 ***
## GDP_per_capita 2.2803e-04 2.3448e-05 9.7251 < 2.2e-16 ***
## Schooling 7.6702e-01 1.2146e-01 6.3151 3.874e-09 ***
## BMI -7.4250e-01 1.7853e-01 -4.1590 5.744e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 3196.1
## Residual Sum of Squares: 1148.8
## R-Squared: 0.64056
## Adj. R-Squared: 0.63233
## F-statistic: 77.818 on 3 and 131 DF, p-value: < 2.22e-16
Jika dilihat dari model common effect, variabel GDP_per_capita dan Schooling berpengaruh positif terhadap Life_expectancy, sedangkan variabel BMI berpengaruh negatif terhadap Life_expectancy.
- Fix Effect Model
fem.two <- plm(Life_expectancy ~ GDP_per_capita + Schooling + BMI, data = dataCMSIM, model = "within", effect = "twoways", index = c("Country", "Year"))
summary(fem.two)
## Twoways effects Within Model
##
## Call:
## plm(formula = Life_expectancy ~ GDP_per_capita + Schooling +
## BMI, data = dataCMSIM, effect = "twoways", model = "within",
## index = c("Country", "Year"))
##
## Balanced Panel: n = 27, T = 5, N = 135
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -1.08081867 -0.06214820 0.00060159 0.05985129 0.94714395
##
## Coefficients:
## Estimate Std. Error t-value Pr(>|t|)
## GDP_per_capita 2.5990e-05 5.1806e-05 0.5017 0.61699
## Schooling 3.2006e-01 1.4785e-01 2.1647 0.03276 *
## BMI -3.3660e-01 4.4884e-01 -0.7499 0.45504
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 5.8317
## Residual Sum of Squares: 5.4716
## R-Squared: 0.061752
## Adj. R-Squared: -0.2448
## F-statistic: 2.21582 on 3 and 101 DF, p-value: 0.090876
Jika dilihat dari model fix effect dua arah, variabel GDP_per_capita dan Schooling berpengaruh positif terhadap Life_expectancy, sedangkan variabel BMI berpengaruh negatif terhadap Life_expectancy.
- Random Effect Model
rem.two <- plm(Life_expectancy ~ GDP_per_capita + Schooling + BMI, data = dataCMSIM, model = "random", effect = "twoways", index = c("Country", "Year"))
summary(rem.two)
## Twoways effects Random Effect Model
## (Swamy-Arora's transformation)
##
## Call:
## plm(formula = Life_expectancy ~ GDP_per_capita + Schooling +
## BMI, data = dataCMSIM, effect = "twoways", model = "random",
## index = c("Country", "Year"))
##
## Balanced Panel: n = 27, T = 5, N = 135
##
## Effects:
## var std.dev share
## idiosyncratic 0.05417 0.23275 0.006
## individual 9.72488 3.11847 0.994
## time 0.00000 0.00000 0.000
## theta: 0.9666 (id) 0 (time) 0 (total)
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -1.62772 -0.14472 -0.01796 0.16767 1.00158
##
## Coefficients:
## Estimate Std. Error z-value Pr(>|z|)
## (Intercept) 2.4839e+01 4.0862e+00 6.0787 1.212e-09 ***
## GDP_per_capita 2.1512e-04 4.0732e-05 5.2814 1.282e-07 ***
## Schooling 5.9493e-01 1.5613e-01 3.8104 0.0001387 ***
## BMI 1.6787e+00 1.9355e-01 8.6733 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 35.609
## Residual Sum of Squares: 11.228
## R-Squared: 0.6847
## Adj. R-Squared: 0.67748
## Chisq: 284.478 on 3 DF, p-value: < 2.22e-16
Jika dilihat dari model random effect, variabel GDP_per_capita, Schooling, dan BMI sama-sama berpengaruh positif terhadap Life_expectancy.
Uji Chow
\(H_0\): Model common effect
\(H_1\): Model fix effect
Daerah kritis: \(H_0\) ditolak jika p-value < \(\alpha\), dengan \(\alpha\) sebesar 5%.
pooltest(cem, fem.two)
##
## F statistic
##
## data: Life_expectancy ~ GDP_per_capita + Schooling + BMI
## F = 703.49, df1 = 30, df2 = 101, p-value < 2.2e-16
## alternative hypothesis: unstability
Maka \(H_0\) ditolak, artinya model efek tetap (fix effect model) merupakan model yang lebih baik dibanding common effect model. Karena \(H_0\) ditolak, maka dilanjutkan ke uji Hausman.
Uji Hausman
\(H_0\): Model random effect
\(H_1\): Model fix effect
Daerah kritis: \(H_0\) ditolak jika p-value < \(\alpha\), dengan nilai \(\alpha\) sebesar 5%.
phtest(fem.two, rem.two)
##
## Hausman Test
##
## data: Life_expectancy ~ GDP_per_capita + Schooling + BMI
## chisq = 42.21, df = 3, p-value = 3.62e-09
## alternative hypothesis: one model is inconsistent
\(H_0\) ditolak, artinya fix effect model lebih baik digunakan dibanding dengan random effect model.
Uji Breusch Pagan
Uji ini dilakukan untuk mengetahui apakah terdapat efek individu atau waktu atau keduanya dalam panel data.
- Pengaruh Dua Arah
\(H_0\): Tidak ada pengaruh dua arah (individu dan waktu)
\(H_1\): Ada pengaruh dua arah (individu dan waktu)
Daerah kritis: \(H_0\) ditolak jika p-value < \(\alpha\), dengan nilai \(\alpha\) sebesar 5%.
plmtest(fem.two, type = "bp", effect = "twoways")
##
## Lagrange Multiplier Test - two-ways effects (Breusch-Pagan)
##
## data: Life_expectancy ~ GDP_per_capita + Schooling + BMI
## chisq = 253.85, df = 2, p-value < 2.2e-16
## alternative hypothesis: significant effects
\(H_0\) ditolak, artinya terdapat pengaruh secara dua arah, namun akan dipastikan dulu melalui uji pengaruh secara parsial.
- Pengaruh Individu
\(H_0\): Tidak ada pengaruh individu
\(H_1\): Ada pengaruh individu
Daerah kritis: \(H_0\) ditolak jika p-value < \(\alpha\), dengan nilai \(\alpha\) sebesar 5%.
plmtest(fem.two, type = "bp", effect = "individual")
##
## Lagrange Multiplier Test - (Breusch-Pagan)
##
## data: Life_expectancy ~ GDP_per_capita + Schooling + BMI
## chisq = 253.22, df = 1, p-value < 2.2e-16
## alternative hypothesis: significant effects
- Pengaruh Waktu
\(H_0\): Tidak ada pengaruh waktu
\(H_1\): Ada pengaruh waktu
Daerah kritis: \(H_0\) ditolak jika p-value < \(\alpha\), dengan nilai \(\alpha\) sebesar 5%.
plmtest(fem.two, type = "bp", effect = "time")
##
## Lagrange Multiplier Test - time effects (Breusch-Pagan)
##
## data: Life_expectancy ~ GDP_per_capita + Schooling + BMI
## chisq = 0.63119, df = 1, p-value = 0.4269
## alternative hypothesis: significant effects
Berdasarkan hasil uji, diketahui bahwa pada model fix effect terdapat efek dua arah. Namun stelah dilakukan pengujian efek individual dan efek waktu, hanya efek indidual yang signifikan. Maka model yang terbentuk adalah fix efffect model dengan efek satu arah, yaitu efek individu (cross section).
Membentuk Model Baru
Dari hasil uji Breush Pagan sebelumnya, diketahui bahwa model fix effect satu arah (efek individu) paling sesuai untuk digunakan, sehingga model barunya yaitu:
fem.idv <- plm(Life_expectancy ~ GDP_per_capita + Schooling + BMI, data = dataCMSIM, model = "within", effect = "individual")
summary(fem.idv)
## Oneway (individual) effect Within Model
##
## Call:
## plm(formula = Life_expectancy ~ GDP_per_capita + Schooling +
## BMI, data = dataCMSIM, effect = "individual", model = "within")
##
## Balanced Panel: n = 27, T = 5, N = 135
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -1.3513397 -0.1010544 0.0076297 0.1050107 1.2203626
##
## Coefficients:
## Estimate Std. Error t-value Pr(>|t|)
## GDP_per_capita 2.0426e-04 4.6236e-05 4.4178 2.432e-05 ***
## Schooling 6.0798e-01 1.5571e-01 3.9045 0.0001671 ***
## BMI 2.0081e+00 1.8810e-01 10.6755 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 32.088
## Residual Sum of Squares: 7.2061
## R-Squared: 0.77543
## Adj. R-Squared: 0.7134
## F-statistic: 120.852 on 3 and 105 DF, p-value: < 2.22e-16
Dari model baru yang terbentuk, yaitu fix effect model dengan efek satu arah yaitu efek individu, terlihat secara sekilas bahwa ketiga variabel bebas memiliki hubungan yang positif terhadap variabel terikatnya.
Uji Asumsi
Model yang terbentuk sebelumnya adalah fix effect model dengan efek individu, sehingga terdapat dua uji asumsi klasik yang harus dipenuhi yaitu uji asumsi homogenitas dan uji non-multikolinearitas.
Uji Asumsi Homogenitas
\(H_0\): tidak terdapat masalah heteroskedastisitas
\(H_1\): terdapat masalah heteroskedastisitas
Daerah kritis: \(H_0\) ditolak jika p-value < \(\alpha\), dengan nilai \(\alpha\) sebesar 5%.
res <- residuals(fem.idv)
abs_res <- abs(res)
glejser <- plm(abs_res ~ GDP_per_capita + Schooling + BMI, data = dataCMSIM, model = "within", effect = "individual")
summary(glejser)
## Oneway (individual) effect Within Model
##
## Call:
## plm(formula = abs_res ~ GDP_per_capita + Schooling + BMI, data = dataCMSIM,
## effect = "individual", model = "within")
##
## Balanced Panel: n = 27, T = 5, N = 135
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -0.6545507 -0.0484457 -0.0072553 0.0487962 0.5614466
##
## Coefficients:
## Estimate Std. Error t-value Pr(>|t|)
## GDP_per_capita 2.2708e-08 2.2635e-05 0.0010 0.9992
## Schooling -2.2213e-02 7.6228e-02 -0.2914 0.7713
## BMI -7.1364e-03 9.2086e-02 -0.0775 0.9384
##
## Total Sum of Squares: 1.7302
## Residual Sum of Squares: 1.727
## R-Squared: 0.0018823
## Adj. R-Squared: -0.27379
## F-statistic: 0.0660056 on 3 and 105 DF, p-value: 0.97779
Karena semua p-value > 0,05, maka \(H_0\) gagal ditolak. Artinya tidak terdapat masalah heteroskedastisitas pada residu model ini. Sehingga asumsi homogenitas pada model terpenuhi.
Uji Asumsi Non-Multikolinearitas
Uji asumsi non-multikolinearitas dapat dilakukan dengan melihat korelasi antar variabel-variabel bebas dalam model. Jika nilai korelasinya tinggi, maka terindikasi adanya masalah multikolinearitas dalam model. Sedangkan jika nilai korelasi rendah, maka terindikasi tidak adanya masalah multikolinearitas. Dalam beberapa sumber, nilai korelasi tinggi jika korelasinya > 0,8 begitupun sebaliknya.
vind <- cbind(dataCMSIM[c('GDP_per_capita', 'Schooling', 'BMI')])
corrplot(cor(vind), method = 'number', order = 'alphabet')
Karena nilai korelasi antara variabel-variabel bebas nilainya termasuk
kecil, sehingga dapat dikatakan bahwa tidak ada korelasi yang kuat
antara kedua variabel ini. Sehingga tidak terjadi masalah
multikolinearitas pada model.
Uji Signifikansi Model
Setelah asumsi pada model regresi telah terpenuhi semua, langkah selanjutnya yaitu menguji apakah terdapat pengaruh variabel bebas terhadap variabel tak bebas dalam model. Uji signifikansi model dapat dilakukan dengan uji-uji berikut:
Uji Signifikansi Simultan
Uji signifikansi simultan atau sering disebut uji F diperlukan untuk mengetahui adanya pengaruh secara simultan dari semua variabel bebas terhadap variabel tak bebas.
\(H_0\): variabel-variabel bebas tidak berpengaruh secara simultan terhadap variabel tak bebas.
\(H_1\): variabel-variabel bebas berpengaruh secara simultan terhadap variabel tak bebas.
Daerah kritis: \(H_0\) ditolak jika p-value < \(\alpha\), dengan nilai \(\alpha\) sebesar 5%.
summary(fem.idv)
## Oneway (individual) effect Within Model
##
## Call:
## plm(formula = Life_expectancy ~ GDP_per_capita + Schooling +
## BMI, data = dataCMSIM, effect = "individual", model = "within")
##
## Balanced Panel: n = 27, T = 5, N = 135
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -1.3513397 -0.1010544 0.0076297 0.1050107 1.2203626
##
## Coefficients:
## Estimate Std. Error t-value Pr(>|t|)
## GDP_per_capita 2.0426e-04 4.6236e-05 4.4178 2.432e-05 ***
## Schooling 6.0798e-01 1.5571e-01 3.9045 0.0001671 ***
## BMI 2.0081e+00 1.8810e-01 10.6755 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 32.088
## Residual Sum of Squares: 7.2061
## R-Squared: 0.77543
## Adj. R-Squared: 0.7134
## F-statistic: 120.852 on 3 and 105 DF, p-value: < 2.22e-16
Karena nilai p-value < 2,22e-16 maka \(H_0\) ditolak. Artinya, secara simultan, variabel GDP_per_capita, Schooling, dan BMI berpengaruh signifikan terhadap variabel Life_expetancy.
Uji Parsial
Uji parsial atau uji t dilakukan untuk menguji pengaruh dari masing-masing variabel bebas terhadap variabel tak bebas.
\(H_0\): variabel bebas tidak berpengaruh terhadap variabel tak bebas.
\(H_1\): variabel bebas berpengaruh terhadap variabel tak bebas.
Daerah kritis: \(H_0\) ditolak jika p-value < \(\alpha\), dengan nilai \(\alpha\) sebesar 5%.
summary(fem.idv)
## Oneway (individual) effect Within Model
##
## Call:
## plm(formula = Life_expectancy ~ GDP_per_capita + Schooling +
## BMI, data = dataCMSIM, effect = "individual", model = "within")
##
## Balanced Panel: n = 27, T = 5, N = 135
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -1.3513397 -0.1010544 0.0076297 0.1050107 1.2203626
##
## Coefficients:
## Estimate Std. Error t-value Pr(>|t|)
## GDP_per_capita 2.0426e-04 4.6236e-05 4.4178 2.432e-05 ***
## Schooling 6.0798e-01 1.5571e-01 3.9045 0.0001671 ***
## BMI 2.0081e+00 1.8810e-01 10.6755 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 32.088
## Residual Sum of Squares: 7.2061
## R-Squared: 0.77543
## Adj. R-Squared: 0.7134
## F-statistic: 120.852 on 3 and 105 DF, p-value: < 2.22e-16
Terlihat (pada bagian coefficients), nilai p-value untuk masing-masing variabel bebas < 0,05 maka \(H_0\) ditolak. Artinya, secara parsial variabel GDP_per_capita, Schooling, dan BMI berpengaruh signifikan terhadap variabel Life_expetancy.
Nilai adjusted R-Square sebesar 0,7134 artinya variabel GDP_per_capita, Schooling, dan BMI dapat mempengaruhi variabel Life_expetancy sebesar 71,34%. Sedangkan sisanya dipengaruhi oleh variabel lain yang tidak masuk ke dalam model.
Model Terbaik dan Interpretasi
Dari analisis yang telah dilakukan, didapatkan persamaan untuk model regresi yang memenuhi semua uji asumsi dan nilai variabel-variabel bebas dalam model berpengaruh secara signifikan terhadap variabel terikat, baik secara simultan dan secara parsial, dengan nilai R-adj yang cukup tinggi. Sehingga model ini dapat dikatakan model terbaik yang terbentuk, dengan persamaan model sebagai berikut:
\[ \hat{Y}= 0,000204{X_1}+0,608{X_2}+2{X_3} \] \(\hat{Y}\): Angka harapan hidup (Life_expetancy)
\(X_1\): PDB per kapita (GDP_per_capita)
\(X_2\): Rata-rata lama sekolah (Schooling)
\(X_3\): Indeks massa tubuh (BMI)
Berdasarkan persamaan regresi data panel dengan model fix effect satu arah dengan efek individu di atas, diketahui bahwa PDB per kapita, rata-rata lama sekolah, dan indeks massa tubuh berpengaruh positif terhadap angka harapan hidup di Asia tahun 2011-2015.