Abstrak

Angka Harapan Hidup (AHH) merupakan indikator makro yang sensitif terhadap kinerja sektor kesehatan dan kesejahteraan masyarakat. Meskipun AHH Indonesia menunjukkan tren peningkatan, disparitas antarwilayah yang signifikan masih terjadi, diperburuk oleh distribusi tenaga kesehatan yang tidak merata. Penelitian ini bertujuan mengidentifikasi rumpun tenaga kesehatan spesifik yang paling berpengaruh terhadap AHH di 38 provinsi di Indonesia.

Metode Ordinary Least Squares (OLS) awal menunjukkan masalah multikolinearitas tinggi (VIF hingga > 290) dan adanya outlier, yang menyebabkan estimasi koefisien menjadi tidak stabil. Untuk mengatasi hal ini, diterapkan tiga model regularisasi, yaitu Ridge, Lasso, dan ElasticNet. Diagnostik Studentized Residuals, Leverage, dan Cook’s Distance mengidentifikasi 7 observasi sebagai outlier berpengaruh. Analisis kemudian dilakukan dalam dua tahap, yaitu dengan dan tanpa outlier.

Model ElasticNet menunjukkan performa prediksi terbaik. Setelah penghapusan outlier, kinerja model meningkat signifikan (RMSE turun dari 1.9629 menjadi 1.7290), mengonfirmasi dampak besar outlier terhadap stabilitas estimasi. Model ElasticNet terbaik (tanpa outlier) mengindikasikan bahwa Tenaga Medis, Tenaga Psikologi Klinis, Tenaga Kefarmasian, Tenaga Kesehatan Masyarakat, Tenaga Keteknisan Medis, dan Tenaga Teknik Biomedika merupakan rumpun tenaga kesehatan yang paling berpengaruh terhadap AHH. Hasil ini memberikan dasar empiris untuk memprioritaskan alokasi dan pemerataan rumpun tenaga kesehatan kunci demi peningkatan AHH yang lebih efektif di seluruh Indonesia.

Bab 1. Pendahuluan

1.1. Latar Belakang

Angka Harapan Hidup (AHH) atau Life Expectancy at Birth (\(e_{0}\)) didefinisikan sebagai rata-rata jumlah tahun hidup yang diharapkan dapat dijalani oleh seorang bayi yang baru lahir pada suatu tahun tertentu, dengan asumsi bahwa sepanjang hidupnya bayi tersebut mengalami pola kematian menurut umur atau Age Specific Death Rate (ASDR) yang berlaku pada tahun tersebut. Sebagai indikator makro, AHH berfungsi untuk mengevaluasi kinerja pemerintah dalam meningkatkan kesejahteraan masyarakat dan derajat kesehatan penduduk. Nilai AHH yang rendah di suatu wilayah menjadi dasar perlunya intervensi kebijakan melalui pembangunan kesehatan, perbaikan lingkungan, pemenuhan gizi, serta program pengentasan kemiskinan [1].

Penelitian Paramita, Yamazaki, dan Koyama (2020) menunjukkan bahwa AHH di Indonesia dipengaruhi oleh beberapa faktor utama, di mana pengeluaran per kapita merupakan faktor paling dominan, sedangkan tenaga kesehatan menjadi faktor berpengaruh tertinggi kedua. Provinsi dengan jumlah tenaga kesehatan yang lebih memadai cenderung memiliki AHH lebih tinggi dibandingkan dengan provinsi yang kekurangan tenaga kesehatan [2]. Menurut Undang-Undang Nomor 36 Tahun 2014 Pasal 11, rumpun tenaga kesehatan mencakup tenaga medis, tenaga psikologi klinis, tenaga keperawatan, tenaga kebidanan, tenaga kefarmasian, tenaga kesehatan masyarakat, tenaga kesehatan lingkungan, tenaga gizi, tenaga keterapian fisik, tenaga keteknisian medis, tenaga teknik biomedika, tenaga kesehatan tradisional, dan tenaga kesehatan lain [3].

Dalam 10 tahun terakhir, AHH penduduk Indonesia terus meningkat. Pada 2023, rata-rata AHH mencapai 73.93 tahun, naik 3.32 tahun dibandingkan 2014 [4]. Namun, di balik tren positif tersebut, disparitas antarwilayah masih nyata. Penelitian Muharram et al. (2024) menunjukkan bahwa rasio tenaga kesehatan nasional masih di bawah standar WHO dan distribusinya belum merata, dengan konsentrasi lebih tinggi di kota besar dibandingkan daerah terpencil. Kondisi ini menegaskan bahwa peningkatan AHH tidak dapat dilepaskan dari pemerataan tenaga kesehatan, dan penting untuk mengidentifikasi tenaga kesehatan yang paling berpengaruh agar kebijakan lebih tepat sasaran [5].

1.2. Identifikasi Masalah

Berdasarkan uraian latar belakang, dapat diidentifikasi bahwa meskipun AHH di Indonesia terus meningkat, masih terdapat kesenjangan antarwilayah yang cukup besar. Penelitian, Yamazaki, dan Koyama (2020) menunjukkan bahwa tenaga kesehatan berpengaruh terhadap AHH, namun belum menjelaskan secara spesifik tenaga kesehatan mana yang paling signifikan. Di sisi lain, Muharram et al. (2024) menemukan bahwa distribusi tenaga kesehatan di Indonesia masih belum merata dan cenderung terkonsentrasi di wilayah perkotaan. Kondisi ini mengindikasikan bahwa peningkatan AHH tidak hanya bergantung pada jumlah tenaga kesehatan secara keseluruhan, tetapi juga pada jenis tenaga kesehatan yang paling menentukan serta pada pemerataannya di seluruh wilayah. Karena banyak rumpun tenaga kesehatan saling berkorelasi, kondisi ini berpotensi menimbulkan multikolinearitas dalam analisis. Oleh sebab itu, penelitian ini menggunakan metode yang mampu mengatasi multikolinearitas untuk mengidentifikasi rumpun tenaga kesehatan yang paling berpengaruh terhadap AHH di Indonesia.

1.3. Tujuan Penelitian

Penelitian ini bertujuan untuk mengidentifikasi rumpun tenaga kesehatan yang paling berpengaruh terhadap AHH di Indonesia. Tujuan ini disusun untuk menjawab permasalahan yang telah diidentifikasi, yaitu masih belum jelasnya kontribusi spesifik dari masing-masing rumpun tenaga kesehatan terhadap peningkatan AHH. Hasil penelitian diharapkan dapat memberikan dasar empiris bagi perumusan kebijakan pemerataan dan penguatan tenaga kesehatan sehingga upaya peningkatan AHH dapat dilakukan secara lebih efektif dan tepat sasaran.

1.4. Keterbatasan Penelitian

Penelitian ini memiliki keterbatasan pada ketersediaan data, khususnya variabel tenaga kesehatan tradisional yang seharusnya termasuk dalam rumpun tenaga kesehatan sesuai Undang-Undang Nomor 36 Tahun 2014 Pasal 11. Namun, karena data mengenai tenaga kesehatan tradisional tidak lengkap dan tidak tersedia secara konsisten di seluruh provinsi, variabel tersebut tidak dapat dimasukkan dalam analisis. Keterbatasan ini berpotensi membuat hasil penelitian belum sepenuhnya merepresentasikan kontribusi seluruh rumpun tenaga kesehatan terhadap AHH.

Bab 2. Tinjauan Pustaka

2.1. Model Awal Ordinary Least Square (OLS)

Ordinary Least Squares (OLS) adalah metode untuk mengestimasi parameter regresi dengan meminimalkan jumlah kuadrat selisih antara nilai aktual dan nilai prediksi. Model regresi linear dituliskan sebagai berikut:

\[ Y = X\beta + \varepsilon, \]

dengan \(Y\) sebagai variabel dependen, \(X\) matriks variabel independen, \(\beta\) vektor koefisien regresi yang menunjukkan pengaruh \(X\) terhadap \(Y\), dan \(\varepsilon\) error. Estimator OLS diperoleh melalui:

\[ \hat{\beta}_{OLS} = (X'X)^{-1}X'Y, \]

2.2. Uji Asumsi Klasik

Metode Ordinary Least Squares (OLS) merupakan metode estimasi yang optimal karena memberikan hasil yang BLUE (Best Linear Unbiased Estimator), yaitu estimator linear, tidak bias, dan efisien (varians minimum) hanya jika asumsi klasik (Asumsi Gauss-Markov) terpenuhi. Selain pelanggaran terhadap asumsi klasik, keberadaan outlier (data pencilan) juga merupakan masalah serius yang dapat merusak kualitas hasil estimasi OLS.

Ketika terdapat pelanggaran, OLS akan kehilangan properti optimalnya, terutama sifat best (efisien) dan bahkan sifat unbiased (tidak bias) dalam kasus pelanggaran serius, yang membuat hasil regresi dan inferensinya (uji hipotesis) menjadi tidak dapat diandalkan, maka analisis perlu dilakukan menggunakan model alternatif atau metode modifikasi yang dirancang khusus untuk mengatasi masalah statistik tersebut.

2.3. Model Alternatif Penanganan Pelanggaran Asumsi

2.3.1. Penanganan Multikolinearitas

Multikolinearitas menyebabkan koefisien OLS menjadi tidak stabil (varians tinggi). Model Regularisasi mengatasi ini dengan menambahkan penalti pada fungsi Least Squares untuk menyusutkan koefisien (shrinkage), sehingga mengurangi varians dengan mengorbankan sedikit bias (mengelola Bias-Variance Trade-off).

  • Ridge Regression menambahkan penalti berdasarkan jumlah kuadrat dari koefisien (penalti L2). Tujuannya utama adalah menstabilkan koefisien dengan menyusutkannya mendekati nol, tetapi Ridge tidak akan pernah membuat koefisien menjadi nol mutlak.

\[ \text{Minimalkan}: \sum_{i = 1}^{n} (y_i - \hat{y}_i)^2 + \lambda \sum_{j = 1}^{p} \beta_j^2 \]

  • Lasso Regression menambahkan penalti berdasarkan jumlah nilai absolut koefisien (penalti L1). Keunggulan utama Lasso adalah kemampuannya untuk melakukan seleksi fitur (feature selection) secara inheren, karena Lasso cenderung mengatur koefisien prediktor yang tidak signifikan menjadi nol mutlak.

\[ \text{Minimalkan}: \sum_{i = 1}^{n} (y_i - \hat{y}_i)^2 + \lambda \sum_{j = 1}^{p} |\beta_j| \]

  • ElasticNet menggabungkan kedua jenis penalti (L1 dan L2) dari Ridge dan Lasso. Model ini sangat berguna ketika terdapat kelompok prediktor yang sangat berkorelasi, karena dapat memilih semua prediktor dalam kelompok tersebut (seperti Ridge) sambil tetap melakukan seleksi fitur (seperti Lasso).

\[ \text{Minimalkan}: \sum_{i = 1}^{n} (y_i - \hat{y}_i)^2 + \lambda \left[ (1-\alpha) \sum_{j = 1}^{p} \beta_j^2 + \alpha \sum_{j = 1}^{p} |\beta_j| \right] \]

2.3.2. Penanganan Outlier

Outlier adalah observasi yang memiliki pola berbeda secara signifikan dari sebagian besar data lainnya. Outlier dapat disebabkan oleh kesalahan pengukuran, pencatatan, atau memang merupakan kondisi ekstrem yang valid. Keberadaan outlier dapat berdampak besar terhadap estimasi parameter model, uji signifikansi koefisien, serta reliabilitas prediksi.

Oleh karena itu, penting untuk melakukan diagnostik outlier menggunakan beberapa ukuran statistik, yaitu:

  • Studentized Residuals: Mendeteksi outlier (penyimpangan pada \(Y\)).

    \[ t_i = \frac{e_i}{\hat{\sigma}_{(i)}\sqrt{1 - h_{ii}}} \]

    • Mengukur besar penyimpangan nilai aktual terhadap prediksi model dengan mempertimbangkan pengaruh leverage.

    • Kriteria umum: \(|t_i| > 3\) merupakan kandidat outlier (atau \(|r_i| > 2\) untuk standardized residual).

    • Tindakan: Observasi dengan residual tinggi perlu diperiksa apakah disebabkan oleh kesalahan data atau variasi alami.

  • Leverage (\(h_{ii}\)): Mendeteksi leverage points (ekstrem pada \(X\)).

    \[ h_{ii} = x_i'(X'X)^{-1}x_i \]

    • Menunjukkan seberapa jauh nilai \(x_i\) dari pusat data prediktor (X-space).

    • Kriteria umum: Apabila \(h_{ii} > \frac{2p}{n}\), maka observasi memiliki leverage tinggi.

    • Tindakan: Leverage tinggi tidak selalu mengindikasikan outlier, tetapi bisa sangat memengaruhi slope, maka perlu pengecekan konteks data.

  • Cook’s Distance: Mendeteksi observasi berpengaruh (dampak besar pada koefisien \(\hat{\boldsymbol{\beta}}\)).

    \[ D_i = \frac{r_i^2}{p} \cdot \frac{h_{ii}}{1 - h_{ii}} \]

    • Mengukur gabungan pengaruh residual besar dan leverage tinggi terhadap estimasi koefisien.

    • Kriteria umum: Apabila \(D_i > 1\), maka observasi sangat berpengaruh terhadap model.

    • Tindakan: Observasi dengan nilai Cook’s distance besar perlu dikaji ulang, jika ekstrem, dapat dipertimbangkan dihapus atau dianalisis menggunakan robust regression.

Bab 3. Metodologi Penelitian

3.1. Data Penelitian

Data penelitian ini terdiri atas 38 provinsi di Indonesia sebagai observasi dengan variabel dependen Y (Angka Harapan Hidup/AHH) serta sebelas variabel independen, yaitu X1 (Tenaga Medis), X2 (Tenaga Psikologi Klinis), X3 (Tenaga Keperawatan), X4 (Tenaga Kebidanan), X5 (Tenaga Kefarmasian), X6 (Tenaga Kesehatan Masyarakat), X7 (Tenaga Kesehatan Lingkungan), X8 (Tenaga Gizi), X9 (Tenaga Keterapian Fisik), X10 (Tenaga Keteknisan Medis), dan X11 (Tenaga Teknik Biomedika).

3.2. Alur Penelitian

Penelitian ini terdiri dari beberapa langkah, yaitu:

  1. Memperoleh data yang akan digunakan, yaitu data Angka Harapan Hidup (AHH) sebagai variabel Y dan data jumlah rumpun tenaga kesehatan sebagai variabel-variabel independen di setiap provinsi di Indonesia.

  2. Menyusun model regresi awal menggunakan metode Ordinary Least Squares (OLS) guna melihat hubungan awal antara AHH dan setiap rumpun tenaga kesehatan.

  3. Melakukan uji asumsi klasik, meliputi uji normalitas residual, uji multikolinearitas, uji homoskedastisitas, uji autokorelasi, serta uji linearitas.

  4. Jika ditemukan indikasi multikolinearitas, dilakukan pemodelan menggunakan metode regresi regularisasi, yaitu Ridge, Lasso, dan ElasticNet. Kinerja ketiga model tersebut dibandingkan menggunakan Root Mean Square Error (RMSE) untuk memperoleh model regularisasi terbaik.

  5. Melakukan identifikasi outlier dan titik berpengaruh (influential observations) pada model terbaik melalui ukuran diagnostik seperti Studentized residual, Leverage, dan Cook’s Distance.

  6. Jika terdapat outlier, titik data tersebut dihapus, kemudian dilakukan kembali pemodelan dengan metode Ridge, Lasso, dan ElasticNet. Hasil ketiga model kembali dibandingkan berdasarkan nilai RMSE untuk menilai perubahan kinerja setelah penghapusan outlier.

  7. Membandingkan hasil model terbaik sebelum dan sesudah penghapusan outlier untuk menilai pengaruh keberadaan outlier terhadap performa model.

  8. Menyimpulkan hasil analisis untuk mengidentifikasi rumpun tenaga kesehatan yang paling berpengaruh terhadap Angka Harapan Hidup (AHH) di Indonesia, serta memberikan rekomendasi kebijakan berbasis temuan model regresi terbaik.

Bab 4. Hasil Analisis dan Pembahasan

4.1. Model OLS

## 
## Call:
## lm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9 + 
##     X10 + X11, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.6167 -0.9364  0.0127  1.2644  2.9372 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 71.2224037  0.6774685 105.130   <2e-16 ***
## X1           0.0004973  0.0003294   1.509   0.1432    
## X2           0.0209433  0.0188539   1.111   0.2768    
## X3          -0.0005655  0.0003015  -1.876   0.0719 .  
## X4           0.0002325  0.0001461   1.592   0.1235    
## X5           0.0009212  0.0009295   0.991   0.3308    
## X6          -0.0014450  0.0008362  -1.728   0.0959 .  
## X7           0.0060027  0.0033998   1.766   0.0892 .  
## X8           0.0016646  0.0027149   0.613   0.5451    
## X9          -0.0021771  0.0037809  -0.576   0.5697    
## X10         -0.0010466  0.0016958  -0.617   0.5425    
## X11          0.0004474  0.0018376   0.243   0.8096    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.992 on 26 degrees of freedom
## Multiple R-squared:  0.4735, Adjusted R-squared:  0.2507 
## F-statistic: 2.126 on 11 and 26 DF,  p-value: 0.05578
  • Intercept: Ketika seluruh variabel independen bernilai 0, nilai rata-rata Y diperkirakan sebesar 71.22.
  • Uji Parsial Variabel: Tidak ada variabel yang signifikan pada taraf 5% (karena semua p-value > 0.05).
  • Uji Simultan Variabel: Secara bersama-sama, variabel independen tidak signifikan dalam memengaruhi Y pada taraf 5% (karena p-value > 0.05).
  • Kekuatan Model: Memiliki nilai R-squared sebesar 0.4735, yang berarti sekitar 47.35% variasi Y dapat dijelaskan oleh variabel independen X1 hingga X11, dengan Adjusted R-squared sebesar 0.2507 yang menunjukkan kemampuan prediksi model masih rendah setelah mempertimbangkan jumlah variabel, serta Residual Standard Error sebesar 1.992 yang mengindikasikan rata-rata kesalahan prediksi sekitar 1.99 satuan Y.

4.2. Uji Asumsi Klasik

##                                              Uji Statistik.Uji p.value
## W             Uji Normalitas (Shapiro-Wilk Test)        0.9768  0.6055
## BP    Uji Homoskedastisitas (Breusch-Pagan Test)       18.2701  0.0755
## DW         Uji Autokorelasi (Durbin-Watson Test)        1.0391  0.0003
## RESET         Uji Linearitas (Ramsey RESET Test)        8.1231  0.0020
  • Uji Normalitas (Shapiro–Wilk Test): Nilai p-value sebesar 0.6055 > 0.05 menunjukkan bahwa residual model berdistribusi normal. Dengan demikian, asumsi normalitas terpenuhi.
  • Uji Homoskedastisitas (Breusch-Pagan Test): Nilai p-value sebesar 0.0755 > 0.05 menunjukkan bahwa varian residual konstan, sehingga asumsi homoskedastisitas terpenuhi.
  • Uji Autokorelasi (Durbin-Watson Test): Nilai statistik DW sebesar 1.0391 dengan p-value 0.0003 < 0.05 menunjukkan bahwa terdapat autokorelasi, sehingga asumsi bebas autokorelasi tidak terpenuhi.
  • Uji Linearitas (Ramsey RESET Test): Nilai p-value sebesar 0.0020 < 0.05 menunjukkan bahwa model tidak memiliki hubungan linear, sehingga asumsi linearitas tidak terpenuhi.
##     Variabel     VIF
## X1        X1  58.369
## X2        X2  11.533
## X3        X3 293.659
## X4        X4  18.993
## X5        X5 186.050
## X6        X6  11.148
## X7        X7  28.835
## X8        X8  42.821
## X9        X9  49.148
## X10      X10 104.443
## X11      X11 229.640

Nilai VIF seluruh variabel berada di atas 10, bahkan beberapa variabel memiliki nilai yang sangat tinggi, seperti X3 (293.659), X5 (186.050), dan X11 (229.640). Hal ini menunjukkan bahwa antarvariabel independen memiliki korelasi yang sangat kuat, sehingga terjadi multikolinearitas tinggi dalam model.

Model OLS mengalami masalah multikolinearitas yang dapat memengaruhi kestabilan estimasi koefisien regresi dan mengaburkan pengaruh masing-masing variabel terhadap variabel dependen. Oleh karena itu, fokus analisis selanjutnya diarahkan pada penanganan multikolinearitas untuk memperoleh model yang lebih stabil dan interpretatif, yaitu melalui penggunaan metode regularisasi (Lasso, Ridge, atau ElasticNet).

  • Residual vs Fitted: Terlihat bahwa titik-titik tidak menyebar secara acak di sekitar garis nol dan membentuk pola lengkung, terutama pada nilai fitted rendah dan menengah. Hal ini menunjukkan adanya indikasi ketidaklinearan pada model, sehingga hubungan antara variabel dependen dan independen belum sepenuhnya linear.
  • Q-Q Residuals: Sebagian besar titik mengikuti garis diagonal. Dengan demikian, asumsi normalitas residual secara umum terpenuhi, meskipun terdapat sedikit penyimpangan pada data ekstrem.
  • Scale-Location: Titik-titik pada plot ini cenderung tersebar cukup merata di sepanjang fitted values, dan garis tren relatif datar. Hal ini menunjukkan bahwa asumsi homoskedastisitas terpenuhi, karena varian residual relatif konstan di seluruh nilai prediksi.
  • Residuals vs Leverage: Terlihat beberapa observasi memiliki leverage tinggi dan mendekati batas Cook’s distance. Artinya, terdapat beberapa observasi berpengaruh tinggi (influential points) yang berpotensi memengaruhi estimasi koefisien regresi.

4.3. Penanganan Multikolinearitas

## 12 x 1 sparse Matrix of class "dgCMatrix"
##                        s0
## (Intercept)  7.187167e+01
## X1           4.500104e-05
## X2           7.768714e-03
## X3          -1.998862e-06
## X4           1.798008e-05
## X5          -1.706096e-05
## X6          -6.345662e-05
## X7           3.750771e-04
## X8          -5.848597e-06
## X9           2.129168e-04
## X10          2.154532e-05
## X11          4.094231e-05
  • Ridge Regression: Model Ridge mempertahankan semua variabel prediktor dalam model. Dari hasil estimasi, lima variabel dengan pengaruh terbesar terhadap variabel dependen adalah Tenaga Psikologi Klinis, Tenaga Kesehatan Lingkungan, Tenaga Keterapian Fisik, Tenaga Kesehatan Masyarakat, dan Tenaga Medis.

## 12 x 1 sparse Matrix of class "dgCMatrix"
##                       s0
## (Intercept) 7.213141e+01
## X1          3.691344e-05
## X2          1.167783e-02
## X3          .           
## X4          2.264034e-06
## X5          .           
## X6          .           
## X7          2.927665e-05
## X8          .           
## X9          .           
## X10         .           
## X11         .
  • Lasso Regression: Model Lasso hanya mempertahankan variabel yang memiliki koefisien tidak nol, yaitu Tenaga Medis, Tenaga Psikologi Klinis, Tenaga Kebidanan, dan Tenaga Kesehatan Lingkungan. Dengan demikian, model ini berhasil melakukan seleksi variabel, menghilangkan prediktor yang kontribusinya kecil atau tidak signifikan.

## 12 x 1 sparse Matrix of class "dgCMatrix"
##                       s0
## (Intercept) 7.200314e+01
## X1          4.838939e-05
## X2          1.015359e-02
## X3          .           
## X4          6.198069e-06
## X5          .           
## X6          .           
## X7          1.742634e-04
## X8          .           
## X9          .           
## X10         .           
## X11         .
  • ElasticNet Regression: Model ElasticNet menggabungkan keunggulan Ridge dan Lasso, yaitu penyusutan koefisien sekaligus seleksi variabel. Variabel yang dipilih oleh model ini adalah Tenaga Medis, Tenaga Psikologi Klinis, Tenaga Kebidanan, dan Tenaga Kesehatan Lingkungan.
##        Model     RMSE
## 1      Ridge 1.998855
## 2      Lasso 2.030764
## 3 ElasticNet 1.962910
  • Ridge: Nilai RMSE sebesar 2.00, menunjukkan tingkat galat prediksi yang cukup rendah dan stabil. Model ini efektif dalam mengurangi multikolinearitas tanpa mengeliminasi variabel.

  • Lasso: Nilai RMSE sebesar 2.03, sedikit lebih tinggi dibanding Ridge, namun memberikan model yang lebih sederhana dan mudah diinterpretasikan.

  • ElasticNet: Nilai RMSE sebesar 1.96, merupakan yang paling kecil di antara ketiga model regularisasi. Hal ini menunjukkan bahwa model ElasticNet memiliki kinerja prediksi terbaik dan stabilitas tinggi, sekaligus mampu mengatasi multikolinearitas dan mempertahankan variabel penting.

4.4. Deteksi Outlier

##    id     studres   leverage        cookd flag_res flag_lev flag_cook any_flag
## 25 25  2.19344913 0.48186632 3.252013e-01    FALSE    FALSE      TRUE     TRUE
## 12 12 -1.45124782 0.75761408 5.261972e-01    FALSE     TRUE      TRUE     TRUE
## 19 19 -1.40880668 0.40648037 1.091393e-01    FALSE    FALSE      TRUE     TRUE
## 11 11 -1.10068331 0.92240028 1.190376e+00    FALSE     TRUE      TRUE     TRUE
## 15 15  0.49024360 0.86296792 1.299251e-01    FALSE     TRUE      TRUE     TRUE
## 2   2 -0.40491568 0.68854087 3.120837e-02    FALSE     TRUE     FALSE     TRUE
## 13 13 -0.35665942 0.95029265 2.096969e-01    FALSE     TRUE      TRUE     TRUE
## 38 38 -2.02910204 0.10340231 3.533312e-02    FALSE    FALSE     FALSE    FALSE
## 23 23  1.66586964 0.18654566 4.964438e-02    FALSE    FALSE     FALSE    FALSE
## 36 36 -1.55110971 0.08374985 1.738611e-02    FALSE    FALSE     FALSE    FALSE
## 37 37 -1.54563032 0.10769164 2.280839e-02    FALSE    FALSE     FALSE    FALSE
## 9   9  1.45798876 0.08154391 1.507482e-02    FALSE    FALSE     FALSE    FALSE
## 33 33 -1.42925967 0.08539346 1.528105e-02    FALSE    FALSE     FALSE    FALSE
## 24 24  1.11565177 0.08717618 9.813389e-03    FALSE    FALSE     FALSE    FALSE
## 10 10  1.09186632 0.14683725 1.697321e-02    FALSE    FALSE     FALSE    FALSE
## 31 31 -1.04900415 0.23263113 2.769254e-02    FALSE    FALSE     FALSE    FALSE
## 27 27  1.00460032 0.45941360 7.144801e-02    FALSE    FALSE     FALSE    FALSE
## 21 21  0.98588651 0.09496495 8.508225e-03    FALSE    FALSE     FALSE    FALSE
## 20 20  0.91855988 0.18420512 1.597247e-02    FALSE    FALSE     FALSE    FALSE
## 3   3  0.90636807 0.48505390 6.493039e-02    FALSE    FALSE     FALSE    FALSE
## 1   1 -0.89889437 0.60459026 1.037215e-01    FALSE    FALSE     FALSE    FALSE
## 17 17  0.85755122 0.11933476 8.389528e-03    FALSE    FALSE     FALSE    FALSE
## 34 34 -0.69201873 0.07250924 3.183692e-03    FALSE    FALSE     FALSE    FALSE
## 5   5  0.60264603 0.09308095 3.184236e-03    FALSE    FALSE     FALSE    FALSE
## 7   7  0.55175175 0.10618987 3.096855e-03    FALSE    FALSE     FALSE    FALSE
## 22 22 -0.50939791 0.43486039 1.712679e-02    FALSE    FALSE     FALSE    FALSE
## 26 26 -0.50748853 0.27857352 8.531024e-03    FALSE    FALSE     FALSE    FALSE
## 14 14  0.50292394 0.54478145 2.597092e-02    FALSE    FALSE     FALSE    FALSE
## 35 35 -0.49585856 0.08642141 1.996148e-03    FALSE    FALSE     FALSE    FALSE
## 29 29 -0.46044231 0.14872544 3.183103e-03    FALSE    FALSE     FALSE    FALSE
## 4   4  0.45416697 0.16280133 3.447816e-03    FALSE    FALSE     FALSE    FALSE
## 30 30 -0.35641873 0.06360986 7.441140e-04    FALSE    FALSE     FALSE    FALSE
## 8   8  0.24253139 0.32944681 2.498731e-03    FALSE    FALSE     FALSE    FALSE
## 32 32 -0.11954580 0.13169613 1.877474e-04    FALSE    FALSE     FALSE    FALSE
## 28 28  0.10351721 0.50059669 9.305241e-04    FALSE    FALSE     FALSE    FALSE
## 18 18  0.09361591 0.31219920 3.446421e-04    FALSE    FALSE     FALSE    FALSE
## 6   6  0.08345595 0.13997927 9.822013e-05    FALSE    FALSE     FALSE    FALSE
## 16 16 -0.08270650 0.46183196 5.086027e-04    FALSE    FALSE     FALSE    FALSE
## Terdapat 7 observasi yang merupakan outlier & berpengaruh terhadap model.

Sebuah observasi dikategorikan sebagai outlier atau titik berpengaruh apabila salah satu dari ketiga indikator (studentized residual, leverage, dan Cook’s distance) bernilai TRUE. Berdasarkan hasil analisis, terdapat 7 observasi yang memenuhi kriteria tersebut. Observasi ini memiliki nilai yang melebihi ambang batas, sehingga berpotensi memengaruhi estimasi parameter model secara signifikan.

4.5. Penanganan Multikolinearitas (Setelah Outlier Dihapus)

## 12 x 1 sparse Matrix of class "dgCMatrix"
##                     s0
## (Intercept)  7.071380e+01
## X1           1.190389e-04
## X2           9.009748e-03
## X3           1.519770e-05
## X4           4.757131e-06
## X5           2.444328e-04
## X6          -2.385469e-04
## X7          -1.357201e-04
## X8           5.898252e-05
## X9           9.768745e-04
## X10          3.828404e-04
## X11          3.545783e-04
  • Ridge Regression: Model Ridge mempertahankan semua variabel prediktor dalam model. Dari hasil estimasi, lima variabel dengan pengaruh terbesar terhadap variabel dependen adalah Tenaga Psikologi Klinis, Tenaga Keterapian Fisik, Tenaga Keteknisan Medis, Tenaga Teknik Biomedika, dan Tenaga Kefarmasian.

## 12 x 1 sparse Matrix of class "dgCMatrix"
##                     s0
## (Intercept)  7.045797e+01
## X1           6.923425e-05
## X2           1.050784e-02
## X3           .
## X4           6.045826e-05
## X5           1.455816e-03
## X6          -8.656044e-04
## X7           .
## X8           .
## X9          -3.667749e-03
## X10          2.659470e-04
## X11          1.655111e-04
  • Lasso Regression: Model Lasso hanya mempertahankan variabel yang memiliki koefisien tidak nol, yaitu Tenaga Medis, Tenaga Psikologi Klinis, Tenaga Kebidanan, Tenaga Kefarmasian, Tenaga Kesehatan Masyarakat, Tenaga Keterapian Fisik, Tenaga Keteknisian Medis, dan Tenaga Teknik Biomedika. Dengan demikian, model ini berhasil melakukan seleksi variabel, menghilangkan prediktor yang kontribusinya kecil atau tidak signifikan.

## 12 x 1 sparse Matrix of class "dgCMatrix"
##                     s0
## (Intercept) 70.6205511904
## X1           0.0001228113
## X2           0.0084688921
## X3           .
## X4           .
## X5           0.0004865164
## X6          -0.0003492061
## X7           .
## X8           .
## X9           .
## X10          0.0003045707
## X11          0.0005154621
  • ElasticNet Regression: Model ElasticNet menggabungkan keunggulan Ridge dan Lasso, yaitu penyusutan koefisien sekaligus seleksi variabel. Variabel yang dipilih oleh model ini adalah Tenaga Medis, Tenaga Psikologi Klinis, Tenaga Kefarmasian, Tenaga Kesehatan Masyarakat, Tenaga Keteknisan Medis, dan Tenaga Teknik Biomedika.
##        Model     RMSE
## 1      Ridge 1.736062
## 2      Lasso 1.842247
## 3 ElasticNet 1.729038
  • Ridge Regression: Nilai RMSE yang diperoleh sebesar 1.74, menunjukkan tingkat galat prediksi yang cukup rendah dan stabil. Model ini efektif dalam mengurangi multikolinearitas tanpa mengeliminasi variabel.

  • Lasso Regression: Nilai RMSE model sebesar 1.84, sedikit lebih tinggi dibanding Ridge, namun memberikan model yang lebih sederhana dan mudah diinterpretasikan.

  • ElasticNet Regression: Nilai RMSE sebesar 1.73, merupakan yang paling kecil di antara ketiga model regularisasi. Hal ini menunjukkan bahwa model ElasticNet memiliki kinerja prediksi terbaik dan stabilitas tinggi, sekaligus mampu mengatasi multikolinearitas dan mempertahankan variabel penting.

Bab 5. Kesimpulan dan Saran

5.1. Kesimpulan

Analisis regularisasi dilakukan dalam dua tahap, yaitu sebelum dan sesudah menghapus outlier.

  • Regularisasi dengan Outlier: Model terbaik sebelum menghapus outlier adalah ElasticNet dengan nilai RMSE sebesar 1.9629.

  • Regularisasi tanpa Outlier: Model terbaik setelah menghapus outlier tetap ElasticNet, namun dengan nilai RMSE yang lebih kecil yaitu 1.7290.

Perbandingan kinerja model berdasarkan nilai Root Mean Square Error (RMSE):

Model RMSE (Dengan Outlier) RMSE (Tanpa Outlier)
Ridge 2.0000 1.7361
Lasso 2.0300 1.8422
ElasticNet 1.9629 1.7290

Model ElasticNet konsisten sebagai model terbaik, dengan perolehan RMSE terendah baik sebelum maupun setelah pembersihan data. Penurunan RMSE sebesar 12% (dari 1.9629 menjadi 1.7290) setelah penghapusan outlier menegaskan bahwa keberadaan data ekstrem telah menyebabkan ketidakstabilan koefisien dan penurunan akurasi model. Dengan demikian, model ElasticNet yang diterapkan pada data bersih adalah estimasi yang paling representatif.

Model ElasticNet yang optimal (diterapkan pada data tanpa outlier) berhasil melakukan seleksi fitur dan mengidentifikasi enam rumpun tenaga kesehatan yang paling dominan memengaruhi Angka Harapan Hidup (AHH), baik secara positif maupun negatif:

Rumpun Tenaga Kesehatan Arah Pengaruh Keterangan
Tenaga Psikologi Klinis Positif Kuat Pengaruh paling konsisten dan stabil di seluruh model.
Tenaga Kefarmasian Positif Kontribusi positif yang kuat.
Tenaga Medis Positif Kontribusi positif.
Tenaga Teknik Biomedika Positif Kontribusi positif.
Tenaga Kesehatan Masyarakat Negatif Koefisien menunjukkan hubungan terbalik (kontribusi negatif) terhadap AHH.
Tenaga Keteknisan Medis Positif Kontribusi positif.

Setelah penghapusan outlier, nilai koefisien pada model ElasticNet cenderung mengecil dan lebih stabil, menunjukkan bahwa proses regularisasi bekerja lebih efektif setelah data ekstrem dihilangkan. Variabel yang tetap berpengaruh positif seperti Tenaga Medis (dari 4.84×10⁻⁵ menjadi 1.23×10⁻⁴) dan Tenaga Psikologi Klinis (dari 0.0102 menjadi 0.0085) memperlihatkan kestabilan kontribusi meskipun dengan penyesuaian kecil pada besarnya pengaruh.

Sementara itu, munculnya variabel baru dengan koefisien kecil seperti Tenaga Kefarmasian, Tenaga Keteknisan Medis, dan Tenaga Teknik Biomedika mengindikasikan bahwa model pasca-pembersihan data mampu menangkap variasi yang sebelumnya tertutup oleh keberadaan outlier. Dengan demikian, model hasil penghapusan outlier menghasilkan estimasi yang lebih seimbang dan representatif terhadap hubungan sebenarnya antar variabel.

Secara keseluruhan, model ElasticNet berhasil menstabilkan estimasi dan mengidentifikasi variabel yang signifikan. Perhatian khusus perlu diberikan pada variabel dengan pengaruh negatif (Tenaga Kesehatan Masyarakat), yang membutuhkan kajian lebih lanjut mengenai hubungan kausalitasnya dengan AHH di tingkat provinsi, di mana peningkatan jumlahnya justru berkorelasi dengan AHH yang lebih rendah dalam model ini.

5.2. Saran

Berdasarkan hasil analisis yang menunjukkan bahwa model ElasticNet merupakan model terbaik dalam mengidentifikasi pengaruh tenaga kesehatan terhadap AHH, serta temuan bahwa beberapa rumpun tenaga kesehatan memiliki kontribusi lebih besar terhadap peningkatan AHH, maka dapat diberikan beberapa saran sebagai berikut:

  • Pemerintah dan pembuat kebijakan perlu memprioritaskan pemerataan distribusi rumpun tenaga kesehatan yang terbukti paling berpengaruh terhadap AHH, yaitu Tenaga Medis, Tenaga Psikologi Klinis, Tenaga Kefarmasian, Tenaga Keteknisan Medis, dan Tenaga Teknik Biomedika. Upaya pemerataan ini dapat difokuskan pada wilayah dengan AHH relatif rendah agar kesenjangan antarprovinsi dapat dikurangi.

  • Perencanaan sumber daya manusia di bidang kesehatan sebaiknya tidak hanya memperhatikan jumlah total tenaga kesehatan, tetapi juga komposisi rumpun tenaga kesehatan yang sesuai dengan kebutuhan daerah.

  • Karena hasil uji asumsi klasik menunjukkan adanya masalah multikolinearitas dan keberadaan outlier yang memengaruhi kestabilan model, penelitian lanjutan disarankan untuk menggunakan pendekatan non-linear atau model robust agar dapat menangkap hubungan yang lebih kompleks dan mengurangi pengaruh ekstrem pada hasil estimasi.

  • Penelitian selanjutnya juga dapat memperluas cakupan variabel dengan memasukkan faktor-faktor sosial ekonomi dan infrastruktur kesehatan agar interpretasi terhadap determinan AHH menjadi lebih komprehensif.

Dengan demikian, hasil penelitian ini tidak hanya memberikan pemahaman statistik mengenai pengaruh tenaga kesehatan terhadap AHH, tetapi juga dapat menjadi dasar empiris bagi pengambilan kebijakan pemerataan tenaga kesehatan secara lebih efektif dan berbasis bukti.

Daftar Pustaka

[1] Badan Pusat Statistik Provinsi Sulawesi Barat. (2024, November 15). Angka Harapan Hidup Hasil Long Form SP2020 (Tahun), 2024. sulbar.bps.go.id. Retrieved October 4, 2025, from https://sulbar.bps.go.id/id/statistics-table/2/NjQzIzI=/angka-harapan-hidup-hasil-long-form-sp2020.html

[2] Paramita, S. A., Yamazaki, C., & Koyama, H. (2020, March 18). Determinants of Life Expectancy and Clustering of Provinces to Improve Life Expectancy: An Ecological Study in Indonesia. BMC Public Health, 20(351). https://doi.org/10.1186/s12889-020-8408-3

[3] Direktorat Utama Pembinaan dan Pengembangan Hukum Pemeriksaan Keuangan Negara. (2014, October 17). UU No. 36 Tahun 2014. Peraturan BPK. Retrieved October 4, 2025, from https://peraturan.bpk.go.id/Details/38770/uu-no-36-tahun-2014

[4] Portal Informasi Indonesia. (2024, September 30). Angka Harapan Hidup Naik, Orang Indonesia Makin Panjang Umur. Indonesia.go.id. Retrieved October 4, 2025, from https://indonesia.go.id/mediapublik/detail/2327

[5] Muharram, F. R., Sulistya, H. A., Swannjo, J. B., Firmansyah, F. F., Rizal, M. M., Izza, A., Isfandiari, M. A., Ariningtyas, N. D., & Romdhoni, A. C. (2024, July-December). Adequacy and Distribution of the Health Workforce in Indonesia. WHO South-East Asia Journal of Public Health, 13(2), 45-55. https://doi.org/10.4103/WHO-SEAJPH.WHO-SEAJPH_28_24