1 PENDAHULUAN
1.1 Latar Belakang
Diare merupakan pengeluaran feses yang konsistensinya lembek sampai cair dengan frekuensi pengeluaran feses sebanyak 3 kali atau lebih dalam sehari(Utami & Luthfiana,2016). Penyakit diare sebagian besar diakibatkan oleh infeksi virus atau bakteri di usus besar yang berasal dari sebuah makanan ataupun minuman yang dikonsumsi. Diare sering terjadi dikarenakan beberapa faktor seperti jarang mencuci tangan, penyimpanan dan penyiapan makanan yang tidak higienis, jarang membersihkan dapur dan toilet, sumber air yang tidak bersih, makanan sisa yang sudah dibiarkan lama, dan tidak mencuci tangan dengan sabun. Masalah diare menjadi salah satu permasalahan kesehatan yang umum di Indonesia,terutama pada bayi dan anak-anak. Di negara berkembang seperti Indonesia sebanyak 6 juta anak meninggal setiap tahunnya.
Beberapa faktor yang dapat memengaruhi yang akan dianalisis pada penelitian ini di antara lain yaitu sumber air minum (\(X_1\)) di mana sumber air minum ini dapat dilihat pada yang terlindungi dan tidak terlindungi. Faktor yang kedua adalah jarak mata air ke tempat penampungan tinja terdekat (\(X_2\)) yang dapat menjadi tempat penyebaran bakteri Echerchia coli di mana pada variabel ini dihitung dengan kategori jarak yang kurang dari atau sama dengan 10 meter dan jarak yang lebih dari 10 meter. Untuk faktor yang ketiga adalah penggunaan fasilitas air minum (\(X_3\)) dengan kategori penggunaan air minum bersama serta sendiri. Dari permasalahan dengan model tersebut dapat dilakukan analisis untuk mengetahui faktor-faktor yang mempengaruhi jumlah penderita diare di wilayah Jawa Timur dengan Model Regresi Probit.
1.2 Model Regresi Probit
Model Regresi Probit merupakan model regresi yang digunakan untuk menganalisis hubungan antara dua buah variabel respon dengan satu atau lebih variabel prediktor dimana variabel dependen berupa data biner dan variabel independen dapat berupa data kualitatif atau kuantitatif.Untuk lebih jelasnya, model probit merupakan model non linier yang digunakan untuk menganalisis hubungan antara satu variabel dependen dengan beberapa variabel independen, dengan variabel dependennya berupa data kualitatif dikotomi yaitu bernilai 0 dan 1 (Wulandari, 2010).Variabel galat pada model ini diasumsikan berdistribusi normal.Pada ilustrasi di atas, seorang peneliti kesehatan melakukan penelitian mengenai dampak dari sumber air minum, jarak mata air ke tempat penampungan tinja dan penggunaan fasilitas air minum terhadap banyaknya jumlah anak yang terkena penyakit diare. Ditentukan bahwa X adalah variabel prediktor(\(X_1,X_2,X_3\)) dan Y adalah variabel respon . Hal itu dapat direpresentasikan menggunakan model regresi sederhana : \(Y_i\) = \(\beta_0\) + \(\beta_1X_1\) + \(\epsilon_i\). Diasumsikan bahwa \(\epsilon_i~N(0,\sigma^2)\).
Model regresi yang digunakan biasanya berbentuk akan memperoleh \(Y_duga\) yang memerlukan link function bagi model probit.
Peneliti mengklasifikasikan variabel X sumber air minum (\(X_1\)) 1 terlindungi dan 0 tidak terlindungi.Jarak mata air ke tempat penampungan tinja (\(X_2\)) 0 untuk jarak yang kurang dari atau sama dengan 10 meter dan 1 untuk jarak yang lebih dari 10 meter. Untuk faktor yang ketiga adalah penggunaan fasilitas air minum (\(X_3\)) 0 penggunaan air minum bersama serta 1 untuk sendiri.Terjangkitnya penyakit diare menjadi dua yaitu 0 ketika terjangkit diare dan respon 1 ketika tidak terjadi diare.
1.3 Estimasi Parameter Regresi Probit dengan Metode Maximum Likelihood (MLE)
Metode maksimum likelihood merupakan salah satu metode penaksiran
parameter yang dapat digunakan untuk manaksir parameter suatu model yang
diketahui distribusinya. Metode maksimum likelihood merupakan metode
yang memaksimumkan fungsi likelihood. Hasil penaksiran parameter model
probit dengan menggunakan metode maksimum likelihood dapat diperoleh
dengan langkah-langkah sebagai berikut: - 1. Menentukan n sampel
random.
- 2. Membentuk fungsi likelihood dari n sampel random karena pada
dasarnya metode maksimum likelihood memberikan dugaan \(\beta\) dengan memaksimumkan suatu fungsi
likelihood.
- 3. Melakukan transformasi ln terhadap fungsi likelihood karena secara
matematis akan lebih mudah memaksimumkan L(\(\beta\)) dengan transformasi ln.
- 4. Mendapatkan penaksir untuk \(\beta\) dengan memaksimumkan ln fungsi
likelihood, yaitu dengan menderivatifkan ln fungsi likelihood terhadap
parameter \(\beta\) kemudian
menyamakannya dengan nol.
Berdasarkan hasil penaksiran untuk parameter \(\beta\) dengan metode maksimum likelihood
di atas, ternyata diperoleh fungsi yang implisit. Akibatnya penaksir
bagi β tidak bisa langsung diperoleh dan untuk mendapatkan penaksir
maksimum likelihood bagi β untuk fungsi yang implisit digunakan metode
Newton-Raphson dengan langkah-langkah sebagai berikut:
- 1. Menentukan nilai awal \(\beta_0\).
- 2. Menghitung \(g_0\) dan \(H_0\) yang besarnya tergantung pada \(\beta_0\).
- 3. Mulai dari t=0, lakukan iterasi: \(\beta_(t+1)\) = \(\beta_t\) –\([H_(t)]^-1-1g(t)\).
- 4. Jika sudah konvergen maka proses iterasi berhenti, jika tidak, maka
teruskan ke t = t+1, hitung \(g_t\) dan
(t) kemudian kembali ke langkah (3).
1.4 Pengujian Parameter
Pengujian statistik dilakukan untuk menentukan apakah
variabel-variabel independen yang terdapat dalam model tersebut memiliki
hubungan yang nyata (signifikan) dengan variabel dependennya. Pengujian
ini dilakukan dalam bentuk-bentuk berikut ini:
a. Uji Parsial
Uji parsial dilakukan untuk menguji keberartian koefisien \(\beta\) secara parsial dengan membandingkan
dugaan β dengan penduga standar errornya.
Statistik uji W mengikuti distribusi normal standart, maka pengujian dilakukan dengan membandingkan antara statistik uji Wald dengan distribusi normal standart pada taraf signifikan \(\alpha\). H0 ditolak jika nilai |W| > Z/2 atau p-value < \(\alpha\).
- Uji Serentak Uji serentak dilakukan untuk memeriksa keberartian koefisien \(\beta\) secara keseluruhan atau serentak.
Statistik uji \(G^2\) mengikuti distribusi \(\chi^2\) maka pengujian dilakukan dengan membandingkan antara nilai statistik uji G dan nilai table \(\chi^2\) dengan derajat bebas v (banyaknya parameter) pada taraf signifikan \(\alpha\). H0 ditolak jika nilai \(G^2\) > \(\chi^2_(v,\alpha)\).
1.5 Data
Sumber data yang digunakan dalam penelitian ini adalah data sekunder yang didapatkan dari Badan Pusat Statistik (BPS) tentang hasil Survei Sosial Ekonomi Nasional (SUSENAS) tahun 2021 propinsi Jawa Timur. Sampel yang diambil adalah 15 dari populasi yang ada.
No | \(X_1\) | \(X_2\) | \(X_3\) | \(Y\) |
---|---|---|---|---|
1 | 0 | 0 | 0 | 0 |
2 | 1 | 0 | 0 | 0 |
3 | 0 | 0 | 1 | 0 |
4 | 1 | 1 | 0 | 1 |
5 | 0 | 1 | 0 | 0 |
6 | 1 | 1 | 0 | 1 |
7 | 0 | 1 | 0 | 0 |
8 | 1 | 0 | 1 | 0 |
9 | 0 | 0 | 0 | 1 |
10 | 0 | 1 | 1 | 0 |
11 | 1 | 0 | 0 | 0 |
12 | 1 | 0 | 0 | 0 |
13 | 1 | 0 | 0 | 1 |
14 | 0 | 1 | 1 | 0 |
15 | 0 | 1 | 1 | 0 |
2 SOURCE KODE
2.1 Library yang Digunakan
library(rmarkdown) library(prettydoc) library(tinytex) library(readxl) library(equatiomatic)
2.2 Import Data
> #Data Diare 2021
> library(readxl)
> Data <- read_excel("D:/__Kuliah/Shalss/Komstat/Data Diare Jawa Timur.xlsx")
> View(Data)
> head(Data)
# A tibble: 6 x 4
X1 X2 X3 Y<dbl> <dbl> <dbl> <dbl>
1 0 0 0 0
2 1 0 0 0
3 0 0 1 0
4 1 1 0 1
5 0 1 0 0
6 1 1 0 1
> str(Data)
15 x 4] (S3: tbl_df/tbl/data.frame)
tibble [$ X1: num [1:15] 0 1 0 1 0 1 0 1 0 0 ...
$ X2: num [1:15] 0 0 0 1 1 1 1 0 0 1 ...
$ X3: num [1:15] 0 0 1 0 0 0 0 1 0 1 ...
$ Y : num [1:15] 0 0 0 1 0 1 0 0 1 0 ...
2.3 Analisis Regresi Probit
> probit<- glm(Data$Y~Data$X1 + Data$X2 + Data$X3, family=binomial(link = "probit"), data=Data)
> probit
: glm(formula = Data$Y ~ Data$X1 + Data$X2 + Data$X3, family = binomial(link = "probit"),
Calldata = Data)
:
Coefficients$X1 Data$X2 Data$X3
(Intercept) Data-0.9268 0.7494 0.5521 -5.3977
: 14 Total (i.e. Null); 11 Residual
Degrees of Freedom: 17.4
Null Deviance: 12.41 AIC: 20.41
Residual Deviance> summary(probit)
:
Callglm(formula = Data$Y ~ Data$X1 + Data$X2 + Data$X3, family = binomial(link = "probit"),
data = Data)
:
Deviance Residuals
Min 1Q Median 3Q Max -1.05963 -0.93475 -0.00009 0.46736 1.86090
:
CoefficientsPr(>|z|)
Estimate Std. Error z value -0.9268 0.8412 -1.102 0.271
(Intercept) $X1 0.7494 0.8833 0.848 0.396
Data$X2 0.5521 0.8634 0.639 0.523
Data$X3 -5.3977 682.1157 -0.008 0.994
Data
for binomial family taken to be 1)
(Dispersion parameter
: 17.397 on 14 degrees of freedom
Null deviance: 12.406 on 11 degrees of freedom
Residual deviance: 20.406
AIC
: 17 Number of Fisher Scoring iterations
3 HASIL DAN PEMBAHASAN
3.1 Model Probit
Model probit dari persamaan yang telah terbentuk :
P(Ŷ=1)= \(\Phi\)[0.9268+0.7494(x1)+0.5521(x2)-5.3977(x3)]
Hasil pendugaaan pada rstudio dapat dilihat pada tabel coefficients pada kolom estimate, dimana pada kolom ini dijelaskan penduga intersep dan penduga beta. Pada tabel ini terlihat bahwa tiap-tiap variabel memiliki nilai p-value > \(\alpha\) (0.05) sehingga dapat dikatakan bahwa variabel tidak berpengaruh signifikan terhadap variabel respon yaitu terkenanya penyakit diare.
Peluang seorang anak dengan keadaan sumber air tidak dilindungi, jarak sumber air kurang dari atau sama dengan 10 meter, penggunaan fasilitas minum bersama adalah :
> Peluang = 0.9268 + 0.7494*(0) + 0.5521*(0) -5.3977*(0)
> Peluang
1] 0.9268
[>
> pnorm(0.9268,0,1,lower.tail = TRUE)
1] 0.8229848 [
Interpretasi : Dapat disimpulkan bahwa meskipun pada hasil peluang tersebut bahwa, ketika seseorang ini sumber airnya tidak dilindungi jarak sumber airnya kurang dari atau sama dengan 10 meter dan penggunaan fasilitas airnya masih bersama rentan terkena diare sebesar 82.29%
Peluang seorang anak dengan keadaan sumber air dilindungi, jarak sumber air lebih dari 10 meter, penggunaan fasilitas minum sendiri adalah :
> Peluang = 0.9268 + 0.7494*(1) + 0.5521*(1) -5.3977*(1)
> Peluang
1] -3.1694
[>
> pnorm(-3.1694,0,1,lower.tail = TRUE)
1] 0.0007637701 [
Interpretasi : Dapat disimpulkan bahwa meskipun pada hasil peluang tersebut bahwa, ketika seseorang ini sumber airnya dilindungi jarak sumber airnya lebih dari 10 meter dan penggunaan fasilitas airnya sudah mandiri hanya dapat terkena diare sebesar 0.076 %
3.2 Menentukan Kesesuaian Model Probit
Karena nilai p-value > \(\alpha\) (0.05) maka dapat dikatakan bahwa keputusan yang diperoleh model probit yang diperoleh masih kurang sesuai. Sehingga model probit belum dapat digunakan untuk memprediksi jumlah seseorang yang terkena diare.
3.3 Simpulan
Berdasarkan hasil penelitian di atas ternyata masih belum dapat ditemukan model yang sesuai untuk memprediksi banyaknya seseorang yang terkena diare akobat faktor-faktor seperti sumber dilindungi, jarak sumber air kurang dari atau sama dengan 10 meter, serta penggunaan fasilitas minum. Pada penelitian di atas model probit masih belum cocok untuk digunakan.
3.4 Saran
Untuk mendapatkan model probit yang sesuai bisa diulangi dengan menambah jumlah sampel yang ada agar hasil yang didapatkan sesuai dengan yang diinginkan.
4 DAFTAR PUSTAKA
Utami, N., & Luthfiana, N. (2016). Faktor-Faktor yang Memengaruhi Kejadian Diare pada Anak. Majority, 5, 101–106. https://www.mendeley.com/catalogue/fdd61f29-e548-30b4-9a02-3d11c3c9b4aa/
Wulandari, E. (2010). FAKTOR-FAKTOR YANG MEMPENGARUHI JUMLAH PENDERITA Estimasi Parameter Regresi Probit dengan Metode Maximum Likelihood. Matematika, Jurusan Pengetahuan, Ilmu Surabaya, Negeri, 1–6.