Library:
> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")
> # install.packages("readxl")
> # install.packages("readr")
> # install.packages("generalhoslem")
> # install.packages("pscl")Polusi udara adalah salah satu masalah lingkungan yang paling mendesak di dunia saat ini, terutama di daerah perkotaan. Tingkat polusi udara yang tinggi dapat menyebabkan berbagai masalah kesehatan serius, termasuk penyakit pernapasan, penyakit jantung, dan bahkan kematian dini. Selain dampak kesehatan, polusi udara juga berdampak negatif terhadap lingkungan dan ekonomi. Oleh karena itu, penting untuk memahami faktor-faktor yang mempengaruhi tingkat polusi udara agar dapat mengembangkan kebijakan dan strategi mitigasi yang efektif.
Berbagai faktor berkontribusi terhadap tingkat polusi udara di lingkungan perkotaan, termasuk emisi industri, penggunaan kendaraan bermotor, konsumsi energi, kepadatan penduduk, dan efektivitas kebijakan lingkungan. Untuk mengidentifikasi dan mengukur pengaruh relatif dari faktor-faktor ini, metode statistik yang kuat dan tepat diperlukan. Salah satu metode yang efektif untuk tujuan ini adalah regresi logistik biner.
Regresi logistik biner adalah teknik analisis statistik yang digunakan untuk memodelkan hubungan antara satu atau lebih variabel independen dan variabel dependen biner. Dalam konteks polusi udara, variabel dependen biner dapat berupa tingkat polusi udara (misalnya, tinggi atau rendah), sementara variabel independen dapat mencakup berbagai faktor lingkungan dan sosial-ekonomi.
Penggunaan metode regresi logistik biner dalam analisis faktor-faktor yang mempengaruhi tingkat polusi udara memiliki beberapa keuntungan. Pertama, metode ini dapat menangani variabel dependen yang bersifat kategoris, seperti tingkat polusi udara yang dikategorikan sebagai tinggi atau rendah. Kedua, regresi logistik memungkinkan untuk memasukkan dan menguji pengaruh simultan dari beberapa variabel prediktor, sehingga memberikan gambaran yang komprehensif mengenai faktor-faktor yang signifikan mempengaruhi polusi udara. Ketiga, hasil analisis regresi logistik dapat digunakan untuk mengembangkan model prediksi yang dapat membantu dalam pengambilan keputusan kebijakan.
Penelitian ini bertujuan untuk menganalisis faktor-faktor yang mempengaruhi tingkat polusi udara di daerah perkotaan dengan menggunakan metode regresi logistik biner. Variabel-variabel yang dianalisis meliputi jarak ke jalan raya, cuaca dan aktivitas industri. Dengan mengidentifikasi faktor-faktor signifikan yang mempengaruhi polusi udara, penelitian ini diharapkan dapat memberikan kontribusi bagi pengembangan strategi mitigasi yang efektif dan kebijakan lingkungan yang lebih baik untuk mengurangi dampak negatif polusi udara di perkotaan.
Analisis regresi adalah metode statistik yang digunakan untuk memodelkan hubungan antara satu atau lebih variabel independen dengan variabel dependen (Salsabila dkk, 2022). Metode ini membantu untuk memahami bagaimana nilai variabel dependen berubah sebagai respons terhadap perubahan variabel independen. Dalam konteks ini, regresi linear sering digunakan untuk memodelkan hubungan linier, sedangkan regresi logistik digunakan untuk variabel dependen biner.
Analisis regresi biner, khususnya regresi logistik biner, adalah teknik yang digunakan untuk memprediksi probabilitas kejadian dari suatu hasil biner (Findasari dan Afifa, 2023). Regresi logistik memodelkan logit (logaritma dari odds) sebagai fungsi linear dari variabel prediktor. Ini memungkinkan peneliti untuk menentukan faktor-faktor yang mempengaruhi probabilitas hasil tertentu.
Estimasi parameter dalam regresi logistik dilakukan menggunakan metode Maksimum Likelihood Estimation (MLE). MLE menemukan nilai parameter yang memaksimalkan fungsi likelihood, yang menggambarkan seberapa baik model menjelaskan data yang diamati (Ningsih, Siregar dan Yenni, 2024). Parameter yang diestimasi mencakup koefisien untuk masing-masing variabel independen yang menunjukkan seberapa kuat hubungan antara variabel tersebut dengan variabel dependen.
Uji parsial dalam konteks regresi logistik dilakukan untuk menguji signifikansi koefisien individual dari variabel prediktor (Kartikasari, 2020). Biasanya, uji Wald digunakan untuk menguji hipotesis nol bahwa koefisien dari variabel tertentu sama dengan nol (tidak ada efek). Hasil uji ini menentukan apakah variabel tersebut secara signifikan mempengaruhi variabel dependen.
Uji simultan, atau uji kesesuaian model secara keseluruhan, digunakan untuk menilai apakah ada setidaknya satu variabel prediktor yang signifikan dalam model (Ningsih, Siregar dan Yenni, 2024). Uji Likelihood Ratio (LR) sering digunakan untuk tujuan ini. Uji ini membandingkan model dengan hanya intercept dengan model yang mencakup semua variabel prediktor untuk melihat apakah penambahan variabel prediktor secara signifikan meningkatkan kemampuan model dalam menjelaskan variabilitas data.
Uji kecocokan model menilai seberapa baik model regresi logistik sesuai dengan data (Kartikasari, 2020). Salah satu metode umum adalah uji Hosmer-Lemeshow, yang membandingkan hasil yang diobservasi dengan hasil yang diprediksi oleh model dalam beberapa kelompok yang dibentuk berdasarkan probabilitas yang diprediksi. Nilai p yang tinggi pada uji ini menunjukkan bahwa model cocok dengan data dengan baik.
> data_polusi <- read_excel("C:/Main Storage/This PC/Downloads/reglog_polusi.xlsx")
> str(data_polusi)
tibble [30 × 4] (S3: tbl_df/tbl/data.frame)
$ Tingkat Polusi : num [1:30] 0 1 0 0 1 0 1 0 1 0 ...
$ Cuaca : num [1:30] 1 2 1 2 1 2 1 2 1 2 ...
$ Jarak ke Jalan Raya: num [1:30] 2.5 3.1 4.2 1.8 2.9 3.5 3.2 4 2.7 3.8 ...
$ Aktivitas Industri : num [1:30] 1 0 0 0 1 0 1 1 1 0 ...
> Y <- as.factor(data_polusi$`Tingkat Polusi`)
> X1 <- data_polusi$`Jarak ke Jalan Raya`
> X2 <- as.factor(data_polusi$Cuaca)
> X3 <- as.factor(data_polusi$`Aktivitas Industri`)
> str(Y)
Factor w/ 2 levels "0","1": 1 2 1 1 2 1 2 1 2 1 ...
> paged_table(data_polusi)> data_logistik<-data.frame(X1,X2,X3,Y)
> str(data_logistik)
'data.frame': 30 obs. of 4 variables:
$ X1: num 2.5 3.1 4.2 1.8 2.9 3.5 3.2 4 2.7 3.8 ...
$ X2: Factor w/ 2 levels "1","2": 1 2 1 2 1 2 1 2 1 2 ...
$ X3: Factor w/ 2 levels "0","1": 2 1 1 1 2 1 2 2 2 1 ...
$ Y : Factor w/ 2 levels "0","1": 1 2 1 1 2 1 2 1 2 1 ...> reg1 <- lm(X1~X2+X3, data=data_logistik)
> summary(reg1)
Call:
lm(formula = X1 ~ X2 + X3, data = data_logistik)
Residuals:
Min 1Q Median 3Q Max
-1.3333 -0.5292 0.0500 0.4375 1.4000
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.0000 0.2122 14.135 5.37e-14 ***
X22 0.1333 0.2599 0.513 0.612
X31 0.3167 0.2653 1.194 0.243
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.7119 on 27 degrees of freedom
Multiple R-squared: 0.05883, Adjusted R-squared: -0.01088
F-statistic: 0.8439 on 2 and 27 DF, p-value: 0.4411
> R2_1 <- 1/(1-0.006685)
> R2_1
[1] 1.00673
>
> reglog2 <- glm(X2~X1+X3, family = binomial, data =data_logistik)
> summary(reglog2)
Call:
glm(formula = X2 ~ X1 + X3, family = binomial, data = data_logistik)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.89407 1.73366 -0.516 0.606
X1 0.29153 0.54370 0.536 0.592
X31 -0.09214 0.76806 -0.120 0.905
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 41.589 on 29 degrees of freedom
Residual deviance: 41.298 on 27 degrees of freedom
AIC: 47.298
Number of Fisher Scoring iterations: 3
> pR2(reglog2)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML
-20.649157906 -20.794415417 0.290515022 0.006985410 0.009637097
r2CU
0.012849462
> R2_2 <- 1/(1-0.006701)
> R2_2
[1] 1.006746
>
> reglog3 <- glm(X3~X1+X2, family = binomial, data =data_logistik)
> summary(reglog3)
Call:
glm(formula = X3 ~ X1 + X2, family = binomial, data = data_logistik)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.58559 1.90857 -1.355 0.176
X1 0.69114 0.57609 1.200 0.230
X22 -0.09923 0.77042 -0.129 0.898
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 40.381 on 29 degrees of freedom
Residual deviance: 38.841 on 27 degrees of freedom
AIC: 44.841
Number of Fisher Scoring iterations: 4
> pR2(reglog3)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML r2CU
-19.42049245 -20.19035001 1.53971512 0.03812998 0.05002902 0.06763175
> R2_3 <- 1/(1-0.009893448)
> R2_3
[1] 1.009992> pR2(reglog)
fitting null model for pseudo-r2
llh llhNull G2 McFadden r2ML r2CU
-12.0459359 -20.5269530 16.9620342 0.4131649 0.4318678 0.5792977
> qchisq(0.95,2)
[1] 5.991465Pada output di atas diperoleh nilai G2 sebesar 16.9620342 dengan nilai chi square tabel sebesar 5,991465. Berdasarkan hal tersebut, nilai G2 lebih besar dibandingkan dengan nilai chi square sehingga dapat diputuskan H0 ditolak. Maka dapat disimpulkan bahwa model terbukti signifikan atau minimal terdapat satu variabel yang berpengaruh terhadap Tingkat Polusi.
> summary(reglog)
Call:
glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = data_logistik)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.8912 2.3745 -0.375 0.70740
X1 -0.6380 0.8012 -0.796 0.42586
X22 1.7732 1.2304 1.441 0.14955
X31 3.9468 1.3133 3.005 0.00265 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 41.054 on 29 degrees of freedom
Residual deviance: 24.092 on 26 degrees of freedom
AIC: 32.092
Number of Fisher Scoring iterations: 5Berdasarkan output di samping dapat dilihat bahwa variabel X3 (Aktivitas Industri) memiliki p-value kurang dari alpha 0.05, sehingga memberikan keputusan menolak H0. Oleh karena itu dapat disimpulkan bahwa Aktivitas Industri berpengaruh signifikan terhadap terjadinya Tingkat Polusi.
> summary(reglog)
Call:
glm(formula = Y ~ X1 + X2 + X3, family = binomial, data = data_logistik)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.8912 2.3745 -0.375 0.70740
X1 -0.6380 0.8012 -0.796 0.42586
X22 1.7732 1.2304 1.441 0.14955
X31 3.9468 1.3133 3.005 0.00265 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 41.054 on 29 degrees of freedom
Residual deviance: 24.092 on 26 degrees of freedom
AIC: 32.092
Number of Fisher Scoring iterations: 5
> Rsq<-1-(111.33/137.99)
> Rsq
[1] 0.1932024Sehingga model yang terbentuk adalah sebagai berikut:
\[ \pi(x) = \frac{exp(-0.8912 - 0.6380X1 + 1.7732X2 + 3.9458X3)}{1 - exp(-0.8912 - 0.6380X1 + 1.7732X2 + 3.9458X3)} \] \[ g(x) = ln(\frac{\pi(x)}{1 - \pi(x)}) = -0.8912 - 0.6380X1 + 1.7732X2 + 3.9458X3 \]
Dari Nilai R square dapat diketahui bahwa variabel independen (X1, X2, dan X3) dapat menjelaskan 19.32% potensi Tingkat Polusi
> beta<-(coef(reglog))
> beta
(Intercept) X1 X22 X31
-0.8912428 -0.6379730 1.7731671 3.9467567
> OR_beta<-exp(beta)
> OR_beta
(Intercept) X1 X22 X31
0.4101457 0.5283624 5.8894766 51.7671989
> cbind(beta,OR_beta)
beta OR_beta
(Intercept) -0.8912428 0.4101457
X1 -0.6379730 0.5283624
X22 1.7731671 5.8894766
X31 3.9467567 51.7671989Jarak ke Jalan Raya (X1) Apabila jarak transaksi yang dilakukan bertambah 1 km dari rumah maka kecenderungan Tingkat Polusi cenderung berpengaruh sebesar 0.5283624 kali lipat. Artinya apabila Jarak ke Jalan Raya semakin dekat maka semakin tinggi juga Tingkat Polusinya.
Cuaca (X2) Peluang Cuaca Berawan memiliki kecenderungan terjadi menaikkan Tingkat Polusi sebesar 5.8894766 kali daripada Cuaca Cerah.
Aktivitas Industri (X3) Peluang Aktivitas Industri Tinggi memiliki kecenderungan menaikkan Tingkat Polusi sebesar 51.7671989 kali lebih tinggi daripada Aktivitas Industri Rendah
> yp_hat<-fitted(reglog)
> data_logistik$yp_hat<-yp_hat
> data_logistik
X1 X2 X3 Y yp_hat
1 2.5 1 1 0 0.81162160
2 3.1 2 0 1 0.25052921
3 4.2 1 0 0 0.02736540
4 1.8 2 0 0 0.43378447
5 2.9 1 1 1 0.76948267
6 3.5 2 0 0 0.20571004
7 3.2 1 1 1 0.73380232
8 4.0 2 1 0 0.90693640
9 2.7 1 1 1 0.79133428
10 3.8 2 0 0 0.17619059
11 2.0 1 0 0 0.10273589
12 3.9 2 1 1 0.91218308
13 3.1 1 0 0 0.05370954
14 2.6 2 0 1 0.31500881
15 3.4 1 0 0 0.04477270
16 4.5 2 1 1 0.87629496
17 3.0 1 0 0 0.05704589
18 2.3 2 0 0 0.35768791
19 4.1 1 1 1 0.60821729
20 3.3 2 0 0 0.22734105
21 2.8 1 1 1 0.78060400
22 3.7 2 0 0 0.18564266
23 3.2 1 0 0 0.05055786
24 3.6 2 1 1 0.92635344
25 3.3 1 0 0 0.04758182
26 2.4 2 0 1 0.34316741
27 4.4 1 0 0 0.02416652
28 3.0 2 1 1 0.94857138
29 2.1 1 0 0 0.09700224
30 3.4 2 1 1 0.93459857
> class<-table(data_logistik$Y,data_logistik$yp_hat>0.5)
> class
FALSE TRUE
0 15 2
1 3 10Dari 18 amatan dengan Y=0, hanya 2 yang diklasifikasikan dengan benar Dari 13 amatan dengan Y=1, terdapat 10 diantaranya diklasifikasikan dengan benar Tingkat akurasi model sebesar ((10+2)/100)*100% = 12%
> logitgof(data_logistik$Y,fitted(reglog))
Hosmer and Lemeshow test (binary model)
data: data_logistik$Y, fitted(reglog)
X-squared = 7.2972, df = 8, p-value = 0.5049Berdasarkan output di atas diperoleh nilai p-value (0,5049) lebih besar dari 0,05, maka H0 diterima. Sehingga dapat disimpulkan bahwa model yang terbentuk layak digunakan.
Setelah melakukan analisis menggunakan metode regresi logistik biner untuk meneliti faktor-faktor yang mempengaruhi tingkat polusi udara, saya mendapati beberapa hasil yang signifikan. Dalam penelitian ini, saya mempertimbangkan tiga variabel prediktor, yaitu cuaca, jarak ke jalan raya, dan aktivitas industri, untuk memprediksi tingkat polusi udara yang dikategorikan sebagai rendah atau tinggi.
Dari hasil analisis, kami menemukan bahwa variabel prediktor “Aktivitas Industri” memiliki pengaruh yang signifikan terhadap tingkat polusi udara.
Model regresi logistik biner yang dihasilkan dari analisis ini dapat digunakan sebagai alat untuk memprediksi tingkat polusi udara berdasarkan kondisi cuaca, jarak ke jalan raya, dan aktivitas industri. Dengan memahami faktor-faktor yang mempengaruhi tingkat polusi udara, langkah-langkah yang sesuai dapat diambil untuk mengurangi dampak polusi udara pada lingkungan dan kesehatan masyarakat. Sebagai contoh, perbaikan infrastruktur jalan, pengaturan kegiatan industri, dan perencanaan tata ruang yang bijaksana dapat menjadi upaya yang efektif dalam mengurangi tingkat polusi udara.
Nur Afifah Salsabila, Handy Kurniawan Juliarto, Al Fitri Syawal, & Darnah Adi Nohe. (2022). ANALISIS REGRESI DATA PANEL PADA KETIMPANGAN PENDAPATAN DAERAH DI PROVINSI KALIMANTAN TIMUR. Prosiding Seminar Nasional Matematika Dan Statistika, 2.
None Findasari, & Afifa, I. (2023). ANALISIS REGRESI LOGISTIK BINER PADA FAKTOR RESIKO KEJADIAN TUBERKULOSIS. Jurnal Matematika, Sains Dan Teknologi/Jurnal Matematika Sains Dan Teknologi, 24(1), 01-14.
Diah Kartikasari. (2020). ANALISIS FAKTOR-FAKTOR YANG MEMPENGARUHI LEVEL POLUSI UDARA DENGAN METODE REGRESI LOGISTIK BINER. Mathunesa: Jurnal Ilmiah Matematika/Mathunesa, 8(1), 55–59.
Tri Ningsih, Heri Adriwan Siregar, & Yenni, Y. (2024). PENERAPAN MODEL LINIER CAMPURAN UNTUK ANALISIS DATA PADA PROGRAM PEMULIAAN KELAPA SAWIT. Warta - Pusat Penelitian Kelapa Sawit/Warta Pusat Penelitian Kelapa Sawit, 29(1), 17–26.
Putri Balqis, Renni Anggraini, & Sugiarto Sugiarto. (2018). MODEL BANGKITAN PERGERAKAN PEKERJA BERDASARKAN TINGKAT PENDAPATAN RUMAH TANGGA (STUDI KASUS KOTA BANDA ACEH). Jurnal Arsip Rekayasa Sipil Dan Perencanaan, 1(2), 10–18.