summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

1. Pendahuluan

Pencemaran udara merupakan permasalahan lingkungan yang semakin meningkat di wilayah perkotaan dan berdampak langsung terhadap kesehatan masyarakat. Salah satu polutan udara yang berbahaya adalah particulate matter berukuran halus atau biasa disebut PM2.5, karena mampu menembus sistem pernapasan hingga ke paru-paru. Tingginya konsentrasi PM2.5 dapat meningkatkan risiko penyakit pernapasan dan kardiovaskular. Konsentrasi PM2.5 dipengaruhi oleh berbagai faktor, baik dari polutan udara lain maupun kondisi meteorologi. Oleh karena itu, diperlukan analisis statistik untuk memahami hubungan antara PM2.5 dengan faktor-faktor tersebut. Penelitian ini bertujuan untuk menganalisis pengaruh PM10, nitrogen dioksida (NO₂), kecepatan angin, dan kelembapan udara terhadap konsentrasi PM2.5 menggunakan pendekatan regresi linier berganda.

2.Deskripsi dan Sumber Data

Data yang digunakan dalam penelitian ini merupakan data kualitas udara perkotaan yang diperoleh dari situs Kaggle dan dikumpulkan dari berbagai stasiun pemantauan pada periode 2020–2023 dengan interval waktu per jam.

Variabel yang digunakan meliputi: -PM2.5 sebagai variabel terikat (Y) -PM10 sebagai variabel bebas (X₁) -NO₂ sebagai variabel bebas (X₂) -Kecepatan angin (WindSpeed) sebagai variabel bebas (X₃) -Kelembapan udara (Humidity) sebagai variabel bebas (X₄)

Setelah dilakukan proses pembersihan data, diperoleh sebanyak 160 observasi yang digunakan dalam analisis.

a. Membersihkan environment

rm(list = ls())

b. Memanggil library

library(readxl)
## Warning: package 'readxl' was built under R version 4.5.2
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.2
library(car)
## Warning: package 'car' was built under R version 4.5.2
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.5.2
library(lmtest)
## Warning: package 'lmtest' was built under R version 4.5.2
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

c. Import data Excel

library(readxl)
Permodelan_Konsentrasi_PM2_5 <- read_excel("C:/Users/ThinkPad/Downloads/Permodelan Konsentrasi PM2.5.xlsx")
View(Permodelan_Konsentrasi_PM2_5)

d. Cek Struktur Data

str(Permodelan_Konsentrasi_PM2_5)
## tibble [160 × 5] (S3: tbl_df/tbl/data.frame)
##  $ PM2.5    : num [1:160] 54.6 73.5 63.2 45.9 50.3 ...
##  $ PM10     : num [1:160] 57.1 115.3 121.9 74.5 67.9 ...
##  $ NO2      : num [1:160] 31.6 20.9 34 21.1 33.1 ...
##  $ WindSpeed: num [1:160] 1.76 2.2 2.37 3.22 3.08 ...
##  $ Humidity : num [1:160] 87.3 73.2 55.6 60.1 62.3 ...

e.Cek Ringkasan Data

summary(Permodelan_Konsentrasi_PM2_5)
##      PM2.5              PM10             NO2           WindSpeed     
##  Min.   :  3.971   Min.   :  1.12   Min.   : 1.093   Min.   :0.2923  
##  1st Qu.: 49.690   1st Qu.: 74.39   1st Qu.:17.278   1st Qu.:2.0296  
##  Median : 62.649   Median : 94.96   Median :24.222   Median :2.6508  
##  Mean   : 61.349   Mean   : 93.08   Mean   :24.244   Mean   :2.6114  
##  3rd Qu.: 74.853   3rd Qu.:114.95   3rd Qu.:30.681   3rd Qu.:3.2843  
##  Max.   :107.029   Max.   :161.58   Max.   :49.711   Max.   :4.9374  
##     Humidity    
##  Min.   :31.60  
##  1st Qu.:56.06  
##  Median :68.16  
##  Mean   :66.63  
##  3rd Qu.:77.26  
##  Max.   :99.55

3.Exploratory Data Analysis (EDA)

summary(Permodelan_Konsentrasi_PM2_5)
##      PM2.5              PM10             NO2           WindSpeed     
##  Min.   :  3.971   Min.   :  1.12   Min.   : 1.093   Min.   :0.2923  
##  1st Qu.: 49.690   1st Qu.: 74.39   1st Qu.:17.278   1st Qu.:2.0296  
##  Median : 62.649   Median : 94.96   Median :24.222   Median :2.6508  
##  Mean   : 61.349   Mean   : 93.08   Mean   :24.244   Mean   :2.6114  
##  3rd Qu.: 74.853   3rd Qu.:114.95   3rd Qu.:30.681   3rd Qu.:3.2843  
##  Max.   :107.029   Max.   :161.58   Max.   :49.711   Max.   :4.9374  
##     Humidity    
##  Min.   :31.60  
##  1st Qu.:56.06  
##  Median :68.16  
##  Mean   :66.63  
##  3rd Qu.:77.26  
##  Max.   :99.55

Berdasarkan hasil Exploratory Data Analysis (EDA), konsentrasi PM2.5 memiliki nilai minimum sebesar 3,97 µg/m³ dan maksimum sebesar 107,03 µg/m³, dengan nilai rata-rata 61,35 µg/m³ dan median 62,65 µg/m³. Nilai rata-rata yang mendekati median menunjukkan bahwa distribusi data PM2.5 relatif simetris, namun rentang nilai yang cukup lebar mengindikasikan adanya variasi kualitas udara yang signifikan, mulai dari kondisi udara yang sangat baik hingga sangat tercemar. Konsentrasi PM10 memiliki nilai minimum 1,12 µg/m³ dan maksimum 161,58 µg/m³, dengan nilai rata-rata 93,08 µg/m³ dan median 94,96 µg/m³. Kesamaan nilai rata-rata dan median menunjukkan distribusi data yang relatif seimbang, meskipun nilai maksimum yang tinggi menandakan adanya lonjakan partikel kasar pada periode tertentu. Variabel nitrogen dioksida (NO₂) memiliki nilai minimum 1,09 µg/m³ dan maksimum 49,71 µg/m³, dengan nilai rata-rata 24,24 µg/m³ dan median 24,22 µg/m³, yang mengindikasikan distribusi data yang cukup simetris serta variasi konsentrasi akibat perbedaan aktivitas sumber emisi. Kecepatan angin memiliki rentang nilai antara 0,29 m/s hingga 4,94 m/s dengan rata-rata 2,61 m/s, yang menunjukkan kondisi angin cenderung lemah hingga sedang, sehingga berpotensi menghambat proses dispersi polutan di udara. Sementara itu, kelembapan udara memiliki nilai minimum 31,60% dan maksimum 99,55% dengan nilai rata-rata 66,63%, yang mencerminkan kondisi atmosfer yang bervariasi dari kering hingga sangat lembap dan dapat memengaruhi pembentukan serta konsentrasi partikel di udara. Secara keseluruhan, hasil EDA menunjukkan bahwa data kualitas udara memiliki variasi yang cukup besar, terutama pada variabel PM2.5 dan PM10, sehingga analisis lanjutan menggunakan metode regresi linier berganda layak dilakukan untuk mengidentifikasi faktor-faktor yang memengaruhi konsentrasi PM2.5.

b. Histogram PM2.5

plot(Permodelan_Konsentrasi_PM2_5$PM10,
     Permodelan_Konsentrasi_PM2_5$`PM2.5`,
     main = "Scatter Plot PM10 terhadap PM2.5",
     xlab = "PM10",
     ylab = "PM2.5",
     pch = 16,
     col = "blue")

Dari scatter plot antara PM10 dan PM2.5 menunjukkan adanya kecenderungan hubungan positif, di mana peningkatan konsentrasi PM10 umumnya diikuti oleh peningkatan konsentrasi PM2.5. Meskipun sebaran titik data terlihat cukup menyebar dan tidak membentuk pola linier yang sangat kuat, arah hubungan yang cenderung naik mengindikasikan bahwa PM10 berperan dalam memengaruhi variasi PM2.5. Hal ini wajar karena PM2.5 merupakan bagian dari fraksi partikulat yang lebih halus dari PM10, sehingga sumber emisi keduanya seringkali berasal dari aktivitas yang sama, seperti lalu lintas kendaraan dan proses pembakaran. Namun, penyebaran data yang cukup lebar juga menunjukkan bahwa PM2.5 tidak hanya dipengaruhi oleh PM10, melainkan juga oleh faktor lain seperti kondisi meteorologi dan sumber polusi tambahan. ## c. Scatterplot matrix (hubungan antar variabel)

pairs(Permodelan_Konsentrasi_PM2_5, col = "blue")

## 4.METODE ANALISIS Metode analisis yang digunakan dalam penelitian ini adalah regresi linier berganda dengan metode estimasi Ordinary Least Squares (OLS). Model regresi yang digunakan dirumuskan sebagai berikut:

\[ PM2.5_i = \beta_0 + \beta_1 PM10_i + \beta_2 NO2_i + \beta_3 WindSpeed_i + \beta_4 Humidity_i + \varepsilon_i \]

Selanjutnya, dilakukan uji asumsi klasik yang meliputi uji normalitas residual, multikolinearitas, heteroskedastisitas, dan autokorelasi.

5.HASIL DAN PEMBAHASAN

Regresi Linier Berganda Secara komputasional, model regresi tersebut diestimasi menggunakan fungsi lm() pada perangkat lunak R.

model_pm25 <- lm(
  PM2.5 ~ PM10 + NO2 + WindSpeed + Humidity,
  data = Permodelan_Konsentrasi_PM2_5
)
summary(model_pm25)
## 
## Call:
## lm(formula = PM2.5 ~ PM10 + NO2 + WindSpeed + Humidity, data = Permodelan_Konsentrasi_PM2_5)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -53.608 -11.631   1.621  13.472  44.959 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 51.68493   10.65453   4.851 2.97e-06 ***
## PM10         0.03509    0.05222   0.672    0.503    
## NO2         -0.01015    0.15482  -0.066    0.948    
## WindSpeed    1.59681    1.53241   1.042    0.299    
## Humidity     0.03713    0.10439   0.356    0.723    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 19.08 on 155 degrees of freedom
## Multiple R-squared:  0.0105, Adjusted R-squared:  -0.01504 
## F-statistic: 0.411 on 4 and 155 DF,  p-value: 0.8005

Uji Asumsi Klasik

a. Normalitas Residual

residual_pm25 <- resid(model_pm25)

shapiro.test(residual_pm25)
## 
##  Shapiro-Wilk normality test
## 
## data:  residual_pm25
## W = 0.99359, p-value = 0.706
hist(residual_pm25,
     col = "lightgreen",
     main = "Histogram Residual",
     xlab = "Residual")

qqnorm(residual_pm25)
qqline(residual_pm25, col = "red")

shapiro.test(residual_pm25)
## 
##  Shapiro-Wilk normality test
## 
## data:  residual_pm25
## W = 0.99359, p-value = 0.706

Normal Q–Q plot menunjukkan titik residual mengikuti garis diagonal, sehingga residual berdistribusi normal dan asumsi normalitas terpenuhi, sehingga model regresi linier berganda yang digunakan layak untuk analisis inferensial lebih lanjut.

b. Multikolinearitas

library(car)
vif(model_pm25)
##      PM10       NO2 WindSpeed  Humidity 
##  1.001956  1.003847  1.003439  1.005163

Dari hasil uji multikolinearitas menggunakan nilai Variance Inflation Factor (VIF) menunjukkan bahwa seluruh variabel independen memiliki nilai VIF mendekati 1, yaitu PM10 (1,002), NO₂ (1,004), kecepatan angin (1,003), dan kelembapan udara (1,005). Nilai tersebut jauh di bawah batas kritis 10, sehingga dapat disimpulkan bahwa tidak terdapat multikolinearitas antarvariabel independen dalam model.

c. Heteroskedastisitas

library(lmtest)
bptest(model_pm25)
## 
##  studentized Breusch-Pagan test
## 
## data:  model_pm25
## BP = 4.278, df = 4, p-value = 0.3697

Pengujian heteroskedastisitas menggunakan uji Breusch–Pagan menghasilkan nilai statistik BP sebesar 4,278 dengan p-value sebesar 0,3697, yang lebih besar dari 0,05. Hal ini mengindikasikan bahwa varians residual bersifat konstan, sehingga asumsi homoskedastisitas terpenuhi.

d. Autokorelasi

dwtest(model_pm25)
## 
##  Durbin-Watson test
## 
## data:  model_pm25
## DW = 1.8818, p-value = 0.2236
## alternative hypothesis: true autocorrelation is greater than 0

uji autokorelasi menggunakan Durbin–Watson menghasilkan nilai DW sebesar 1,8818 dengan p-value sebesar 0,2236, yang menunjukkan tidak adanya autokorelasi residual. Dengan demikian, residual antar pengamatan bersifat independen.

6.KESIMPULAN

Hasil regresi menunjukkan bahwa model telah berhasil dibangun dengan menggunakan variabel PM10, NO2, WindSpeed, dan Humidity sebagai prediktor PM2.5. Meskipun tidak ada variabel yang muncul signifikan secara individu dan p-value model masih di atas 0.05, hasil ini memberikan informasi awal bahwa faktor-faktor yang diuji belum memiliki pengaruh langsung yang kuat terhadap perubahan PM2.5 dalam dataset yang digunakan. Nilai R² yang kecil menunjukkan model masih dapat dikembangkan lebih lanjut dan berpotensi ditingkatkan dengan menambah variabel lain.

Secara teknis, model sudah memenuhi seluruh asumsi klasik regresi linear, sehingga dapat dianggap layak sebagai dasar penyusunan model lanjutan. Residual berdistribusi normal, tidak ditemukan multikolinearitas, tidak terjadi heteroskedastisitas, dan tidak ada autokorelasi. Pemenuhan seluruh asumsi ini menjadi nilai tambah karena model sudah stabil secara statistik, sehingga langkah berikutnya dapat lebih difokuskan pada pemilihan dan penambahan variabel yang lebih tepat agar hubungan dengan PM2.5 dapat terjelaskan dengan lebih baik.

7.REFERENSI

Kaggle (2023). Urban Air Pollution Dataset. https://www.kaggle.com/datasets/ziya07/urbanairnet-urban-air-quality-and-weather-dataset Rawadi, R., & Razif, M. (2023). Keterkaitan curah hujan terhadap PM2.5 dan PM10 di Kabupaten Bogor. Envirotek: Jurnal Ilmiah Teknik Lingkungan, 4(2), 89–96. https://envirotek.upnjatim.ac.id/index.php/envirotek/article/view/216 Turyanti, A., Tricia, T., & Rivani, R. (2021). Pengaruh faktor meteorologi terhadap fluktuasi konsentrasi PM2.5 dan PM10 (Studi kasus: Jakarta). Institut Pertanian Bogor Repository, 1–87. https://repository.ipb.ac.id/jspui/handle/123456789/105449