Deskripsi Data

Data yang digunakan merupakan data kualitas udara yang terdiri dari satu variabel respon (Y) dan beberapa variabel independen (X).

Variabel yang digunakan dalam penelitian ini adalah:

  • PM2.5 (Y) : Konsentrasi partikel polusi udara berukuran kurang dari 2.5 mikrometer yang menjadi indikator kualitas udara
  • LaluLintas (X1) : Tingkat kepadatan lalu lintas kendaraan yang menghasilkan emisi polutan
  • AktivitasIndustri (X2) : Tingkat aktivitas industri yang menghasilkan emisi polutan
  • KecepatanAngin (X3) : Kecepatan angin yang membantu penyebaran polutan di udara
data <- read.csv("/Users/naylapoetrikurnia/Downloads/data_kualitas_udara.csv")
head(data)
##   PM25 LaluLintas AktivitasIndustri KecepatanAngin
## 1   55         80                70            3.2
## 2   58         82                72            3.1
## 3   60         85                73            3.0
## 4   62         87                75            2.9
## 5   65         90                76            2.8
## 6   67         92                78            2.7

Selanjutnya dilakukan analisis statistik deskriptif untuk melihat karakteristik data.

summary(data)
##       PM25          LaluLintas    AktivitasIndustri KecepatanAngin
##  Min.   : 55.00   Min.   : 80.0   Min.   : 70.00    Min.   :0.60  
##  1st Qu.: 75.00   1st Qu.:101.0   1st Qu.: 84.00    1st Qu.:1.35  
##  Median : 95.00   Median :123.0   Median : 99.00    Median :1.90  
##  Mean   : 95.57   Mean   :122.6   Mean   : 99.57    Mean   :1.92  
##  3rd Qu.:116.50   3rd Qu.:144.0   3rd Qu.:115.00    3rd Qu.:2.50  
##  Max.   :138.00   Max.   :165.0   Max.   :130.00    Max.   :3.20

Nilai rata-rata masing-masing variabel adalah:

  • Rata-rata PM2.5 = 95.57
  • Rata-rata LaluLintas = 122.57
  • Rata-rata AktivitasIndustri = 99.57
  • Rata-rata KecepatanAngin = 1.92

Nilai rata-rata tersebut menunjukkan bahwa tingkat aktivitas transportasi dan industri cukup tinggi sehingga berpotensi meningkatkan konsentrasi polusi udara.

Model Regresi Linear Berganda

Regresi linear berganda digunakan untuk mengetahui pengaruh beberapa variabel independen terhadap satu variabel dependen.

Bentuk umum model regresi linear berganda adalah:

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon \]

Model regresi yang digunakan dalam penelitian ini adalah:

\[ PM25 = \beta_0 + \beta_1 LaluLintas + \beta_2 AktivitasIndustri + \beta_3 KecepatanAngin + \epsilon \]

Estimasi Parameter

Estimasi parameter dilakukan menggunakan metode Ordinary Least Squares (OLS).

model <- lm(PM25 ~ LaluLintas + AktivitasIndustri + KecepatanAngin, data=data)
summary(model)
## 
## Call:
## lm(formula = PM25 ~ LaluLintas + AktivitasIndustri + KecepatanAngin, 
##     data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.92859 -0.42115  0.04553  0.35286  0.95941 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       -5.13252   10.09930  -0.508  0.61491    
## LaluLintas         0.03688    0.11816   0.312  0.75706    
## AktivitasIndustri  1.07522    0.16003   6.719 1.62e-07 ***
## KecepatanAngin    -5.66512    1.78870  -3.167  0.00345 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5304 on 31 degrees of freedom
## Multiple R-squared:  0.9996, Adjusted R-squared:  0.9995 
## F-statistic: 2.487e+04 on 3 and 31 DF,  p-value: < 2.2e-16

Model regresi yang diperoleh adalah

\[ PM25 = -5.133 + 0.037 LaluLintas + 1.075 AktivitasIndustri + -5.665 KecepatanAngin \]

Interpretasi Koefisien

Interpretasi masing-masing koefisien adalah sebagai berikut:

  1. LaluLintas (0.037)
    Setiap peningkatan satu unit lalu lintas akan meningkatkan konsentrasi PM2.5 sebesar 0.037 unit dengan asumsi variabel lain konstan.

  2. AktivitasIndustri (1.075)
    Setiap peningkatan satu unit aktivitas industri akan meningkatkan konsentrasi PM2.5 sebesar 1.075 unit.

  3. KecepatanAngin (-5.665)
    Peningkatan kecepatan angin akan menurunkan konsentrasi PM2.5, karena angin membantu menyebarkan polutan di udara.

Selain itu,

  • Nilai R² = 0.9996 menunjukkan bahwa sebagian besar variasi konsentrasi PM2.5 dapat dijelaskan oleh variabel LaluLintas, AktivitasIndustri, dan KecepatanAngin.

Pengujian Asumsi

Uji Normalitas Residual

Uji normalitas residual dilakukan menggunakan Kolmogorov-Smirnov Test untuk mengetahui apakah residual berdistribusi normal.

error <- residuals(model)
ks.test(error,"pnorm",mean(error),sd(error))
## 
##  Exact one-sample Kolmogorov-Smirnov test
## 
## data:  error
## D = 0.076764, p-value = 0.976
## alternative hypothesis: two-sided

Interpretasi:

  • Jika p-value > 0.05, maka residual berdistribusi normal.
  • Nilai p-value = 0.976 (> 0.05) menunjukkan bahwa residual berdistribusi normal sehingga asumsi normalitas terpenuhi.

Uji Autokorelasi

Uji autokorelasi dilakukan menggunakan Durbin-Watson Test untuk mengetahui apakah terdapat korelasi antar residual.

dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 1.5259, p-value = 0.02928
## alternative hypothesis: true autocorrelation is greater than 0

Interpretasi:

  • Jika p-value < 0.05, maka terdapat autokorelasi.
  • Nilai Durbin-Watson = 1.5259 dengan p-value = 0.029 (<0.05) menunjukkan bahwa terdapat autokorelasi pada residual model.

Uji Multikolinearitas

Uji multikolinearitas dilakukan menggunakan Variance Inflation Factor (VIF) untuk mengetahui apakah terdapat hubungan yang kuat antar variabel independen.

vif(model)
##        LaluLintas AktivitasIndustri    KecepatanAngin 
##         1123.2159         1045.7292          206.4598

Interpretasi:

  • Jika VIF > 10, maka terdapat multikolinearitas.
  • Nilai VIF pada seluruh variabel lebih besar dari 10 sehingga menunjukkan adanya multikolinearitas antar variabel independen.

Uji Heteroskedastisitas

Uji heteroskedastisitas dilakukan menggunakan Breusch-Pagan Test untuk mengetahui apakah varians residual konstan atau tidak.

bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 2.0917, df = 3, p-value = 0.5536

Interpretasi:

  • Jika p-value > 0.05, maka tidak terdapat heteroskedastisitas.
  • Nilai p-value = 0.5536 (>0.05) menunjukkan bahwa tidak terdapat heteroskedastisitas sehingga varians residual dapat dianggap konstan.

Visualisasi Data

Scatter plot berikut menunjukkan hubungan antara variabel lalu lintas dan konsentrasi PM2.5.

Hubungan Lalu Lintas dan PM2.5

Hubungan Lalu Lintas dan PM2.5

Interpretasi:

  • Grafik menunjukkan adanya hubungan positif antara lalu lintas dan konsentrasi PM2.5.
  • Semakin tinggi volume lalu lintas maka konsentrasi PM2.5 cenderung meningkat.

Plot Diagnostik Model

par(mfrow=c(2,2))
plot(model)

Plot diagnostik digunakan untuk mengevaluasi:

  • normalitas residual
  • homoskedastisitas
  • keberadaan outlier
  • pengaruh observasi tertentu terhadap model

Kesimpulan

Berdasarkan hasil analisis regresi linear berganda dapat disimpulkan bahwa:

  • Variabel AktivitasIndustri memiliki pengaruh positif terhadap peningkatan polusi udara.
  • Variabel KecepatanAngin memiliki pengaruh negatif yang menunjukkan bahwa angin membantu menurunkan konsentrasi polutan.
  • Variabel LaluLintas tidak menunjukkan pengaruh signifikan terhadap PM2.5.

Model regresi memiliki nilai koefisien determinasi yang sangat tinggi, sehingga mampu menjelaskan hampir seluruh variasi konsentrasi PM2.5 dalam data.