R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.

1. Pendahuluan

Pencemaran udara merupakan permasalahan lingkungan yang semakin meningkat di wilayah perkotaan dan berdampak langsung terhadap kesehatan masyarakat. Salah satu polutan udara yang berbahaya adalah particulate matter berukuran halus atau biasa disebut PM2.5, karena mampu menembus sistem pernapasan hingga ke paru-paru. Tingginya konsentrasi PM2.5 dapat meningkatkan risiko penyakit pernapasan dan kardiovaskular. Konsentrasi PM2.5 dipengaruhi oleh berbagai faktor, baik dari polutan udara lain maupun kondisi meteorologi. Oleh karena itu, diperlukan analisis statistik untuk memahami hubungan antara PM2.5 dengan faktor-faktor tersebut. Penelitian ini bertujuan untuk menganalisis pengaruh PM10, nitrogen dioksida (NO₂), kecepatan angin, dan kelembapan udara terhadap konsentrasi PM2.5 menggunakan pendekatan regresi linier berganda.

2.Deskripsi dan Sumber Data

Data yang dipakai dalam studi ini berasal dari situs Kaggle dan merupakan informasi mengenai kualitas udara di perkotaan, yang dikumpulkan dari berbagai stasiun pemantauan antara tahun 2020 hingga 2023 dengan interval waktu setiap jam. Kumpulan data ini mencerminkan kondisi lingkungan kota yang lebih nyata.

Dalam studi ini, tidak semua variabel yang ada dalam kumpulan data dimanfaatkan. Variabel yang dibahas meliputi PM2.5 sebagai variabel yang tergantung, serta PM10, NO₂, kecepatan angin, dan kelembapan udara sebagai variabel yang tidak tergantung. Pemilihan dan penyesuaian variabel dilakukan agar sesuai dengan tujuan analisis regresi linier berganda. Setelah proses penyaringan dan pembersihan data, sebanyak 160 pengamatan diperoleh untuk digunakan dalam analisis.

a. Membersihkan environment

rm(list = ls())

b. Memanggil library

library(readxl) library(tidyverse) library(car) library(lmtest) library(ggplot2)

c. Import data Excel

library(readxl) Permodelan_Konsentrasi_PM2_5 <- read_excel(“C:/Users/w/Downloads/Permodelan Konsentrasi PM2.5.xlsx”) View(Permodelan_Konsentrasi_PM2_5) # d. Cek Struktur Data str(Permodelan_Konsentrasi_PM2_5) # e.Cek Ringkasan Data summary(Permodelan_Konsentrasi_PM2_5)

3.Exploratory Data Analysis (EDA)

Analisis eksploratori dilakukan untuk memahami karakteristik data dan pola hubungan antarvariabel. Hasil statistik deskriptif menunjukkan bahwa konsentrasi PM2.5 memiliki variasi yang cukup besar, yang mengindikasikan fluktuasi kualitas udara. Visualisasi histogram menunjukkan bahwa distribusi PM2.5 tidak sepenuhnya simetris. Scatterplot antarvariabel memperlihatkan adanya kecenderungan hubungan positif antara PM10 dan PM2.5, sedangkan hubungan antara PM2.5 dengan NO₂, kecepatan angin, dan kelembapan udara tampak lebih lemah.

a. Cek Ringkasan Data

summary(Permodelan_Konsentrasi_PM2_5)

b. Histogram PM2.5

library(ggplot2)

ggplot(Permodelan_Konsentrasi_PM2_5, aes(x = PM2.5)) + geom_histogram(bins = 30, fill = “skyblue”, color = “black”) + labs( title = “Distribusi Konsentrasi PM2.5”, x = “PM2.5”, y = “Frekuensi” )

c. Scatterplot matrix (hubungan antar variabel)

pairs(Permodelan_Konsentrasi_PM2_5, col = “blue”)

4.METODE ANALISIS

Metode analisis yang digunakan dalam penelitian ini adalah regresi linier berganda dengan metode estimasi Ordinary Least Squares (OLS). Model regresi yang digunakan dirumuskan sebagai berikut:

\[ PM2.5_i = \beta_0 + \beta_1 PM10_i + \beta_2 NO2_i + \beta_3 WindSpeed_i + \beta_4 Humidity_i + \varepsilon_i \]

Selanjutnya, dilakukan uji asumsi klasik yang meliputi uji normalitas residual, multikolinearitas, heteroskedastisitas, dan autokorelasi.

5.HASIL DAN PEMBAHASAN

Regresi Linier Berganda Secara komputasional, model regresi tersebut diestimasi menggunakan fungsi lm() pada perangkat lunak R.

model_pm25 <- lm( PM2.5 ~ PM10 + NO2 + WindSpeed + Humidity, data = Permodelan_Konsentrasi_PM2_5 )

ls()

summary(model_pm25)

Uji Asumsi Klasik

a. Normalitas Residual

residual_pm25 <- resid(model_pm25)

shapiro.test(residual_pm25)

hist(residual_pm25, col = “lightgreen”, main = “Histogram Residual”, xlab = “Residual”)

qqnorm(residual_pm25) qqline(residual_pm25, col = “red”)

shapiro.test(residual_pm25)

b. Multikolinearitas

library(car) vif(model_pm25)

c. Heteroskedastisitas

library(lmtest) bptest(model_pm25)

d. Autokorelasi

dwtest(model_pm25)

6.KESIMPULAN

Dari hasil analisis regresi linier berganda, ditemukan bahwa hanya variabel PM10 yang memengaruhi konsentrasi PM2.5 secara signifikan, pada tingkat signifikansi 5% (p-value = 0,042) dengan koefisien positif. Hal ini menunjukkan bahwa semakin tinggi PM10, maka PM2.5 cenderung meningkat pula. Sementara itu, variabel NO₂, kecepatan angin, dan kelembapan udara tidak memberikan pengaruh yang signifikan terhadap PM2.5. Dalam pengujian secara bersamaan menggunakan uji F, terlihat bahwa model regresi secara keseluruhan tidak signifikan (p-value = 0,3486) dengan Adjusted R-squared hanya sebesar 0,003. Angka ini menunjukkan bahwa variabel-variabel yang digunakan hanya mampu menjelaskan sebagian kecil variasi PM2.5, sedangkan mayoritas variasi tersebut dipengaruhi oleh faktor-faktor lain diluar model.

Dalam hal uji asumsi klasik, model regresi memenuhi semua syarat yang diperlukan. Uji Shapiro–Wilk menunjukkan bahwa sisaan (residual) berdistribusi normal, nilai VIF semua variabel mendekati 1 yang berarti tidak ada multikolinearitas, uji Breusch–Pagan menunjukkan tidak adanya heteroskedastisitas, dan uji Durbin–Watson menunjukkan tidak adanya autokorelasi. Meskipun demikian, kemampuan model dalam menjelaskan variasi PM2.5 masih rendah, sehingga dianjurkan untuk menambahkan variabel lain yang lebih relevan seperti suhu udara, aktivitas lalu lintas, curah hujan, dan faktor musiman untuk mendapatkan model yang lebih lengkap dan akurat.

7.REFERENSI

Gujarati, D. N., & Porter, D. C. (2009). Basic Econometrics.
Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.
World Health Organization (2021). Pedoman Kualitas Udara Global WHO.
Kaggle (2023). Urban Air Pollution Dataset.