Kualitas udara di wilayah metropolitan merupakan isu kesehatan masyarakat yang kompleks karena dipengaruhi oleh berbagai variabel yang saling berinteraksi. Data kualitas udara bersifat multivariat, mencakup konsentrasi polutan (\(\text{PM}_{2.5}\), \(\text{NO}_2\), \(\text{O}_3\), dll.) dan faktor meteorologi (temperature, humidity).
Studi kasus ini berfokus pada dinamika polusi udara di Lima Kota Besar Amerika Serikat (AS). Data yang digunakan adalah data sekunder pengukuran kualitas udara hourly (per jam) selama 15 hari. Data kualitas udara dalam penelitian ini berasal dari data kaggle Global Air Quality Data(15 Days Hourly, 50 Cities).
| Variabel | Keterangan | Satuan |
|---|---|---|
| \(\text{pm25}\), \(\text{pm10}\) | Partikel | \(\mu \text{g/m}^3\) |
| \(\text{no2}\), \(\text{so2}\), \(\text{o3}\), \(\text{co}\) | Polutan Gas | ppb / ppm |
| temperature | Suhu Lingkungan | \(^\circ \text{C}\) |
| humidity | Kelembaban Relatif | \(\%\) |
| wind_speed | Kecepatan Angin | \(\text{m/s}\) |
| City | PM 2.5 | PM 10 | NO2 | SO2 | O3 | CO | AQI | Temperature | Humidity | Wind Speed |
|---|---|---|---|---|---|---|---|---|---|---|
| New York | 50.295 | 108.938 | 27.998 | 6.539 | 52.568 | 1.096 | 108 | 18.504 | 70.168 | 3.725 |
| New York | 32.083 | 63.043 | 36.12 | 4.021 | 43.536 | 1.075 | 90 | 5.838 | 80.088 | 8.969 |
| … | … | … | … | … | … | … | … | … | … | … |
| Houston | 56.126 | 57.432 | 30.305 | 6.86 | 51.699 | 0.516 | 112 | 22.639 | 60.386 | 8.294 |
Data multivariat yang kompleks sering kali menimbulkan masalah multikolinieritas (korelasi tinggi antar variabel bebas), yang menghambat interpretasi. Untuk mengatasi masalah ini, digunakan teknik analisis interdependensi:
# Library untuk membaca data dari excell}
library(readxl)
#Library untuk uji KMO dan Bartlett's Test
library(REdaS)
# Libraryuntuk PCA, analisis faktor, korelasi
library(psych)
data <- read_excel("D:/Documents/Data Anmul Laprak 2.xlsx") View(data)
data = scale(data[2:10]) data
syntax yang digunakan untuk standarisasi agar setiap variabel memiliki skala yang sama.
pr.out <- prcomp(x=data, center=TRUE) summary(pr.out)
syntax untuk menganalisis PCA
R<- cor(data)
R
eigen<- eigen(R)
eigen\$values
Menghitung korelasi antar variabel dan menghitung nilai eigen
pr.out1 <- prcomp(x=data, center=TRUE, scale=TRUE) pr.out1
kmos <-KMOS(data) kmos
Syntax uji KMO, untuk mengetahui apakah data cocok untuk analisis faktor
bart_spher(x = data)
syntax uji Bartlett, untuk memeriksa apakah antar variabel saling berkorelasi dan layak dilakukan analisis faktor
summary(pca_out)$importance
Hasil PCA menunjukkan 7 komponen pertama menjelaskan 79,15% total variasi.
PC1 sampai PC7 = 79,15% → cukup untuk mewakili sebagian besar keragaman data.
Bartlett’s Test
H0: Tidak terdapat korelasi signifikan antar variabel
H1: Terdapat korelasi signifikan antar variabel
Hasil:
p-value = 0.98073 → Terima H0
Kesimpulan: Data tidak saling berkorelasi, sehingga Analisis Faktor tidak layak dilakukan.
KMO
Nilai KMO = 0.508 → sedikit di atas batas minimum.
Namun karena Bartlett’s Test tidak signifikan, syarat utama analisis faktor tidak terpenuhi.
PCA dapat dilakukan dan menghasilkan tujuh komponen utama. Tujuh komponen tersebut menjelaskan sebagian besar variasi (79,15%). Namun Analisis Faktor tidak memenuhi syarat Bartlett’s Test. Reduksi variabel menjadi sangat sedikit (3–4 PC) tidak disarankan karena komponen tidak stabil.
Pertimbangkan untuk mengumpulkan data selama periode waktu yang lebih lama (misalnya, musiman atau tahunan) untuk melihat apakah korelasi antar variabel membaik, sehingga memungkinkan dilakukannya Analisis Faktor.
Global Data Monitor. (2023). Hourly Global Air Quality and Meteorological Data. Diambil dari https://www.kaggle.com/datasets/smeet888/global-air-quality-data15-days-hourly-50-cities/code Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate Data Analysis (8th ed.). Cengage Learning. Karaca, F., Alagha, O., & Mansour, S. (2020). Principal component analysis in air quality studies: A review. Environmental Monitoring and Assessment, 192(1), 1-15. Tadesse, Y., & Singh, V. K. (2021). Identification of pollution sources and temporal trends in urban air quality using PCA-based approach. Journal of Environmental Management, 290, 112599.