1 Pendahuluan

1.1 Latar Belakang

Kualitas udara di wilayah metropolitan merupakan isu kesehatan masyarakat yang kompleks karena dipengaruhi oleh berbagai variabel yang saling berinteraksi. Data kualitas udara bersifat multivariat, mencakup konsentrasi polutan (\(\text{PM}_{2.5}\), \(\text{NO}_2\), \(\text{O}_3\), dll.) dan faktor meteorologi (temperature, humidity).

Studi kasus ini berfokus pada dinamika polusi udara di Lima Kota Besar Amerika Serikat (AS). Data yang digunakan adalah data sekunder pengukuran kualitas udara hourly (per jam) selama 15 hari. Data kualitas udara dalam penelitian ini berasal dari data kaggle Global Air Quality Data(15 Days Hourly, 50 Cities).

1.2 Data

Variabel Keterangan Satuan
\(\text{pm25}\), \(\text{pm10}\) Partikel \(\mu \text{g/m}^3\)
\(\text{no2}\), \(\text{so2}\), \(\text{o3}\), \(\text{co}\) Polutan Gas ppb / ppm
temperature Suhu Lingkungan \(^\circ \text{C}\)
humidity Kelembaban Relatif \(\%\)
wind_speed Kecepatan Angin \(\text{m/s}\)
City PM 2.5 PM 10 NO2 SO2 O3 CO AQI Temperature Humidity Wind Speed
New York 50.295 108.938 27.998 6.539 52.568 1.096 108 18.504 70.168 3.725
New York 32.083 63.043 36.12 4.021 43.536 1.075 90 5.838 80.088 8.969
Houston 56.126 57.432 30.305 6.86 51.699 0.516 112 22.639 60.386 8.294

1.3 Tujuan

Data multivariat yang kompleks sering kali menimbulkan masalah multikolinieritas (korelasi tinggi antar variabel bebas), yang menghambat interpretasi. Untuk mengatasi masalah ini, digunakan teknik analisis interdependensi:

  1. Analisis Komponen Utama (PCA): Tujuannya adalah mereduksi sejumlah besar variabel yang berkorelasi menjadi sekumpulan kecil komponen baru yang independen (Principal Components). PCA berfungsi sebagai metode reduksi dimensi.
  2. Analisis Faktor (FA): Tujuannya adalah mengidentifikasi struktur laten atau faktor teoritis yang mendasari variabel-variabel yang diamati. FA membutuhkan asumsi dan uji prasyarat yang lebih ketat daripada PCA.

2. Source Code

2.1 Library

# Library untuk membaca data dari excell} 
library(readxl) 
#Library untuk uji KMO dan Bartlett's Test 
library(REdaS) 
# Libraryuntuk PCA, analisis faktor, korelasi 
library(psych)

2.2 Syntax

2.2.1 Muat Data

data <- read_excel("D:/Documents/Data Anmul Laprak 2.xlsx") View(data)

2.2.2 Standarisasi Variabel

data = scale(data[2:10]) data

syntax yang digunakan untuk standarisasi agar setiap variabel memiliki skala yang sama.

2.2.3 PCA

pr.out <- prcomp(x=data, center=TRUE) summary(pr.out)

syntax untuk menganalisis PCA

2.2.4 NILAI EIGEN

R<- cor(data) 
R 
eigen<- eigen(R) 
eigen\$values

Menghitung korelasi antar variabel dan menghitung nilai eigen

2.2.5 MENGHITUNG KOEFISIEN KOMPONEN UTAMA

pr.out1 <- prcomp(x=data, center=TRUE, scale=TRUE) pr.out1

2.2.6 UJI KMO

kmos <-KMOS(data) kmos

Syntax uji KMO, untuk mengetahui apakah data cocok untuk analisis faktor

2.2.7 UJI BARTLETT

bart_spher(x = data)

syntax uji Bartlett, untuk memeriksa apakah antar variabel saling berkorelasi dan layak dilakukan analisis faktor

3. Hasil dan Pembahasan

3.1 PCA (Proportion of Variance)

summary(pca_out)$importance

Hasil PCA menunjukkan 7 komponen pertama menjelaskan 79,15% total variasi.

3.2 Cumulative Proportion

PC1 sampai PC7 = 79,15% → cukup untuk mewakili sebagian besar keragaman data.

3.3 Hipotesis & Pengujian Hipotesis (Analisis Faktor)

Bartlett’s Test

H0: Tidak terdapat korelasi signifikan antar variabel

H1: Terdapat korelasi signifikan antar variabel

Hasil:

p-value = 0.98073 → Terima H0

Kesimpulan: Data tidak saling berkorelasi, sehingga Analisis Faktor tidak layak dilakukan.

KMO

Nilai KMO = 0.508 → sedikit di atas batas minimum.

Namun karena Bartlett’s Test tidak signifikan, syarat utama analisis faktor tidak terpenuhi.

4. Penutup

4.1 Kesimpulan

PCA dapat dilakukan dan menghasilkan tujuh komponen utama. Tujuh komponen tersebut menjelaskan sebagian besar variasi (79,15%). Namun Analisis Faktor tidak memenuhi syarat Bartlett’s Test. Reduksi variabel menjadi sangat sedikit (3–4 PC) tidak disarankan karena komponen tidak stabil.

4.2 Saran

Pertimbangkan untuk mengumpulkan data selama periode waktu yang lebih lama (misalnya, musiman atau tahunan) untuk melihat apakah korelasi antar variabel membaik, sehingga memungkinkan dilakukannya Analisis Faktor.

5. Daftar Pustaka

Global Data Monitor. (2023). Hourly Global Air Quality and Meteorological Data. Diambil dari https://www.kaggle.com/datasets/smeet888/global-air-quality-data15-days-hourly-50-cities/code Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate Data Analysis (8th ed.). Cengage Learning. Karaca, F., Alagha, O., & Mansour, S. (2020). Principal component analysis in air quality studies: A review. Environmental Monitoring and Assessment, 192(1), 1-15. Tadesse, Y., & Singh, V. K. (2021). Identification of pollution sources and temporal trends in urban air quality using PCA-based approach. Journal of Environmental Management, 290, 112599.