BAB I PENDAHULUAN
Dataset airquality adalah kumpulan data pemantauan kualitas udara harian di Kota New York yang dikumpulkan antara Mei hingga September tahun 1973. Data ini dikembangkan sebagai bagian dari upaya penelitian terhadap kondisi lingkungan udara, khususnya untuk memahami tingkat polusi ozon pada lapisan troposfer yang saat itu mulai mendapat perhatian dalam bidang kesehatan masyarakat dan ilmu atmosfer.
Isu kualitas udara menjadi penting karena peningkatan kadar ozon dapat berdampak langsung pada kesehatan, seperti menimbulkan iritasi saluran pernapasan, memperburuk kondisi paru-paru, serta memberikan efek jangka panjang bagi kelompok rentan. Oleh karena itu, variabel lingkungan seperti radiasi matahari (Solar.R), kecepatan angin (Wind), serta suhu udara (Temp) dianalisis untuk mengetahui bagaimana faktor-faktor meteorologis tersebut memengaruhi pembentukan ozon.
Dataset ini mencakup data mengenai:
- Ozone Rata-rata ozon dalam bagian per miliar dari pukul 13.00 hingga 15.00 di Pulau Roosevelt
- Solar.R Radiasi matahari di Langleys pada pita frekuensi 4000–7700 Angstrom dari pukul 08.00 hingga 12.00 di Central Park
- Wind Rata-rata kecepatan angin dalam mil per jam pada pukul 07.00 dan 10.00 di Bandara LaGuardia
- Temp Suhu harian maksimum dalam derajat Fahrenheit di Bandara LaGuardia.
Pengamatan dilakukan pada beberapa lokasi seperti Roosevelt Island, Central Park, dan Bandara LaGuardia dengan waktu pencatatan tertentu selama siang hari.
Melalui analisis dataset ini, pengguna dapat melakukan eksplorasi statistik, mengidentifikasi pola, menilai hubungan antar variabel, hingga membangun model prediksi berbasis data. Dengan demikian, dataset airquality memiliki nilai edukatif tidak hanya untuk pembelajaran statistik dan pemrograman di R, tetapi juga untuk memahami bagaimana kondisi cuaca berperan terhadap dinamika kualitas udara di kehidupan nyata.
BAB II ANALISIS DATA
2.1 Memasukan Data
Pada tahap awal analisis, dilakukan proses pemanggilan beberapa library yang diperlukan untuk mendukung kegiatan pengolahan data, visualisasi, serta pengujian statistik. Library tersebut meliputi:
tidyverse: digunakan untuk manipulasi data dan visualisasi dasar
sjPlot: digunakan untuk membuat tabel dan visualisasi hasil analisis statistik
fBasics: menyediakan fungsi deskriptif untuk analisis statistik dasar
lmtest: digunakan untuk melakukan uji asumsi dalam model regresi linear
car: digunakan untuk pengujian lanjutan seperti multikolinearitas, uji normalitas residual, dan analisis regresi
ggplot2: digunakan untuk visualisasi data menggunakan pendekatan grammar of graphics
Pacman: Memuat dan menginstal paket secara otomatis
flextable: Membuat tabel statis untuk laporan
gt: Digunakan untuk agar terlihat lebih rapih
reactable: Membuat tabel interaktif
Setelah seluruh library dimuat, dataset airquality dipanggil menggunakan fungsi:
Kemudian dilakukan pengecekan awal struktur data melalui perintah:
Perintah ini digunakan untuk menampilkan beberapa baris pertama dari dataset guna memastikan data terimpor dengan benar.
Selanjutnya, dataset disimpan ke dalam objek bernama data menggunakan kode:
Terakhir perintah berikut digunakan untuk menampilkan data airquality :
Berikut hasil data airquality:
Selanjutnya akan ditampilkan 6 data pertama dari data airquality
| Ozone | Solar.R | Wind | Temp | Month | Day |
|---|---|---|---|---|---|
| 41 | 190 | 7.4 | 67 | 5 | 1 |
| 36 | 118 | 8.0 | 72 | 5 | 2 |
| 12 | 149 | 12.6 | 74 | 5 | 3 |
| 18 | 313 | 11.5 | 62 | 5 | 4 |
| NA | NA | 14.3 | 56 | 5 | 5 |
| 28 | NA | 14.9 | 66 | 5 | 6 |
2.2 Analisis Deskriptif
Dari data airquality diatas kita bisa melakukan Analisis Deskriptif, Analisis deskriptif dilakukan sebagai langkah awal dalam proses pengolahan dan pemahaman dataset. Tujuan utamanya adalah untuk memberikan gambaran umum mengenai karakteristik data sebelum dilakukan analisis lanjutan.
Berikut Outputnya:
## Ozone Solar.R Wind Temp
## Min. : 1.00 Min. : 7.0 Min. : 1.700 Min. :56.00
## 1st Qu.: 18.00 1st Qu.:115.8 1st Qu.: 7.400 1st Qu.:72.00
## Median : 31.50 Median :205.0 Median : 9.700 Median :79.00
## Mean : 42.13 Mean :185.9 Mean : 9.958 Mean :77.88
## 3rd Qu.: 63.25 3rd Qu.:258.8 3rd Qu.:11.500 3rd Qu.:85.00
## Max. :168.00 Max. :334.0 Max. :20.700 Max. :97.00
## NA's :37 NA's :7
## Month Day
## Min. :5.000 Min. : 1.0
## 1st Qu.:6.000 1st Qu.: 8.0
## Median :7.000 Median :16.0
## Mean :6.993 Mean :15.8
## 3rd Qu.:8.000 3rd Qu.:23.0
## Max. :9.000 Max. :31.0
##
Output menunjukkan ringkasan untuk variabel berikut:
Ozone (konsentrasi ozon)
Solar.R (radiasi matahari)
Wind (kecepatan angin)
Temp (suhu udara)
Month (bulan observasi)
Day (tanggal observasi)
2.3 Analisis Regresi Linier Berganda
Membuat Model Linier :
data1 <- airquality
data2 <- na.omit(data1)
model <- lm(Ozone ~ Solar.R + Wind + Temp, data = data2)
summary(model)##
## Call:
## lm(formula = Ozone ~ Solar.R + Wind + Temp, data = data2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -40.485 -14.219 -3.551 10.097 95.619
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -64.34208 23.05472 -2.791 0.00623 **
## Solar.R 0.05982 0.02319 2.580 0.01124 *
## Wind -3.33359 0.65441 -5.094 1.52e-06 ***
## Temp 1.65209 0.25353 6.516 2.42e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 21.18 on 107 degrees of freedom
## Multiple R-squared: 0.6059, Adjusted R-squared: 0.5948
## F-statistic: 54.83 on 3 and 107 DF, p-value: < 2.2e-16
Berikut interpretasi hasil output regresi linier tersebut:
Solar.R (p = 0.01124)
Variabel Solar.R berpengaruh signifikan terhadap kadar Ozone. Koefisien bernilai positif (0.05982), yang menunjukkan bahwa setiap peningkatan satu unit Solar.R diperkirakan meningkatkan kadar Ozone sebesar 0.05982 unit, dengan asumsi variabel lainnya tetap.Wind (p = 1.52e-06)
Variabel Wind berpengaruh signifikan dan kuat terhadap Ozone. Koefisien negatif (-3.33359), yang berarti bahwa peningkatan satu unit kecepatan angin diperkirakan menurunkan kadar Ozone sebesar 3.33359 unit, dengan variabel lainnya konstan.Temp (p = 2.42e-09)
Variabel Temp juga berpengaruh signifikan terhadap Ozone. Koefisien positif (1.65209) menunjukkan bahwa setiap kenaikan satu unit suhu diperkirakan meningkatkan kadar Ozone sebesar 1.65209 unit, jika variabel lain berada dalam kondisi tetap.Model Significance
Nilai p-value model (< 2.2e-16) menunjukkan bahwa model regresi secara keseluruhan signifikan. Nilai R-squared sebesar 0.6059 menunjukkan bahwa sekitar 60.59% variasi dalam kadar Ozone dapat dijelaskan oleh ketiga variabel prediktor.Residual Standard Error (21.18)
Nilai ini menunjukkan tingkat penyimpangan prediksi model dari data aktual, dengan skala satuan yang sama seperti variabel Ozone.
BAB III HASIL DAN ANALISIS DATA
3.1 Hasil Dari Analisis Data Deskriptif
3.1.1 Ukuran Pemusatan
Dari hasil output summary diatas kita dapat menginterpretasi masing- masing variabel yaitu :
Ozone
Kadar ozon bervariasi cukup besar (1 hingga 168). Nilai mean lebih tinggi dari median, menunjukkan adanya kemungkinan pencilan (outlier) atau distribusi yang condong ke kanan (right-skewed).
Solar.R
Radiasi matahari menunjukkan variasi yang cukup besar. Median lebih tinggi dari mean, sehingga kemungkinan terdapat nilai rendah ekstrem (skewed ke kiri).
Wind
Distribusi kecepatan angin tampak relatif simetris karena nilai mean dan median hampir sama.
Temp
Suhu udara cenderung tinggi dengan nilai median sedikit lebih besar dari mean, sehingga distribusi data relatif seimbang.
3.1.2 Ukuran Penyebaran
Variance
Hasil Variance pada data airquality:
## Ozone Solar.R Wind Temp Month Day ## Ozone 1107.290090 1056.583456 -72.511237 221.520721 7.0056511 -1.5036855 ## Solar.R 1056.583456 8308.742179 -41.244799 255.467649 -9.9476658 -45.8380835 ## Wind -72.511237 -41.244799 12.657324 -16.857166 -1.0195577 1.5448894 ## Temp 221.520721 255.467649 -16.857166 90.820311 5.6724816 -8.0113022 ## Month 7.005651 -9.947666 -1.019558 5.672482 2.1710074 -0.1154791 ## Day -1.503686 -45.838084 1.544889 -8.011302 -0.1154791 75.8152334Berdasarkan hasil yang diperoleh variance pada variabel dataset airquality, dapat disimpulkan beberapa hal:
Variabel Ozone memiliki variance sebesar 1107.29, yang menunjukkan bahwa nilai Ozone dalam dataset memiliki tingkat variasi yang cukup tinggi. Artinya, kadar ozon yang terukur pada berbagai hari menunjukkan perbedaan besar antara nilai rendah dan tingginya.
Solar.R memiliki variance sebesar 1056.58, yang hampir setara dengan Ozone. Ini menunjukkan bahwa intensitas radiasi matahari juga mengalami fluktuasi yang cukup signifikan selama periode pengamatan.
Wind menunjukkan variance lebih rendah yaitu -72.51 Jika nilai variance dihitung tunggal, biasanya bernilai positif. Nilai negatif di tabel menunjukkan ini bukan variance tunggal, tetapi hasil dari covariance matrix. Dengan demikian, angka ini menunjukkan hubungan penyebaran antar variabel.
Temperature memiliki variance sebesar 221.52, lebih rendah dibanding Ozone dan Solar.R. Hal ini menunjukkan bahwa suhu harian relatif lebih stabil dan tidak sefluktuatif Ozone dan Solar.R.
Standar Deviasi
Hasil Variance pada data airquality:
## Ozone Solar.R Wind Temp ## 33.275969 91.152302 3.557713 9.529969Berdasarkan hasil yang diperoleh. Variabel Solar.R menunjukkan standar deviasi tertinggi, yaitu 91,15, yang berarti nilai radiasi matahari memiliki variasi paling besar antar observasi. Nilai standar deviasi Ozone sebesar 33,28 juga menunjukkan adanya perubahan kadar ozon yang cukup besar dari hari ke hari. Untuk variabel Temp, standar deviasinya berada pada angka 9,53, menandakan perubahan suhu relatif moderat. Sementara itu, variabel Wind mempunyai standar deviasi paling rendah yaitu 3,56, sehingga dapat disimpulkan bahwa kecepatan angin lebih stabil dibandingkan variabel lainnya. Dengan demikian, Solar.R adalah variabel yang paling berubah-ubah, sedangkan Wind adalah variabel yang paling konsisten dalam dataset ini.
Range
Hasil Range pada data airquality:
## Ozone Solar.R Wind Temp ## 167.0 327.0 18.4 40.0Berdasarkan hasil yang diperoleh, variabel Solar.R memiliki nilai range paling besar yaitu 327.0. Hal ini menunjukkan bahwa data radiasi matahari memiliki tingkat variasi atau perbedaan nilai yang paling lebar dibandingkan variabel lainnya. Variabel Ozone memiliki range sebesar 167.0, menandakan bahwa konsentrasi ozon juga menunjukkan perbedaan nilai yang cukup tinggi dalam dataset. Kemudian, variabel Temp memiliki range 40.0, yang menunjukkan bahwa perubahan suhu tidak terlalu ekstrem seperti Ozone dan Solar.R, namun masih memperlihatkan adanya variasi nilai. Variabel dengan nilai range terendah adalah Wind, yaitu 18.4, yang berarti kecepatan angin memiliki perubahan nilai yang relatif kecil dan cenderung lebih konsisten dibandingkan variabel lain dalam dataset.
Interquantile Range
Semakin besar nilai IQR, semakin besar pula variasi atau penyebaran data pada variabel tersebut.
Hasil Interquantile Range pada data airquality:
## Ozone Solar.R Wind Temp ## 44.0 142.0 4.1 13.5Hasil perhitungan menunjukkan bahwa nilai IQR untuk variabel Ozone, Solar.R, Wind, dan Temp masing-masing adalah 44.0, 142.0, 4.1, dan 13.5. Nilai IQR ini menggambarkan rentang nilai di mana 50 persen tengah distribusi data berada (yakni selisih antara kuartil ketiga dan kuartil pertama pada setiap variabel).
3.1.3 Visualisasi Data
Histogram
Berikut histogram yang dikategorikan berdasarkan Bulan :
Berdasarkan grafik tersebut dapat dilihat bahwa distribusi suhu berbeda untuk setiap bulan. Pada bulan Mei, suhu umumnya berada pada kisaran yang lebih rendah dibandingkan bulan selanjutnya. Memasuki bulan Juni dan Juli, suhu meningkat dan penyebarannya menjadi lebih beragam. Bulan Agustus menunjukkan kondisi suhu yang relatif konsisten meskipun masih terdapat perbedaan nilai. Kemudian pada bulan September, suhu mulai menurun kembali karena berada menjelang akhir periode musim panas.
Histogram Suhu Rata-rata per Bulan :
Side-by-side Boxplots
Berikut side-by-side boxplots yang dikategorikan berdasarkan Bulan :
Diagram tersebut menampilkan boxplot yang disusun berdampingan untuk membandingkan distribusi suhu dari bulan Mei hingga September tahun 1973. Setiap box mewakili satu bulan dan menggambarkan karakteristik data seperti nilai minimum, kuartil pertama, median, kuartil ketiga, nilai maksimum, serta keberadaan data pencilan. Dari tampilan grafik, dapat diamati bahwa bulan Agustus menunjukkan suhu paling tinggi, ditandai oleh posisi median yang berada paling atas dan rentang variasi suhu yang cukup besar. Juni dan Juli memiliki distribusi suhu yang lebih stabil, dengan median pada tingkat sedang dan penyebaran data yang tidak terlalu luas. Mei menjadi bulan dengan suhu terendah, terlihat dari posisi boxplot yang paling rendah dibandingkan bulan lainnya. Sementara itu, September tampak sebagai fase penurunan suhu, dengan distribusi nilai yang berada di antara Mei dan Agustus.
Multi-faceted scatter plot
Berikut Multi-faceted scatter plot untuk Tren Kecepatan Angin dan Suhu Selama Beberapa Bulan :
Plot tersebut menggambarkan hubungan antara kecepatan angin (Wind) dan suhu (Temperature) pada setiap bulan mulai dari Mei hingga September. Setiap bagian (facet) dalam grafik merepresentasikan satu bulan, sehingga perbandingan pola antar bulan dapat dilakukan dengan lebih mudah. Setiap titik pada grafik menunjukkan nilai pengamatan harian, sementara gradasi warna menunjukkan tingkat suhu, di mana warna yang lebih pekat menandakan suhu lebih tinggi. Garis biru putus-putus pada masing-masing panel adalah garis tren (smoothing line) yang berfungsi untuk memperlihatkan pola hubungan umum tanpa dipengaruhi variasi data yang terlalu menyebar. Berdasarkan visualisasi, pola hubungan antara suhu dan kecepatan angin berbeda pada tiap bulan. Pada Mei dan September, terlihat kecenderungan bahwa suhu menurun seiring meningkatnya kecepatan angin, sehingga membentuk pola negatif yang cukup jelas. Pada Juni dan Juli, hubungan tampak lebih dinamis dan tidak membentuk garis jelas, karena suhu tetap tinggi meskipun angin meningkat. Sementara pada Agustus, pola penurunan suhu saat angin meningkat terlihat, tetapi tidak terlalu kuat. Secara keseluruhan, grafik ini menunjukkan bahwa hubungan antara kecepatan angin dan suhu berubah sesuai periode bulan, mencerminkan pengaruh kondisi musim pada pola iklim. Bulan musim panas menunjukkan penyebaran data yang lebih luas,.
Density Plot
Berikut Density plot Kecepatan Angin per Bulan :
Dari Plot tersebut kita dapat menginterpretasikan setiap bulannya sebagai berikut :
Mei dan Juni memiliki puncak pada rentang kecepatan angin yang relatif rendah, yaitu sekitar 5–9 mph.
Juli dan Agustus memperlihatkan peningkatan kecepatan angin. Juli menunjukkan nilai dominan di rentang 9–11 mph, sementara Agustus memiliki distribusi yang lebih luas hingga mencapai 20 mph, yang berarti variasi dan intensitas angin lebih tinggi di puncak musim panas.
September menunjukkan pola serupa Agustus, namun dengan intensitas yang sedikit lebih rendah, mengindikasikan bahwa kecepatan angin mulai menurun memasuki akhir musim panas.
3.2 Interpretasi Akhir Dari Analisis Regresi Linier Berganda
Model regresi linier yang dibentuk dengan menggunakan variabel Solar.R, Wind, dan Temp sebagai variabel bebas terhadap variabel Ozone menunjukkan bahwa terdapat hubungan yang signifikan antara faktor cuaca dan tingkat konsentrasi ozon. Berdasarkan nilai koefisien yang dihasilkan, Solar.R dan Temp berkontribusi meningkatkan nilai ozon, sehingga semakin tinggi paparan radiasi matahari dan suhu udara, maka kadar ozon juga meningkat. Sebaliknya, variabel Wind memiliki koefisien negatif dan signifikan yang berarti semakin tinggi kecepatan angin, kadar ozon cenderung menurun, diduga karena angin membantu penyebaran polutan di atmosfer sehingga konsentrasi ozon berkurang.
Nilai Adjusted R-squared sebesar 0.5948 menunjukkan bahwa kurang lebih 59% variasi nilai Ozone dapat dijelaskan oleh ketiga variabel dalam model. Hal ini memperlihatkan bahwa model memiliki tingkat kemampuan penjelasan yang baik meskipun masih terdapat faktor lain di luar model yang turut memengaruhi pembentukan ozon.
Uji Linieritas
Plot Residual vs Fitted Values tersebut memperlihatkan hubungan antara nilai prediksi model dan selisih kesalahan prediksi. Titik-titik residual tidak tersebar secara acak melainkan membentuk pola melengkung yang juga terlihat pada garis lowess smoothing berwarna hijau. Kondisi ini menunjukkan bahwa asumsi linearitas belum sepenuhnya terpenuhi karena residual tidak menyebar acak di sekitar garis nol. Selain itu terlihat bahwa penyebaran residual semakin besar pada nilai fitted yang lebih tinggi, yang mengarah pada indikasi adanya heteroskedastisitas. Garis merah pada nilai nol berfungsi sebagai garis referensi namun titik residual masih menunjukkan pola tertentu dan tidak tersebar merata di kedua sisi garis tersebut.
Uji Normalitas
Plot Q-Q residual ini berfungsi untuk memeriksa apakah residual model regresi berdistribusi normal
Berikut hasil dari plot :
Pada grafik terlihat bahwa sebagian besar titik berada cukup dekat dengan garis referensi (garis merah putus-putus), terutama di bagian tengah distribusi. Hal tersebut menunjukkan bahwa residual pada area pusat data relatif mengikuti pola distribusi normal. Namun pada bagian ekor kiri dan ekor kanan titik-titik mulai menyimpang dari garis tersebut. Penyimpangan ini menunjukkan adanya heavy tails atau nilai-nilai ekstrem yang kemungkinan merupakan outlier. Kondisi tersebut mengindikasikan bahwa distribusi residual tidak sepenuhnya normal, terutama pada bagian tepi distribusi.
Kolmogorov Smirnov :
## ## Asymptotic one-sample Kolmogorov-Smirnov test ## ## data: galat ## D = 0.11013, p-value = 0.1354 ## alternative hypothesis: two-sidedUji Kolmogorov–Smirnov menghasilkan nilai D sebesar 0.11013 dengan p-value 0.1354. Karena nilai p tersebut lebih tinggi dari batas signifikansi yang umum digunakan (α = 0.05), maka hipotesis nol tidak ditolak. Yang artinya residual pada model dapat dikatakan berdistribusi normal. Dengan demikian asumsi normalitas residual terpenuhi dan model regresi tetap dianggap valid.
Uji Autokorelasi
Durbin Watson Test :
## ## Durbin-Watson test ## ## data: model ## DW = 1.9355, p-value = 0.6694 ## alternative hypothesis: true autocorrelation is not 0Hasil uji Durbin-Watson menunjukkan nilai DW sebesar 1.9355 dengan p-value 0.6694. Karena p-value lebih tinggi dari batas signifikansi (misalnya 0.05), Maka gagal tolak H0. Artinya, tidak ditemukan indikasi adanya autokorelasi yang signifikan pada residual.
Uji Heteroskedastisitas
Heteroskedastisitas mengacu pada kondisi ketika varians residual tidak seragam yang dapat memengaruhi ketepatan perhitungan standar error dan hasil uji statistik dalam model.
Uji Breusch-Pagan
## ## studentized Breusch-Pagan test ## ## data: model ## BP = 5.0554, df = 3, p-value = 0.1678Hasil uji Breusch-Pagan menunjukkan nilai BP sebesar 5.0554 dengan derajat bebas yang bernilai 3 serta nilai p-value 0.1678. Karena p-value lebih besar dari batas signifikansi 0.05, maka Gagal tolak H0. Dengan demikian, tidak ditemukan indikasi adanya heteroskedastisitas pada residual, sehingga varians error dapat dianggap konstan yang artinya asumsi homoskedastisitas pada model regresi dinilai terpenuhi.
White Test
Uji White digunakan untuk mengevaluasi apakah model regresi mengalami masalah heteroskedastisitas.
## Jumlah observasi (n) : 111 ## R-squared (aux reg) : 0.045544 ## Statistik LM (n * R2) : 5.055367 ## df (k) : 3 ## p-value : 0.167788Dari Uji White diatas kita dapat memperoleh keputusan bahwa :
## Keputusan: Gagal tolak H0 -> tidak terdapat heteroskedastisitasKeputusan ini muncul karena nilai p-value yang diperoleh lebih besar dari batas signifikansi (alpha = 0.05). Dengan kata lain tidak ada bukti statistik yang menunjukkan adanya ketidaksamaan varians pada residual.
Uji Multikolinearitas
## Solar.R Wind Temp ## 1.095253 1.329070 1.431367## Solar.R Wind Temp ## 0.9130312 0.7524058 0.6986329Hasil perhitungan Variance Inflation Factor (VIF) menunjukkan bahwa nilai VIF untuk variabel Solar.R adalah 1.095253, Wind sebesar 1.329070, dan Temp sebesar 1.431367. Seluruh nilai tersebut masih berada jauh di bawah batas toleransi yaitu 5 atau bahkan 10, sehingga dapat disimpulkan bahwa model tidak mengalami masalah multikolinearitas. Nilai inverse VIF, yang berada pada rentang 0.6986329 hingga 0.9130312, juga mendukung kesimpulan tersebut karena menunjukkan hubungan antar variabel prediktor relatif rendah. Dengan demikian model regresi yang digunakan memenuhi asumsi tidak adanya multikolinearitas.
BAB IV KESIMPULAN
Secara keseluruhan, hasil analisis deskriptif terhadap data kualitas udara dari bulan Mei hingga September 1973 menunjukkan bahwa terjadi perubahan yang cukup signifikan pada suhu, kecepatan angin, kadar ozon, serta radiasi matahari selama periode pengamatan. Suhu tampak mengikuti pola musiman, yaitu meningkat dari Mei menuju puncaknya pada Juli dan Agustus, lalu menurun kembali di bulan September. Kecepatan angin juga bervariasi, dengan sebaran yang lebih luas khususnya pada Agustus dan September, sedangkan bulan Mei dan Juni menunjukkan pola yang lebih stabil dengan kecepatan angin yang lebih rendah. Nilai penyebaran seperti range, standar deviasi, dan IQR memperlihatkan bahwa variabel Solar.R dan Ozone memiliki variabilitas tertinggi, sementara Temp dan Wind menunjukkan variasi yang lebih kecil. Berbagai visualisasi seperti histogram, boxplot, scatterplot per bulan, dan density plot mendukung temuan ini dengan menunjukkan pola distribusi, perbedaan antar bulan, serta kemunculan outlier pada waktu tertentu. Analisis ini mengindikasikan bahwa kondisi cuaca yang direkam dalam dataset mengikuti dinamika musiman yang jelas dan memperlihatkan variasi lingkungan yang signifikan selama musim panas di lokasi pengamatan.
Berdasarkan hasil analisis regresi berganda yang dilakukan, dapat diketahui bahwa model regresi yang dibangun sudah memenuhi seluruh asumsi klasik, Seperti normalitas residual, Tidak adanya autokorelasi, Tidak terjadi multikolinearitas, Serta tidak ditemukan heteroskedastisitas. Dengan terpenuhinya asumsi tersebut, Model yang dihasilkan dinilai valid dan layak digunakan baik untuk pengujian hipotesis maupun keperluan prediksi. Dari pengujian koefisien regresi, Variabel X1 terbukti memberikan pengaruh yang signifikan terhadap variabel dependen karena nilai p-value yang diperoleh berada di bawah batas signifikansi 0.05. Sebaliknya, Variabel X2 dan X3 tidak memberikan pengaruh signifikan karena nilai p-value yang dimiliki lebih besar dari 0.05. Hal ini menunjukkan bahwa dalam model yang digunakan, Hanya X1 yang berperan signifikan dalam menjelaskan perubahan pada variabel dependen.