Air merupakan kebutuhan dasar bagi kehidupan manusia, namun kualitas air yang buruk dapat menyebabkan berbagai penyakit yang ditularkan melalui air (waterborne diseases). Pencemaran air dapat dipengaruhi oleh berbagai faktor lingkungan seperti jenis sumber air, tingkat keasaman (pH), dan temperatur air. Perubahan pada parameter tersebut dapat mempengaruhi pertumbuhan mikroorganisme serta tingkat keamanan air bagi kesehatan manusia.
Dataset yang digunakan dalam analisis ini berisi berbagai variabel yang berkaitan dengan kualitas air di beberapa negara. Dari 24 variabel yang tersedia, analisis difokuskan pada empat variabel utama yaitu Country, Water Source Type, pH Level, dan Temperature. Variabel-variabel tersebut dipilih untuk menggambarkan distribusi sumber air serta kondisi fisik-kimia air yang berpotensi mempengaruhi kualitas air.
Dataset ini menganalisis hubungan antara polusi air dan prevalensi penyakit yang ditularkan melalui air di seluruh dunia. Dataset ini mencakup indikator kualitas air, tingkat polusi, tingkat penyakit, dan faktor-faktor sosio-ekonomi yang memengaruhi hasil kesehatan. Dataset ini menyediakan informasi tentang berbagai negara dan wilayah, mencakup periode tahun 2000-2025.
Data ini mencakup faktor-faktor kunci seperti tingkat kontaminan, akses ke air bersih, keberadaan bakteri, metode pengolahan air, cakupan sanitasi, dan insiden penyakit seperti diare, kolera, dan tifus. Selain itu, data ini juga memasukkan variabel sosio-ekonomi seperti PDB per kapita, tingkat urbanisasi, dan akses ke layanan kesehatan, yang membantu menilai dampak luas polusi air terhadap komunitas.
Data ini dapat digunakan untuk:
Cakupan:
## country water_source pH temperature
## 1 Mexico Lake 7.12 4.94
## 2 Brazil Well 7.84 16.93
## 3 Indonesia Pond 6.43 21.73
## 4 Nigeria Well 6.71 3.79
## 5 Mexico Well 8.16 31.44
## 6 Ethiopia Tap 8.21 8.01
## 'data.frame': 3000 obs. of 4 variables:
## $ country : chr "Mexico" "Brazil" "Indonesia" "Nigeria" ...
## $ water_source: chr "Lake" "Well" "Pond" "Well" ...
## $ pH : num 7.12 7.84 6.43 6.71 8.16 8.21 6.11 6.42 6.29 6.45 ...
## $ temperature : num 4.94 16.93 21.73 3.79 31.44 ...
## country water_source pH temperature
## Length:3000 Length:3000 Min. :6.000 Min. : 0.06
## Class :character Class :character 1st Qu.:6.630 1st Qu.: 9.84
## Mode :character Mode :character Median :7.280 Median :20.18
## Mean :7.256 Mean :20.13
## 3rd Qu.:7.870 3rd Qu.:30.67
## Max. :8.500 Max. :39.99
Interpretasi:
Dari pie chart di atas, terlihat bahwa distribusi jenis sumber air relatif merata di antara 6 kategori. River memiliki proporsi terbesar (538 observasi, ~17.9%), diikuti Spring (532, ~17.7%), Tap (501, ~16.7%), Well (498, ~16.6%), Lake (481, ~16%), dan Pond sebagai yang terkecil (450, ~15%). Tidak ada satu jenis sumber air yang mendominasi secara signifikan, mengindikasikan keragaman sumber air yang seimbang dalam dataset ini.
Interpretasi:
Dari bar chart di atas, jumlah observasi per negara terbilang merata dengan rentang antara 288 hingga 319 observasi. USA memiliki jumlah observasi terbanyak (319), diikuti Nigeria (315) dan China (311), sementara Mexico memiliki jumlah observasi paling sedikit (288). Distribusi yang merata ini menunjukkan bahwa dataset dirancang untuk merepresentasikan setiap negara secara proporsional.
Interpretasi:
Histogram menunjukkan distribusi pH yang mendekati simetris (normal) dengan nilai mean sebesar 7.26. Sebagian besar sampel air berada pada rentang pH 6.6 hingga 7.9, yang tergolong netral hingga sedikit basa. Ini mengindikasikan bahwa secara umum kualitas pH air dalam dataset ini masih berada dalam batas aman untuk konsumsi (pH 6.5–8.5).
Interpretasi:
Dari density plot, terlihat bahwa distribusi suhu untuk semua jenis sumber air memiliki pola yang hampir serupa dan tersebar merata dari sekitar 0°C hingga 40°C. Hal ini menunjukkan bahwa jenis sumber air tidak memiliki pengaruh yang signifikan terhadap suhu air, karena kurva density masing-masing kategori saling tumpang tindih dan tidak menunjukkan perbedaan yang mencolok.
Interpretasi:
Boxplot menunjukkan bahwa median pH antar negara relatif seragam, berkisar antara 7.0 hingga 7.5. Rentang IQR (Q1–Q3) yang mirip antar negara mengindikasikan tingkat variabilitas pH yang setara. Beberapa outlier (titik merah) terlihat di hampir semua negara, namun tidak ekstrem. Hal ini menunjukkan bahwa distribusi pH air tidak dipengaruhi secara signifikan oleh faktor negara.
| Nilai | |
|---|---|
| Mean | 7.2558467 |
| Median | 7.2800000 |
| Modus | 8.2000000 |
| Q1 | 6.6300000 |
| Q3 | 7.8700000 |
| Range | 2.5000000 |
| Varians | 0.5190677 |
| Std_Dev | 0.7204635 |
| Nilai | |
|---|---|
| Mean | 20.13092 |
| Median | 20.17500 |
| Modus | 39.00000 |
| Q1 | 9.84000 |
| Q3 | 30.67250 |
| Range | 39.93000 |
| Varians | 136.63842 |
| Std_Dev | 11.68924 |
##
## Welch Two Sample t-test
##
## data: pH by water_source
## t = 0.689, df = 1067.9, p-value = 0.491
## alternative hypothesis: true difference in means between group River and group Spring is not equal to 0
## 95 percent confidence interval:
## -0.05603045 0.11667374
## sample estimates:
## mean in group River mean in group Spring
## 7.264814 7.234492
Interpretasi:
Berdasarkan hasil Welch Two Sample t-test, diperoleh nilai t = 0.689 dengan p-value = 0.491. Karena p-value > 0.05, maka H0 diterima - tidak terdapat perbedaan rata-rata pH yang signifikan antara sumber air River (mean = 7.26) dan Spring (mean = 7.23). Kedua jenis sumber air memiliki tingkat keasaman yang relatif sama.
## Df Sum Sq Mean Sq F value Pr(>F)
## country 9 933 103.6 0.758 0.656
## Residuals 2990 408846 136.7
Interpretasi:
Berdasarkan hasil uji ANOVA, diperoleh nilai F = 0.758 dengan p-value = 0.656. Karena p-value > 0.05, maka H0 diterima - tidak terdapat perbedaan rata-rata suhu yang signifikan antar negara. Hal ini konsisten dengan temuan pada density plot bahwa suhu terdistribusi merata tanpa dipengaruhi faktor negara.
Berdasarkan analisis data Global Water Quality Dataset yang mencakup 3.000 observasi dari 10 negara, dapat disimpulkan beberapa hal berikut. Pertama, distribusi jenis sumber air dan jumlah observasi per negara terbilang merata, menunjukkan representasi data yang seimbang. Kedua, pH air secara keseluruhan berada pada rentang aman (6.0–8.5) dengan mean 7.26 dan distribusi yang mendekati normal. Ketiga, suhu air tersebar merata antara 0°C hingga 40°C tanpa dipengaruhi secara signifikan oleh jenis sumber air maupun negara asal. Keempat, hasil uji inferensia (Uji T dan ANOVA) menunjukkan bahwa tidak terdapat perbedaan yang signifikan baik pada pH antar jenis sumber air maupun pada suhu antar negara, mengindikasikan homogenitas kualitas air secara global dalam dataset ini.
Khushikyad001. (2024). Water Pollution & Disease [Dataset]. Kaggle. https://www.kaggle.com/datasets/khushikyad001/water-pollution-and-disease