1 Latar Belakang

Air merupakan kebutuhan dasar bagi kehidupan manusia, namun kualitas air yang buruk dapat menyebabkan berbagai penyakit yang ditularkan melalui air (waterborne diseases). Pencemaran air dapat dipengaruhi oleh berbagai faktor lingkungan seperti jenis sumber air, tingkat keasaman (pH), dan temperatur air. Perubahan pada parameter tersebut dapat mempengaruhi pertumbuhan mikroorganisme serta tingkat keamanan air bagi kesehatan manusia.

Dataset yang digunakan dalam analisis ini berisi berbagai variabel yang berkaitan dengan kualitas air di beberapa negara. Dari 24 variabel yang tersedia, analisis difokuskan pada empat variabel utama yaitu Country, Water Source Type, pH Level, dan Temperature. Variabel-variabel tersebut dipilih untuk menggambarkan distribusi sumber air serta kondisi fisik-kimia air yang berpotensi mempengaruhi kualitas air.


2 Tentang Data

Dataset ini menganalisis hubungan antara polusi air dan prevalensi penyakit yang ditularkan melalui air di seluruh dunia. Dataset ini mencakup indikator kualitas air, tingkat polusi, tingkat penyakit, dan faktor-faktor sosio-ekonomi yang memengaruhi hasil kesehatan. Dataset ini menyediakan informasi tentang berbagai negara dan wilayah, mencakup periode tahun 2000-2025.

Data ini mencakup faktor-faktor kunci seperti tingkat kontaminan, akses ke air bersih, keberadaan bakteri, metode pengolahan air, cakupan sanitasi, dan insiden penyakit seperti diare, kolera, dan tifus. Selain itu, data ini juga memasukkan variabel sosio-ekonomi seperti PDB per kapita, tingkat urbanisasi, dan akses ke layanan kesehatan, yang membantu menilai dampak luas polusi air terhadap komunitas.

Data ini dapat digunakan untuk:

  • Penelitian kesehatan masyarakat tentang dampak polusi air.
  • Studi lingkungan untuk menganalisis tren pencemaran air.
  • Pembuatan kebijakan untuk akses air bersih dan perbaikan sanitasi.
  • Model pembelajaran mesin untuk memprediksi wabah penyakit berdasarkan kualitas air.

Cakupan:

  • Mencakup 10 negara (AS, India, China, Brasil, Nigeria, Bangladesh, Meksiko, Indonesia, Pakistan, Ethiopia).
  • Mencakup 5 wilayah per negara (Utara, Selatan, Timur, Barat, Pusat).
  • Mencakup 26 tahun (2000-2025).
  • Memuat 3.000 catatan unik yang mewakili berbagai sumber air dan kondisi pencemaran.

3 Import & Persiapan Data

##     country water_source   pH temperature
## 1    Mexico         Lake 7.12        4.94
## 2    Brazil         Well 7.84       16.93
## 3 Indonesia         Pond 6.43       21.73
## 4   Nigeria         Well 6.71        3.79
## 5    Mexico         Well 8.16       31.44
## 6  Ethiopia          Tap 8.21        8.01
## 'data.frame':    3000 obs. of  4 variables:
##  $ country     : chr  "Mexico" "Brazil" "Indonesia" "Nigeria" ...
##  $ water_source: chr  "Lake" "Well" "Pond" "Well" ...
##  $ pH          : num  7.12 7.84 6.43 6.71 8.16 8.21 6.11 6.42 6.29 6.45 ...
##  $ temperature : num  4.94 16.93 21.73 3.79 31.44 ...
##    country          water_source             pH         temperature   
##  Length:3000        Length:3000        Min.   :6.000   Min.   : 0.06  
##  Class :character   Class :character   1st Qu.:6.630   1st Qu.: 9.84  
##  Mode  :character   Mode  :character   Median :7.280   Median :20.18  
##                                        Mean   :7.256   Mean   :20.13  
##                                        3rd Qu.:7.870   3rd Qu.:30.67  
##                                        Max.   :8.500   Max.   :39.99

4 Visualisasi Data Kategorik

4.1 Pie Chart - Jenis Sumber Air

Interpretasi:
Dari pie chart di atas, terlihat bahwa distribusi jenis sumber air relatif merata di antara 6 kategori. River memiliki proporsi terbesar (538 observasi, ~17.9%), diikuti Spring (532, ~17.7%), Tap (501, ~16.7%), Well (498, ~16.6%), Lake (481, ~16%), dan Pond sebagai yang terkecil (450, ~15%). Tidak ada satu jenis sumber air yang mendominasi secara signifikan, mengindikasikan keragaman sumber air yang seimbang dalam dataset ini.


4.2 Bar Chart - Jumlah Observasi per Negara

Interpretasi:
Dari bar chart di atas, jumlah observasi per negara terbilang merata dengan rentang antara 288 hingga 319 observasi. USA memiliki jumlah observasi terbanyak (319), diikuti Nigeria (315) dan China (311), sementara Mexico memiliki jumlah observasi paling sedikit (288). Distribusi yang merata ini menunjukkan bahwa dataset dirancang untuk merepresentasikan setiap negara secara proporsional.


5 Visualisasi Data Numerik

5.1 Histogram - Distribusi pH

Interpretasi:
Histogram menunjukkan distribusi pH yang mendekati simetris (normal) dengan nilai mean sebesar 7.26. Sebagian besar sampel air berada pada rentang pH 6.6 hingga 7.9, yang tergolong netral hingga sedikit basa. Ini mengindikasikan bahwa secara umum kualitas pH air dalam dataset ini masih berada dalam batas aman untuk konsumsi (pH 6.5–8.5).


5.2 Density Plot - Distribusi Suhu per Jenis Sumber Air

Interpretasi:
Dari density plot, terlihat bahwa distribusi suhu untuk semua jenis sumber air memiliki pola yang hampir serupa dan tersebar merata dari sekitar 0°C hingga 40°C. Hal ini menunjukkan bahwa jenis sumber air tidak memiliki pengaruh yang signifikan terhadap suhu air, karena kurva density masing-masing kategori saling tumpang tindih dan tidak menunjukkan perbedaan yang mencolok.


5.3 Boxplot - Perbandingan pH per Negara

Interpretasi:
Boxplot menunjukkan bahwa median pH antar negara relatif seragam, berkisar antara 7.0 hingga 7.5. Rentang IQR (Q1–Q3) yang mirip antar negara mengindikasikan tingkat variabilitas pH yang setara. Beberapa outlier (titik merah) terlihat di hampir semua negara, namun tidak ekstrem. Hal ini menunjukkan bahwa distribusi pH air tidak dipengaruhi secara signifikan oleh faktor negara.


6 Statistik Deskriptif

6.1 Variabel Numerik: pH

Statistik Deskriptif: pH Level
Nilai
Mean 7.2558467
Median 7.2800000
Modus 8.2000000
Q1 6.6300000
Q3 7.8700000
Range 2.5000000
Varians 0.5190677
Std_Dev 0.7204635

6.2 Variabel Numerik: Suhu

Statistik Deskriptif: Suhu (°C)
Nilai
Mean 20.13092
Median 20.17500
Modus 39.00000
Q1 9.84000
Q3 30.67250
Range 39.93000
Varians 136.63842
Std_Dev 11.68924

7 Statistik Inferensia

7.1 Uji T - Perbedaan Rata-rata pH antar Dua Sumber Air Terbanyak

## 
##  Welch Two Sample t-test
## 
## data:  pH by water_source
## t = 0.689, df = 1067.9, p-value = 0.491
## alternative hypothesis: true difference in means between group River and group Spring is not equal to 0
## 95 percent confidence interval:
##  -0.05603045  0.11667374
## sample estimates:
##  mean in group River mean in group Spring 
##             7.264814             7.234492

Interpretasi:
Berdasarkan hasil Welch Two Sample t-test, diperoleh nilai t = 0.689 dengan p-value = 0.491. Karena p-value > 0.05, maka H0 diterima - tidak terdapat perbedaan rata-rata pH yang signifikan antara sumber air River (mean = 7.26) dan Spring (mean = 7.23). Kedua jenis sumber air memiliki tingkat keasaman yang relatif sama.

7.2 Uji ANOVA - Perbedaan Rata-rata Suhu antar Negara

##               Df Sum Sq Mean Sq F value Pr(>F)
## country        9    933   103.6   0.758  0.656
## Residuals   2990 408846   136.7

Interpretasi:
Berdasarkan hasil uji ANOVA, diperoleh nilai F = 0.758 dengan p-value = 0.656. Karena p-value > 0.05, maka H0 diterima - tidak terdapat perbedaan rata-rata suhu yang signifikan antar negara. Hal ini konsisten dengan temuan pada density plot bahwa suhu terdistribusi merata tanpa dipengaruhi faktor negara.


8 Kesimpulan

Berdasarkan analisis data Global Water Quality Dataset yang mencakup 3.000 observasi dari 10 negara, dapat disimpulkan beberapa hal berikut. Pertama, distribusi jenis sumber air dan jumlah observasi per negara terbilang merata, menunjukkan representasi data yang seimbang. Kedua, pH air secara keseluruhan berada pada rentang aman (6.0–8.5) dengan mean 7.26 dan distribusi yang mendekati normal. Ketiga, suhu air tersebar merata antara 0°C hingga 40°C tanpa dipengaruhi secara signifikan oleh jenis sumber air maupun negara asal. Keempat, hasil uji inferensia (Uji T dan ANOVA) menunjukkan bahwa tidak terdapat perbedaan yang signifikan baik pada pH antar jenis sumber air maupun pada suhu antar negara, mengindikasikan homogenitas kualitas air secara global dalam dataset ini.


9 Referensi

Dataset: Global Water Quality Dataset — Khushi Kyad, Kaggle. https://www.kaggle.com/datasets/khushikyad001/water-pollution-and-disease