Analisis Penyebab Kematian Global
Tugas Probabilitas & Statistika
Analisis Penyebab Kematian
di Seluruh Dunia
Eksplorasi data statistik kematian global dari 204 negara selama tiga dekade menggunakan berbagai teknik visualisasi dan analisis statistik.
Sumber Data: Our World in Data β Global Burden of Disease Study 2019
Link: kaggle.com/datasets/iamsouravbanerjee/cause-of-deaths-around-the-world
Mata Kuliah: Probabilitas dan Statistika
Kematian adalah fenomena universal yang dapat dikaji secara ilmiah untuk memahami pola kesehatan populasi global.
Penyakit penyebab kematian merupakan salah satu indikator penting dalam menilai kualitas kesehatan suatu negara. Dengan memahami pola penyebab kematian, pemerintah dan lembaga kesehatan dapat merumuskan kebijakan yang lebih tepat sasaran untuk meningkatkan angka harapan hidup masyarakat.
Dataset yang digunakan dalam analisis ini bersumber dari Our World in Data yang merangkum data Global Burden of Disease (GBD) Study 2019 yang diterbitkan oleh Institute for Health Metrics and Evaluation (IHME). Data ini mencakup 204 negara/wilayah dari tahun 1990 hingga 2019 dengan 31 kategori penyebab kematian.
Tujuan Analisis:
Melakukan eksplorasi dan analisis statistik terhadap data penyebab kematian global, dengan fokus khusus pada Indonesia, menggunakan berbagai teknik visualisasi data dan ukuran statistik deskriptif maupun inferensial.
Identifikasi Variabel
| Nama Variabel | Jenis Data | Skala | Keterangan |
Country/Territory | Kategorik | Nominal | Nama negara/wilayah (204 kategori) |
Code | Kategorik | Nominal | Kode ISO negara (misal: IDN = Indonesia) |
Year | Numerik | Interval | Tahun pengamatan (1990β2019) |
Cardiovascular Diseases | Numerik | Rasio | Jumlah kematian akibat penyakit kardiovaskular |
Neoplasms | Numerik | Rasio | Jumlah kematian akibat kanker/tumor |
Tuberculosis | Numerik | Rasio | Jumlah kematian akibat tuberkulosis |
Malaria | Numerik | Rasio | Jumlah kematian akibat malaria |
| ... dan 27 variabel numerik lainnya |
π Catatan Skala Data: Variabel Country/Territory dan Code merupakan data kategorik nominal (tidak ada urutan). Variabel jumlah kematian merupakan data numerik rasio karena memiliki nilai nol mutlak yang bermakna (0 kematian = benar-benar tidak ada kematian).
Pie chart digunakan untuk menampilkan proporsi/persentase dari setiap kategori terhadap keseluruhan data.
Grafik lingkaran berikut menunjukkan proporsi 7 penyebab kematian terbesar di Indonesia pada tahun 2019, dengan total 1.713.143 kematian.
π Interpretasi Pie Chart
- Penyakit Kardiovaskular mendominasi sebagai penyebab kematian terbesar di Indonesia pada tahun 2019, menyumbang sekitar 38,0% dari total kematian. Angka ini menunjukkan hampir 2 dari setiap 5 kematian di Indonesia disebabkan oleh penyakit jantung dan pembuluh darah.
- Neoplasms (kanker) menempati posisi kedua dengan proporsi 13,4%, setara dengan 229.524 jiwa per tahun.
- Penyakit Digestif (gangguan pencernaan) berada di posisi ketiga dengan 7,4%.
- Tiga penyebab teratas (kardiovaskular, kanker, digestif) secara bersama-sama menyumbang hampir 59% dari total kematian β lebih dari separuh seluruh kematian di Indonesia.
π Statistik Inferensia: Dominasi penyakit kardiovaskular yang sangat tinggi (38%) memberikan indikasi kuat bahwa penyakit tidak menular (PTM) telah menjadi beban kesehatan utama Indonesia. Jika pola ini dibandingkan dengan rata-rata global, Indonesia memerlukan perhatian khusus pada program pencegahan penyakit jantung, terutama melalui pengendalian faktor risiko seperti hipertensi, diabetes, dan gaya hidup sedentari.
Bar chart (diagram batang) digunakan untuk membandingkan nilai antar kategori secara visual.
Grafik batang berikut membandingkan total kematian dari seluruh penyebab di 10 negara dengan angka kematian tertinggi pada tahun 2019. Data ini mencerminkan kombinasi dari ukuran populasi dan kondisi kesehatan masing-masing negara.
π Interpretasi Bar Chart
- China mencatatkan total kematian tertinggi sebesar 10,44 juta jiwa pada 2019, diikuti India dengan 8,81 juta jiwa. Keduanya jauh melampaui negara lain karena memiliki populasi terbesar di dunia (masing-masing ~1,4 miliar jiwa).
- Indonesia berada di posisi ke-5 dengan total 1,71 juta kematian. Posisi ini konsisten dengan posisi Indonesia sebagai negara berpenduduk ke-4 terbesar di dunia.
- Terdapat kesenjangan yang sangat besar antara China/India dan negara-negara lainnya. China memiliki total kematian hampir 4Γ lebih tinggi dibanding Amerika Serikat.
- Amerika Serikat, Rusia, dan Jepang masuk 10 besar meskipun populasinya jauh lebih kecil dari Indonesia, mengindikasikan angka kematian per kapita yang lebih tinggi.
π Statistik Inferensia: Angka kematian absolut dipengaruhi kuat oleh ukuran populasi. Untuk perbandingan yang lebih adil antar negara, diperlukan metrik angka kematian kasar (Crude Death Rate) yang dinormalisasi per 100.000 penduduk. Secara inferensial, tingginya angka kematian di negara berpendapatan menengah-bawah seperti Indonesia, Nigeria, dan Pakistan mengindikasikan adanya hubungan antara pendapatan per kapita dengan akses layanan kesehatan.
Histogram digunakan untuk melihat distribusi frekuensi dari data numerik kontinu, menunjukkan bentuk sebaran data.
Histogram berikut menggambarkan sebaran jumlah kematian akibat penyakit kardiovaskular di 204 negara pada tahun 2019. Sumbu-x menunjukkan rentang jumlah kematian, sedangkan sumbu-y menunjukkan berapa banyak negara yang masuk dalam setiap kelas.
π Interpretasi Histogram
- Histogram menunjukkan distribusi yang sangat miring ke kanan (right-skewed / positively skewed). Artinya, sebagian besar negara memiliki jumlah kematian yang rendah, namun ada beberapa negara dengan jumlah kematian yang sangat tinggi (outlier kanan).
- Lebih dari 60% negara memiliki jumlah kematian kardiovaskular di bawah 50.000 jiwa per tahun (kelas pertama dan kedua histogram).
- Mean (90.942) jauh lebih besar dari Median (15.595) β ini adalah ciri khas distribusi right-skewed. Median lebih representatif sebagai ukuran pusat data dalam kondisi ini.
- Standar deviasi yang sangat besar (383.608) menunjukkan variabilitas data yang ekstrem antar negara.
π Statistik Inferensia: Distribusi right-skewed pada data ini mengindikasikan bahwa pengujian hipotesis parametrik (seperti t-test) sebaiknya dilakukan dengan hati-hati karena asumsi normalitas tidak terpenuhi. Untuk data seperti ini, uji non-parametrik (seperti Mann-Whitney U test) atau transformasi logaritmik lebih direkomendasikan. Perbedaan mean dan median yang besar (rasio β 5,8Γ) mengkonfirmasi adanya outlier yang signifikan.
Density plot adalah versi halus dari histogram yang menampilkan estimasi distribusi probabilitas kontinu dari data.
Dalam analisis ini, density plot divisualisasikan sebagai grafik tren dengan area terisi (area chart) untuk menunjukkan evolusi jumlah kematian akibat neoplasms (kanker) di Indonesia dari tahun 1990 hingga 2019. Bentuk kurva ini merepresentasikan distribusi nilai data sepanjang waktu.
π Interpretasi Density Plot
- Tren kematian akibat kanker di Indonesia menunjukkan peningkatan yang konsisten dan signifikan selama 30 tahun, dari sekitar 95.636 jiwa pada 1990 menjadi 229.524 jiwa pada 2019 β meningkat ~140%.
- Bentuk kurva yang terus naik (monoton meningkat) menunjukkan bahwa distribusi data bergeser ke nilai yang lebih tinggi seiring berjalannya waktu.
- Mean (155.756) dan Median (152.240) yang berdekatan menunjukkan distribusi data cukup simetris β tidak ada tahun yang menjadi outlier ekstrem.
- Laju pertumbuhan semakin cepat setelah tahun 2000, yang berkorelasi dengan peningkatan prevalensi faktor risiko kanker (merokok, obesitas, polusi).
π Statistik Inferensia: Kenaikan kematian kanker sebesar 140% dalam 30 tahun secara statistik menunjukkan tren yang signifikan. Jika dilakukan regresi linear sederhana, slope positif yang konsisten mengindikasikan rata-rata kenaikan sekitar Β±4.500 kematian per tahun. Proyeksi sederhana memperkirakan kematian akibat kanker di Indonesia bisa mencapai 280.000-300.000 pada tahun 2025 jika tren ini berlanjut tanpa intervensi signifikan.
Boxplot (diagram kotak) merangkum distribusi data melalui 5 ukuran sekaligus: minimum, Q1, median, Q3, dan maksimum.
Boxplot berikut membandingkan distribusi jumlah kematian akibat penyakit kardiovaskular di berbagai kawasan dunia pada tahun 2019. Setiap kotak merepresentasikan Interquartile Range (IQR) β rentang data dari 25% hingga 75%.
| Kawasan | Q1 | Median (Q2) | Q3 | IQR | Rata-rata |
| Asia | 58.824 | 138.139 | 324.764 | 265.940 | 473.496 |
| Eropa | 32.998 | 55.921 | 188.113 | 155.115 | 167.491 |
| Amerika | 15.015 | 27.140 | 72.629 | 57.614 | 101.214 |
| Afrika | 18.157 | 28.149 | 54.489 | 36.332 | 41.813 |
| Oseania | 869 | 2.642 | 15.540 | 14.671 | 12.205 |
π Interpretasi Boxplot
- Asia memiliki median dan IQR tertinggi, mencerminkan keberagaman yang besar β mulai dari negara kecil seperti Singapura hingga raksasa seperti China dan India. Rata-rata Asia (473.496) jauh di atas median (138.139) karena ditarik oleh outlier besar (China, India).
- Eropa memiliki distribusi yang lebih konsisten dengan IQR yang lebih sempit relatif terhadap mediannya, mencerminkan sistem kesehatan yang lebih homogen antar negara Eropa.
- Afrika memiliki median yang rendah, yang bukan berarti kondisi kesehatan lebih baik, melainkan karena populasi negara-negara Afrika umumnya lebih kecil.
- Oseania memiliki nilai terendah karena sebagian besar terdiri dari negara kepulauan kecil dengan populasi sedikit.
π Statistik Inferensia: Perbedaan distribusi yang terlihat antar kawasan dapat diuji secara formal menggunakan Kruskal-Wallis Test (uji non-parametrik ANOVA) karena data tidak berdistribusi normal. Hipotesis nol (Hβ) adalah tidak ada perbedaan signifikan distribusi kematian kardiovaskular antar kawasan. Berdasarkan visualisasi boxplot, perbedaan yang sangat nyata antara Asia, Eropa, dan Oseania mengindikasikan bahwa Hβ kemungkinan besar akan ditolak pada tingkat signifikansi Ξ± = 0,05.
Statistik deskriptif merangkum karakteristik utama dari suatu kumpulan data menggunakan ukuran numerik.
Tabel berikut menyajikan perhitungan lengkap statistik deskriptif untuk 4 variabel numerik utama di Indonesia selama periode 1990β2019 (n = 30 tahun).
Catatan: Data yang digunakan adalah jumlah kematian di Indonesia per tahun, dari 1990 sampai 2019 (30 observasi per variabel).
| Ukuran Statistik |
Kardiovaskular |
Neoplasms |
Tuberkulosis |
Malaria |
| Mean (Rata-rata) | 452.900 | 155.756 | 106.567 | 2.489 |
| Median (Nilai Tengah) | 447.747 | 152.240 | 113.118 | 2.543 |
| Modus (Nilai Terbanyak)* | 484.000 | 164.000 | 118.000 | 3.000 |
| Q1 (Kuartil 1) | 342.414 | 121.912 | 92.813 | 1.236 |
| Q3 (Kuartil 3) | 558.106 | 188.339 | 117.563 | 3.208 |
| Range (Rentang) | 373.179 | 133.888 | 51.460 | 5.488 |
| Varians | 14.328.860.182 | 1.590.850.158 | 240.525.792 | 1.909.319 |
| Standar Deviasi | 119.703 | 39.885 | 15.509 | 1.382 |
*Modus dihitung dengan pembulatan ke ribuan terdekat karena data kontinu.
π Interpretasi Statistik Deskriptif
π« Cardiovascular Diseases:
- Rata-rata kematian kardiovaskular di Indonesia adalah 452.900 jiwa/tahun dengan standar deviasi 119.703, menunjukkan variabilitas yang cukup besar antar tahun.
- Mean β Median (452.900 vs 447.747) mengindikasikan distribusi data yang cukup simetris β tren kenaikan berlangsung stabil tanpa lonjakan ekstrem.
- Range 373.179 (dari ~278.302 di 1990 hingga ~651.481 di 2019) mencerminkan pertumbuhan yang signifikan selama 30 tahun.
π¦ Tuberculosis:
- Median (113.118) > Mean (106.567), sedikit left-skewed, artinya ada beberapa tahun dengan angka yang sangat rendah (terutama tahun-tahun terakhir karena program penanggulangan TB berhasil).
- Standar deviasi yang relatif kecil (15.509) dibanding mean menunjukkan data yang lebih konsisten.
π¦ Malaria:
- Nilai rata-rata (2.489) sangat kecil dibanding penyakit lainnya β Malaria bukan penyebab kematian dominan di Indonesia secara nasional.
- IQR = Q3 - Q1 = 3.208 - 1.236 = 1.972, menunjukkan sebaran data yang cukup lebar relatif terhadap mediannya.
π Koefisien Variasi (CV) = SD/Mean Γ 100%
CV Kardiovaskular = 119.703 / 452.900 Γ 100% = 26,4% (variabilitas sedang)
CV Neoplasms = 39.885 / 155.756 Γ 100% = 25,6% (variabilitas sedang)
CV Tuberkulosis = 15.509 / 106.567 Γ 100% = 14,6% (variabilitas rendah β data lebih konsisten)
CV Malaria = 1.382 / 2.489 Γ 100% = 55,5% (variabilitas tinggi β fluktuasi besar antar tahun)
Berdasarkan analisis statistik terhadap dataset Cause of Deaths Around the World, dapat ditarik beberapa kesimpulan utama:
- Penyakit tidak menular mendominasi β Di Indonesia, penyakit kardiovaskular menjadi penyebab kematian terbesar (38%) diikuti kanker (13,4%), mencerminkan transisi epidemiologi dari penyakit menular ke tidak menular.
- Tren kematian kanker terus naik β Kematian akibat neoplasms di Indonesia meningkat 140% dalam 30 tahun, dari 95.636 (1990) menjadi 229.524 (2019), memerlukan perhatian serius dari sistem kesehatan.
- Distribusi data sangat tidak merata β Histogram menunjukkan distribusi right-skewed yang ekstrem, di mana sebagian besar negara memiliki angka kematian rendah tetapi beberapa negara berpopulasi besar mendominasi angka global.
- Variabilitas antar kawasan signifikan β Boxplot menunjukkan perbedaan distribusi yang besar antar kawasan, dengan Asia memiliki variabilitas tertinggi karena heterogenitas populasi dan sistem kesehatan.
- Malaria berhasil dikendalikan β Koefisien variasi malaria yang tinggi (55,5%) dan tren penurunan mengindikasikan keberhasilan program eliminasi malaria di Indonesia.
- Banerjee, S. (2022). Cause of Deaths Around the World. Kaggle Dataset. Diakses dari: https://www.kaggle.com/datasets/iamsouravbanerjee/cause-of-deaths-around-the-world
- GBD 2019 Causes of Death Collaborators. (2020). Global, regional, and national age-sex-specific mortality for 282 causes of death in 195 countries and territories, 1980β2017. The Lancet, 392(10159), 1736β1788.
- Ritchie, H., Spooner, F., & Roser, M. (2019). Causes of Death. Our World in Data. Diakses dari: https://ourworldindata.org/causes-of-death
- Institute for Health Metrics and Evaluation (IHME). (2020). Global Burden of Disease Study 2019 (GBD 2019) Results. Seattle: IHME, University of Washington.
- Triola, M. F. (2018). Elementary Statistics (13th ed.). Pearson Education.
- Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probability and Statistics for Engineers and Scientists (9th ed.). Pearson Education.
- R Core Team. (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/
- Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York.