Analisis Penyebab Kematian Global
Tugas Probabilitas & Statistika

Analisis Penyebab Kematian
di Seluruh Dunia

Eksplorasi data statistik kematian global dari 204 negara selama tiga dekade menggunakan berbagai teknik visualisasi dan analisis statistik.

204
Negara/Wilayah
30
Tahun (1990–2019)
31
Penyebab Kematian
6.120
Total Data

Sumber Data: Our World in Data β€” Global Burden of Disease Study 2019

Link: kaggle.com/datasets/iamsouravbanerjee/cause-of-deaths-around-the-world

Mata Kuliah: Probabilitas dan Statistika

Bab I

Pendahuluan

Kematian adalah fenomena universal yang dapat dikaji secara ilmiah untuk memahami pola kesehatan populasi global.

Penyakit penyebab kematian merupakan salah satu indikator penting dalam menilai kualitas kesehatan suatu negara. Dengan memahami pola penyebab kematian, pemerintah dan lembaga kesehatan dapat merumuskan kebijakan yang lebih tepat sasaran untuk meningkatkan angka harapan hidup masyarakat.

Dataset yang digunakan dalam analisis ini bersumber dari Our World in Data yang merangkum data Global Burden of Disease (GBD) Study 2019 yang diterbitkan oleh Institute for Health Metrics and Evaluation (IHME). Data ini mencakup 204 negara/wilayah dari tahun 1990 hingga 2019 dengan 31 kategori penyebab kematian.

Tujuan Analisis:
Melakukan eksplorasi dan analisis statistik terhadap data penyebab kematian global, dengan fokus khusus pada Indonesia, menggunakan berbagai teknik visualisasi data dan ukuran statistik deskriptif maupun inferensial.

Identifikasi Variabel

Nama VariabelJenis DataSkalaKeterangan
Country/TerritoryKategorikNominalNama negara/wilayah (204 kategori)
CodeKategorikNominalKode ISO negara (misal: IDN = Indonesia)
YearNumerikIntervalTahun pengamatan (1990–2019)
Cardiovascular DiseasesNumerikRasioJumlah kematian akibat penyakit kardiovaskular
NeoplasmsNumerikRasioJumlah kematian akibat kanker/tumor
TuberculosisNumerikRasioJumlah kematian akibat tuberkulosis
MalariaNumerikRasioJumlah kematian akibat malaria
... dan 27 variabel numerik lainnya
πŸ“Œ Catatan Skala Data: Variabel Country/Territory dan Code merupakan data kategorik nominal (tidak ada urutan). Variabel jumlah kematian merupakan data numerik rasio karena memiliki nilai nol mutlak yang bermakna (0 kematian = benar-benar tidak ada kematian).
Bab II β€” Grafik 1

Pie Chart: Proporsi Penyebab Kematian di Indonesia (2019)

Pie chart digunakan untuk menampilkan proporsi/persentase dari setiap kategori terhadap keseluruhan data.

Grafik lingkaran berikut menunjukkan proporsi 7 penyebab kematian terbesar di Indonesia pada tahun 2019, dengan total 1.713.143 kematian.

651.481
Kardiovaskular
229.524
Neoplasms
126.348
Digestif
106.333
Diabetes

πŸ“Š Interpretasi Pie Chart

  • Penyakit Kardiovaskular mendominasi sebagai penyebab kematian terbesar di Indonesia pada tahun 2019, menyumbang sekitar 38,0% dari total kematian. Angka ini menunjukkan hampir 2 dari setiap 5 kematian di Indonesia disebabkan oleh penyakit jantung dan pembuluh darah.
  • Neoplasms (kanker) menempati posisi kedua dengan proporsi 13,4%, setara dengan 229.524 jiwa per tahun.
  • Penyakit Digestif (gangguan pencernaan) berada di posisi ketiga dengan 7,4%.
  • Tiga penyebab teratas (kardiovaskular, kanker, digestif) secara bersama-sama menyumbang hampir 59% dari total kematian β€” lebih dari separuh seluruh kematian di Indonesia.
πŸ“ Statistik Inferensia: Dominasi penyakit kardiovaskular yang sangat tinggi (38%) memberikan indikasi kuat bahwa penyakit tidak menular (PTM) telah menjadi beban kesehatan utama Indonesia. Jika pola ini dibandingkan dengan rata-rata global, Indonesia memerlukan perhatian khusus pada program pencegahan penyakit jantung, terutama melalui pengendalian faktor risiko seperti hipertensi, diabetes, dan gaya hidup sedentari.
Bab III β€” Grafik 2

Bar Chart: 10 Negara dengan Total Kematian Tertinggi (2019)

Bar chart (diagram batang) digunakan untuk membandingkan nilai antar kategori secara visual.

Grafik batang berikut membandingkan total kematian dari seluruh penyebab di 10 negara dengan angka kematian tertinggi pada tahun 2019. Data ini mencerminkan kombinasi dari ukuran populasi dan kondisi kesehatan masing-masing negara.

πŸ“Š Interpretasi Bar Chart

  • China mencatatkan total kematian tertinggi sebesar 10,44 juta jiwa pada 2019, diikuti India dengan 8,81 juta jiwa. Keduanya jauh melampaui negara lain karena memiliki populasi terbesar di dunia (masing-masing ~1,4 miliar jiwa).
  • Indonesia berada di posisi ke-5 dengan total 1,71 juta kematian. Posisi ini konsisten dengan posisi Indonesia sebagai negara berpenduduk ke-4 terbesar di dunia.
  • Terdapat kesenjangan yang sangat besar antara China/India dan negara-negara lainnya. China memiliki total kematian hampir 4Γ— lebih tinggi dibanding Amerika Serikat.
  • Amerika Serikat, Rusia, dan Jepang masuk 10 besar meskipun populasinya jauh lebih kecil dari Indonesia, mengindikasikan angka kematian per kapita yang lebih tinggi.
πŸ“ Statistik Inferensia: Angka kematian absolut dipengaruhi kuat oleh ukuran populasi. Untuk perbandingan yang lebih adil antar negara, diperlukan metrik angka kematian kasar (Crude Death Rate) yang dinormalisasi per 100.000 penduduk. Secara inferensial, tingginya angka kematian di negara berpendapatan menengah-bawah seperti Indonesia, Nigeria, dan Pakistan mengindikasikan adanya hubungan antara pendapatan per kapita dengan akses layanan kesehatan.
Bab IV β€” Grafik 3

Histogram: Distribusi Kematian Akibat Penyakit Kardiovaskular (2019)

Histogram digunakan untuk melihat distribusi frekuensi dari data numerik kontinu, menunjukkan bentuk sebaran data.

Histogram berikut menggambarkan sebaran jumlah kematian akibat penyakit kardiovaskular di 204 negara pada tahun 2019. Sumbu-x menunjukkan rentang jumlah kematian, sedangkan sumbu-y menunjukkan berapa banyak negara yang masuk dalam setiap kelas.

90.942
Mean
15.595
Median
15.081
Q1
58.219
Q3
383.608
Std Dev

πŸ“Š Interpretasi Histogram

  • Histogram menunjukkan distribusi yang sangat miring ke kanan (right-skewed / positively skewed). Artinya, sebagian besar negara memiliki jumlah kematian yang rendah, namun ada beberapa negara dengan jumlah kematian yang sangat tinggi (outlier kanan).
  • Lebih dari 60% negara memiliki jumlah kematian kardiovaskular di bawah 50.000 jiwa per tahun (kelas pertama dan kedua histogram).
  • Mean (90.942) jauh lebih besar dari Median (15.595) β€” ini adalah ciri khas distribusi right-skewed. Median lebih representatif sebagai ukuran pusat data dalam kondisi ini.
  • Standar deviasi yang sangat besar (383.608) menunjukkan variabilitas data yang ekstrem antar negara.
πŸ“ Statistik Inferensia: Distribusi right-skewed pada data ini mengindikasikan bahwa pengujian hipotesis parametrik (seperti t-test) sebaiknya dilakukan dengan hati-hati karena asumsi normalitas tidak terpenuhi. Untuk data seperti ini, uji non-parametrik (seperti Mann-Whitney U test) atau transformasi logaritmik lebih direkomendasikan. Perbedaan mean dan median yang besar (rasio β‰ˆ 5,8Γ—) mengkonfirmasi adanya outlier yang signifikan.
Bab V β€” Grafik 4

Density Plot: Tren Kematian Akibat Neoplasms di Indonesia (1990–2019)

Density plot adalah versi halus dari histogram yang menampilkan estimasi distribusi probabilitas kontinu dari data.

Dalam analisis ini, density plot divisualisasikan sebagai grafik tren dengan area terisi (area chart) untuk menunjukkan evolusi jumlah kematian akibat neoplasms (kanker) di Indonesia dari tahun 1990 hingga 2019. Bentuk kurva ini merepresentasikan distribusi nilai data sepanjang waktu.

155.756
Mean
152.240
Median
164.000
Modus (approx)
39.885
Std Dev

πŸ“Š Interpretasi Density Plot

  • Tren kematian akibat kanker di Indonesia menunjukkan peningkatan yang konsisten dan signifikan selama 30 tahun, dari sekitar 95.636 jiwa pada 1990 menjadi 229.524 jiwa pada 2019 β€” meningkat ~140%.
  • Bentuk kurva yang terus naik (monoton meningkat) menunjukkan bahwa distribusi data bergeser ke nilai yang lebih tinggi seiring berjalannya waktu.
  • Mean (155.756) dan Median (152.240) yang berdekatan menunjukkan distribusi data cukup simetris β€” tidak ada tahun yang menjadi outlier ekstrem.
  • Laju pertumbuhan semakin cepat setelah tahun 2000, yang berkorelasi dengan peningkatan prevalensi faktor risiko kanker (merokok, obesitas, polusi).
πŸ“ Statistik Inferensia: Kenaikan kematian kanker sebesar 140% dalam 30 tahun secara statistik menunjukkan tren yang signifikan. Jika dilakukan regresi linear sederhana, slope positif yang konsisten mengindikasikan rata-rata kenaikan sekitar Β±4.500 kematian per tahun. Proyeksi sederhana memperkirakan kematian akibat kanker di Indonesia bisa mencapai 280.000-300.000 pada tahun 2025 jika tren ini berlanjut tanpa intervensi signifikan.
Bab VI β€” Grafik 5

Boxplot: Distribusi Kematian Kardiovaskular per Kawasan (2019)

Boxplot (diagram kotak) merangkum distribusi data melalui 5 ukuran sekaligus: minimum, Q1, median, Q3, dan maksimum.

Boxplot berikut membandingkan distribusi jumlah kematian akibat penyakit kardiovaskular di berbagai kawasan dunia pada tahun 2019. Setiap kotak merepresentasikan Interquartile Range (IQR) β€” rentang data dari 25% hingga 75%.

KawasanQ1Median (Q2)Q3IQRRata-rata
Asia58.824138.139324.764265.940473.496
Eropa32.99855.921188.113155.115167.491
Amerika15.01527.14072.62957.614101.214
Afrika18.15728.14954.48936.33241.813
Oseania8692.64215.54014.67112.205

πŸ“Š Interpretasi Boxplot

  • Asia memiliki median dan IQR tertinggi, mencerminkan keberagaman yang besar β€” mulai dari negara kecil seperti Singapura hingga raksasa seperti China dan India. Rata-rata Asia (473.496) jauh di atas median (138.139) karena ditarik oleh outlier besar (China, India).
  • Eropa memiliki distribusi yang lebih konsisten dengan IQR yang lebih sempit relatif terhadap mediannya, mencerminkan sistem kesehatan yang lebih homogen antar negara Eropa.
  • Afrika memiliki median yang rendah, yang bukan berarti kondisi kesehatan lebih baik, melainkan karena populasi negara-negara Afrika umumnya lebih kecil.
  • Oseania memiliki nilai terendah karena sebagian besar terdiri dari negara kepulauan kecil dengan populasi sedikit.
πŸ“ Statistik Inferensia: Perbedaan distribusi yang terlihat antar kawasan dapat diuji secara formal menggunakan Kruskal-Wallis Test (uji non-parametrik ANOVA) karena data tidak berdistribusi normal. Hipotesis nol (Hβ‚€) adalah tidak ada perbedaan signifikan distribusi kematian kardiovaskular antar kawasan. Berdasarkan visualisasi boxplot, perbedaan yang sangat nyata antara Asia, Eropa, dan Oseania mengindikasikan bahwa Hβ‚€ kemungkinan besar akan ditolak pada tingkat signifikansi Ξ± = 0,05.
Bab VII

Statistik Deskriptif: Mean, Median, Modus, Q1, Q3, Range, Varians, Std Dev

Statistik deskriptif merangkum karakteristik utama dari suatu kumpulan data menggunakan ukuran numerik.

Tabel berikut menyajikan perhitungan lengkap statistik deskriptif untuk 4 variabel numerik utama di Indonesia selama periode 1990–2019 (n = 30 tahun).

Catatan: Data yang digunakan adalah jumlah kematian di Indonesia per tahun, dari 1990 sampai 2019 (30 observasi per variabel).
Ukuran Statistik Kardiovaskular Neoplasms Tuberkulosis Malaria
Mean (Rata-rata)452.900155.756106.5672.489
Median (Nilai Tengah)447.747152.240113.1182.543
Modus (Nilai Terbanyak)*484.000164.000118.0003.000
Q1 (Kuartil 1)342.414121.91292.8131.236
Q3 (Kuartil 3)558.106188.339117.5633.208
Range (Rentang)373.179133.88851.4605.488
Varians14.328.860.1821.590.850.158240.525.7921.909.319
Standar Deviasi119.70339.88515.5091.382

*Modus dihitung dengan pembulatan ke ribuan terdekat karena data kontinu.

πŸ“Š Interpretasi Statistik Deskriptif

πŸ«€ Cardiovascular Diseases:

  • Rata-rata kematian kardiovaskular di Indonesia adalah 452.900 jiwa/tahun dengan standar deviasi 119.703, menunjukkan variabilitas yang cukup besar antar tahun.
  • Mean β‰ˆ Median (452.900 vs 447.747) mengindikasikan distribusi data yang cukup simetris β€” tren kenaikan berlangsung stabil tanpa lonjakan ekstrem.
  • Range 373.179 (dari ~278.302 di 1990 hingga ~651.481 di 2019) mencerminkan pertumbuhan yang signifikan selama 30 tahun.

🦠 Tuberculosis:

  • Median (113.118) > Mean (106.567), sedikit left-skewed, artinya ada beberapa tahun dengan angka yang sangat rendah (terutama tahun-tahun terakhir karena program penanggulangan TB berhasil).
  • Standar deviasi yang relatif kecil (15.509) dibanding mean menunjukkan data yang lebih konsisten.

🦟 Malaria:

  • Nilai rata-rata (2.489) sangat kecil dibanding penyakit lainnya β€” Malaria bukan penyebab kematian dominan di Indonesia secara nasional.
  • IQR = Q3 - Q1 = 3.208 - 1.236 = 1.972, menunjukkan sebaran data yang cukup lebar relatif terhadap mediannya.
πŸ“ Koefisien Variasi (CV) = SD/Mean Γ— 100%
CV Kardiovaskular = 119.703 / 452.900 Γ— 100% = 26,4% (variabilitas sedang)
CV Neoplasms = 39.885 / 155.756 Γ— 100% = 25,6% (variabilitas sedang)
CV Tuberkulosis = 15.509 / 106.567 Γ— 100% = 14,6% (variabilitas rendah β€” data lebih konsisten)
CV Malaria = 1.382 / 2.489 Γ— 100% = 55,5% (variabilitas tinggi β€” fluktuasi besar antar tahun)
Bab VIII

Kesimpulan

Berdasarkan analisis statistik terhadap dataset Cause of Deaths Around the World, dapat ditarik beberapa kesimpulan utama:

  1. Penyakit tidak menular mendominasi β€” Di Indonesia, penyakit kardiovaskular menjadi penyebab kematian terbesar (38%) diikuti kanker (13,4%), mencerminkan transisi epidemiologi dari penyakit menular ke tidak menular.
  2. Tren kematian kanker terus naik β€” Kematian akibat neoplasms di Indonesia meningkat 140% dalam 30 tahun, dari 95.636 (1990) menjadi 229.524 (2019), memerlukan perhatian serius dari sistem kesehatan.
  3. Distribusi data sangat tidak merata β€” Histogram menunjukkan distribusi right-skewed yang ekstrem, di mana sebagian besar negara memiliki angka kematian rendah tetapi beberapa negara berpopulasi besar mendominasi angka global.
  4. Variabilitas antar kawasan signifikan β€” Boxplot menunjukkan perbedaan distribusi yang besar antar kawasan, dengan Asia memiliki variabilitas tertinggi karena heterogenitas populasi dan sistem kesehatan.
  5. Malaria berhasil dikendalikan β€” Koefisien variasi malaria yang tinggi (55,5%) dan tren penurunan mengindikasikan keberhasilan program eliminasi malaria di Indonesia.
Referensi

Daftar Pustaka

  • Banerjee, S. (2022). Cause of Deaths Around the World. Kaggle Dataset. Diakses dari: https://www.kaggle.com/datasets/iamsouravbanerjee/cause-of-deaths-around-the-world
  • GBD 2019 Causes of Death Collaborators. (2020). Global, regional, and national age-sex-specific mortality for 282 causes of death in 195 countries and territories, 1980–2017. The Lancet, 392(10159), 1736–1788.
  • Ritchie, H., Spooner, F., & Roser, M. (2019). Causes of Death. Our World in Data. Diakses dari: https://ourworldindata.org/causes-of-death
  • Institute for Health Metrics and Evaluation (IHME). (2020). Global Burden of Disease Study 2019 (GBD 2019) Results. Seattle: IHME, University of Washington.
  • Triola, M. F. (2018). Elementary Statistics (13th ed.). Pearson Education.
  • Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probability and Statistics for Engineers and Scientists (9th ed.). Pearson Education.
  • R Core Team. (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/
  • Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York.