Halaman Judul

Tugas Probabilitas & Statistika

Analisis Penyebab Kematian
di Seluruh Dunia

Eksplorasi data statistik kematian global dari 204 negara selama tiga dekade menggunakan berbagai teknik visualisasi dan analisis statistik.

204
Negara/Wilayah
30
Tahun (1990–2019)
31
Penyebab Kematian
6.120
Total Data

Sumber Data: Our World in Data β€” Global Burden of Disease Study 2019

Link: kaggle.com/datasets/iamsouravbanerjee/cause-of-deaths-around-the-world

Mata Kuliah: Probabilitas dan Statistika


Bab I β€” Pendahuluan

Kematian adalah fenomena universal yang dapat dikaji secara ilmiah untuk memahami pola kesehatan populasi global.

Penyakit penyebab kematian merupakan salah satu indikator penting dalam menilai kualitas kesehatan suatu negara. Dengan memahami pola penyebab kematian, pemerintah dan lembaga kesehatan dapat merumuskan kebijakan yang lebih tepat sasaran untuk meningkatkan angka harapan hidup masyarakat.

Dataset yang digunakan dalam analisis ini bersumber dari Our World in Data yang merangkum data Global Burden of Disease (GBD) Study 2019 yang diterbitkan oleh Institute for Health Metrics and Evaluation (IHME). Data ini mencakup 204 negara/wilayah dari tahun 1990 hingga 2019 dengan 31 kategori penyebab kematian.

Tujuan Analisis:
Melakukan eksplorasi dan analisis statistik terhadap data penyebab kematian global, dengan fokus khusus pada Indonesia, menggunakan berbagai teknik visualisasi data dan ukuran statistik deskriptif maupun inferensial.

Identifikasi Variabel

Nama VariabelJenis DataSkalaKeterangan
Country/TerritoryKategorikNominalNama negara/wilayah (204 kategori)
CodeKategorikNominalKode ISO negara (misal: IDN = Indonesia)
YearNumerikIntervalTahun pengamatan (1990–2019)
Cardiovascular DiseasesNumerikRasioJumlah kematian akibat penyakit kardiovaskular
NeoplasmsNumerikRasioJumlah kematian akibat kanker/tumor
TuberculosisNumerikRasioJumlah kematian akibat tuberkulosis
MalariaNumerikRasioJumlah kematian akibat malaria
... dan 27 variabel numerik lainnya
πŸ“Œ Catatan Skala Data: Variabel Country/Territory dan Code merupakan data kategorik nominal. Variabel jumlah kematian merupakan data numerik rasio karena memiliki nilai nol mutlak yang bermakna.

Bab II β€” Grafik 1: Pie Chart

Proporsi Penyebab Kematian di Indonesia (2019)

Pie chart digunakan untuk menampilkan proporsi/persentase dari setiap kategori terhadap keseluruhan data.

Grafik lingkaran berikut menunjukkan proporsi 7 penyebab kematian terbesar di Indonesia pada tahun 2019, dengan total 1.713.143 kematian.

651.481
Kardiovaskular
229.524
Neoplasms
126.348
Digestif
106.333
Diabetes

πŸ“Š Interpretasi Pie Chart

  • Penyakit Kardiovaskular mendominasi sebagai penyebab kematian terbesar di Indonesia pada tahun 2019, menyumbang sekitar 38,0% dari total kematian.
  • Neoplasms (kanker) menempati posisi kedua dengan proporsi 13,4%, setara dengan 229.524 jiwa per tahun.
  • Penyakit Digestif berada di posisi ketiga dengan 7,4%.
  • Tiga penyebab teratas secara bersama-sama menyumbang hampir 59% dari total kematian.
πŸ“ Statistik Inferensia: Dominasi penyakit kardiovaskular (38%) memberikan indikasi kuat bahwa penyakit tidak menular (PTM) telah menjadi beban kesehatan utama Indonesia, memerlukan program pencegahan penyakit jantung yang serius melalui pengendalian faktor risiko seperti hipertensi, diabetes, dan gaya hidup sedentari.

Bab III β€” Grafik 2: Bar Chart

10 Negara dengan Total Kematian Tertinggi (2019)

Bar chart (diagram batang) digunakan untuk membandingkan nilai antar kategori secara visual.

Grafik batang berikut membandingkan total kematian dari seluruh penyebab di 10 negara dengan angka kematian tertinggi pada tahun 2019.

πŸ“Š Interpretasi Bar Chart

  • China mencatatkan total kematian tertinggi sebesar 10,44 juta jiwa pada 2019, diikuti India dengan 8,81 juta jiwa.
  • Indonesia berada di posisi ke-5 dengan total 1,71 juta kematian, konsisten dengan posisinya sebagai negara berpenduduk ke-4 terbesar di dunia.
  • Terdapat kesenjangan yang sangat besar antara China/India dan negara-negara lainnya. China memiliki total kematian hampir 4Γ— lebih tinggi dibanding Amerika Serikat.
  • Amerika Serikat, Rusia, dan Jepang masuk 10 besar meskipun populasinya jauh lebih kecil dari Indonesia.
πŸ“ Statistik Inferensia: Angka kematian absolut dipengaruhi kuat oleh ukuran populasi. Untuk perbandingan yang lebih adil, diperlukan metrik Crude Death Rate per 100.000 penduduk. Tingginya angka kematian di negara berpendapatan menengah-bawah mengindikasikan hubungan antara pendapatan per kapita dengan akses layanan kesehatan.

Bab IV β€” Grafik 3: Histogram

Distribusi Kematian Akibat Penyakit Kardiovaskular (2019)

Histogram digunakan untuk melihat distribusi frekuensi dari data numerik kontinu, menunjukkan bentuk sebaran data.

Histogram berikut menggambarkan sebaran jumlah kematian akibat penyakit kardiovaskular di 204 negara pada tahun 2019.

90.942
Mean
15.595
Median
15.081
Q1
58.219
Q3
383.608
Std Dev

πŸ“Š Interpretasi Histogram

  • Histogram menunjukkan distribusi yang sangat miring ke kanan (right-skewed). Sebagian besar negara memiliki jumlah kematian yang rendah, namun ada beberapa negara dengan jumlah kematian yang sangat tinggi.
  • Lebih dari 60% negara memiliki jumlah kematian kardiovaskular di bawah 50.000 jiwa per tahun.
  • Mean (90.942) jauh lebih besar dari Median (15.595) β€” ciri khas distribusi right-skewed. Median lebih representatif sebagai ukuran pusat.
  • Standar deviasi yang sangat besar (383.608) menunjukkan variabilitas data yang ekstrem antar negara.
πŸ“ Statistik Inferensia: Distribusi right-skewed mengindikasikan bahwa pengujian hipotesis parametrik (t-test) sebaiknya dilakukan hati-hati karena asumsi normalitas tidak terpenuhi. Uji non-parametrik (Mann-Whitney U test) atau transformasi logaritmik lebih direkomendasikan. Rasio mean/median β‰ˆ 5,8Γ— mengkonfirmasi adanya outlier yang signifikan.

Bab V β€” Grafik 4: Density Plot

Tren Kematian Akibat Neoplasms di Indonesia (1990–2019)

Density plot adalah versi halus dari histogram yang menampilkan estimasi distribusi probabilitas kontinu dari data.

Dalam analisis ini, density plot divisualisasikan sebagai grafik tren dengan area terisi (area chart) untuk menunjukkan evolusi jumlah kematian akibat neoplasms (kanker) di Indonesia dari tahun 1990 hingga 2019.

155.756
Mean
152.240
Median
164.000
Modus (approx)
39.885
Std Dev

πŸ“Š Interpretasi Density Plot

  • Tren kematian akibat kanker di Indonesia menunjukkan peningkatan yang konsisten dan signifikan selama 30 tahun, dari 95.636 jiwa (1990) menjadi 229.524 jiwa (2019) β€” meningkat ~140%.
  • Kurva yang terus naik menunjukkan bahwa distribusi data bergeser ke nilai lebih tinggi seiring waktu.
  • Mean (155.756) dan Median (152.240) yang berdekatan menunjukkan distribusi yang cukup simetris tanpa outlier ekstrem.
  • Laju pertumbuhan semakin cepat setelah tahun 2000, berkorelasi dengan peningkatan prevalensi faktor risiko kanker.
πŸ“ Statistik Inferensia: Kenaikan 140% dalam 30 tahun menunjukkan tren yang signifikan secara statistik. Regresi linear sederhana mengindikasikan rata-rata kenaikan sekitar Β±4.500 kematian per tahun. Proyeksi memperkirakan kematian kanker di Indonesia bisa mencapai 280.000–300.000 pada tahun 2025 tanpa intervensi signifikan.

Bab VI β€” Grafik 5: Boxplot

Distribusi Kematian Kardiovaskular per Kawasan (2019)

Boxplot (diagram kotak) merangkum distribusi data melalui 5 ukuran sekaligus: minimum, Q1, median, Q3, dan maksimum.

Boxplot berikut membandingkan distribusi jumlah kematian akibat penyakit kardiovaskular di berbagai kawasan dunia pada tahun 2019.

KawasanQ1Median (Q2)Q3IQRRata-rata
Asia58.824138.139324.764265.940473.496
Eropa32.99855.921188.113155.115167.491
Amerika15.01527.14072.62957.614101.214
Afrika18.15728.14954.48936.33241.813
Oseania8692.64215.54014.67112.205

πŸ“Š Interpretasi Boxplot

  • Asia memiliki median dan IQR tertinggi, mencerminkan keberagaman yang besar. Rata-rata Asia (473.496) jauh di atas median (138.139) karena ditarik oleh outlier besar (China, India).
  • Eropa memiliki distribusi lebih konsisten dengan IQR yang lebih sempit, mencerminkan sistem kesehatan yang lebih homogen.
  • Afrika memiliki median rendah bukan karena kondisi kesehatan lebih baik, melainkan karena populasi negara-negaranya umumnya lebih kecil.
  • Oseania memiliki nilai terendah karena sebagian besar terdiri dari negara kepulauan kecil.
πŸ“ Statistik Inferensia: Perbedaan distribusi antar kawasan dapat diuji menggunakan Kruskal-Wallis Test (non-parametrik ANOVA). Berdasarkan visualisasi, perbedaan yang sangat nyata antara Asia, Eropa, dan Oseania mengindikasikan Hβ‚€ (tidak ada perbedaan signifikan) kemungkinan besar akan ditolak pada Ξ± = 0,05.

Bab VII β€” Statistik Deskriptif

Mean, Median, Modus, Q1, Q3, Range, Varians, Std Dev

Statistik deskriptif merangkum karakteristik utama dari suatu kumpulan data menggunakan ukuran numerik.

Tabel berikut menyajikan perhitungan lengkap statistik deskriptif untuk 4 variabel numerik utama di Indonesia selama periode 1990–2019 (n = 30 tahun).

Catatan: Data yang digunakan adalah jumlah kematian di Indonesia per tahun, dari 1990 sampai 2019 (30 observasi per variabel).
Ukuran Statistik Kardiovaskular Neoplasms Tuberkulosis Malaria
Mean (Rata-rata)452.900155.756106.5672.489
Median (Nilai Tengah)447.747152.240113.1182.543
Modus (Nilai Terbanyak)*484.000164.000118.0003.000
Q1 (Kuartil 1)342.414121.91292.8131.236
Q3 (Kuartil 3)558.106188.339117.5633.208
Range (Rentang)373.179133.88851.4605.488
Varians14.328.860.1821.590.850.158240.525.7921.909.319
Standar Deviasi119.70339.88515.5091.382

*Modus dihitung dengan pembulatan ke ribuan terdekat karena data kontinu.

πŸ“Š Interpretasi Statistik Deskriptif

πŸ«€ Cardiovascular Diseases:

  • Rata-rata kematian kardiovaskular 452.900 jiwa/tahun dengan SD 119.703, menunjukkan variabilitas cukup besar antar tahun.
  • Mean β‰ˆ Median mengindikasikan distribusi yang cukup simetris β€” tren kenaikan berlangsung stabil.
  • Range 373.179 (dari ~278.302 di 1990 hingga ~651.481 di 2019) mencerminkan pertumbuhan signifikan selama 30 tahun.

🦠 Tuberculosis:

  • Median (113.118) > Mean (106.567), sedikit left-skewed β€” ada beberapa tahun dengan angka sangat rendah karena program penanggulangan TB berhasil.
  • SD yang relatif kecil (15.509) menunjukkan data yang lebih konsisten.

🦟 Malaria:

  • Rata-rata (2.489) sangat kecil β€” Malaria bukan penyebab kematian dominan di Indonesia secara nasional.
  • IQR = 3.208 - 1.236 = 1.972, menunjukkan sebaran cukup lebar relatif terhadap mediannya.
πŸ“ Koefisien Variasi (CV) = SD/Mean Γ— 100%
CV Kardiovaskular = 119.703 / 452.900 Γ— 100% = 26,4% (variabilitas sedang)
CV Neoplasms = 39.885 / 155.756 Γ— 100% = 25,6% (variabilitas sedang)
CV Tuberkulosis = 15.509 / 106.567 Γ— 100% = 14,6% (variabilitas rendah)
CV Malaria = 1.382 / 2.489 Γ— 100% = 55,5% (variabilitas tinggi β€” fluktuasi besar antar tahun)

Bab VIII β€” Kesimpulan

Berdasarkan analisis statistik terhadap dataset Cause of Deaths Around the World, dapat ditarik beberapa kesimpulan utama:

  1. Penyakit tidak menular mendominasi β€” Penyakit kardiovaskular menjadi penyebab kematian terbesar di Indonesia (38%) diikuti kanker (13,4%), mencerminkan transisi epidemiologi dari penyakit menular ke tidak menular.
  2. Tren kematian kanker terus naik β€” Meningkat 140% dalam 30 tahun, dari 95.636 (1990) menjadi 229.524 (2019), memerlukan perhatian serius dari sistem kesehatan.
  3. Distribusi data sangat tidak merata β€” Histogram menunjukkan distribusi right-skewed yang ekstrem, di mana sebagian besar negara memiliki angka kematian rendah tetapi beberapa negara berpopulasi besar mendominasi angka global.
  4. Variabilitas antar kawasan signifikan β€” Boxplot menunjukkan perbedaan distribusi yang besar antar kawasan, dengan Asia memiliki variabilitas tertinggi karena heterogenitas populasi dan sistem kesehatan.
  5. Malaria berhasil dikendalikan β€” CV malaria yang tinggi (55,5%) dan tren penurunan mengindikasikan keberhasilan program eliminasi malaria di Indonesia.

Referensi

  • Banerjee, S. (2022). Cause of Deaths Around the World. Kaggle Dataset. https://www.kaggle.com/datasets/iamsouravbanerjee/cause-of-deaths-around-the-world
  • GBD 2019 Causes of Death Collaborators. (2020). Global, regional, and national age-sex-specific mortality for 282 causes of death. The Lancet, 392(10159), 1736–1788.
  • Ritchie, H., Spooner, F., & Roser, M. (2019). Causes of Death. Our World in Data. https://ourworldindata.org/causes-of-death
  • Institute for Health Metrics and Evaluation (IHME). (2020). Global Burden of Disease Study 2019 Results. Seattle: IHME, University of Washington.
  • Triola, M. F. (2018). Elementary Statistics (13th ed.). Pearson Education.
  • Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probability and Statistics for Engineers and Scientists (9th ed.). Pearson Education.
  • R Core Team. (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. https://www.R-project.org/
  • Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York.