Dosen Pengampu
Bakti Siregar, M.Sc.,CDS.
Institut Teknologi Sains Bandung
NIM: 52250036
Summary 3 & 8, Basic Visualisasi (Central Tendency), Confidence Intervals, Nonparametric
NIM: 52250038
Summary 2 & 4, Basic Visualisasi (Probability Distribution), Confidence Intervals, Nonparametric
NIM: 52250039
Summary 7 & 9, Basic Visualisasi (Statistical Dispersion), Confidence Intervals, Nonparametric
NIM: 52250042
Summary 5 & 10, Basic Visualisasi (Bar Chart), Statistical Inference, Nonparametric
NIM: 52250045
Summary 1 & 6, Basic Visualisasi (Pie Chart & Line Chart), Statistical Inference, Nonparametric
Permasalahan Statistik Utama
Statistik adalah ilmu tentang cara mengumpulkan, menganalisis, dan menginterpretasi data agar dapat membuat keputusan yang lebih tepat berdasarkan data. Dalam dataset pasien ini, permasalahan statistik utama adalah menganalisis kondisi kesehatan pasien secara menyeluruh serta mengidentifikasi faktor-faktor yang berhubungan dengan status penyakit pasien.
Dataset mencakup variabel umur, jenis kelamin, tekanan darah, BMI, kategori BMI, jumlah kunjungan rumah sakit, dan status penyakit, sehingga analisis difokuskan pada bagaimana karakteristik tersebut berkaitan dengan variasi status penyakit pasien, seperti kondisi sehat, pra-hipertensi, dan hipertensi, serta pola kesehatan pasien yang dapat terlihat dari data yang ada.
Jenis Statistik
Jenis statistik yang digunakan dalam analisis dataset ini adalah statistik deskriptif dan statistik inferensial. Statistik deskriptif digunakan untuk merangkum dan menggambarkan data pasien, seperti rata-rata umur, tekanan darah, dan BMI, serta distribusi jenis kelamin dan status penyakit. Sementara itu, statistik inferensial digunakan untuk menguji hubungan atau perbedaan antar variabel, misalnya hubungan antara BMI atau umur dengan status penyakit, sehingga dapat ditarik kesimpulan berdasarkan data sampel pasien.
Data Exploration
Data Exploration
Eksplorasi data dilakukan untuk memahami karakteristik awal data pasien sebelum dilakukan analisis statistik lanjutan. Pada tahap ini, fokus utama adalah mengamati kecenderungan nilai pusat, sebaran data, serta pola umum yang muncul pada variabel numerik.
Ringkasan Statistik Variabel Numerik
Variabel numerik utama dalam dataset meliputi Umur, Tekanan Darah, BMI, dan Jumlah Kunjungan Rumah Sakit. Hasil ringkasan statistik menunjukkan bahwa:
Pola Awal dan Anomali
Sebagian besar data terkonsentrasi di sekitar nilai tengah, terutama pada variabel umur dan jumlah kunjungan rumah sakit, sehingga pola distribusi terlihat cukup stabil. Namun, terdapat beberapa pasien dengan nilai umur, BMI, atau tekanan darah yang relatif tinggi dibandingkan mayoritas data. Nilai-nilai tersebut berpotensi merupakan outlier dan perlu diperhatikan karena dapat memengaruhi hasil analisis statistik pada tahap selanjutnya.
Basic Visualizations
Berdasarkan karakteristik dataset pasien, ini adalah beberapa visualisasi yang paling relevan:Pie Chart: Distribusi Status Penyakit Pasien
Menampilkan proporsi Status_Penyakit (Sehat, Hipertensi, Pra-Hipertensi). Efektif untuk melihat kategori mana yang mendominasi dan membantu identifikasi distribusi kondisi kesehatan pasien secara keseluruhan. Visual sederhana dan mudah dipahami untuk data kategorikal.Bar Chart: Jumlah Pasien Berdasarkan Kategori BMI
Membandingkan frekuensi antar kategori Kategori_BMI (Kurus, Normal, Overweight, Obesitas). Tinggi bar memudahkan identifikasi kategori dengan jumlah pasien terbanyak. Berguna untuk analisis kesehatan populasi dan perencanaan program intervensi gizi.
Line Chart: Tren Kunjungan Rumah Sakit Berdasarkan Waktu
Menampilkan tren Jumlah_Kunjungan_RS sepanjang waktu berdasarkan tanggal. Membantu identifikasi pola kunjungan (peningkatan, penurunan, fluktuasi) dan mendukung perencanaan kapasitas serta alokasi sumber daya rumah sakit.
Histogram: Distribusi Umur Pasien
Histogram digunakan untuk menampilkan distribusi umur pasien dengan menunjukkan frekuensi pada setiap rentang umur. Visualisasi ini memudahkan melihat sebaran dan pola data umur secara keseluruhan. Histogram dipilih karena umur merupakan variabel numerik kontinu, sehingga paling tepat dianalisis menggunakan distribusi frekuensi untuk memahami karakteristik dasar data sebelum analisis statistik lanjutan.
Central Tendency
Central Tendency
Central tendency merupakan ukuran statistik yang digunakan untuk mewakili nilai pusat dari suatu kumpulan data. Tiga ukuran utama dalam central tendency yaitu mean (rata-rata), median (nilai tengah setelah data diurutkan), dan modus (nilai yang paling sering muncul).
Ketiga ukuran ini digunakan untuk menggambarkan kecenderungan pusat data, membantu memahami karakteristik umum data, serta memudahkan perbandingan antar variabel numerik.
1. Variabel Umur
Mean (Rata-rata) \[ \bar{x} = \frac{\sum \text{Umur}}{n} = \frac{\text{13.563}}{300} \approx 45,21 \]
Median (Nilai Tengah) \[ \text{Median} = \frac{x_{150} + x_{151}}{2} \] \[ \text{Median} = \frac{45 + 45}{2} = 45 \]
Modus (Nilai yang Paling Sering Muncul)
\[ \text{Modus} = 53 \text{ tahun} \]2. Variabel BMI
Mean (Rata-rata) \[ \bar{x} = \frac{\sum \text{BMI}}{n} = \frac{\text{7.767}}{300} \approx 26,11 \]
Median (Nilai Tengah) \[ \text{Median} = \frac{x_{150} + x_{151}}{2} \] \[ \text{Median} = \frac{25,9 + 25,9}{2} = 25,9 \]
Modus (Nilai yang Paling Sering Muncul) \[ \text{Modus} \approx 22,4 \]
Perbandingan dan Interpretasi
Statistical Dispersion
Statistical Dispersion
Statistical dispersion adalah ukuran untuk menggambarkan tingkat penyebaran data terhadap nilai pusatnya. Ukuran ini membantu menentukan apakah data bersifat homogen atau heterogen, sehingga analisis tidak hanya bergantung pada nilai rata-rata.
Ukuran dispersion yang umum digunakan meliputi range, variance, dan standard deviation, yang masing-masing menunjukkan rentang data, tingkat variasi, dan besar penyimpangan data dari nilai pusat.
Rumus Statistical Dispersion
1️⃣Range adalah eselisih antara nilai terbesar dan nilai terkecil dalam suatu data.
\[ \text{Range} = X_{\text{max}} - X_{\text{min}} \]
2️⃣Variance (Sampel) adalah rata-rata kuadrat selisih setiap data terhadap nilai rata-rata sampel.
\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n - 1} \]
3️⃣Standard Deviation adalah akar dari variance dan memiliki satuan yang sama dengan data aslinya.
\[ s = \sqrt{s^2} \]Perhitungan Statistical Dispersion (Variabel Umur)
Diketahui: - Umur minimum = 18
- Umur maksimum = 74
- Mean umur (\(\bar{x}\)) = 45,3
- Jumlah data (\(n\)) = 100
1️⃣ Range
\[ \text{Range} = 74 - 18 = 56 \]
2️⃣ Variance
\[ s^2 = 264{,}47 \]
3️⃣ Standard Deviation
\[ s = \sqrt{264{,}47} = 16{,}26 \]Interpretasi
Nilai range yang besar, yaitu 56, menunjukkan bahwa data umur tersebar dalam rentang usia yang luas. Nilai variance dan standard deviation yang relatif tinggi menandakan bahwa umur pasien memiliki variasi yang cukup besar dan tidak terkonsentrasi di sekitar nilai rata-rata.
Dengan demikian, data umur dapat dikatakan bersifat heterogen, sehingga variasi ini penting untuk dipertimbangkan dalam analisis statistik lanjutan, seperti pengelompokan data, analisis regresi, maupun pengujian hipotesis.
Essentials of Probability
Pendahuluan
Probability (peluang) adalah konsep dasar dalam statistika yang digunakan untuk mengukur kemungkinan terjadinya suatu kejadian dalam ruang sampel. Nilai peluang berada antara 0 dan 1, di mana 0 menunjukkan kejadian yang mustahil dan 1 menunjukkan kejadian yang pasti.
Dalam analisis data, peluang digunakan untuk menilai kemungkinan suatu kondisi terjadi dengan membandingkan jumlah kejadian tertentu terhadap total pengamatan.
Event
Satu event yang relevan dari dataset pasien adalah pasien memiliki status penyakit hipertensi. Event ini dipilih karena status penyakit merupakan variabel utama yang menggambarkan kondisi kesehatan pasien dan menjadi fokus analisis dalam dataset.
Peluang
\[ A = \text{Pasien memiliki status penyakit Hipertensi} \]
Jumlah seluruh pasien dalam dataset adalah sebanyak \(300\) pasien, sedangkan jumlah pasien dengan status penyakit hipertensi adalah \(78\) pasien. Peluang terjadinya event \(A\) dihitung dengan rumus: \[ P(A) = \frac{\text{Jumlah pasien hipertensi}}{\text{Jumlah seluruh pasien}} \] \[ P(A) = \frac{78}{300} = 0{,}26 \]
Interpretasi
Dari total 300 pasien dalam dataset, sekitar 26% pasien memiliki status penyakit hipertensi, sehingga peluang terjadinya event pasien mengalami hipertensi adalah 0,26.
Nilai peluang ini menunjukkan bahwa kemungkinan seorang pasien yang dipilih secara acak dari dataset mengalami hipertensi adalah sebesar 26%. Dengan kata lain, sekitar dua hingga tiga dari setiap sepuluh pasien dalam dataset memiliki kondisi hipertensi, yang menunjukkan bahwa hipertensi merupakan masalah kesehatan yang cukup signifikan pada data pasien tersebut.
Probability Distributions
Distribusi probabilitas merupakan konsep statistik yang digunakan untuk menggambarkan bagaimana peluang suatu kejadian atau nilai tersebar pada seluruh kemungkinan hasil dari sebuah variabel acak, baik diskret maupun kontinu. Konsep ini menjadi dasar penting dalam statistik karena digunakan untuk memahami perilaku data, menghitung probabilitas, serta membangun distribusi sampel dan distribusi sampling.
Variabel acak diskret memiliki nilai-nilai yang terpisah dan terbatas, sedangkan variabel acak kontinu dapat mengambil nilai apa pun dalam suatu interval pada garis bilangan riil. Oleh karena itu, pada variabel kontinu probabilitas tidak dinyatakan pada satu nilai tertentu, melainkan dalam bentuk fungsi densitas probabilitas (Probability Density Function / PDF) dan dihitung pada suatu rentang nilai. Pemahaman mengenai distribusi probabilitas juga berkaitan erat dengan Central Limit Theorem, yang menyatakan bahwa distribusi statistik, seperti rata-rata sampel, akan mendekati distribusi normal apabila ukuran sampel cukup besar, terlepas dari bentuk distribusi populasi asalnya.
Sebagai penerapan konsep distribusi probabilitas, dilakukan visualisasi distribusi untuk salah satu variabel numerik, yaitu umur pasien, menggunakan histogram. Histogram tersebut menampilkan sebaran frekuensi umur pasien ke dalam beberapa interval kelas. Secara deskriptif, distribusi umur terlihat menyebar dari usia muda hingga usia lanjut, dengan satu puncak utama yang menunjukkan umur yang paling sering muncul. Bentuk distribusi bersifat unimodal dan relatif menyebar, tanpa adanya lonjakan ekstrem pada satu nilai tertentu, sehingga mencerminkan variasi data numerik yang cukup beragam dalam sampel.
Pengantar CI
Confidence Interval (CI) adalah rentang nilai yang digunakan untuk memperkirakan parameter populasi dari data sampel. CI 95% berarti kita 95% yakin rata-rata populasi berada di dalam interval tersebut. Dalam konteks medis, CI membantu menilai apakah rata-rata tekanan darah pasien berbeda dari standar normal.
Pertanyaan Penelitian
Apakah rata-rata tekanan darah pasien berbeda signifikan dari nilai
normal populasi 120 mmHg?
Perhitungan Standard Error (SE)
\[ SE = \frac{s}{\sqrt{n}} = \frac{19,21}{\sqrt{300}} \approx 1,109 \]
\[ ME = t_{0,025, 299} \times SE = 1,968 \times 1,109 \approx 2,182 \]
Confidence Interval 95%Interpretasi
Statistical Inference
Statistical inference merupakan proses penarikan kesimpulan mengenai populasi berdasarkan informasi yang diperoleh dari sampel. Pada data pasien ini, inferensi statistik digunakan untuk menarik kesimpulan tentang karakteristik kesehatan populasi pasien, seperti tekanan darah atau umur, berdasarkan data sampel yang tersedia. Proses ini dilakukan melalui pengujian hipotesis yang melibatkan perumusan hipotesis nol, hipotesis alternatif, pemilihan uji statistik yang sesuai, dan pengambilan keputusan berdasarkan nilai p.
Nonparametric Methods
Metode Statistik Nonparametrik
Definisi: Analisis data yang tidak memerlukan asumsi
distribusi tertentu (distribution-free), cocok untuk data kecil,
ordinal/nominal, atau mengandung outlier.
Dasar Teoritis: Berbasis peringkat, tanda, atau
frekuensi, bukan mean/varians → lebih robust dibanding metode
parametrik.
Kesimpulan: Stabil untuk data tidak ideal, tapi daya uji lebih rendah bila asumsi parametrik terpenuhi.
Metode: Digunakan karena tidak memerlukan asumsi normal, untuk menguji median tekanan darah terhadap 120 mmHg.
Perhitungan Konseptual: Hitung selisih tiap pasien di = Xi − 120, ambil |di|, urutkan & beri ranking, kembalikan tanda (+/−), jumlahkan ranking positif & negatif → statistik uji W.
Hipotesis: H₀: Median = 120 mmHg, H₁: Median ≠ 120 mmHg
Hasil: W = 15.682, p-value = 0,00000456
Kesimpulan: Median tekanan darah pasien berbeda signifikan dari 120 mmHg, konsisten dengan Confidence Interval dan uji t satu sampel.