Analisis data kategorik merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis data yang berbentuk kategori atau klasifikasi. Dalam banyak penelitian di bidang kesehatan, sosial, ekonomi, maupun ilmu lingkungan, peneliti sering kali berhadapan dengan data yang tidak berbentuk angka kontinu, tetapi berupa kategori seperti jenis kelamin, status merokok, tingkat pendidikan, atau status penyakit.
Metode analisis yang digunakan untuk data kategorik berbeda dengan metode analisis untuk data numerik. Hal ini disebabkan karena variabel kategorik tidak memiliki makna jarak matematis seperti variabel kuantitatif. Oleh karena itu, analisis data kategorik lebih menekankan pada hubungan antar kategori serta probabilitas kemunculan suatu kategori tertentu.
Dalam laporan ini akan dibahas secara sistematis mengenai konsep dasar analisis data kategorik, tabel kontingensi, ukuran asosiasi, contoh perhitungan manual, serta implementasi analisis menggunakan perangkat lunak R.
Analisis data kategorik adalah metode statistika yang digunakan untuk menganalisis data yang variabelnya bersifat kategorikal atau nominal dan ordinal. Variabel kategorikal merupakan variabel yang nilainya berupa label atau kategori yang tidak memiliki makna numerik langsung.
Secara umum, tujuan analisis data kategorik meliputi:
Metode yang umum digunakan dalam analisis data kategorik antara lain:
Variabel kategori memiliki beberapa karakteristik khusus, yaitu:
Nilai pada variabel kategorik biasanya berupa label seperti:
Label tersebut tidak dapat dioperasikan menggunakan operasi matematika biasa seperti penjumlahan atau perkalian.
Variabel kategorik dapat dibagi menjadi dua jenis utama:
Variabel Nominal
Kategori tidak memiliki urutan tertentu.
Contoh: - jenis kelamin - agama - status pernikahan
Variabel Ordinal
Kategori memiliki urutan tetapi tidak memiliki jarak numerik yang
jelas.
Contoh: - tingkat pendidikan - tingkat kepuasan - tingkat keparahan penyakit
Analisis data kategorik sering menggunakan jumlah kejadian pada setiap kategori. Oleh karena itu data biasanya disajikan dalam bentuk tabel frekuensi atau tabel kontingensi.
Analisis data kategorik banyak digunakan dalam berbagai bidang penelitian.
Contoh penelitian:
Hubungan antara kebiasaan merokok dan kejadian kanker paru-paru.
Variabel yang digunakan:
Contoh penelitian:
Hubungan antara tingkat pendidikan dan status pekerjaan.
Variabel:
Contoh penelitian:
Hubungan antara penggunaan sistem pembayaran digital dan perilaku konsumsi.
Variabel:
Tabel kontingensi adalah tabel yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategorikal secara simultan.
Tabel kontingensi menunjukkan bagaimana kategori dari satu variabel berhubungan dengan kategori variabel lainnya.
Tabel kontingensi paling sederhana adalah tabel 2 × 2.
Contoh tabel:
| Penyakit | Tidak Penyakit | Total | |
|---|---|---|---|
| Terpapar | a | b | a+b |
| Tidak Terpapar | c | d | c+d |
| Total | a+c | b+d | n |
Struktur tabel kontingensi terdiri dari:
Setiap sel berisi jumlah observasi yang termasuk dalam kombinasi kategori tertentu.
Joint distribution merupakan probabilitas terjadinya dua kejadian secara bersamaan.
Secara matematis:
\[ P(A,B) = \frac{n_{AB}}{n} \]
di mana:
Sebagai contoh:
\[ P(\text{Merokok dan Kanker}) = \frac{a}{n} \]
Marginal distribution adalah probabilitas dari satu variabel tanpa memperhatikan variabel lainnya.
Contoh:
\[ P(\text{Merokok}) = \frac{a+b}{n} \]
\[ P(\text{Kanker}) = \frac{a+c}{n} \]
Distribusi marginal diperoleh dari jumlah baris atau jumlah kolom.
Conditional probability adalah probabilitas suatu kejadian dengan syarat kejadian lain telah terjadi.
Secara matematis:
\[ P(A|B) = \frac{P(A,B)}{P(B)} \]
Contoh:
Probabilitas kanker pada perokok:
\[ P(\text{Kanker | Merokok}) = \frac{a}{a+b} \]
Probabilitas kanker pada non-perokok:
\[ P(\text{Kanker | Tidak Merokok}) = \frac{c}{c+d} \]
Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategorik.
Odds merupakan perbandingan antara peluang terjadinya suatu kejadian dengan peluang tidak terjadinya kejadian tersebut.
Secara matematis:
\[ Odds = \frac{p}{1-p} \]
Jika menggunakan tabel kontingensi:
\[ Odds_{terpapar} = \frac{a}{b} \]
\[ Odds_{tidak\ terpapar} = \frac{c}{d} \]
Odds Ratio (OR) digunakan untuk membandingkan odds antara dua kelompok.
Rumus:
\[ OR = \frac{a/b}{c/d} \]
atau dapat dituliskan sebagai
\[ OR = \frac{ad}{bc} \]
Relative Risk (RR) membandingkan probabilitas kejadian pada kelompok terpapar dan tidak terpapar.
Rumus:
\[ RR = \frac{P(\text{Kejadian | Terpapar})}{P(\text{Kejadian | Tidak Terpapar})} \]
Jika menggunakan tabel kontingensi:
\[ RR = \frac{a/(a+b)}{c/(c+d)} \]
Misalkan dilakukan penelitian mengenai hubungan antara merokok dan kanker paru-paru.
Data yang diperoleh:
| Kanker | Tidak Kanker | |
|---|---|---|
| Merokok | 60 | 40 |
| Tidak Merokok | 20 | 80 |
Sehingga:
\[ a = 60, \quad b = 40, \quad c = 20, \quad d = 80 \]
Total observasi:
\[ n = 200 \]
Probabilitas kanker pada perokok:
\[ P(Kanker | Merokok) = \frac{60}{100} = 0.6 \]
Probabilitas kanker pada non-perokok:
\[ P(Kanker | Tidak Merokok) = \frac{20}{100} = 0.2 \]
Odds kanker pada perokok:
\[ Odds_1 = \frac{60}{40} = 1.5 \]
Odds kanker pada non-perokok:
\[ Odds_0 = \frac{20}{80} = 0.25 \]
\[ OR = \frac{ad}{bc} \]
\[ OR = \frac{(60)(80)}{(40)(20)} \]
\[ OR = \frac{4800}{800} \]
\[ OR = 6 \]
Interpretasi:
Perokok memiliki peluang terkena kanker paru-paru 6 kali lebih besar dibandingkan non-perokok.
Analisis yang sama dapat dilakukan menggunakan perangkat lunak R.
Dari hasil perhitungan diperoleh:
Hal ini menunjukkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru-paru.
Secara substantif, hasil ini menunjukkan bahwa individu yang merokok memiliki risiko yang jauh lebih tinggi untuk mengalami kanker paru-paru dibandingkan individu yang tidak merokok.