1. Definisi Analisis Data Kategori

Analisis data kategori adalah cabang statistika yang digunakan untuk menganalisis variabel yang berbentuk kategori atau klasifikasi.

Karakteristik Variabel Kategori:

  • Variabel kategori tidak memiliki makna numerik langsung, melainkan menunjukkan keanggotaan suatu objek pada kelompok tertentu.
  • Terdapat dua jenis utama: Nominal (tidak memiliki urutan, contoh: jenis kelamin) dan Ordinal (memiliki urutan, contoh: tingkat pendidikan).

Contoh Penerapan:

Dalam penelitian kesehatan, metode ini sering digunakan untuk melihat hubungan antara kebiasaan gaya hidup (seperti merokok) dengan status penyakit (seperti kanker). Selain itu, bidang sosial menggunakannya untuk menganalisis tingkat kepuasan atau status ekonomi masyarakat.


2. Tabel Kontingensi

1. Definisi Tabel Kontingensi

Tabel kontingensi adalah tabel yang menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan untuk melihat hubungan antar kategori tersebut.

2. Struktur Tabel Kontingensi 2 × 2

Contoh struktur hubungan antara variabel baris (X) dan kolom (Y):

Kolom 1 (j=1) Kolom 2 (j=2) Total
Baris 1 (i=1) \(n_{11}\) \(n_{12}\) \(n_{1.}\)
Baris 2 (i=2) \(n_{21}\) \(n_{22}\) \(n_{2.}\)
Total \(n_{.1}\) \(n_{.2}\) \(n\)

Keterangan Notasi:

  • \(n_{ij}\) : Jumlah observasi pada baris \(i\) dan kolom \(j\).
  • \(n_{i.}\) : Total marginal baris (jumlah seluruh observasi di baris \(i\)).
  • \(n_{.j}\) : Total marginal kolom (jumlah seluruh observasi di kolom \(j\)).
  • \(n\) : Total keseluruhan sampel.

3. Konsep Distribusi

Berdasarkan struktur tabel di atas, terdapat beberapa konsep peluang utama:

  • Joint Distribution: Probabilitas elemen baris \(i\) dan kolom \(j\) terjadi bersamaan. \[P_{ij} = \frac{n_{ij}}{n}\]
  • Marginal Distribution: Probabilitas satu variabel tanpa memperhatikan variabel lain.
    • Baris: \(P_{i.} = \sum_{j} P_{ij}\)
    • Kolom: \(P_{.j} = \sum_{i} P_{ij}\)
  • Conditional Probability: Probabilitas suatu kejadian dengan syarat kategori tertentu sudah diketahui. \[P(j|i) = \frac{P_{ij}}{P_{i.}}\]

3. Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori.

  • Odds Perbandingan antara peluang kejadian terjadi dengan peluang kejadian tidak terjadi. \[\text{Odds} = \frac{P}{1-P}\] Interpretasi: Mengukur kecenderungan terjadinya suatu peristiwa pada satu kelompok.

  • Odds Ratio (OR) Rasio antara odds pada kelompok pertama dengan odds pada kelompok kedua. \[OR = \frac{ad}{bc}\] Interpretasi: Jika \(OR > 1\), maka odds pada kelompok pertama lebih besar daripada kelompok kedua. Jika \(OR = 1\), tidak ada hubungan.

  • Relative Risk (RR) Perbandingan risiko (probabilitas) kejadian antara dua kelompok. \[RR = \frac{a/(a+b)}{c/(c+d)}\] Interpretasi: Menunjukkan berapa kali lipat risiko kelompok terpapar dibandingkan kelompok tidak terpapar.


4. Contoh Perhitungan Manual

Kasus: Hubungan Merokok vs Kanker Paru

1. Tabel Kontingensi

Data observasi (\(n=200\)):

Kanker Tidak Kanker Total
Merokok 60 (\(a\)) 40 (\(b\)) 100
Tidak Merokok 20 (\(c\)) 80 (\(d\)) 100

2. Menghitung Peluang Bersyarat

  • Peluang Kanker bagi Perokok: \(P(K|M) = \frac{60}{100} = 0.6\)
  • Peluang Kanker bagi Bukan Perokok: \(P(K|TM) = \frac{20}{100} = 0.2\)

3. Menghitung Odds

  • Odds Perokok: \(\frac{60}{40} = 1.5\)
  • Odds Bukan Perokok: \(\frac{20}{80} = 0.25\)

4. Menghitung Odds Ratio

\[OR = \frac{60 \times 80}{40 \times 20} = \frac{4800}{800} = 6\]


5. Analisis Menggunakan R

# 1. Membuat tabel kontingensi
data_kasus <- matrix(c(60, 40, 20, 80), nrow = 2, byrow = TRUE)
rownames(data_kasus) <- c("Merokok", "Tidak Merokok")
colnames(data_kasus) <- c("Kanker", "Tidak Kanker")
data_kasus
##               Kanker Tidak Kanker
## Merokok           60           40
## Tidak Merokok     20           80
# 2. Menghitung Odds Ratio (menggunakan library epitools)
# install.packages("epitools") jika belum ada
library(epitools)
## Warning: package 'epitools' was built under R version 4.5.2
oddsratio(data_kasus)
## $data
##               Kanker Tidak Kanker Total
## Merokok           60           40   100
## Tidak Merokok     20           80   100
## Total             80          120   200
## 
## $measure
##                         NA
## odds ratio with 95% C.I. estimate    lower    upper
##            Merokok       1.000000       NA       NA
##            Tidak Merokok 5.915517 3.181806 11.37695
## 
## $p.value
##                NA
## two-sided         midp.exact fisher.exact   chi.square
##   Merokok                 NA           NA           NA
##   Tidak Merokok 6.163344e-09 1.063603e-08 7.764037e-09
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
# 3. Uji Chi-Square
chisq.test(data_kasus)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data_kasus
## X-squared = 31.688, df = 1, p-value = 1.811e-08

6. Interpretasi Hasil

Berdasarkan analisis statistik yang telah dilakukan pada kasus merokok dan kanker paru, kita dapat menarik kesimpulan berikut:

Interpretasi Statistik

Pada pengujian asosiasi menggunakan Pearson’s Chi-squared test, diperoleh nilai p-value yang sangat mendekati angka 0 (\(3.32 \times 10^{-9}\)). Karena p-value jauh lebih kecil dibandingkan taraf signifikansi standar (\(\alpha = 0.05\)), maka terdapat cukup bukti statistika empiris untuk menolak Hipotesis Nol (\(H_0\)). Secara statistik, hal ini membuktikan adanya hubungan asosiasi yang sangat signifikan antara variabel status merokok dengan insiden kejadian kanker paru.

Interpretasi Substantif

Berdasarkan ukuran asosiasi deskriptif, diperoleh nilai Odds Ratio (OR) sebesar 6. Secara substantif, hal ini mengindikasikan bahwa kelompok individu dengan kebiasaan merokok memiliki kecenderungan atau peluang (odds) sekitar 6 kali lebih besar untuk mengalami penyakit kanker paru dibandingkan dengan kelompok individu yang tidak merokok.


Referensi

Mindra Jaya, I. G. N. (2024). Analisis Data Kategori. RPubs.
https://rpubs.com/mindra/DataKategori