1 Pendahuluan

Analisis data kategori merupakan salah satu cabang penting dalam statistika yang digunakan untuk menganalisis variabel yang berbentuk kategori atau klasifikasi. Dalam berbagai penelitian ilmiah, data tidak selalu berbentuk angka kontinu seperti tinggi badan atau berat badan, tetapi sering kali berbentuk kategori seperti jenis kelamin, status penyakit, atau tingkat pendidikan.

Dalam statistika, data seperti ini disebut categorical data. Analisis terhadap data kategori memiliki metode tersendiri yang berbeda dengan analisis data numerik. Salah satu alat utama yang digunakan dalam analisis data kategori adalah tabel kontingensi.

Tabel kontingensi digunakan untuk mempelajari hubungan antara dua atau lebih variabel kategori. Melalui tabel ini peneliti dapat melihat distribusi frekuensi dari kombinasi kategori yang berbeda.

Tabel kontingensi yang paling sederhana adalah tabel 2×2, yaitu tabel yang memiliki dua baris dan dua kolom. Walaupun bentuknya sederhana, tabel ini sangat penting karena menjadi dasar bagi banyak analisis statistik terutama dalam epidemiologi, ilmu kesehatan masyarakat, dan ilmu sosial.

Dalam dokumen ini akan dibahas secara sistematis mengenai konsep dasar analisis data kategori dengan fokus pada tabel kontingensi 2×2. Pembahasan meliputi definisi analisis data kategori, konsep tabel kontingensi, ukuran asosiasi, contoh perhitungan manual, serta implementasi analisis menggunakan perangkat lunak R.

Selain itu dokumen ini ditulis menggunakan R Markdown, menggunakan persamaan matematika LaTeX, serta menyertakan kode R yang dapat dijalankan secara langsung.

2 1 Definisi Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis variabel yang nilainya berupa kategori atau kelompok tertentu.

Variabel kategori tidak memiliki makna numerik secara langsung, tetapi merepresentasikan klasifikasi tertentu. Contoh variabel kategori adalah jenis kelamin, status merokok, status penyakit, dan tingkat pendidikan.

2.1 Karakteristik Variabel Kategori

Beberapa karakteristik utama variabel kategori antara lain:

  1. Nilainya berupa label atau kategori
  2. Tidak memiliki jarak numerik yang bermakna
  3. Analisis biasanya menggunakan frekuensi atau proporsi
  4. Hubungan antar variabel dianalisis menggunakan tabel kontingensi

2.2 Jenis Variabel Kategori

2.2.1 Variabel Nominal

Variabel nominal adalah variabel kategori yang tidak memiliki urutan.

Contoh: - jenis kelamin - agama - status perkawinan

2.2.2 Variabel Ordinal

Variabel ordinal memiliki urutan tertentu.

Contoh: - tingkat pendidikan - tingkat kepuasan - tingkat risiko

2.3 Contoh Penggunaan Analisis Data Kategori

Analisis data kategori banyak digunakan dalam berbagai bidang penelitian, antara lain:

  • penelitian kesehatan
  • penelitian sosial
  • penelitian ekonomi
  • penelitian pendidikan

Sebagai contoh dalam penelitian kesehatan masyarakat, peneliti sering mempelajari hubungan antara kebiasaan merokok dan kejadian penyakit tertentu.

3 2 Tabel Kontingensi

Tabel kontingensi adalah tabel yang digunakan untuk menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan.

3.1 Struktur Tabel Kontingensi 2×2

Kanker Tidak Kanker
Merokok a b
Tidak Merokok c d

Total observasi dapat dituliskan sebagai:

\[ N = a + b + c + d \]

3.2 Joint Distribution

Joint distribution menyatakan peluang dua kejadian terjadi secara bersamaan.

\[ P(Merokok \cap Kanker) = \frac{a}{a+b+c+d} \]

3.3 Marginal Distribution

Distribusi marginal diperoleh dengan menjumlahkan nilai pada baris atau kolom.

\[ P(Merokok) = \frac{a+b}{a+b+c+d} \]

\[ P(Kanker) = \frac{a+c}{a+b+c+d} \]

3.4 Conditional Probability

Peluang bersyarat menyatakan peluang suatu kejadian dengan syarat kejadian lain telah terjadi.

\[ P(Kanker|Merokok) = \frac{a}{a+b} \]

\[ P(Kanker|TidakMerokok) = \frac{c}{c+d} \]

4 3 Ukuran Asosiasi

Ukuran asosiasi digunakan untuk mengukur kekuatan hubungan antara dua variabel kategori.

4.1 Odds

Odds merupakan perbandingan antara peluang suatu kejadian terjadi dan tidak terjadi.

\[ Odds = \frac{p}{1-p} \]

Dalam tabel kontingensi:

\[ Odds_{Merokok} = \frac{a}{b} \]

4.2 Odds Ratio

Odds Ratio digunakan untuk membandingkan odds dari dua kelompok.

\[ OR = \frac{ad}{bc} \]

Interpretasi:

  • OR = 1 → tidak ada hubungan
  • OR > 1 → meningkatkan risiko
  • OR < 1 → efek protektif

4.3 Relative Risk

Relative Risk membandingkan risiko kejadian pada dua kelompok.

\[ RR = \frac{a/(a+b)}{c/(c+d)} \]

5 4 Contoh Perhitungan Manual

Misalkan diperoleh data penelitian sebagai berikut:

Kanker Tidak Kanker
Merokok 60 40
Tidak Merokok 20 80

Total:

\[ N = 60 + 40 + 20 + 80 = 200 \]

5.1 Probabilitas Bersyarat

\[ P(Kanker|Merokok) = \frac{60}{100} = 0.6 \]

\[ P(Kanker|TidakMerokok) = \frac{20}{100} = 0.2 \]

5.2 Odds

\[ Odds_{Merokok} = \frac{60}{40} = 1.5 \]

\[ Odds_{TidakMerokok} = \frac{20}{80} = 0.25 \]

5.3 Odds Ratio

\[ OR = \frac{60 \times 80}{40 \times 20} \]

\[ OR = 6 \]

Artinya peluang terkena kanker paru pada perokok sekitar 6 kali lebih besar dibandingkan yang tidak merokok.

6 5 Analisis Menggunakan R

Berikut implementasi analisis menggunakan perangkat lunak R.

data <- matrix(c(60,40,20,80),
               nrow=2,
               byrow=TRUE)

rownames(data) <- c("Merokok","Tidak Merokok")
colnames(data) <- c("Kanker","Tidak Kanker")

data
##               Kanker Tidak Kanker
## Merokok           60           40
## Tidak Merokok     20           80

6.1 Uji Chi-Square

chisq.test(data)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 31.688, df = 1, p-value = 1.811e-08

6.2 Menghitung Odds Ratio

a <- data[1,1]
b <- data[1,2]
c <- data[2,1]
d <- data[2,2]

OR <- (a*d)/(b*c)
OR
## [1] 6

7 6 Interpretasi Hasil

Interpretasi hasil merupakan tahap penting dalam analisis statistik. Hasil perhitungan odds ratio menunjukkan bahwa nilai OR sebesar 6.

Hal ini menunjukkan bahwa individu yang merokok memiliki kemungkinan enam kali lebih besar untuk mengalami kanker paru dibandingkan individu yang tidak merokok.

Selain itu, uji chi-square digunakan untuk menguji apakah hubungan tersebut signifikan secara statistik.

Jika nilai p-value lebih kecil dari tingkat signifikansi (misalnya 0.05), maka dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian kanker paru.