1. Definisi Analisis Data Kategori

Analisis data kategori adalah metode statistik yang digunakan untuk menganalisis variabel yang berbentuk kategori atau klasifikasi. Variabel kategori merepresentasikan kelompok seperti jenis kelamin, status merokok, atau status penyakit.

Menurut Agresti (2019), analisis data kategori mempelajari hubungan antar variabel kategori yang biasanya disajikan menggunakan tabel kontingensi.

Analisis ini sering digunakan dalam berbagai bidang penelitian seperti kesehatan, ilmu sosial, dan pemasaran untuk memahami pola hubungan antar kategori. Selain itu, teknik analisis data kategori memungkinkan peneliti menguji apakah terdapat hubungan yang signifikan antara dua atau lebih variabel kategori. Metode yang umum digunakan dalam analisis ini antara lain uji chi-square, ukuran asosiasi, serta model regresi logistik untuk mempelajari keterkaitan antar variabel kategori (Agresti, 2019; McHugh, 2013).

Karakteristik Variabel Kategori

Berikut adalah karakteristik utama variabel kategori:

Nilai variabel berupa kategori atau label Variabel kategori tidak dinyatakan dalam bentuk angka yang memiliki makna kuantitatif, melainkan dalam bentuk kelompok atau label seperti jenis kelamin, status perkawinan, tingkat pendidikan, atau jenis pekerjaan (Agresti, 2019).
Kategori bersifat saling eksklusif (mutually exclusive) Setiap pengamatan hanya dapat masuk ke dalam satu kategori dan tidak dapat berada pada dua kategori sekaligus. Misalnya seseorang hanya dapat diklasifikasikan sebagai laki-laki atau perempuan dalam variabel jenis kelamin (McHugh, 2013).
Kategori bersifat lengkap atau mencakup semua kemungkinan (collectively exhaustive) Seluruh kategori yang dibuat harus mampu menampung seluruh kemungkinan nilai dari variabel yang diamati sehingga setiap observasi dapat diklasifikasikan dengan jelas (Agresti, 2019).
Data biasanya disajikan dalam bentuk frekuensi atau proporsi Karena berupa kategori, analisis variabel ini umumnya dilakukan dengan menghitung banyaknya observasi pada setiap kategori yang kemudian disajikan dalam tabel frekuensi atau tabel kontingensi (Agresti, 2019).
Dapat dibedakan menjadi skala nominal dan ordinal Variabel kategori dapat berupa nominal (tidak memiliki urutan, misalnya jenis kelamin atau agama) atau ordinal (memiliki urutan atau tingkatan, misalnya tingkat pendidikan atau tingkat kepuasan) (Agresti, 2019; Moore, McCabe, & Craig, 2017).

Jenis variabel kategori:

Nominal Variabel nominal adalah variabel kategori yang tidak memiliki urutan atau tingkatan tertentu antar kategorinya.Contoh variabel nominal antara lain jenis kelamin (laki-laki, perempuan), status perkawinan (belum menikah, menikah, cerai), agama, atau jenis pekerjaan. Dalam analisis statistik, data nominal biasanya disajikan dalam bentuk frekuensi atau proporsi dan sering dianalisis menggunakan tabel kontingensi atau uji chi-square.
Ordinal Variabel ordinal adalah variabel kategori yang memiliki urutan atau tingkatan tertentu antar kategorinya, namun jarak antar kategori tidak dapat diukur secara pasti. Contoh variabel ordinal antara lain tingkat pendidikan (SD, SMP, SMA, Perguruan Tinggi), tingkat kepuasan (tidak puas, cukup puas, puas, sangat puas), dan status ekonomi (rendah, menengah, tinggi).

Contoh Penerapan Dalam Penelitian

Penelitian di bidang kesehatan Misalnya, penelitian yang mengkaji hubungan antara status merokok (perokok / tidak perokok) dengan kejadian penyakit paru-paru (ya / tidak).
Penelitian di bidang pendidikan Dalam penelitian pendidikan, analisis data kategori dapat digunakan untuk melihat hubungan antara jenis sekolah (negeri / swasta) dengan kelulusan siswa (lulus / tidak lulus).
Penelitian di bidang sosial Dalam penelitian sosial, analisis data kategori dapat digunakan untuk mengkaji hubungan antara tingkat pendidikan (SD, SMP, SMA, Perguruan Tinggi) dengan status pekerjaan (bekerja / tidak bekerja).

2. Tabel Kontingensi

Tabel kontingensi menyajikan distribusi frekuensi dari dua atau lebih variabel kategori secara bersamaan.Secara umum, tabel kontingensi disusun dalam bentuk baris dan kolom, di mana setiap baris mewakili kategori dari satu variabel dan setiap kolom mewakili kategori dari variabel lainnya.

Struktur Tabel 2x2

	Penyakit jantung	Tidak sakit jantung	Total
Olahraga	a	b	a+b
Tidak Olahraga	c	d	c+d
Total	a+c	b+d	n

Joint Distribution

Joint Distribution atau distribusi bersama adalah distribusi peluang yang menunjukkan probabilitas atau proporsi dari kombinasi kategori dua variabel secara bersamaan.Dalam tabel kontingensi, distribusi bersama diperoleh dari frekuensi pada setiap sel tabel yang kemudian dibagi dengan jumlah total observasi. Dengan kata lain, distribusi ini menggambarkan peluang terjadinya dua kategori sekaligus.

\[ P(A,B) = \frac{{frekuensi pada sel}}{n} \]

Marginal Distribution

Distribusi marginal adalah distribusi peluang dari satu variabel saja tanpa memperhatikan variabel lainnya. Distribusi ini diperoleh dengan menjumlahkan frekuensi pada setiap baris atau kolom tabel kontingensi. Hasilnya biasanya ditampilkan dalam total baris atau total kolom pada tabel.

\[ P(X=Olahraga) = \frac{a+b}{n} \]

Conditional Probability

Distribusi kondisional adalah distribusi peluang dari satu variabel dengan syarat bahwa variabel lainnya memiliki kategori tertentu. Distribusi ini diperoleh dengan membagi frekuensi pada suatu sel dengan total frekuensi pada baris atau kolom yang bersesuaian.

\[ P(Penyakit jantung|Olahraga) = \frac{P(A,B)}{P(X=Olahraga)} = \frac{a}{a+b} \]

3. Ukuran Asosiasi

Ukuran asosiasi adalah ukuran statistik yang digunakan untuk menilai kekuatan hubungan atau keterkaitan antara dua variabel kategori dalam suatu tabel kontingensi.

Odds

Odds adalah ukuran yang menyatakan perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tersebut tidak terjadi.

Jika peluang suatu kejadian dinyatakan sebagai:

\[ P = \frac{a}{a+b} \]

maka peluang tidak terjadinya kejadian adalah:

\[ 1 - P = \frac{b}{a+b} \]

Odds didefinisikan sebagai perbandingan antara peluang kejadian dengan peluang tidak terjadinya kejadian, yaitu:

\[ Odds = \frac{P}{1-P} \]

Dengan mensubstitusikan nilai peluang ke dalam rumus odds diperoleh:

\[ Odds = \frac{\frac{a}{a+b}}{\frac{b}{a+b}} = \frac{a}{b} \] Interpretasi:

OR = 1 : tidak ada asosiasi
OR > 1 : meningkatkan risiko
OR < 1 : bersifat protektif

Odds Ratio

Odds ratio (OR) adalah ukuran yang digunakan untuk membandingkan odds dari suatu kejadian antara dua kelompok yang berbeda.

Odds Ratio (OR) adalah ukuran asosiasi yang membandingkan odds antara dua kelompok. Jika odds pada kelompok pertama adalah:

\[ Odds_1 = \frac{a}{b} \]

dan odds pada kelompok kedua adalah:

\[ Odds_2 = \frac{c}{d} \]

maka Odds Ratio didefinisikan sebagai:

\[ OR = \frac{Odds_1}{Odds_2} \]

Sehingga diperoleh:

\[ OR = \frac{a/b}{c/d} = \frac{ad}{bc} \]

Interpretasi:

OR = 1 : tidak ada asosiasi
OR > 1 : meningkatkan risiko
OR < 1 : bersifat protektif

Relative Risk

Relative Risk (RR) atau risiko relatif adalah ukuran asosiasi yang digunakan untuk membandingkan probabilitas terjadinya suatu kejadian pada kelompok yang terpapar dengan probabilitas kejadian pada kelompok yang tidak terpapar. Relative risk sering digunakan dalam penelitian epidemiologi, khususnya pada studi kohort, untuk mengetahui apakah suatu paparan meningkatkan atau menurunkan risiko terjadinya suatu kejadian atau penyakit.

Relative Risk (RR) adalah ukuran asosiasi yang membandingkan risiko kejadian antara dua kelompok.

Risiko pada kelompok pertama adalah:

\[ P_1 = \frac{a}{a+b} \]

Risiko pada kelompok kedua adalah:

\[ P_0 = \frac{c}{c+d} \]

Relative Risk didefinisikan sebagai:

\[ RR = \frac{P_1}{P_0} \]

Sehingga diperoleh:

\[ RR = \frac{\frac{a}{a+b}}{\frac{c}{c+d}} \] —

4. Contoh Perhitungan Manual

Tabel Kontingensi Kasus hubungan olahraga dengan penyakit jantung.

	Penyakit jantung	Tidak	Total
Olahraga	20	80	100
Tidak Olahraga	40	60	100

a = 20 b = 80 c = 40 d = 60 n = 200

Peluang Bersyarat

\[ P(Penyakit jantung|Tidak Olahraga) = \frac{40}{100} = 0.4 \] Artinya, dari seluruh individu yang tidak berolahraga, sekitar 40% di antaranya mengalami penyakit jantung.

\[ P(Penyakit jantung|Olahraga) = \frac{20}{100} = 0.2 \] Artinya, dari seluruh individu yang berolahraga, sekitar 20% di antaranya mengalami penyakit jantung.

Odds

\[ Odds_{TidakOlahraga} = \frac{40}{60} = 0,67 \] Nilai 0,67 menunjukkan bahwa pada kelompok yang tidak berolahraga, perbandingan antara orang yang mengalami penyakit jantung dengan yang tidak mengalami penyakit jantung adalah sekitar 0,67 banding 1. Artinya, peluang mengalami penyakit jantung pada kelompok yang tidak berolahraga sekitar 0,67 kali dibandingkan peluang tidak mengalami penyakit jantung.

\[ Odds_{Olahraga} = \frac{20}{80} = 0,25 \] Nilai 0,25 menunjukkan bahwa pada kelompok yang berolahraga, perbandingan antara orang yang mengalami penyakit jantung dengan yang tidak mengalami penyakit jantung adalah sekitar 0,25 banding 1. Artinya, peluang mengalami penyakit jantung pada kelompok yang berolahraga adalah 0,25 kali dibandingkan peluang tidak mengalami penyakit jantung.

Odds Ratio

\[ OR = \frac{40 \times 80}{60 \times 20} = 2.67 \] Nilai OR sebesar 2,67 menunjukkan bahwa odds terjadinya penyakit jantung pada individu yang tidak berolahraga sekitar 2,67 kali lebih besar dibandingkan dengan individu yang berolahraga. Dengan kata lain, tidak berolahraga dapat diinterpretasikan sebagai faktor risiko yang meningkatkan kemungkinan terjadinya penyakit jantung.

Karena nilai OR > 1, maka dapat disimpulkan bahwa terdapat asosiasi positif antara tidak berolahraga dan kejadian penyakit jantung, yang berarti kelompok yang tidak berolahraga memiliki peluang lebih besar mengalami penyakit jantung dibandingkan kelompok yang berolahraga.

5. Analisis Menggunakan R

Membuat Tabel Kontingensi

data <- matrix(c(20,80,40,60),
               nrow = 2,
               byrow = TRUE)

colnames(data) <- c("Penyakit_jantung","Tidak_sakit_jantung")
rownames(data) <- c("Olahraga","Tidak_Olahraga")

data

##                Penyakit_jantung Tidak_sakit_jantung
## Olahraga                     20                  80
## Tidak_Olahraga               40                  60

Odds Ratio

OR <- (data[2,1] * data[1,2]) / (data[2,2] * data[1,1])
OR

## [1] 2.666667

Uji Chi Square

uji_chisq <- chisq.test(data)
uji_chisq

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 8.5952, df = 1, p-value = 0.00337

6. Interpretasi

Visualisasi

Barplot

barplot(data,
        beside = TRUE,
        col = c("pink","lightblue"),
        main = "Perbandingan Kasus Penyakit Jantung Berdasarkan Status Olahraga",
        xlab = "Status Olahraga",
        ylab = "Jumlah Individu",
        legend.text = colnames(data),
        args.legend = list(x="topright"),
        ylim = c(0, max(data) + 20))

Interpretasi grafik:

Dari grafik terlihat bahwa

Pada kelompok berolahraga, jumlah individu yang mengalami penyakit jantung (20) lebih sedikit dibandingkan yang tidak mengalami penyakit jantung (80).
Pada kelompok tidak berolahraga, jumlah individu yang mengalami penyakit jantung (40) lebih banyak dibandingkan kelompok yang berolahraga.

Hal ini menunjukkan bahwa aktivitas olahraga kemungkinan berkaitan dengan penurunan risiko penyakit jantung. ## Interpretasi Statistik Secara statistik, nilai odds ratio sebesar 2,67 menunjukkan bahwa odds terjadinya penyakit jantung pada individu yang tidak berolahraga adalah sekitar 2,67 kali odds pada individu yang berolahraga. Karena nilai OR > 1, maka terdapat asosiasi positif antara tidak berolahraga dan kejadian penyakit jantung. Hal ini menunjukkan bahwa status tidak berolahraga berkaitan dengan peningkatan peluang terjadinya penyakit jantung dibandingkan dengan kelompok yang berolahraga.

Interpretasi Substantif dalam Konteks Kasus

Dalam konteks kasus ini, hasil tersebut dapat diartikan bahwa individu yang tidak melakukan olahraga memiliki kecenderungan lebih besar mengalami penyakit jantung dibandingkan individu yang melakukan olahraga. Dengan kata lain, aktivitas olahraga berpotensi menjadi faktor yang berhubungan dengan penurunan risiko penyakit jantung.

Hasil ini menggambarkan bahwa olahraga dapat berperan sebagai faktor protektif terhadap penyakit jantung, karena kelompok yang berolahraga memiliki peluang lebih kecil untuk mengalami penyakit tersebut dibandingkan kelompok yang tidak berolahraga.

7. Referensi

Agresti, A. (2019). An Introduction to Categorical Data Analysis. Wiley.

McHugh, M. L. (2013). The chi-square test of independence. Biochemia Medica, 23(2), 143–149. https://doi.org/10.11613/BM.2013.018

Moore, D. S., McCabe, G. P., & Craig, B. A. (2017). Introduction to the Practice of Statistics (9th ed.). W. H. Freeman.

Analisis Data Kategori dan Tabel Kontingensi

Rovita Dwi Pratiwi

1. Definisi Analisis Data Kategori

Karakteristik Variabel Kategori

Jenis variabel kategori:

Contoh Penerapan Dalam Penelitian

2. Tabel Kontingensi

Struktur Tabel 2x2

Joint Distribution

Marginal Distribution

Conditional Probability

3. Ukuran Asosiasi

Odds

Odds Ratio

Relative Risk

4. Contoh Perhitungan Manual

Tabel Kontingensi Kasus hubungan olahraga dengan penyakit jantung.

Peluang Bersyarat

Odds

Odds Ratio

5. Analisis Menggunakan R

Membuat Tabel Kontingensi

Odds Ratio

Uji Chi Square

6. Interpretasi

Visualisasi

Barplot

Interpretasi Substantif dalam Konteks Kasus

7. Referensi