1 Definisi Analisis Data Kategori

1.1 Pengertian Analisis Data Kategori

Analisis data kategori merupakan metode analisis statistik yang digunakan untuk menganalisis data yang berbentuk kategori atau kelompok tertentu. Tujuan analisis data kategori yaitu untuk melihat distribusi frekuensi suatu kategori atau untuk mengetahui hubungan antara dua variabel kategori. Metode ini sering digunakan ketika data berbentuk nominal (misalnya jenis kelamin dan status perkawinan) atau ordinal (misalnya tingkat pendidikan dan kepuasan pelanggan). Analisis data kategori termasuk dalam teknik statistik yang digunakan untuk menganalisis variabel kategori, yang melibatkan metode seperti uji chi-square, regresi logistik, dan analisis kontingensi.

1.2 Karakteristik Variabel Kategori

Karateristik variabel kategori yaitu:

Berupa kategori atau kelompok

Variabel kategori menyatakan data dalam bentuk kelompok atau klasifikasi tertentu, seperti jenis kelamin, status perkawinan, atau tingkat pendidikan.
Tidak menunjukkan nilai numerik sebenarnya

Nilai pada variabel kategori tidak menunjukkan besaran angka. Jika menggunakan angka, biasanya hanya sebagai kode kategori, bukan untuk perhitungan matematis.
Biasanya dinyatakan dalam frekuensi

Data kategori umumnya ditampilkan sebagai jumlah atau frekuensi pada setiap kategori sehingga dapat dibandingkan antar kelompok.
Menggunakan skala nominal atau ordinal

Variabel kategori terdiri dari variabel nominal dan variabel ordinal. Variabel nominal yaitu variabel yang tidak memiliki urutan tertentu, sedangkan variabel ordinal yaitu variabel yang memiliki tingkatan atau urutan.

1.3 Contoh Penerapan Analisis Data Kategori dalam Penelitian

Bidang Ilmu	Contoh Kasus	Metode Analisis
Epidemiologi	Hubungan status merokok dengan kejadian kanker paru	Odds Ratio, Uji Chi-Square
Pemasaran	Hubungan jenis kelamin dengan preferensi produk	Uji Chi-Square, Cramer’s V
Sosiologi	Hubungan tingkat pendidikan dengan partisipasi pemilu	Uji Chi-Square
Kesehatan Masyarakat	Hubungan status vaksinasi dengan kejadian penyakit	Relative Risk, Uji Fisher
Psikologi Sosial	Hubungan jenis kelamin dengan tingkat kecemasan	Uji Chi-Square, Koefisien Kontingensi

2 Tabel Kontingensi

2.1 Definisi Tabel Kontingensi

Tabel kontingensi atau yang sering disebut tabulasi silang (cross tabulation atau cross classification) merupakan tabel yang digunakan untuk menyajikan data dalam bentuk jumlah atau frekuensi dari beberapa kategori. Tabel ini digunakan untuk menampilkan dua atau lebih variabel secara bersamaan sehingga dapat terlihat bagaimana distribusi data pada setiap kategori dari variabel-variabel tersebut. Melalui tabel kontingensi, peneliti dapat melihat hubungan antara dua atau lebih variabel kategori. Namun, metode ini hanya menunjukkan adanya hubungan atau keterkaitan antar variabel, bukan hubungan sebab akibat.

2.2 Struktur Tabel Kontingensi

Tabel kontingensi yang paling sederhana adalah tabel kontingensi 2 arah dengan variabel X memiliki 2 kategori dan variabel Y memiliki 2 kategori sehingga disebut tabel kontingensi 2 × 2. Struktur dari tabel kontingensi 2 × 2 dapat dilihat pada tabel berikut.

	\(Y_1\)	\(Y_2\)	Total
\(X_1\)	\(a\)	\(b\)	\(a+b\)
\(X_2\)	\(c\)	\(d\)	\(c+d\)
Total	\(a+c\)	\(b+d\)	\(n\)

2.3 Konsep Joint Distribution

Joint Distribution (distribusi bersama) adalah distribusi yang menunjukkan peluang atau frekuensi dua variabel secara simultan. Probabilitas bersama dari sel (i,j) diestimasi dengan:

\[ P(X,Y)=\frac{\text{frekuensi pada sel}}{n} \]

2.4 Konsep Marginal Distribution

Marginal distribution adalah distribusi peluang dari suatu variabel yang diperoleh dengan menjumlahkan peluang variabel lainnya pada distribusi bersama (joint distribution).

Distribusi marginal untuk variabel \(X\):

\[ P(X_1)=\frac{a+b}{n} \]

Distribusi marginal untuk variabel \(Y\):

\[ P(Y_1)=\frac{a+c}{n} \]

2.5 Konsep Conditional Probability

Conditional probability adalah peluang terjadinya suatu kejadian A dengan syarat kejadian B sudah terjadi terlebih dahulu.

Rumus conditional probability:

\[ P(Y_1|X_1)=\frac{a}{a+b} \]

3 Ukuran Asosiasi

3.1 Odds

Odds adalah ukuran yang menyatakan perbandingan antara peluang suatu kejadian terjadi dengan peluang kejadian tersebut tidak terjadi.

\[ Odds_1=\frac{a}{b} \]

Nilai Odds	Interpretasi
\(Odds > 1\)	Kejadian lebih mungkin terjadi dibandingkan tidak terjadi
\(Odds = 1\)	Peluang kejadian terjadi sama dengan tidak terjadi
\(Odds < 1\)	Kejadian lebih kecil kemungkinannya untuk terjadi dibandingkan tidak terjadi

3.2 Odds Ratio

Odds Ratio (OR) adalah ukuran yang digunakan untuk membandingkan odds suatu kejadian pada dua kelompok yang berbeda. Dalam analisis data kategori, khususnya pada tabel kontingensi 2×2, OR digunakan untuk melihat seberapa kuat hubungan antara dua variabel kategori.

\[ OR=\frac{ad}{bc} \]

Nilai OR	Interpretasi
\(OR > 1\)	Terdapat hubungan positif antara kedua variabel (kejadian lebih mungkin terjadi pada kelompok pertama)
\(OR = 1\)	Tidak ada hubungan antara kedua variabel
\(OR < 1\)	Terdapat hubungan negatif antara kedua variabel (kejadian lebih kecil kemungkinannya terjadi pada kelompok pertama)

3.3 Relative Risk

Relative Risk (RR) adalah ukuran yang digunakan untuk membandingkan risiko terjadinya suatu kejadian antara dua kelompok. Biasanya digunakan pada tabel kontingensi 2×2 untuk melihat apakah suatu faktor meningkatkan atau menurunkan risiko suatu kejadian.

Rumus Relative Risk

\[ RR=\frac{\frac{a}{a+b}}{\frac{c}{c+d}} \]

Nilai RR	Interpretasi
\(RR > 1\)	Risiko kejadian lebih besar pada kelompok pertama
\(RR = 1\)	Tidak ada perbedaan risiko antara kedua kelompok
\(RR < 1\)	Risiko kejadian lebih kecil pada kelompok pertama

4 Contoh Perhitungan Manual

4.1 Contoh Kasus

Sebuah penelitian ingin mengetahui hubungan antara kebiasaan merokok dengan kejadian penyakit paru-paru. Sebanyak 200 responden diamati dan diperoleh data sebagai berikut:

80 orang perokok mengalami penyakit paru-paru
40 orang perokok tidak mengalami penyakit paru-paru
30 orang bukan perokok mengalami penyakit paru-paru
50 orang bukan perokok tidak mengalami penyakit paru-paru

4.2 Tabel Kontingensi Kasus

	Penyakit Paru (\(Y_1\))	Tidak Sakit (\(Y_2\))	Total
Perokok (\(X_1\))	\(n_{11}=80\)	\(n_{12}=40\)	\(n_{1\cdot}=120\)
Tidak Merokok (\(X_2\))	\(n_{21}=30\)	\(n_{22}=50\)	\(n_{2\cdot}=80\)
Total	\(n_{\cdot1}=110\)	\(n_{\cdot2}=90\)	\(n=200\)

4.3 Perhitungan Peluang Bersyarat

Peluang seseorang terkena penyakit paru-paru jika ia perokok adalah

\[ P(Y_1|X_1)=\frac{n_{11}}{n_{1\cdot}} =\frac{80}{120}=0.67 \]

Peluang seseorang terkena penyakit paru-paru jika ia tidak merokok adalah

\[ P(Y_1|X_2)=\frac{n_{21}}{n_{2\cdot}} =\frac{30}{80}=0.375 \]

4.4 Perhitungan Odds

Odds penyakit paru-paru pada perokok:

\[ Odds_1=\frac{80}{40}=2 \]

Interpretasi: Nilai odds sebesar 2 menunjukkan bahwa pada kelompok perokok, peluang mengalami penyakit paru-paru 2 kali lebih besar dibandingkan peluang tidak mengalami penyakit paru-paru.

Odds penyakit paru-paru pada bukan perokok:

\[ Odds_2=\frac{30}{50}=0.6 \]

Interpretasi: Nilai odds sebesar 0.6 menunjukkan bahwa pada kelompok bukan perokok, peluang mengalami penyakit paru-paru lebih kecil dibandingkan peluang tidak mengalami penyakit paru-paru.

4.5 Perhitungan Odds Ratio

\[ OR=\frac{80\times50}{40\times30} =\frac{4000}{1200}=3.33 \]

Interpretasi: Orang yang merokok memiliki odds sekitar 3.33 kali lebih besar untuk mengalami penyakit paru-paru dibandingkan orang yang tidak merokok.

5 Analisis Menggunakan R

5.1 Membuat Tabel Kontingensi di R

data <- matrix(c(80,40,30,50),
               nrow = 2,
               byrow = TRUE)
rownames(data) <- c("Perokok","Bukan_Perokok")
colnames(data) <- c("Penyakit_Paru","Tidak_Sakit")
data

##               Penyakit_Paru Tidak_Sakit
## Perokok                  80          40
## Bukan_Perokok            30          50

5.2 Menghitung Odds Ratio

# Cara Manual
OR <- (data[1,1]*data[2,2])/(data[1,2]*data[2,1]);OR

## [1] 3.333333

# Menggunakan Packages
library(epitools)
oddsratio(data)

## $data
##               Penyakit_Paru Tidak_Sakit Total
## Perokok                  80          40   120
## Bukan_Perokok            30          50    80
## Total                   110          90   200
## 
## $measure
##                         NA
## odds ratio with 95% C.I. estimate    lower    upper
##            Perokok       1.000000       NA       NA
##            Bukan_Perokok 3.305027 1.839895 6.037307
## 
## $p.value
##                NA
## two-sided         midp.exact fisher.exact   chi.square
##   Perokok                 NA           NA           NA
##   Bukan_Perokok 5.420274e-05 7.953157e-05 4.869329e-05
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

5.3 Uji Chi-Square

chisq.test(data)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  data
## X-squared = 15.341, df = 1, p-value = 8.975e-05

6 Interpretasi Hasil

6.1 Visualisasi Data

# Bar plot dari tabel kontingensi
barplot(data,
        beside = TRUE,
        col = c("skyblue","salmon"),
        legend = TRUE,
        main = "Hubungan Merokok dan Penyakit Paru-Paru",
        xlab = "Status Merokok",
        ylab = "Jumlah Responden")

6.2 Interpretasi Statistik

Berdasarkan joint distribution, peluang seseorang yang merokok dan mengalami penyakit paru-paru adalah sebesar 0.40. Sedangkan peluang seseorang yang tidak merokok tetapi mengalami penyakit paru-paru adalah sebesar 0.15. Nilai ini menunjukkan bahwa proporsi penderita penyakit paru-paru lebih besar pada kelompok perokok dibandingkan kelompok bukan perokok.

Dari marginal distribution, diperoleh bahwa peluang seseorang menjadi perokok adalah sebesar 0.60. Sedangkan peluang seseorang mengalami penyakit paru-paru adalah sebesar 0.55.

Selanjutnya, berdasarkan conditional probability, peluang seseorang mengalami penyakit paru-paru jika ia perokok adalah sekitar 0.67. Sedangkan peluang seseorang mengalami penyakit paru-paru jika ia bukan perokok adalah sekitar 0.38. Hal ini menunjukkan bahwa peluang terjadinya penyakit paru-paru lebih tinggi pada kelompok perokok.

Pada perhitungan odds, diperoleh nilai odds penyakit paru-paru pada kelompok perokok sebesar 2. Sedangkan pada kelompok bukan perokok sebesar 0.6. Hal ini menunjukkan bahwa pada kelompok perokok, peluang terjadinya penyakit paru-paru lebih besar dibandingkan peluang tidak terjadinya penyakit tersebut.

Perbandingan antara kedua odds tersebut menghasilkan Odds Ratio sebesar 3.31, yang menunjukkan bahwa odds terjadinya penyakit paru-paru pada kelompok perokok sekitar 3.31 kali lebih besar dibandingkan pada kelompok bukan perokok.

Hasil uji Chi-Square juga menunjukkan bahwa nilai p-value lebih kecil dari 0.05, sehingga hipotesis nol ditolak. Dengan demikian dapat disimpulkan bahwa terdapat hubungan yang signifikan antara kebiasaan merokok dan kejadian penyakit paru-paru.

6.3 Interpretasi Substantif

Secara substantif, hasil analisis ini menunjukkan bahwa kebiasaan merokok berkaitan dengan meningkatnya kemungkinan terjadinya penyakit paru-paru. Individu yang merokok memiliki peluang yang lebih besar untuk mengalami penyakit paru-paru dibandingkan individu yang tidak merokok.

Hal ini menunjukkan bahwa merokok dapat dianggap sebagai faktor risiko terhadap penyakit paru-paru, sehingga upaya untuk mengurangi kebiasaan merokok sangat penting dalam rangka menurunkan kemungkinan terjadinya penyakit tersebut di masyarakat.

7 Referensi

Agresti, A. (2013). Categorical Data Analysis. John Wiley & Sons.

Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). John Wiley & Sons.

Analisis Data Kategori

Fathiya Syakira