Praktikum ADK III-IV
Association Between Two Categorical Variables

Pendahuluan

Struktur peluang tabel kontingensi

Tabel kontingensi memuat segugus pengamatan acak berukuran n, dimana pada masing-masing pengamatan dicatat dua peubah katagorik \(X_{(1,2)}\) dan \(Y_{(1,2)}\). Tabel kontingensi 2×2 menggambarkan sebaran peluang bersama {\(\pi_{11}, \pi_{12}, \pi_{21},\pi_{22}\)}.

  • Peluarng Y bersyarat X ditulis P(Y=y|X=x) = \(\pi_{y|x}\)

\[\pi_{y|x} = \frac{\pi_{xy}}{\pi_x}\]

  • Jik \(n_{ij}\) adalah banyaknya pengamatan yang terdapat pada baris-i dan kolom-j, penduga kemungkinan maksimum bagi peluang bersama \(\pi_{ij}\) adalah \[\hat{\pi_{ij}} = p_{ij}=\frac{n_{ij}}{n}\]

  • Penduga bagi peluang bersyarat \(\pi_{j|i}\) \[\hat{\pi_{j|i}} = p_{j|i}=\frac{p_{ij}}{p_{i}}=\frac{n_{ij}/n}{n_i/n}=\frac{n_{ij}}{n_i}\]

Contoh 1

Misal terdapat data jenis kelamin dan pilihan kandidat presiden sebagai berikut:

Tentukan peluang bagi: a. Yang memilih Clinton b. Yang memilih Obama c. Yang memilih Clinton jika ybs laki-laki d. Yang memilih Clinton jika ybs perempuan e. Yang memilih Obama jika ybs laki-laki f. Yang memilih Obama jika ybs perempuan

Jawab :

#----INPUT DATA----#
pilpres<-matrix(c(200,406,418,418), nrow=2,byrow=TRUE)
colnames(pilpres)<-c("clinton","obama")
rownames(pilpres)<-c("M","F")
tabelpilpres<-as.table(pilpres)
tabelpilpres
##   clinton obama
## M     200   406
## F     418   418
datapilpres<-as.data.frame(pilpres)
datapilpres
##   clinton obama
## M     200   406
## F     418   418
#----jawab contoh 1---#
addmargins(tabelpilpres)
##     clinton obama  Sum
## M       200   406  606
## F       418   418  836
## Sum     618   824 1442
#a
a<-618/1442
a
## [1] 0.4285714
#b
b<-824/1442
b
## [1] 0.5714286
prop.table(tabelpilpres)
##     clinton     obama
## M 0.1386963 0.2815534
## F 0.2898752 0.2898752
#c-f
prop.table(tabelpilpres,margin=1)
##    clinton    obama
## M 0.330033 0.669967
## F 0.500000 0.500000

Sensitifitas dan spesifisitas

Sensitivitas dan spesifisitas merupakan salah satu alat dalam diagnosa. Awalnya, kedua statistik ini digunakan untuk melakukan diagnosa kesehatan, namun pada perkembangannya juga digunakan dalam diagnosa model-model statistika. Perhatikan tabel berikut :

Sensitivitas : peluang bahwa hasil pengujian menunjukkan bahwa seseorang positif terjangkit penyakit apabila faktanya orang tersebut memang terjangkit penyakit

Spesifisitas : peluang bahwa hasil pengujian menunjukkan bahwa seseorang tidak terjangkit penyakit apabila faktanya orang tersebut memang tidak terjangkit penyakit

Contoh 2

Berapa nilai sensitifitas dan spesifisitas dari kasus di atas?

Jawab :

#----INPUT DATA SAKIT----#
sakit<-matrix(c(1,12,0,87), nrow=2,byrow=TRUE)
predicted<-rownames(sakit)<-c("pos","neg")
actual<-colnames(sakit)<-c("sakit","sehat")
tabelsakit<-as.table(sakit)
tabelsakit
##     sakit sehat
## pos     1    12
## neg     0    87

Jika Anda belum menginstall Package epiR, silahkan install terlebih dahulu.

install.packages("epiR")
#---jawab contoh 2---#
library("epiR")
## Loading required package: survival
## Package epiR 2.0.19 is loaded
## Type help(epi.about) for summary information
## Type browseVignettes(package = 'epiR') to learn how to use epiR for applied epidemiological analyses
## 
epi.tests(tabelsakit,conf.level=0.95)
##           Outcome +    Outcome -      Total
## Test +            1           12         13
## Test -            0           87         87
## Total             1           99        100
## 
## Point estimates and 95 % CIs:
## ---------------------------------------------------------
## Apparent prevalence                    0.13 (0.07, 0.21)
## True prevalence                        0.01 (0.00, 0.05)
## Sensitivity                            1.00 (0.02, 1.00)
## Specificity                            0.88 (0.80, 0.94)
## Positive predictive value              0.08 (0.00, 0.36)
## Negative predictive value              1.00 (0.96, 1.00)
## Positive likelihood ratio              8.25 (4.85, 14.02)
## Negative likelihood ratio              0.00 (0.00, NaN)
## ---------------------------------------------------------

Kebebasan Pada Tabel Kontingensi

Dua peubah (X,Y), dalam tabel kontingensi dikatakan saling bebas secara statistika apabila distribusi peluang bersyarat dari Y adalah identic untuk setiap level X. Jika kedua peubah merupakan peubah respon, maka dua peubah dinyatakan saling bebas apabila semua peluang bersama sama dengan perkalian dari peluang-peluang marginalnya. Ditulis:

\(\pi_{ij}=\pi_{i+}\pi_{j+}\) untuk \(i=1,2,…,I\) dan \(j=1,2,…,J\)

Relative risk

• Resiko relatif adalah nisbah peluang sukses baris pertama pada peluang sukses baris kedua:

\(r = \frac{\pi_1}{\pi_2}\)

• Resiko relatif bernilai satu, r=1 menunjukkan kebebasan antara peubah baris dengan peubah kolom.

• Pada keadaan tertentu resiko relatif lebih bermakna untuk pembandingan peluang sukses. Selisih peluang 0.610−0.601 dan selisih peluang 0.010−0.001 sebesar 0.009 (meskipun dengan menunjukkan hasil uji yang berbeda), tetapi nisbah peluang 0.610/0.601 dan 0.010/0.001 adalah sangat berbeda, masing-masing adalah 1.01 dan 10.

• Inferensia untuk resiko relatif tidak sederhana

Contoh 3

Misal terdapat data jenis kelamin dan pilihan kandidat presiden sebagai berikut:

Tentukan nilai resiko relative antara pria dan wanita dari kasus tersebut. Berdasarkan hasil tersebut apakah terdapat hubungan antara jenis kelamin dan pilihan kandidat presiden?

Jawab :

P(Clinton|Male)=0.330033

P(Clinton|female)=0.5

RR=0.330033/0.5=0.660066

Artinya apabila diketahui seseorang adalah laki-laki, maka kecenderungan untuk memilih Clinton adalah 0.66 kali dari kecenderungan wanita memilih Clinton, dengan kata lain wanita lebih cenderung memilih Clinton dibandingkan laki-laki. Berdasarkan nilai resiko relative yang diperoleh terdapat hubungan antara jenis kelamin dengan pilihan kandidat presiden, hal ini karena nilai dari resiko relatif tidak sama dengan satu.

Sintaks R:

prop.out <- prop.table(tabelpilpres, margin = 1)
# relative risk of male vs. female
prop.out[1,1]/prop.out[2,1]
## [1] 0.660066

Rasio odds

• Pada suatu tabel 2×2, dengan odds pada baris-1 dan baris-2 masing-masing \(odds_1= \frac{\pi_1}{1− \pi_1}\)dan \(odds_2= \frac{\pi_2}{1− \pi_2}\), nisbah odds baris-1 atas odds baris-2 adalah:

• Penduga kemungkinan maksimum bagi rasio odds adalah:

• Sifat-sifat rasio odds

Pada tabel kontingensi 2×2 dengan π1 dan π2 masing-masing adalah peluang sukses pada baris-1 dan baris-2,

  1. Keadaan \(\pi_1 = \pi_2\) menyebabkan odds1=odds2 sehingga \(\theta=1\), menunjukkan kebebasan antara peubah baris dan peubah kolom. \(\theta>1\) menunjukkan \(\pi_1 > \pi_2\), dan . \(\theta<1\) menunjukkan \(\pi_1 < \pi_2\).

  2. Nilai \(\theta\) sekecil-kecilnya adalah 0 dan sebesar-besarnya adalah infinite, semakin jauh \(\theta\) dari 1 semakin kuat keterkaitan antara peubah kolom pada peubah baris. Dua nilai rasio odds \(\theta_1\) dan \(\theta_2\) menunjukkan kekuatan keterikatan yang sama besar apabila \(\theta_1 = \frac{1}{\theta_2}\)

  3. Pertukaran posisi baris atau kolom tidak menyebabkan gambaran kekuatan keterikatan baris dan kolom berubah; dengan pertukaran ini akan diperoleh \(\theta\) baru yang nilainya sebesar \(\frac{1}{\theta}\) .

  4. Nilai nisbah odds tidak perubah apabila tabel ditranspose sehingga posisi baris dan kolomnya dipertukarkan.

• Inferensi rasio odds

  1. Transformasi logaritma (logaritma berbasis e) atas nisbah odds, dapat diperoleh sebaran yang simetris mendekati sebaran Normal; Nilai \(\theta = 1\) bersesuaian dengan \(ln \theta=0\), menunjukkan kebebasan; Jika \(\theta_1 = \frac{1}{\theta_2}\) maka \(ln \theta_1 = - ln \theta_2\) menunjukkan kekuatan keterikatan yang sama tetapi berbeda arah.

  2. Simpangan baku bagi statistik logaritma nisbah odds adalah:

  1. Selang kepercayaan \((1-\alpha)100%\) bagi \(ln \theta\)adalah:

  1. Batas bawah dan batas atas selang kepercayaan bagi \(\theta\) masing-masing diperoleh sebagai eksponen batas bawah dan eksponen batas atas selang kepercayaan bagi \(ln \theta\).

Contoh 4. Misal terdapat data jenis kelamin dan pilihan kandidat presiden sebagai berikut:

  1. Tentukan odds laki-laki

  2. Tentukan odds perempuan

  3. Hitung rasio odds berdasarkan poin a dan b, interpretasikan nilai rasio odds tersebut

  4. Tentukan selang kepercayaan dari rasio odds yang telah Anda peroleh pada butir a

  5. Berdasarkan nilai rasio odds tersebut apakah terdapat hubungan antara jenis kelamin dengan pilihan presiden?

Jawab

  1. P(C|M)=0.330033; P(O|M)=0.669967; odds(M)=0.330033/0.669967=0.492611, nilai odds ini berarti peluang laki-laki memilih Clinton 0.499 kali dari peluang laki-laki memilih Obama.

  2. P(C|F)=0.5; P(O|F)=0.5; odds(F)=0.5/0.5=1, nilai odds ini berarti, peluangg wanita untuk memilih Clinton sama dengan peluang wanita untuk memilih Obama.

  3. OR=0.492611/1=0.492611, artinya odds laki-laki 0.49 kali dari odds wanita.

  4. S=(1/200+1/406+1/418+1/418)=0.012248 ln⁡(θ)±Z_(0.05/2) s=ln⁡(0.492611)±1.96√((0.012248) ) -0.92495<ln⁡(θ)<-0.49112 0.396552<θ<0.611938

  5. Berdasarkan nilai dari rasio odds terdapat hubungan antara jenis kelamin dengan pilihan presiden, karena nilai 1 (satu) tidak masuk pada selang kepercayaan θ.

#---jawab contoh 4---#
# odds of Male
prop.out[1,1]/prop.out[1,2]
## [1] 0.4926108
# odds of Female
prop.out[2,1]/prop.out[2,2]
## [1] 1
# install.packages("epitools")
library("epitools")
## 
## Attaching package: 'epitools'
## The following object is masked from 'package:survival':
## 
##     ratetable
or.out <- oddsratio(tabelpilpres, rev="b")
or.out$measure
##                         NA
## odds ratio with 95% C.I.  estimate     lower     upper
##                        F 1.0000000        NA        NA
##                        M 0.4929825 0.3963827 0.6119071

HUBUNGAN ANTARA RASIO ODDS DAN RESIKO RELATIF

Perhatikan bahwa rasio odds adalah hasil kali resiko relatif dengan \(\frac{(1-\pi_2)}{(1-\pi_1)}\). Dalam keadaan \(\pi_1\) dan \(\pi_2\) yang sangat kecil, maka \(\frac{(1-\pi_2)}{(1-\pi_1)}\pi\) ~ 1.

Dalam keadaan \(\pi_1\) dan \(\pi_2\) yang sangat kecil, rasio odds praktis sama dengan, atau dapat diinterpratesikan sebagai resiko relatif.

Uji khi kuadrat untuk kebebasan antar peubah

#----jawab contoh 5----#
chisq.test(tabelpilpres,correct=FALSE)
## 
##  Pearson's Chi-squared test
## 
## data:  tabelpilpres
## X-squared = 41.444, df = 1, p-value = 1.213e-10
#fisher.test(tabelpilpres)
#install.packages("DescTools")
#library("DescTools")
#GTest(tabelpilpres)

Fisher Exact Test

#----jawab contoh 6----#
pilpres2<-matrix(c(3,1,1,3), nrow=2,byrow=TRUE)
colnames(pilpres2)<-c("clinton","obama")
rownames(pilpres2)<-c("M","F")
tabelpilpres2<-as.table(pilpres2)
tabelpilpres2
##   clinton obama
## M       3     1
## F       1     3
fisher.test(tabelpilpres2)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabelpilpres2
## p-value = 0.4857
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##    0.2117329 621.9337505
## sample estimates:
## odds ratio 
##   6.408309