Minggu kedua ini membahas mengenai Asosiasi Antara Dua Peubah Kategori
setwd("D:/S2/IPB/BAHAN AJAR STA1543/Minggu 2")
Contoh Soal 1
Misal terdapat data jenis kelamin dan pilihan kandidat presiden sebagai berikut:
Tentukan:
Yang memilih Clinton
Yang memilih Obama
Yang memilih Clinton jika ybs laki-laki
Yang memilih Clinton jika ybs perempuan
Yang memilih Obama jika ybs laki-laki
Yang memilih Obama jika ybs perempuan
Jawaban Contoh Soal 1
Input Data
pilpres<-matrix(c(200,406,418,418), nrow=2,byrow=TRUE)
colnames(pilpres)<-c("clinton","obama")
rownames(pilpres)<-c("M","F")
tabelpilpres<-as.table(pilpres)
tabelpilpres
## clinton obama
## M 200 406
## F 418 418
datapilpres<-as.data.frame(pilpres)
datapilpres
## clinton obama
## M 200 406
## F 418 418
addmargins(tabelpilpres)
## clinton obama Sum
## M 200 406 606
## F 418 418 836
## Sum 618 824 1442
Jawaban 1.1
Peluang yang memilih Clinton
a<-618/1442
a
## [1] 0.4285714
Jawaban 1.2
Peluang yang memilih Obama
b<-824/1442
b
## [1] 0.5714286
prop.table(tabelpilpres,margin=1) #margin=1 terhadap total baris, margin=2 terhadap total kolom
## clinton obama
## M 0.330033 0.669967
## F 0.500000 0.500000
Jawaban 1.3
Peluang yang memilih Clinton jika ybs laki-laki
c= 200/606
c
## [1] 0.330033
Jawaban 1.4
Peluang yang memilih Clinton jika ybs perempuan
d= 418/836
d
## [1] 0.5
Jawaban 1.5
Peluang yang memilih Obama jika ybs laki-laki
e= 406/606
e
## [1] 0.669967
Jawaban 1.6
Peluang yang memilih Obama jika ybs perempuan
f= 418/836
f
## [1] 0.5
Sensitifitas dan spesifisitas
Sensitivitas dan spesifisitas merupakan salah satu alat dalam diagnosa. Awalnya, kedua statistik ini digunakan untuk melakukan diagnosa kesehatan, namun pada perkembangannya juga digunakan dalam diagnosa model-model statistika. Perhatikan tabel berikut :
Sensitivitas
Sensitivitas : peluang bahwa hasil pengujian menunjukkan bahwa seseorang positif terjangkit penyakit apabila faktanya orang tersebut memang terjangkit penyakit.
Spesifisitas
Spesifisitas : peluang bahwa hasil pengujian menunjukkan bahwa seseorang tidak terjangkit penyakit apabila faktanya orang tersebut memang tidak terjangkit penyakit.
Contoh Soal 2
Tentukan nilai sensitifitas dan spesifisitas dari kasus di atas?
Jawaban Contoh Soal 2
Input Data
sakit<-matrix(c(1,12,0,87), nrow=2,byrow=TRUE)
predicted<-rownames(sakit)<-c("pos","neg")
actual<-colnames(sakit)<-c("sakit","sehat")
tabelsakit<-as.table(sakit)
tabelsakit
## sakit sehat
## pos 1 12
## neg 0 87
Nilai Sensitifitas dan Spesifisitas
epi.tests(tabelsakit,conf.level=0.95)
## Outcome + Outcome - Total
## Test + 1 12 13
## Test - 0 87 87
## Total 1 99 100
##
## Point estimates and 95% CIs:
## --------------------------------------------------------------
## Apparent prevalence * 0.13 (0.07, 0.21)
## True prevalence * 0.01 (0.00, 0.05)
## Sensitivity * 1.00 (0.02, 1.00)
## Specificity * 0.88 (0.80, 0.94)
## Positive predictive value * 0.08 (0.00, 0.36)
## Negative predictive value * 1.00 (0.96, 1.00)
## Positive likelihood ratio 8.25 (4.85, 14.02)
## Negative likelihood ratio 0.00 (0.00, NaN)
## False T+ proportion for true D- * 0.12 (0.06, 0.20)
## False T- proportion for true D+ * 0.00 (0.00, 0.97)
## False T+ proportion for T+ * 0.92 (0.64, 1.00)
## False T- proportion for T- * 0.00 (0.00, 0.04)
## Correctly classified proportion * 0.88 (0.80, 0.94)
## --------------------------------------------------------------
## * Exact CIs
Kebebasan Pada Tabel Kontingensi
Dua peubah \((X,Y)\), dalam tabel kontingensi dikatakan saling bebas secara statistika apabila distribusi peluang bersyarat dari \(Y\) adalah identik untuk setiap level \(X\). Jika kedua peubah merupakan peubah respon, maka dua peubah dinyatakan saling bebas apabila semua peluang bersama sama dengan perkalian dari peluang-peluang marginalnya. Ditulis:
Relative Risk
Resiko relatif adalah nisbah peluang sukses baris pertama pada peluang sukses baris kedua:
Resiko relatif bernilai satu, \(r=1\) menunjukkan kebebasan antara peubah baris dengan peubah kolom.
Pada keadaan tertentu resiko relatif lebih bermakna untuk pembandingan peluang sukses. Selisih peluang \(0.610−0.601\) dan selisih peluang \(0.010−0.001\) sebesar \(0.009\) (meskipun dengan menunjukkan hasil uji yang berbeda), tetapi nisbah peluang \(0.610/0.601\) dan \(0.010/0.001\) adalah sangat berbeda, masing-masing adalah \(1.01\) dan \(10\).
Inferensia untuk resiko relatif tidak sederhana sehingga jarang digunakan pada prakteknya.
Contoh Soal 3
Misal terdapat data jenis kelamin dan pilihan kandidat presiden sebagai berikut:
Tentukan nilai resiko relative antara pria dan wanita dari kasus tersebut. Berdasarkan hasil tersebut apakah terdapat hubungan antara jenis kelamin dan pilihan kandidat presiden?
Jawaban Contoh Soal 3
Cara Manual:
\(P(Clinton|Male)\) \(=\) \(200/606\) \(=\) \(0.330033\)
\(P(Clinton|female)\) \(=\) \(418/836\) \(=\) \(0.5\)
\(RR = 0.330033/0.5 = 0.660066\)
Kesimpulan: apabila diketahui seseorang adalah laki-laki, maka kecenderungan untuk memilih Clinton adalah \(0.66\) kali dari kecenderungan wanita memilih Clinton, dengan kata lain wanita lebih cenderung memilih Clinton dibandingkan laki-laki. Berdasarkan nilai resiko relative yang diperoleh terdapat hubungan antara jenis kelamin dengan pilihan kandidat presiden, hal ini karena nilai dari resiko relatif tidak sama dengan satu.
Cara R
prop.out <- prop.table(tabelpilpres, margin = 1) #Tabelnya sama dengan contoh 1 sehingga langsung kita gunakan data yang sudah di input sebelumnya yaitu tabelpilpres
# relative risk of male vs. female
prop.out
## clinton obama
## M 0.330033 0.669967
## F 0.500000 0.500000
prop.out[1,1]/prop.out[2,1]
## [1] 0.660066
Rasio odds
Odds adalah rasio peluang sukses dan gagal sedangkan rasio odds adalah rasio dari nilai odd.
Sifat-sifat rasio odds
Pada tabel kontingensi \(2\times 2\) dengan \(\phi_1\) dan \(\phi_2\) masing-masing adalah peluang sukses pada baris-1 dan baris-2,
Keadaan \(\phi_1=\phi_2\) menyebabkan \(odds1=odds2\) sehingga \(\theta=1\), menunjukkan kebebasan antara peubah baris dan peubah kolom, \(\theta>1\) menunjukkan \(\phi_1>\phi_2\), dan \(\theta<1\) menunjukkan \(\phi_1<\phi_2\).
Nilai \(\theta\) sekecil-kecilnya adalah \(0\) dan sebesar-besarnya adalah infinite, semakin jauh dari \(1\) semakin kuat keterkaitan antara peubah kolom pada peubah baris. Dua nilai rasio odds \(\theta_1\) dan \(\theta_2\) menunjukkan kekuatan keterikatan yang sama besar apabila \(\theta_1=1/\theta_2\).
Pertukaran posisi baris atau kolom tidak menyebabkan gambaran kekuatan keterikatan baris dan kolom berubah; dengan pertukaran ini akan diperoleh \(\theta\) baru yang nilainya sebesar \(1/\theta_1\).
Nilai nisbah odds tidak perubah apabila tabel ditranspose sehingga posisi baris dan kolomnya dipertukarkan.
Inferensi rasio odds
Transformasi logaritma (logaritma berbasis \(e\)) atas nisbah odds, dapat diperoleh sebaran yang simetris mendekati sebaran Normal. Nilai \(\theta=1\) bersesuaian dengan \(ln \theta=0\), menunjukkan kebebasan. Jika \(\theta_1=\theta_2\) maka \(ln \theta_1=−ln \theta_2\) menunjukkan kekuatan keterikatan yang sama tetapi berbeda arah.
Simpangan baku bagi statistik logaritma nisbah odds adalah:
Selang kepercayaan \((1-\alpha)100\) bagi \(ln \theta\) adalah:
Batas bawah dan batas atas selang kepercayaan bagi \(\theta\) masing-masing diperoleh sebagai eksponen batas bawah dan eksponen batas atas selang kepercayaan bagi \(ln \theta\).
Contoh Soal 4
Misal terdapat data jenis kelamin dan pilihan kandidat presiden sebagai berikut:
Tentukan odds laki-laki
Tentukan odds perempuan
Hitung rasio odds berdasarkan poin a dan b, interpretasikan nilai rasio odds tersebut
Tentukan selang kepercayaan dari rasio odds yang telah Anda peroleh pada butir a
Berdasarkan nilai rasio odds tersebut apakah terdapat hubungan antara jenis kelamin dengan pilihan presiden?
Jawaban Contoh Soal 4
Cara Manual:
- \(P(C|M)=200/606=0.330033\)
\(P(O|M)=406/606=0.669967\)
\(odds(M)=0.330033/0.669967=0.492611\)
Nilai odds ini berarti peluang laki-laki memilih Clinton \(0.499\) kali dari peluang laki-laki memilih Obama.
- \(P(C|F)=418/836=0.5\)
\(P(O|F)=418/836=0.5\)
\(odds(F)=0.5/0.5=1\)
Nilai odds ini berarti, peluangg wanita untuk memilih Clinton sama dengan peluang wanita untuk memilih Obama.
- \(OR=odds(M)/odds(F)=0.492611/1=0.492611\)
Jadi, odds laki-laki \(0.49\) kali dari odds wanita.
4.selang kepercayaan dari rasio odds
\(s^2=(1/200+1/406+1/418+1/418)=0.012248\)
Selang Kepercayaan = \((ln(\theta) \pm Z(0.05/2)∗s)\) = \(ln(0.492611) \pm 1.96\sqrt{(0.012248)}\)
Selang Kepercayaan \(95%\): $-0.92495<ln(θ)<-0.49112 $ = $ 0.396552<θ<0.611938$
- Berdasarkan nilai dari rasio odds terdapat hubungan antara jenis kelamin dengan pilihan presiden, karena nilai 1 (satu) tidak masuk pada selang kepercayaan \(\theta\).
Cara R
Odds of Male
prop.out[1,1]/prop.out[1,2]
## [1] 0.4926108
Odds of Female
prop.out[2,1]/prop.out[2,2]
## [1] 1
tabelpilpres
## clinton obama
## M 200 406
## F 418 418
or.out <- oddsratio(tabelpilpres, rev="b") #rev : reverse order of "rows", "colums","both", or "neither" (default)
or.out$measure
## NA
## odds ratio with 95% C.I. estimate lower upper
## F 1.0000000 NA NA
## M 0.4929825 0.3963827 0.6119071
Hubungan Antara Rasio Odds Dan Resiko Relatif
Uji khi kuadrat untuk kebebasan antar peubah
Contoh Soal 5
Dengan menggunakan data contoh Soal 1 ujilah hipotesis:
\(H_{0}\): Antar peubah saling bebas
\(H_{1}\): Antar peubah ada asosiasi
Jawaban Contoh Soal 5
Data
tabelpilpres
## clinton obama
## M 200 406
## F 418 418
chisq.test(tabelpilpres,correct=FALSE)
##
## Pearson's Chi-squared test
##
## data: tabelpilpres
## X-squared = 41.444, df = 1, p-value = 1.213e-10
Karena \(p_{value} < 0.05\) maka **TOLAK \(H_{0}\) berarti pada taraf nyata \(5%\) dapat cukup bukti untuk menyatakan ada asosiasi antar peubah jenis kelamin dan pilihan kandidat presiden.
Fisher Exact Test
Selang kepercayaan dan pengujian asosiasi antara dua peubah yang dilakukan dengan distribusi Chi-Square digunakan untuk contoh berukuran besar. Akan tetapi, jika ukuran contoh kecil, inferensia menggunakan Fisher Exact Test lebih tepat. Pada tabel \(2\times 2\), kebebasan dua peubah ditandai dengan nilai rasio odds sama dengan satu \((\theta = 1)\). Pada tabel \(2 \times 2\) untuk jumlah baris dan kolom marginal tertentu, frekuensi pada sel pertama \((n_{11})\) menentukan frekuensi pada ketiga sel lainnya. Ketika nilai rasio odds sama dengan satu \((\theta = 1)\), peluang untuk nilai \((n_{11})\) dinyatakan oleh:
Contoh Soal 6
Jawaban Contoh Soal 6
Hipotesis:
\(H_{0}\): Jenis kelamin dan pilihan presiden saling bebas
\(H_{1}\): Jenis kelamin dan pilihan presiden tidak saling bebas
Statistik Uji:
\(P_{Value} = P(X \geq n11) = P(X \geq 3) = P(X=3)+ P(X=4) + P(X=5)\)
Dengan R:
Menggunakan Sebaran Hipergeometrik
\(x=n11\), \(m=n1+\), \(n=n2+\), \(k=n+1\) #dhyper(x, m, n, k) #untuk nilai pdf (fungsi massa peluang) \(P(X=x)\) #phyper(x, m, n, k, TRUE) #untuk nilai CDF (cumulatif) \(P(X\leq x)\)
p3<-dhyper(3, 5, 5, 5)
p4<-dhyper(4, 5, 5, 5)
p5<-dhyper(5, 5, 5, 5)
p_value<-p3+p4+p5
p_value
## [1] 0.5
atau cara lain
1-phyper(2, 5, 5, 5,TRUE)
## [1] 0.5
Menggunakan fisher.test
input data
pilpres2<-matrix(c(3,2,2,3), nrow=2,byrow=TRUE)
colnames(pilpres2)<-c("clinton","obama")
rownames(pilpres2)<-c("M","F")
tabelpilpres2<-as.table(pilpres2)
tabelpilpres2
## clinton obama
## M 3 2
## F 2 3
fisher.test
fisher.test(tabelpilpres2,alternative='g') #g menandakan H1 teta >1 atau uji 1 arah
##
## Fisher's Exact Test for Count Data
##
## data: tabelpilpres2
## p-value = 0.5
## alternative hypothesis: true odds ratio is greater than 1
## 95 percent confidence interval:
## 0.1541449 Inf
## sample estimates:
## odds ratio
## 2.069959
Contoh Soal 7
Jawaban Contoh Soal 7
Hipotesis:
\(H_{0}\): Tidak terdapat hubungan antara kebiasaan merokok dengan profesi sebagai atlet
\(H_{1}\): Terdapat hubungan antara kebiasaan merokok dengan profesi sebagai atlet
Hitung Manual:
Statistik Uji:
\(P_{Value} = P(X \geq n11)= P(X \geq 7)\)
Cara R
Menggunakan Sebaran Hipergeometrik
Hipergeometrik \(x=n11\), \(m=n1+\), \(n=n2+\), \(k=n+1\)
#dhyper(x, m, n, k) #untuk nilai pdf (fungsi massa peluang) \(P(X=x)\) #phyper(x, m, n, k, TRUE) #untuk nilai CDF (cumulatif) \(P(X \leq x)\)
p_value1<-dhyper(7, 9, 5, 7)
p_value1
## [1] 0.01048951
atau
1-phyper(7-1, 9, 5, 7,TRUE)
## [1] 0.01048951
Menggunakan fisher.test
Input data
dataatlet<-matrix(c(7,0,2,5), nrow=2,byrow=F)
colnames(dataatlet)<-c("bukan perokok","perokok")
rownames(dataatlet)<-c("atlet","bukan atlet")
tabeldataatlet<-as.table(dataatlet)
tabeldataatlet
## bukan perokok perokok
## atlet 7 2
## bukan atlet 0 5
fisher.test
fisher.test(tabeldataatlet,alternative='g') #g menandakan H1 teta >1 atau uji 1 arah
##
## Fisher's Exact Test for Count Data
##
## data: tabeldataatlet
## p-value = 0.01049
## alternative hypothesis: true odds ratio is greater than 1
## 95 percent confidence interval:
## 2.037464 Inf
## sample estimates:
## odds ratio
## Inf