Responsi 2 STA1543-Analisis Data Kategorik

Khusnia Nurul Khikmah (G1501211049)

8/20/2022

Minggu kedua ini membahas mengenai Asosiasi Antara Dua Peubah Kategori

setwd("D:/S2/IPB/BAHAN AJAR STA1543/Minggu 2")

Contoh Soal 1

Misal terdapat data jenis kelamin dan pilihan kandidat presiden sebagai berikut:

Tentukan:

  1. Yang memilih Clinton

  2. Yang memilih Obama

  3. Yang memilih Clinton jika ybs laki-laki

  4. Yang memilih Clinton jika ybs perempuan

  5. Yang memilih Obama jika ybs laki-laki

  6. Yang memilih Obama jika ybs perempuan

Jawaban Contoh Soal 1

Input Data

pilpres<-matrix(c(200,406,418,418), nrow=2,byrow=TRUE)
colnames(pilpres)<-c("clinton","obama")
rownames(pilpres)<-c("M","F")
tabelpilpres<-as.table(pilpres)
tabelpilpres
##   clinton obama
## M     200   406
## F     418   418
datapilpres<-as.data.frame(pilpres)
datapilpres
##   clinton obama
## M     200   406
## F     418   418
addmargins(tabelpilpres)
##     clinton obama  Sum
## M       200   406  606
## F       418   418  836
## Sum     618   824 1442

Jawaban 1.1

Peluang yang memilih Clinton

a<-618/1442
a
## [1] 0.4285714

Jawaban 1.2

Peluang yang memilih Obama

b<-824/1442
b
## [1] 0.5714286
prop.table(tabelpilpres,margin=1) #margin=1 terhadap total baris, margin=2 terhadap total kolom
##    clinton    obama
## M 0.330033 0.669967
## F 0.500000 0.500000

Jawaban 1.3

Peluang yang memilih Clinton jika ybs laki-laki

c= 200/606
c
## [1] 0.330033

Jawaban 1.4

Peluang yang memilih Clinton jika ybs perempuan

d= 418/836
d
## [1] 0.5

Jawaban 1.5

Peluang yang memilih Obama jika ybs laki-laki

e= 406/606
e
## [1] 0.669967

Jawaban 1.6

Peluang yang memilih Obama jika ybs perempuan

f= 418/836
f
## [1] 0.5

Sensitifitas dan spesifisitas

Sensitivitas dan spesifisitas merupakan salah satu alat dalam diagnosa. Awalnya, kedua statistik ini digunakan untuk melakukan diagnosa kesehatan, namun pada perkembangannya juga digunakan dalam diagnosa model-model statistika. Perhatikan tabel berikut :

Sensitivitas

Sensitivitas : peluang bahwa hasil pengujian menunjukkan bahwa seseorang positif terjangkit penyakit apabila faktanya orang tersebut memang terjangkit penyakit.

Spesifisitas

Spesifisitas : peluang bahwa hasil pengujian menunjukkan bahwa seseorang tidak terjangkit penyakit apabila faktanya orang tersebut memang tidak terjangkit penyakit.

Contoh Soal 2

Tentukan nilai sensitifitas dan spesifisitas dari kasus di atas?

Jawaban Contoh Soal 2

Input Data

sakit<-matrix(c(1,12,0,87), nrow=2,byrow=TRUE)
predicted<-rownames(sakit)<-c("pos","neg")
actual<-colnames(sakit)<-c("sakit","sehat")
tabelsakit<-as.table(sakit)
tabelsakit
##     sakit sehat
## pos     1    12
## neg     0    87

Nilai Sensitifitas dan Spesifisitas

epi.tests(tabelsakit,conf.level=0.95)
##           Outcome +    Outcome -      Total
## Test +            1           12         13
## Test -            0           87         87
## Total             1           99        100
## 
## Point estimates and 95% CIs:
## --------------------------------------------------------------
## Apparent prevalence *                  0.13 (0.07, 0.21)
## True prevalence *                      0.01 (0.00, 0.05)
## Sensitivity *                          1.00 (0.02, 1.00)
## Specificity *                          0.88 (0.80, 0.94)
## Positive predictive value *            0.08 (0.00, 0.36)
## Negative predictive value *            1.00 (0.96, 1.00)
## Positive likelihood ratio              8.25 (4.85, 14.02)
## Negative likelihood ratio              0.00 (0.00, NaN)
## False T+ proportion for true D- *      0.12 (0.06, 0.20)
## False T- proportion for true D+ *      0.00 (0.00, 0.97)
## False T+ proportion for T+ *           0.92 (0.64, 1.00)
## False T- proportion for T- *           0.00 (0.00, 0.04)
## Correctly classified proportion *      0.88 (0.80, 0.94)
## --------------------------------------------------------------
## * Exact CIs

Kebebasan Pada Tabel Kontingensi

Dua peubah \((X,Y)\), dalam tabel kontingensi dikatakan saling bebas secara statistika apabila distribusi peluang bersyarat dari \(Y\) adalah identik untuk setiap level \(X\). Jika kedua peubah merupakan peubah respon, maka dua peubah dinyatakan saling bebas apabila semua peluang bersama sama dengan perkalian dari peluang-peluang marginalnya. Ditulis:

Relative Risk

  1. Resiko relatif adalah nisbah peluang sukses baris pertama pada peluang sukses baris kedua:

  2. Resiko relatif bernilai satu, \(r=1\) menunjukkan kebebasan antara peubah baris dengan peubah kolom.

  3. Pada keadaan tertentu resiko relatif lebih bermakna untuk pembandingan peluang sukses. Selisih peluang \(0.610−0.601\) dan selisih peluang \(0.010−0.001\) sebesar \(0.009\) (meskipun dengan menunjukkan hasil uji yang berbeda), tetapi nisbah peluang \(0.610/0.601\) dan \(0.010/0.001\) adalah sangat berbeda, masing-masing adalah \(1.01\) dan \(10\).

  4. Inferensia untuk resiko relatif tidak sederhana sehingga jarang digunakan pada prakteknya.

Contoh Soal 3

Misal terdapat data jenis kelamin dan pilihan kandidat presiden sebagai berikut:

Tentukan nilai resiko relative antara pria dan wanita dari kasus tersebut. Berdasarkan hasil tersebut apakah terdapat hubungan antara jenis kelamin dan pilihan kandidat presiden?

Jawaban Contoh Soal 3

Cara Manual:

\(P(Clinton|Male)\) \(=\) \(200/606\) \(=\) \(0.330033\)

\(P(Clinton|female)\) \(=\) \(418/836\) \(=\) \(0.5\)

\(RR = 0.330033/0.5 = 0.660066\)

Kesimpulan: apabila diketahui seseorang adalah laki-laki, maka kecenderungan untuk memilih Clinton adalah \(0.66\) kali dari kecenderungan wanita memilih Clinton, dengan kata lain wanita lebih cenderung memilih Clinton dibandingkan laki-laki. Berdasarkan nilai resiko relative yang diperoleh terdapat hubungan antara jenis kelamin dengan pilihan kandidat presiden, hal ini karena nilai dari resiko relatif tidak sama dengan satu.

Cara R

prop.out <- prop.table(tabelpilpres, margin = 1) #Tabelnya sama dengan contoh 1 sehingga langsung kita gunakan data yang sudah di input sebelumnya yaitu tabelpilpres

# relative risk of male vs. female
prop.out
##    clinton    obama
## M 0.330033 0.669967
## F 0.500000 0.500000
prop.out[1,1]/prop.out[2,1]
## [1] 0.660066

Rasio odds

Odds adalah rasio peluang sukses dan gagal sedangkan rasio odds adalah rasio dari nilai odd.

Sifat-sifat rasio odds

  1. Pada tabel kontingensi \(2\times 2\) dengan \(\phi_1\) dan \(\phi_2\) masing-masing adalah peluang sukses pada baris-1 dan baris-2,

  2. Keadaan \(\phi_1=\phi_2\) menyebabkan \(odds1=odds2\) sehingga \(\theta=1\), menunjukkan kebebasan antara peubah baris dan peubah kolom, \(\theta>1\) menunjukkan \(\phi_1>\phi_2\), dan \(\theta<1\) menunjukkan \(\phi_1<\phi_2\).

  3. Nilai \(\theta\) sekecil-kecilnya adalah \(0\) dan sebesar-besarnya adalah infinite, semakin jauh dari \(1\) semakin kuat keterkaitan antara peubah kolom pada peubah baris. Dua nilai rasio odds \(\theta_1\) dan \(\theta_2\) menunjukkan kekuatan keterikatan yang sama besar apabila \(\theta_1=1/\theta_2\).

  4. Pertukaran posisi baris atau kolom tidak menyebabkan gambaran kekuatan keterikatan baris dan kolom berubah; dengan pertukaran ini akan diperoleh \(\theta\) baru yang nilainya sebesar \(1/\theta_1\).

  5. Nilai nisbah odds tidak perubah apabila tabel ditranspose sehingga posisi baris dan kolomnya dipertukarkan.

Inferensi rasio odds

  1. Transformasi logaritma (logaritma berbasis \(e\)) atas nisbah odds, dapat diperoleh sebaran yang simetris mendekati sebaran Normal. Nilai \(\theta=1\) bersesuaian dengan \(ln \theta=0\), menunjukkan kebebasan. Jika \(\theta_1=\theta_2\) maka \(ln \theta_1=−ln \theta_2\) menunjukkan kekuatan keterikatan yang sama tetapi berbeda arah.

  2. Simpangan baku bagi statistik logaritma nisbah odds adalah:

  1. Selang kepercayaan \((1-\alpha)100\) bagi \(ln \theta\) adalah:

  2. Batas bawah dan batas atas selang kepercayaan bagi \(\theta\) masing-masing diperoleh sebagai eksponen batas bawah dan eksponen batas atas selang kepercayaan bagi \(ln \theta\).

Contoh Soal 4

Misal terdapat data jenis kelamin dan pilihan kandidat presiden sebagai berikut:

  1. Tentukan odds laki-laki

  2. Tentukan odds perempuan

  3. Hitung rasio odds berdasarkan poin a dan b, interpretasikan nilai rasio odds tersebut

  4. Tentukan selang kepercayaan dari rasio odds yang telah Anda peroleh pada butir a

  5. Berdasarkan nilai rasio odds tersebut apakah terdapat hubungan antara jenis kelamin dengan pilihan presiden?

Jawaban Contoh Soal 4

Cara Manual:

  1. \(P(C|M)=200/606=0.330033\)

\(P(O|M)=406/606=0.669967\)

\(odds(M)=0.330033/0.669967=0.492611\)

Nilai odds ini berarti peluang laki-laki memilih Clinton \(0.499\) kali dari peluang laki-laki memilih Obama.

  1. \(P(C|F)=418/836=0.5\)

\(P(O|F)=418/836=0.5\)

\(odds(F)=0.5/0.5=1\)

Nilai odds ini berarti, peluangg wanita untuk memilih Clinton sama dengan peluang wanita untuk memilih Obama.

  1. \(OR=odds(M)/odds(F)=0.492611/1=0.492611\)

Jadi, odds laki-laki \(0.49\) kali dari odds wanita.

4.selang kepercayaan dari rasio odds

\(s^2=(1/200+1/406+1/418+1/418)=0.012248\)

Selang Kepercayaan = \((ln(\theta) \pm Z(0.05/2)∗s)\) = \(ln(0.492611) \pm 1.96\sqrt{(0.012248)}\)

Selang Kepercayaan \(95%\): $-0.92495<ln⁡(θ)<-0.49112 $ = $ 0.396552<θ<0.611938$

  1. Berdasarkan nilai dari rasio odds terdapat hubungan antara jenis kelamin dengan pilihan presiden, karena nilai 1 (satu) tidak masuk pada selang kepercayaan \(\theta\).

Cara R

Odds of Male

prop.out[1,1]/prop.out[1,2]
## [1] 0.4926108

Odds of Female

prop.out[2,1]/prop.out[2,2]
## [1] 1
tabelpilpres
##   clinton obama
## M     200   406
## F     418   418
or.out <- oddsratio(tabelpilpres, rev="b") #rev : reverse order of "rows", "colums","both", or "neither" (default)

or.out$measure
##                         NA
## odds ratio with 95% C.I.  estimate     lower     upper
##                        F 1.0000000        NA        NA
##                        M 0.4929825 0.3963827 0.6119071

Hubungan Antara Rasio Odds Dan Resiko Relatif

Uji khi kuadrat untuk kebebasan antar peubah

Contoh Soal 5

Dengan menggunakan data contoh Soal 1 ujilah hipotesis:

\(H_{0}\): Antar peubah saling bebas

\(H_{1}\): Antar peubah ada asosiasi

Jawaban Contoh Soal 5

Data

tabelpilpres
##   clinton obama
## M     200   406
## F     418   418
chisq.test(tabelpilpres,correct=FALSE)
## 
##  Pearson's Chi-squared test
## 
## data:  tabelpilpres
## X-squared = 41.444, df = 1, p-value = 1.213e-10

Karena \(p_{value} < 0.05\) maka **TOLAK \(H_{0}\) berarti pada taraf nyata \(5%\) dapat cukup bukti untuk menyatakan ada asosiasi antar peubah jenis kelamin dan pilihan kandidat presiden.

Fisher Exact Test

Selang kepercayaan dan pengujian asosiasi antara dua peubah yang dilakukan dengan distribusi Chi-Square digunakan untuk contoh berukuran besar. Akan tetapi, jika ukuran contoh kecil, inferensia menggunakan Fisher Exact Test lebih tepat. Pada tabel \(2\times 2\), kebebasan dua peubah ditandai dengan nilai rasio odds sama dengan satu \((\theta = 1)\). Pada tabel \(2 \times 2\) untuk jumlah baris dan kolom marginal tertentu, frekuensi pada sel pertama \((n_{11})\) menentukan frekuensi pada ketiga sel lainnya. Ketika nilai rasio odds sama dengan satu \((\theta = 1)\), peluang untuk nilai \((n_{11})\) dinyatakan oleh:

Contoh Soal 6

Jawaban Contoh Soal 6

Hipotesis:

\(H_{0}\): Jenis kelamin dan pilihan presiden saling bebas

\(H_{1}\): Jenis kelamin dan pilihan presiden tidak saling bebas

Statistik Uji:

\(P_{Value} = P(X \geq n11) = P(X \geq 3) = P(X=3)+ P(X=4) + P(X=5)\)

Dengan R:

Menggunakan Sebaran Hipergeometrik

\(x=n11\), \(m=n1+\), \(n=n2+\), \(k=n+1\) #dhyper(x, m, n, k) #untuk nilai pdf (fungsi massa peluang) \(P(X=x)\) #phyper(x, m, n, k, TRUE) #untuk nilai CDF (cumulatif) \(P(X\leq x)\)

p3<-dhyper(3, 5, 5, 5)
p4<-dhyper(4, 5, 5, 5)
p5<-dhyper(5, 5, 5, 5)
p_value<-p3+p4+p5
p_value
## [1] 0.5

atau cara lain

1-phyper(2, 5, 5, 5,TRUE)
## [1] 0.5

Menggunakan fisher.test

input data

pilpres2<-matrix(c(3,2,2,3), nrow=2,byrow=TRUE)
colnames(pilpres2)<-c("clinton","obama")
rownames(pilpres2)<-c("M","F")
tabelpilpres2<-as.table(pilpres2)
tabelpilpres2 
##   clinton obama
## M       3     2
## F       2     3

fisher.test

fisher.test(tabelpilpres2,alternative='g') #g menandakan H1 teta >1 atau uji 1 arah
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabelpilpres2
## p-value = 0.5
## alternative hypothesis: true odds ratio is greater than 1
## 95 percent confidence interval:
##  0.1541449       Inf
## sample estimates:
## odds ratio 
##   2.069959

Contoh Soal 7

Jawaban Contoh Soal 7

Hipotesis:

\(H_{0}\): Tidak terdapat hubungan antara kebiasaan merokok dengan profesi sebagai atlet

\(H_{1}\): Terdapat hubungan antara kebiasaan merokok dengan profesi sebagai atlet

Hitung Manual:

Statistik Uji:

\(P_{Value} = P(X \geq n11)= P(X \geq 7)\)

Cara R

Menggunakan Sebaran Hipergeometrik

Hipergeometrik \(x=n11\), \(m=n1+\), \(n=n2+\), \(k=n+1\)

#dhyper(x, m, n, k) #untuk nilai pdf (fungsi massa peluang) \(P(X=x)\) #phyper(x, m, n, k, TRUE) #untuk nilai CDF (cumulatif) \(P(X \leq x)\)

p_value1<-dhyper(7, 9, 5, 7)
p_value1
## [1] 0.01048951

atau

1-phyper(7-1, 9, 5, 7,TRUE)
## [1] 0.01048951

Menggunakan fisher.test

Input data

dataatlet<-matrix(c(7,0,2,5), nrow=2,byrow=F)
colnames(dataatlet)<-c("bukan perokok","perokok")
rownames(dataatlet)<-c("atlet","bukan atlet")
tabeldataatlet<-as.table(dataatlet) 
tabeldataatlet  
##             bukan perokok perokok
## atlet                   7       2
## bukan atlet             0       5

fisher.test

fisher.test(tabeldataatlet,alternative='g')  #g menandakan H1 teta >1 atau uji 1 arah
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabeldataatlet
## p-value = 0.01049
## alternative hypothesis: true odds ratio is greater than 1
## 95 percent confidence interval:
##  2.037464      Inf
## sample estimates:
## odds ratio 
##        Inf