Daha önce numerik veri analizlerini incelemiştik. Bu dersimizde kategorik veri analizinde hipotez testlerinin kullanımını ayrıntılı inceleyeceğiz.
Aşağıdaki şekilde, kategorik verilerin yada oranların karşılaştırlmaısnda hipotez testlerinin nasıl kullanılacağı ayrıntılı bir şekilde gösterilmiştir.
Yukarıdaki şekilden, ordinal verilerin analizi dışlanırsa (geçen komitelerde işlenmişti), aşağıdaki sadeleştirilmiş şekli elde ederiz. Bu komitede aşağıdaki şekil üzerinden ilerleyeceğiz.
İster numerik ister kategorik data analizi olsun, analize başlamadan
önce yanıt değişkeni (response variable, Y), açıklayıcı değişken (X) ve
çalışmanın doğası/tasarımı (bağımsız gruplar yada öncesi/sonrası
gruplar) belirlenmelidir.
Mesela, DM olan ve olmayanların
sedimantasyon düzeyleri arasında farklılık varmı? Burada DM var/yok
açıklayıcı değişken, sedimantasyon düzeyi (sürekli bir veri) yanıt
değişkeni, bağımsız gruplar ise çalışmanın tasarımıdır. Bu durumda,
student t testi veya Mann-whitney U testi seçilecekti.
Kategorik veriler analiz edilirken, yanıt değişkenimiz de kategorik bir doğaya sahip olacaktır.
Örnek:
1) Diyabeti olan ve olmayaların cinsiyetleri arasında
farklılık varmı?
2) A ve B tedavisi verilenlerde 1 ay takip sonunda
ölüm oranları arasında fark varmı?
3) A ilacını vermeden önce ve
verdikten sonra fonksiyonel kapasite (evere1-2-3-4) nasıl
değişmeketdir?
Bağımsız örneklerde kategorik veri analizi yapılırken, genellikle 2x2 tablolar oluşturulur. Bu durumda her iki değişkenimizde dikotomik yapıdadır. Ancak rxn tablolarda olabilir. Her iki durumda da tercih edilecek test; Kİ-KARE testidir. Ancak, ki-kare için bazı varsayımlar karşılanmadığında FİSHER-Kesin testi kullanılır.
Örnek;
A tedavisi alan 100 hasta, B tedavisi alan 100 hasta 1 ay takip edilmiş, ve 1 ayın sonunda A tedavisi alan 20, B tedavisi alan 40 hasta ölmüştür.
Bu durumda 2x2 tablo:
A grubunda ölüm oranı 20/100 yada 0.20 yada %20 olarak ifade edilir. B grubunda ise 40/100 yada 0.40 yada %40 olarak ifade edilir.
Ho=Tedavi (A/B) ve Ölüm (var/yok) değişkenleri birbirinden bağımsızdır
Ha=Tedavi (A/B) ve Ölüm (var/yok) değişkenleri birbirinden bağımsız değildir.
Bağımsızlık; İki değişken birbirinden bağımsız ise, birbirini etkilemez ve aralarında ilişki yoktur anlamına gelir.
Örneğimize geri dönelim. Eğer tedavi ve ölüm birbirinden bağımsız olsaydı, tüm popülasyonda görülen 60 ölüm sayısının eşit bir şekilde dağılmasını beklerdik (beklenen sıklık = expected frequency). Bu durumda 2x2 tablomuz şöyle olurdu.
Ki-kare testi ve kikare test istatistiği (Pearson X2), bize gözlemlenen sıklıklar ile beklenen sıklıkların birbirinden ne kadar farklı olduğunu söyler !!
Varsayım:
Hücrelerin %20’sinden fazlasında beklenen değer 5’in altında ise veya hücrelerin birinde beklenen değer 1’in altında ise Ki-kare tetsi yerine Fisher-kesin testi kullanılır.
\[\chi^2 = \sum \frac {(O - E)^2}{E}\]
\[\chi^2 = \frac {(80 - 70)^2}{70}+\frac {(20 - 30)^2}{30} +\frac {(60 - 70)^2}{70} +\frac {(40 - 30)^2}{30} = 9.52 \]
X2=9.52, df=1, Bu değerlere karşılık gelen p değeri 0.002 olarak bulunucaktır. Bu durumda, Ho hipotezi rededilir ve Tedavi ile ölüm arasında istatistiksel olarak anlamlı bir ilişki vardır yorumu yapılır.
Ki-kare testi bize iki değişken arasındaki ilişkinin istatistiksel önemini söyler anacak ilişkini büyüklüğünü (klinik önemini) söylemez. Bunun için kullandığımız iki temel ölçüm vardır.