Giriş:

Regresyon analizi, bir veya daha fazla bağımsız değişken ile bağımlı değişken arasındaki ilişkiyi modellemek için kullanılan istatistiksel bir tekniktir. Bağımlı değişken, tahmin edilmek istenen değişkendir ve bağımsız değişkenler, bağımlı değişkenin tahmininde kullanılan değişkenlerdir.

Univariate Regresyon: Bir bağımlı ve bir bağımsız değişken arasındaki ilişkiyi inceler. Aslında bu daha önceki komitelerde gördüğümüz hipotez testleri ile benzer yaklaşıma sahiptir ve benzer sonuçları verir.
Bağımlı değişken Bağımsız değişken
Y X
Sonuç Neden
Sonlanım (outcome, endpoint) Prediktör
Yanıt (response) Faktör (risk faktörü)
Tahmin edilen Tahmin eden
Açıklanan Açıklayan

Ancak, biyolojik yapılardaki bu ikili ilişkiler (yani bir Y ve bir X), yapıyı tanımlamak için genellikle yetersiz kalmaktadır. Biyolojik sistemler, birden fazla değişkenin kompleks ilişki ve etkileşimine sahiptir. Dolayısıyla bu yapıları tanımlamak için univariate regresyon analizleri yetmeyecektir. Bunun için çok değişkenli sistemleri tanımlayabilen etkili araçlara ihtiyacımız vardır: Çok değişkenli (multivariable) regresyon analizleri bu açıdan biyoistatistik biliminin kalbinde yer almaktadır.

Çok değişkenli regresyon analizleri temelde 3 amaç için kullanılmaktadır:

  1. Değişkenler arasındaki ilişkilerin tanımlanması (İLİŞKİ)
  2. Bir değişken seti kullanılarak, gelecekteki bir olayın tahmin edilmesi (PREDİKSİYON)
  3. Bir değişkenin başka bir değişken üzerine nedensel etkisinin (neden-sonuç) incelenmesi (NEDENSELLİK)

Regresyon analizinin üç ana tipi bulunmaktadır: lineer regresyon, lojistik regresyon ve Cox regresyonu. Hangi regresyon analizinin seçileceği, bağımlı değişkenin (Y) doğasına göre belirlenir.

Lineer (doğrusal) regresyon, sürekli bir bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi modellemek için kullanılır.

Lojistik regresyon, ikili (dikotomik, binary) bir bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi modellemek için kullanılır. Bağımlı değişken, ikili bir durumu ifade eder ve yalnızca “evet” veya “hayır” gibi iki değeri alabilir.

Cox oransal hazard regresyonu, bir veya daha fazla bağımsız değişken ile bir olay gelişene kadar geçen süre (sağ-kalım zamanı) arasındaki ilişkiyi modellemek için kullanılır.

Temel regresyon eşitliği:

Aşağıdaki verilen denklem lineer regresyon denklemidir ve hemen hemn tüm regresyonlar bu aşağıdaki denklemin özelleştirilmesinden doğmaktadır.

Örnek:

Bir araştırmacı 20 hastanın vucut kitle indexlerini (BMI) ölçüp kaydettikten sonra bunları total kolesterol düzeylerini ölçmüştür.

Amaç:

  1. BMI ile TK düzeyleri arasında ilişkiyi tespit etmek

  2. BMI düzeyleri bilinen hastalarda TK düzeylerini tahmin etmek

  3. BMI düzeyleri TK düzeyleri üzerine etkisi olup olmadığını test etmek

Bağımlı değişken: TK (sürekli bir değişken)

Bağımsız değişken: BMI

Sürekli bağımlı değişken ile bağımsız değişken (ler) arasındaki ilişki, doğrusal (lineer) regresyon ile incelenir.

Doğrusal regresyon bize verileri en iyi temsil edecek regresyon çizgisini vermeketdir (buna en fit çizgi/line denir). En uygun çizgi bulunduktan sonra, bu çizginin formülasyonu kullanılıp hipotez test edilir.

Diyelim ki en uygun çizgi, MAVİ olandı. Bunu tanımlayan regresyon eşitliğimiz de şöyle bulundu:

İstatistiksel hipotez:

Ho = Beta1 isimli regresyon katsayısı sıfırdır.

Yaptığımız doğrusal regresyon analizinde biz beta1 için p değerini 0.002 saptadık.

Dolayısıyla BMI ile TK arasındaki ilişki istatistiksel olarak anlamlıdır (yani BMI, TK tahmininde kullanılabilir yada BMI TK üzerine etkilidir)

Regresyon katsayısı nasıl yorumlanır?

BMI düzeyindeki her bir birim artış, TK’da 6.5 mg/dl artış sağlayacaktır. Bu artış istatistiksel olarak anlamlıdır (p=0.002)

Tahmin edilen TK=42+6.5*BMI formülüne göre hesaplarsak ve gerçek TK ve tahmin edilen TK değerlerinin farkını alırsak “hata terimi” yada “artık/rezidüel” değerlerini buluruz. Bu değer, ne kadar düşükse tahminler o kadar kaliteli/isabetli olacaktır.

Regresyon alt-tipleri:

Regresyon analizlerinin seçiminde, daha önceden de bahsedildiği gibi, Y’nin (yanıt değişkeni, sonlanım) tipi belirleyicidir.

Y, sürekli bir değişken ise; doğrusal (lineer) regresyon, ikili(dikotomik, binary) ise lojistik regresyon, sağ-kalım zamanı ise Cox oransal regresyon, sıralı (ordinal) ise ordinal lojistik regresyon kullanılır.

Neden regresyon analizleri;

Univariate regresyon analizleri ile hipotez testleri (eski komitelerde gördüğümüz) benzer sonuçları vermektedir. Regresyon analizlerinin avantajı, çok değişkenli analizlere imkan vermesidir. Mesela, Sigara önemli bir kalp krizi nedenidir.Bir çalışmada sigara bağımsız değişken, Kalp krizi (var/yok) yanıt değişkeni olarak düşünülüp univariate lojistik regresyon analizi veya ki-kare analizi yapılabilir. Sonuçlar benzer olacaktır. Ancak, kalp krizine neden olan tek durumun sigara olmadığını, Yaş, cinsiyet, diyabet, hipertansiyon vs vs pek çok nedeninini olduğunu biliyoruz. Bu faktörlerin bir arada incelenemsine çok değişkenli regresyon analizi olanak tanımaktadır.

Nasıl yorumlanmalı;

Her bir regresyon analizinin çıktısı aynı olmasada benzer şekilde yorumlanır. Temelde regresyon analizinin yorumlanması araştırma hipotezine göre değişkemktedir. Mesela Y=a+bX+e formülü aslında tüm regresyonlar için bir şekilde geçerlidir.

Doğrusal regresyonda, bir veya daha fazla bağımsız (x) değişekn kullanarak yanıt değişkeni tahmin edilmeye çalışılır, buna tahmini Y denir. Gözlenen Y ile tahmini Y arasındaki farklara rezidüel (hata yada artık) denir.Rezidüeller ne kadar küçük ise tahmin o kadar isabetlidir. Ayrıca, regresyon eşitliğinde b adını verdiğimiz regresyon katsayısıda önemlidir. Bu, bağımsız değişkendeki her bir birim artışın Y’de nasıl bir değişikliğe neden olduğunu gösterir. Ayrıca bu b katsayısının istatistiksel önemini p değeri ile değerlendiririz. Tahmin edilen Y’nin ne kadar isabetli olduğu, araştırma hipototezi prediksiyon ise ön plandaıdır. Ancak ana amaç bir bağımsız değişkenin yanıtı nasıl etkilediği şeklindeyse (yani ana vurgu b üzerine), araştırma hipotezi nedenseldir.

Lojistik regresyonda, bir veya daha fazla bağımsız (x) değişekn kullanarak yanıt değişkeni tahmin edilmeye çalışılır. Ancak, burda doğrusal regresyonun aksine yanıt değişkeni sürekli değil, ikili (var/yok) olduğundan dolayı, lojistik regresyon bize olasılık verecektir, mesela ölme olasılığı 0.73 gibi. buna tahmini Y denir. Dolayısıyla doğrusal regresyonda olduğu gibi bir rezidüel kavramı yoktur. Ayrıca, regresyon eşitliğinde b adını verdiğimiz regresyon katsayısıda önemlidir. Ancak doğrusal regresyondan farklı olarak burda b değerinden ziyade, \(e^{b}\) değeri önemlidir: ki buna odds oranı (OR) adı verilir. Bu, bağımsız değişkendeki her bir birim artışın Y’nin gerçekleşme olasılığında nasıl bir değişkilik olduğunu gösterir. Ayrıca bu b katsayısının veya OR değerinin istatistiksel önemini p değeri ile değerlendiririz. Tahmin edilen Y’nin ne kadar isabetli olduğu, araştırma hipototezi prediksiyon ise ön plandaıdır. Ancak ana amaç bir bağımsız değişkenin yanıtı nasıl etkilediği şeklindeyse (yani ana vurgu b veya OR üzerine), araştırma hipotezi nedenseldir.

Cox oransal hazard regresyonunda, bir veya daha fazla bağımsız (x) değişekn kullanarak yanıt değişkeni tahmin edilmeye çalışılır. Ancak, burda doğrusal regresyonun veya lojistik regresyonun aksine yanıt değişkeni sürekli veya ikili değil, bir olay gelişene kadar geçen süredir (time to event). Aslında burda yanıt değişkeni zaman olduğu için sürekli bir değişken olduğu düşünülebilir, ancak sağ-kalım zamanları özel değişkenlerdir ve özel analizler gerektirir. Cox regresyon lojistik regresyonda olduğu gibi bize mesela 3 yıllık, 5 yıllık ölüm olasılığını vermektedir (3 yıllık ölüm olasılığı 0.67). Ayrıca, regresyon eşitliğinde b adını verdiğimiz regresyon katsayısıda önemlidir. Ancak doğrusal regresyondan farklı olarak burda b değerinden ziyade, \(e^{b}\) değeri önemlidir: ki buna hazard oranı (HR) adı verilir. Bu, bağımsız değişkendeki her bir birim artışın Y’nin gerçekleşme olasılığında nasıl bir değişkilik olduğunu gösterir. Ayrıca bu b katsayısının veya HR değerinin istatistiksel önemini p değeri ile değerlendiririz. Tahmin edilen Y’nin ne kadar isabetli olduğu, araştırma hipototezi prediksiyon ise ön plandaıdır. Ancak ana amaç bir bağımsız değişkenin yanıtı nasıl etkilediği şeklindeyse (yani ana vurgu b veya HR üzerine), araştırma hipotezi nedenseldir.

Regresyon performans ölçütleri: Bir regresyon analiznin tahminlerinin ne kadar güçlü ve isabetli olduğunu gösteren değerlerdir. Esas olarak prediksiyon amaçlı kullanılır.

  1. \(R^{2}\) değeri: Yanıt değişkenindeki varyasyonun ne kadarının bağımsız değişkenlerce açıklanbildiğini gösterir. 0 ve 1 arasındadır.her üç regresyonda da kullanılır.

2. C-istatistiği: Lojistik ve Cox regresyonda kullanılır. Modelin olay gelişen ve gelişmeyenleri biribirinden ayırtedebilme yeteneğini gösterir. 0.5 rasgele ayırımdır (zar atmak gibi), 1 en yüksek ayırımdır.

3. Kalibrasyon: Tahmin edilen ve gözlenen yanıt değişekenleri arasındaki uyumu gösterir. Her üç regresyonda da kullanılır.

Sağ-analizlerine giriş: