Regresyon Öncesi Son Adım: Modelin Kurulması ve Ön Analiz

Kukla Değişkenler İçin Temel Kural: Referans Kategorisi

Kukla değişkenler oluşturulduktan sonraki en kritik adım, bu değişkenleri regresyon modeline doğru bir şekilde eklemektir. Hocamızın da altını çizdiği üzere, burada uyulması zorunlu olan temel bir kural bulunmaktadır: Bir kategorik değişkenden türetilen K adet kukla değişkenin tamamı aynı anda modele dahil edilemez. Modele en fazla K-1 adet kukla değişken eklenmelidir.

Regresyon Öncesi Alternatif Ön Analiz: Ortalama Karşılaştırması (Mean Comparison)

Çoklu regresyon modelini kurmadan önce, cinsiyetin gelir üzerinde anlamlı bir etkisi olup olmadığına dair öncül bir kanıt elde etmek faydalıdır. Önceki analizlerde iki sayısal değişken arasındaki ilişki için korelasyon analizi kullanılmıştı. Ancak burada bağımsız değişkenimiz (cinsiyet) kategorik, bağımlı değişkenimiz (gelir seviyesi) ise sayısal olduğundan, hocamızın da belirttiği gibi, daha uygun bir ön analiz tekniği “ortalama karşılaştırmasıdır” (mean comparison).

Bu amaçla, erkeklerin ve kadınların ortalama gelir seviyeleri arasında istatistiksel olarak anlamlı bir fark olup olmadığını test etmek üzere bir Compare Means analizi (örneğin Bağımsız Örneklemler t-Testi) yapılacaktır. Bu analiz, regresyon modelinden elde edilecek bulguları destekleyecek veya onlara bir bağlam sunacak önemli bir ilk adım niteliğindedir.

Regresyon Öncesi Alternatif Ön Analiz: Cinsiyete Göre Ortalama Gelir Seviyelerinin Karşılaştırılması

Çoklu regresyon modeline cinsiyet değişkenini dahil etmeden önce, bu değişkenin gelir seviyesi üzerinde anlamlı bir fark yaratıp yaratmadığını test etmek amacıyla, hocamızın da belirttiği gibi, bir ortalama karşılaştırması analizi yapılmıştır. Bu analiz, iki aşamada gerçekleştirilmiştir.

A) Betimsel İstatistikler (Means Raporu)

İlk olarak, SPSS’te Analyze > Compare Means > Means yolu izlenerek, bağımlı değişken (dependent list) olarak income, kategorik değişken (independent list) olarak ise gender atanmıştır. Bu analiz sonucunda, erkek katılımcıların ortalama gelir seviyesinin 8.54 (N=1298) olduğu, kadın katılımcıların ortalama gelir seviyesinin ise 4.42 (N=1257) olduğu görülmüştür. Bu betimsel bulgu, iki grup arasında yaklaşık 4.12’lik belirgin bir fark olduğunu göstermektedir.

B) Bağımsız Örneklemler T-Testi Sonuçları

Bu farkın istatistiksel olarak anlamlı olup olmadığını test etmek için, hocamızın da uyguladığı gibi, Analyze > Compare Means > Independent-Samples T-Test analizi gerçekleştirilmiştir. Bu testin sonuçları şu şekildedir:

  1. Varyansların Homojenliği Testi (Levene’s Test): Analizde ilk olarak varyansların homojenliği varsayımı, Levene’s Testi ile kontrol edilmiştir. Sig. değeri .214 olarak bulunmuştur. Bu değer 0.05’ten büyük olduğu için, grupların varyanslarının homojen (eşit) olduğu varsayımı karşılanmıştır. Bu nedenle, t-testi sonuçlarının “Equal variances assumed” (Eşit varyanslar varsayıldı) satırı yorumlanmalıdır.

  2. Ortalamalar Arası Farkın Anlamlılığı: Yorumlanması gereken “Equal variances assumed” satırındaki Sig. (2-tailed) değeri < .001’dir. Bu sonuç, erkekler ve kadınlar arasındaki 4.122’lik ortalama gelir seviyesi farkının istatistiksel olarak son derece anlamlı olduğunu göstermektedir.

Sonuç ve Regresyona Geçiş

Yapılan bu ön analiz, cinsiyetin gelir seviyesi üzerinde anlamlı bir etkiye sahip olduğunu ve dolayısıyla çoklu regresyon modeline dahil edilmesinin anlamlı bir katkı sunacağını güçlü bir şekilde göstermektedir. Bu bulgudan hareketle, hocamızın da belirttiği gibi, bir sonraki adımda öncelikle sadece cinsiyetin (erkek kukla değişkeni kullanılarak) gelir üzerindeki etkisini basit bir regresyon modeli ile test etmek ve ardından bu değişkeni yaş ve eğitimin de yer aldığı nihai çoklu regresyon modeline eklemek hedeflenmektedir.

Cinsiyetin Gelir Üzerindeki Etkisinin İncelenmesi: Basit Doğrusal Regresyon

Önceki adımda yapılan t-testi, cinsiyetin gelir üzerinde istatistiksel olarak anlamlı bir fark yarattığını göstermişti. Bu bölümde, bu ilişkinin yapısı ve büyüklüğü, bir basit doğrusal regresyon modeli kurularak incelenmiştir. Hocamızın da belirttiği gibi, bu analiz, bir sonraki adım olan nihai çoklu regresyon modeline geçmeden önce, cinsiyetin tek başına etkisini net bir şekilde görmek için kritik bir adımdır.

Model Kurulumu ve Sonuçları

SPSS’te Analyze > Regression > Linear menüsü kullanılarak yeni bir model oluşturulmuştur. Bu modelde:

Bu modelde “Kadın” kategorisi (male=0), referans kategorisi olarak işlev görmektedir.

Analiz sonucunda elde edilen temel bulgular şunlardır:

Katsayılar (Coefficients):

Regresyon ve T-Testi Sonuçları Arasındaki Doğrudan İlişki

Bu analizin en dikkat çekici sonucu, regresyon çıktılarının bir önceki adımda yapılan Bağımsız Örneklemler T-Testi sonuçlarıyla birebir örtüşmesidir:

Hocamızın da vurguladığı gibi, bu durum, bir adet ikili (dichotomous) kategorik değişken ile yapılan basit regresyon analizinin, temelinde gruplar arasındaki ortalama farkı test eden t-testinin farklı bir sunumu olduğunu göstermektedir. Bu bağlantıyı anlamak, regresyonun temel mantığını kavramak için son derece önemlidir. Bu analiz, cinsiyetin gelir üzerinde güçlü ve anlamlı bir etkiye sahip olduğunu bir kez daha teyit etmiştir.

Nihai Çoklu Regresyon Modeli: Yaş, Eğitim ve Cinsiyetin Gelir Üzerindeki Kümülatif Etkisi

Analizin bu son aşamasında, daha önce ayrı ayrı incelenen yaş, eğitim seviyesi ve cinsiyet değişkenleri, bireylerin gelir seviyesini yordamak amacıyla tek bir çoklu doğrusal regresyon modelinde bir araya getirilmiştir. Bu nihai model, her bir faktörün diğerlerinin etkisi kontrol altındayken gelir üzerindeki net etkisini ortaya koymayı ve modelin toplam açıklama gücünü en üst düzeye çıkarmayı hedefler.

Modelin Genel Değerlendirmesi

Katsayıların Detaylı Yorumlanması (Coefficients Tablosu)

Coefficients tablosu, her bir değişkenin modele olan net katkısını ve anlamlılığını gösterir.

Anlamlılık: Tablo incelendiğinde, sabit terim (Constant) dahil olmak üzere modele eklenen tüm bağımsız değişkenlerin (degree, age, male) Sig. değerlerinin < .001 olduğu görülmektedir. Bu, her bir değişkenin, diğer faktörlerin etkisi kontrol altındayken, gelir seviyesi üzerinde istatistiksel olarak anlamlı ve özgün bir etkiye sahip olduğunu gösterir.

Katsayıların (B) Yorumlanması:

Nihai Regresyon Denklemi ve Tahmin Uygulaması

Elde edilen katsayılarla birlikte, gelir seviyesini tahmin etmek için kullanılacak nihai formül aşağıdaki gibidir:

Tahmini Gelir = -1.663 + (1.046 * Eğitim Seviyesi) + (0.058 * Yaş) + (3.604 * Male)

Hocamızın sorduğu örnek senaryo üzerinden modelin kullanımı: “5. seviye eğitime sahip, 60 yaşında bir bireyin beklenen ortalama gelir seviyesi nedir?”

Senaryo 1: Birey Erkek ise (male=1)

Tahmini Gelir = -1.663 + (1.046 * 5) + (0.058 * 60) + (3.604 * 1)

Tahmini Gelir = -1.663 + 5.23 + 3.48 + 3.604

Tahmini Gelir = 10.651

Bu profile sahip bir erkeğin beklenen ortalama gelir seviyesi 10.65’tir.

Senaryo 2: Birey Kadın ise (male=0)

Tahmini Gelir = -1.663 + (1.046 * 5) + (0.058 * 60) + (3.604 * 0)

Tahmini Gelir = -1.663 + 5.23 + 3.48 + 0

Tahmini Gelir = 7.047

Aynı yaş ve eğitim profiline sahip bir kadının beklenen ortalama gelir seviyesi ise 7.05’tir. İki tahmin arasındaki farkın tam olarak male değişkeninin katsayısı (3.604) olması, modelin tutarlılığını göstermektedir.

Bağımsız Değişkenlerin Göreli Etkilerinin Karşılaştırılması: Standardize Edilmiş Beta (β) Katsayıları

Çoklu regresyon modeli, her bir bağımsız değişkenin gelir üzerinde istatistiksel olarak anlamlı bir etkisi olduğunu göstermiştir. Ancak bu noktada akla şu kritik soru gelmektedir: “Modeldeki hangi değişkenin gelir üzerinde göreli olarak en güçlü etkiye sahiptir?”

Ham (Unstandardized) B Katsayılarının Sınırlılıkları

Hocamızın da kesin bir dille belirttiği gibi, bu karşılaştırma, Coefficients tablosundaki ham (unstandardized) ‘B’ katsayılarına bakılarak yapılamaz. Bunun temel nedeni, modeldeki her bir bağımsız değişkenin farklı bir ölçekte ölçülmesidir:

Bu ölçek farklılıklarından dolayı, B katsayılarının büyüklüğü, sadece değişkenin etkisini değil, aynı zamanda ölçüm aralığını da yansıtır. Bu nedenle B katsayıları birbirleriyle doğrudan karşılaştırılamaz.

Çözüm: Standardize Edilmiş Beta (β) Katsayıları

Değişkenlerin göreli önemini adil bir şekilde karşılaştırabilmek için Standardized Coefficients Beta (β) sütununa bakmamız gerekmektedir. Hocamızın da açıkladığı gibi, bu katsayılar, her bir bağımsız değişkenin bağımlı değişken üzerindeki etkisini, değişkenlerin kendi orijinal birimlerinden arındırarak standart bir ölçü birimine (standart sapma) dönüştürür.

Beta (β) katsayısının teknik yorumu şöyledir: Diğer tüm değişkenler sabitken, bağımsız değişkende meydana gelen bir standart sapmalık bir artışın, bağımlı değişkende kaç standart sapmalık bir değişime yol açtığını gösterir.

Beta Katsayılarının Karşılaştırılması ve Yorumlanması

Değişkenlerin göreli önemini sıralamak için Beta (β) katsayılarının işaretine (+ veya -) bakılmaksızın mutlak değerleri karşılaştırılır. Mutlak değeri en büyük olan değişken, model içinde bağımlı değişken üzerinde en güçlü etkiye sahip olandır.

Nihai modelimizin Beta (β) değerleri incelendiğinde:

  1. Cinsiyet (Male): β = .387

  2. Eğitim Seviyesi: β = .341

  3. Yaş: β = .089

Bu sıralamaya göre, hocamızın da ulaştığı sonuç gibi, bu üç değişken arasında Türkiye’de bireysel geliri etkileyen en güçlü faktörün cinsiyet olduğu görülmektedir. Cinsiyeti, eğitim seviyesi takip etmekte, yaş ise diğer ikisine göre daha mütevazı bir etkiye sahip olmaktadır.

Önemli Not: Referans kategorisi olarak ‘erkek’ yerine ‘kadın’ seçilseydi (yani modele male yerine female kukla değişkeni eklenseydi), cinsiyetin Beta (β) katsayısı -.387 olacaktı. Bu, etkinin yönünü (kadın olmanın gelirde azalışla ilişkili olduğunu) gösterir, ancak mutlak değeri (.387) değişmeyeceği için değişkenin modeldeki göreli önemine dair vardığımız sonuç aynı kalacaktır.

Modelin Son Genişletilmesi: Çok Kategorili Değişkenin (Kentleşme Durumu) Dahil Edilmesi

Analizin bu son aşamasında, modeli daha da zenginleştirmek ve gelir seviyesini etkileyebilecek bir diğer önemli sosyo-demografik faktörü kontrol altına almak amacıyla, katılımcıların yaşadığı yerin kentsel yoğunluğunu ifade eden yeni bir kategorik değişkenin analize eklenmesi hedeflenmektedir.

Yeni Değişkenin İncelenmesi ve Kukla Değişken Planı

Hocamızın da belirttiği gibi, bu analiz için TGSS veri setinde yer alan ve üç kategoriye sahip olan degurba (Kentleşme Durumu) değişkeni kullanılacaktır. Bu değişkenin daha önce modele eklenen “cinsiyet” değişkeninden temel farkı, iki yerine üç kategoriye sahip olmasıdır. Bu durum, kukla değişkenlerin oluşturulması ve modelde yorumlanması sürecinde yeni kombinasyonların ve dikkat edilmesi gereken noktaların ortaya çıkacağı anlamına gelmektedir.

Bu değişkeni modele entegre etmeden önceki ilk adım, yapısını ve dağılımını anlamaktır. Bu amaçla, hocamızın da uyguladığı gibi, SPSS’te Analyze > Descriptive Statistics > Frequencies komutu çalıştırılmıştır. Analiz sonuçları, örneklemdeki katılımcıların dağılımını şu şekilde göstermiştir:

Tıpkı cinsiyet değişkeninde olduğu gibi, üç kategoriye sahip bu değişkeni de regresyon analizine dahil edebilmek için “kukla değişken” (dummy variable) tekniği kullanılacaktır.