Kukla Değişkenler İçin Temel Kural: Referans Kategorisi
Kukla değişkenler oluşturulduktan sonraki en kritik adım, bu değişkenleri regresyon modeline doğru bir şekilde eklemektir. Hocamızın da altını çizdiği üzere, burada uyulması zorunlu olan temel bir kural bulunmaktadır: Bir kategorik değişkenden türetilen K adet kukla değişkenin tamamı aynı anda modele dahil edilemez. Modele en fazla K-1 adet kukla değişken eklenmelidir.
Neden? Tüm kukla değişkenlerin (örneğimizde hem
male hem de female) modele eklenmesi,
“mükemmel çoklu doğrusallık” (perfect multicollinearity) adı verilen bir
duruma yol açar. Bu, modeldeki bir bağımsız değişkenin (örneğin
male) diğer bir bağımsız değişkeni (örneğin
female) mükemmel bir şekilde tahmin edebilmesi anlamına
gelir (eğer bir kişi “Male” kategorisinde 1 ise, “Female” kategorisinde
zorunlu olarak 0’dır). Bu durum, regresyon denkleminin matematiksel
olarak çözülmesini imkansız hale getirir ve SPSS gibi programlar
genellikle değişkenlerden birini modelden otomatik olarak atar.
Çözüm: Referans Kategorisi: Bu sorunu aşmak
için, kategorilerden biri modelin dışında bırakılır. Dışarıda bırakılan
bu kategori, “referans kategorisi” haline gelir. Modele
eklenen diğer kukla değişkenin (veya değişkenlerin) katsayıları, bu
dışarıda bırakılan referans kategoriye kıyasla yorumlanır. Örneğin,
modele sadece male kukla değişkenini eklersek, “Kadın”
kategorisi referans olur ve male değişkeninin katsayısı,
“kadın olmaya kıyasla erkek olmanın” gelir üzerindeki etkisini
gösterir.
Regresyon Öncesi Alternatif Ön Analiz: Ortalama Karşılaştırması (Mean Comparison)
Çoklu regresyon modelini kurmadan önce, cinsiyetin gelir üzerinde anlamlı bir etkisi olup olmadığına dair öncül bir kanıt elde etmek faydalıdır. Önceki analizlerde iki sayısal değişken arasındaki ilişki için korelasyon analizi kullanılmıştı. Ancak burada bağımsız değişkenimiz (cinsiyet) kategorik, bağımlı değişkenimiz (gelir seviyesi) ise sayısal olduğundan, hocamızın da belirttiği gibi, daha uygun bir ön analiz tekniği “ortalama karşılaştırmasıdır” (mean comparison).
Bu amaçla, erkeklerin ve kadınların ortalama gelir seviyeleri
arasında istatistiksel olarak anlamlı bir fark olup olmadığını test
etmek üzere bir Compare Means analizi (örneğin Bağımsız
Örneklemler t-Testi) yapılacaktır. Bu analiz, regresyon modelinden elde
edilecek bulguları destekleyecek veya onlara bir bağlam sunacak önemli
bir ilk adım niteliğindedir.
Regresyon Öncesi Alternatif Ön Analiz: Cinsiyete Göre Ortalama Gelir Seviyelerinin Karşılaştırılması
Çoklu regresyon modeline cinsiyet değişkenini dahil etmeden önce, bu değişkenin gelir seviyesi üzerinde anlamlı bir fark yaratıp yaratmadığını test etmek amacıyla, hocamızın da belirttiği gibi, bir ortalama karşılaştırması analizi yapılmıştır. Bu analiz, iki aşamada gerçekleştirilmiştir.
A) Betimsel İstatistikler (Means Raporu)
İlk olarak, SPSS’te
Analyze > Compare Means > Means yolu izlenerek,
bağımlı değişken (dependent list) olarak
income, kategorik değişken (independent list)
olarak ise gender atanmıştır. Bu analiz sonucunda, erkek
katılımcıların ortalama gelir seviyesinin 8.54 (N=1298)
olduğu, kadın katılımcıların ortalama gelir seviyesinin ise
4.42 (N=1257) olduğu görülmüştür. Bu betimsel bulgu,
iki grup arasında yaklaşık 4.12’lik belirgin bir fark olduğunu
göstermektedir.
B) Bağımsız Örneklemler T-Testi Sonuçları
Bu farkın istatistiksel olarak anlamlı olup olmadığını test etmek
için, hocamızın da uyguladığı gibi,
Analyze > Compare Means > Independent-Samples T-Test
analizi gerçekleştirilmiştir. Bu testin sonuçları şu şekildedir:
Varyansların Homojenliği Testi (Levene’s Test):
Analizde ilk olarak varyansların homojenliği varsayımı, Levene’s Testi
ile kontrol edilmiştir. Sig. değeri .214
olarak bulunmuştur. Bu değer 0.05’ten büyük olduğu için, grupların
varyanslarının homojen (eşit) olduğu varsayımı karşılanmıştır. Bu
nedenle, t-testi sonuçlarının “Equal variances assumed”
(Eşit varyanslar varsayıldı) satırı yorumlanmalıdır.
Ortalamalar Arası Farkın Anlamlılığı:
Yorumlanması gereken “Equal variances assumed” satırındaki
Sig. (2-tailed) değeri < .001’dir. Bu
sonuç, erkekler ve kadınlar arasındaki 4.122’lik ortalama gelir
seviyesi farkının istatistiksel olarak son derece anlamlı
olduğunu göstermektedir.
Sonuç ve Regresyona Geçiş
Yapılan bu ön analiz, cinsiyetin gelir seviyesi üzerinde anlamlı bir etkiye sahip olduğunu ve dolayısıyla çoklu regresyon modeline dahil edilmesinin anlamlı bir katkı sunacağını güçlü bir şekilde göstermektedir. Bu bulgudan hareketle, hocamızın da belirttiği gibi, bir sonraki adımda öncelikle sadece cinsiyetin (erkek kukla değişkeni kullanılarak) gelir üzerindeki etkisini basit bir regresyon modeli ile test etmek ve ardından bu değişkeni yaş ve eğitimin de yer aldığı nihai çoklu regresyon modeline eklemek hedeflenmektedir.
Önceki adımda yapılan t-testi, cinsiyetin gelir üzerinde istatistiksel olarak anlamlı bir fark yarattığını göstermişti. Bu bölümde, bu ilişkinin yapısı ve büyüklüğü, bir basit doğrusal regresyon modeli kurularak incelenmiştir. Hocamızın da belirttiği gibi, bu analiz, bir sonraki adım olan nihai çoklu regresyon modeline geçmeden önce, cinsiyetin tek başına etkisini net bir şekilde görmek için kritik bir adımdır.
Model Kurulumu ve Sonuçları
SPSS’te Analyze > Regression > Linear menüsü
kullanılarak yeni bir model oluşturulmuştur. Bu modelde:
Bağımlı Değişken (Dependent):
income
Bağımsız Değişken (Independent):
male (1=Erkek, 0=Kadın)
Bu modelde “Kadın” kategorisi (male=0), referans kategorisi olarak işlev görmektedir.
Analiz sonucunda elde edilen temel bulgular şunlardır:
Modelin Anlamlılığı (ANOVA): ANOVA tablosundaki
Sig. değeri < .001 olduğundan, kurulan model bir bütün
olarak istatistiksel açıdan anlamlıdır.
Açıklama Gücü (Model Summary): R Kare (R²) değeri .196 olarak bulunmuştur. Bu, cinsiyetin tek başına, bireylerin gelir seviyesindeki toplam varyansın %19.6’sını açıkladığını gösterir ki bu oldukça yüksek bir orandır.
Katsayılar (Coefficients):
Sabit Terim (Constant) (B = 4.421): Bu değer, bağımsız değişkenin 0 olduğu durumu, yani referans kategorisini temsil eder. Dolayısıyla bu, kadınların ortalama gelir seviyesinin 4.421 olduğunu gösterir.
Male (B = 4.122): Bu katsayı, referans kategorisine (kadın) kıyasla modele eklenen kategorinin (erkek) yarattığı farkı gösterir. Hocamızın da belirttiği gibi, bu katsayı şu şekilde yorumlanır: Kadın olmaya kıyasla, erkek olmak, beklenen ortalama gelir seviyesini 4.122 birim artırmaktadır.
Regresyon ve T-Testi Sonuçları Arasındaki Doğrudan İlişki
Bu analizin en dikkat çekici sonucu, regresyon çıktılarının bir önceki adımda yapılan Bağımsız Örneklemler T-Testi sonuçlarıyla birebir örtüşmesidir:
Regresyon modelindeki Sabit Terim (4.421), t-testindeki kadınların ortalama gelir seviyesi (4.4208) ile neredeyse aynıdır.
Regresyon modelindeki male değişkeninin
katsayısı (4.122), t-testindeki iki grup arasındaki
ortalama fark (Mean Difference) (4.12230) ile birebir
aynıdır.
Hocamızın da vurguladığı gibi, bu durum, bir adet ikili (dichotomous) kategorik değişken ile yapılan basit regresyon analizinin, temelinde gruplar arasındaki ortalama farkı test eden t-testinin farklı bir sunumu olduğunu göstermektedir. Bu bağlantıyı anlamak, regresyonun temel mantığını kavramak için son derece önemlidir. Bu analiz, cinsiyetin gelir üzerinde güçlü ve anlamlı bir etkiye sahip olduğunu bir kez daha teyit etmiştir.
Analizin bu son aşamasında, daha önce ayrı ayrı incelenen yaş, eğitim seviyesi ve cinsiyet değişkenleri, bireylerin gelir seviyesini yordamak amacıyla tek bir çoklu doğrusal regresyon modelinde bir araya getirilmiştir. Bu nihai model, her bir faktörün diğerlerinin etkisi kontrol altındayken gelir üzerindeki net etkisini ortaya koymayı ve modelin toplam açıklama gücünü en üst düzeye çıkarmayı hedefler.
Modelin Genel Değerlendirmesi
Modelin Anlamlılığı (ANOVA Tablosu): ANOVA
tablosunda raporlanan Sig. değeri < .001’dir. Bu sonuç,
üç bağımsız değişkeni (yaş, eğitim, cinsiyet) içeren nihai
modelin bir bütün olarak istatistiksel açıdan son derece anlamlı
olduğunu ve bağımlı değişkendeki varyansı açıklamada geçerli
bir doğrusal yapı sunduğunu teyit eder.
Modelin Açıklama Gücü (Model Summary Tablosu):
Model Summary tablosundaki R Kare (R²)
değeri .309 olarak bulunmuştur. Bu, nihai modelin
oldukça güçlü bir açıklama kapasitesine sahip olduğunu göstermektedir:
Yaş, eğitim seviyesi ve cinsiyet birlikte, bireylerin gelir
seviyesindeki toplam değişimin (varyansın) %30.9’unu
açıklamaktadır.
Katsayıların Detaylı Yorumlanması (Coefficients Tablosu)
Coefficients tablosu, her bir değişkenin modele olan net
katkısını ve anlamlılığını gösterir.
Anlamlılık: Tablo incelendiğinde, sabit terim
(Constant) dahil olmak üzere modele eklenen tüm bağımsız değişkenlerin
(degree, age, male)
Sig. değerlerinin < .001 olduğu görülmektedir. Bu,
her bir değişkenin, diğer faktörlerin etkisi kontrol
altındayken, gelir seviyesi üzerinde istatistiksel olarak anlamlı ve
özgün bir etkiye sahip olduğunu gösterir.
Katsayıların (B) Yorumlanması:
Eğitim Seviyesi (B = 1.046): Hocamızın da belirttiği gibi, bu katsayı şu şekilde yorumlanır: Yaş ve cinsiyetin etkisi kontrol edildiğinde, eğitim seviyesindeki her bir birimlik artış, gelir seviyesinde ortalama olarak 1.046 birimlik bir artışa neden olmaktadır.
Yaş (B = 0.058): Eğitim seviyesi ve cinsiyetin etkisi kontrol edildiğinde, yaştaki her bir birimlik (yıl) artış, gelir seviyesinde ortalama olarak 0.058 birimlik bir artışa neden olmaktadır.
Cinsiyet (Male) (B = 3.604): Bu kukla değişkenin katsayısı, bir grup karşılaştırması olarak yorumlanır: Yaş ve eğitim seviyesinin etkisi kontrol edildiğinde, erkek olmak (male=1), kadın olmaya (male=0) kıyasla, gelir seviyesinde ortalama olarak 3.604 birimlik bir artışa neden olmaktadır.
Sabit Terim (Constant) (B = -1.663): Bu değer, tüm bağımsız değişkenlerin (yaş=0, eğitim=0, cinsiyet=kadın) sıfır olduğu teorik bir başlangıç noktasını temsil eder.
Nihai Regresyon Denklemi ve Tahmin Uygulaması
Elde edilen katsayılarla birlikte, gelir seviyesini tahmin etmek için kullanılacak nihai formül aşağıdaki gibidir:
Tahmini Gelir = -1.663 + (1.046 * Eğitim Seviyesi) + (0.058 * Yaş) + (3.604 * Male)
Hocamızın sorduğu örnek senaryo üzerinden modelin kullanımı: “5. seviye eğitime sahip, 60 yaşında bir bireyin beklenen ortalama gelir seviyesi nedir?”
Senaryo 1: Birey Erkek ise (male=1)
Tahmini Gelir = -1.663 + (1.046 * 5) + (0.058 * 60) + (3.604 * 1)
Tahmini Gelir = -1.663 + 5.23 + 3.48 + 3.604
Tahmini Gelir = 10.651
Bu profile sahip bir erkeğin beklenen ortalama gelir seviyesi 10.65’tir.
Senaryo 2: Birey Kadın ise (male=0)
Tahmini Gelir = -1.663 + (1.046 * 5) + (0.058 * 60) + (3.604 * 0)
Tahmini Gelir = -1.663 + 5.23 + 3.48 + 0
Tahmini Gelir = 7.047
Aynı yaş ve eğitim profiline sahip bir kadının beklenen ortalama
gelir seviyesi ise 7.05’tir. İki tahmin arasındaki
farkın tam olarak male değişkeninin katsayısı (3.604)
olması, modelin tutarlılığını göstermektedir.
Çoklu regresyon modeli, her bir bağımsız değişkenin gelir üzerinde istatistiksel olarak anlamlı bir etkisi olduğunu göstermiştir. Ancak bu noktada akla şu kritik soru gelmektedir: “Modeldeki hangi değişkenin gelir üzerinde göreli olarak en güçlü etkiye sahiptir?”
Ham (Unstandardized) B Katsayılarının Sınırlılıkları
Hocamızın da kesin bir dille belirttiği gibi, bu
karşılaştırma, Coefficients tablosundaki ham
(unstandardized) ‘B’ katsayılarına bakılarak yapılamaz.
Bunun temel nedeni, modeldeki her bir bağımsız değişkenin farklı bir
ölçekte ölçülmesidir:
Yaş: Yaklaşık 18 ile 100 arasında geniş bir aralığa sahiptir. Bu değişkendeki “bir birimlik artış” (bir yaş) bu geniş aralıkta küçük bir adımı temsil eder.
Eğitim Seviyesi: Yaklaşık 8 kategoriden oluşan daha dar bir aralığa sahiptir. Buradaki “bir birimlik artış” (bir eğitim kademesi atlamak) çok daha anlamlı bir değişime işaret eder.
Cinsiyet (Male): Sadece 0 ve 1 değerlerini alabilen bir kukla değişkendir. Buradaki “bir birimlik artış”, bir kategoriden (kadın) tamamen diğerine (erkek) geçmek anlamına gelir ki bu, en büyük kategorik değişimdir.
Bu ölçek farklılıklarından dolayı, B katsayılarının büyüklüğü, sadece değişkenin etkisini değil, aynı zamanda ölçüm aralığını da yansıtır. Bu nedenle B katsayıları birbirleriyle doğrudan karşılaştırılamaz.
Çözüm: Standardize Edilmiş Beta (β) Katsayıları
Değişkenlerin göreli önemini adil bir şekilde karşılaştırabilmek için
Standardized Coefficients Beta (β) sütununa bakmamız
gerekmektedir. Hocamızın da açıkladığı gibi, bu
katsayılar, her bir bağımsız değişkenin bağımlı değişken üzerindeki
etkisini, değişkenlerin kendi orijinal birimlerinden arındırarak
standart bir ölçü birimine (standart sapma) dönüştürür.
Beta (β) katsayısının teknik yorumu şöyledir: Diğer tüm değişkenler sabitken, bağımsız değişkende meydana gelen bir standart sapmalık bir artışın, bağımlı değişkende kaç standart sapmalık bir değişime yol açtığını gösterir.
Beta Katsayılarının Karşılaştırılması ve Yorumlanması
Değişkenlerin göreli önemini sıralamak için Beta (β) katsayılarının işaretine (+ veya -) bakılmaksızın mutlak değerleri karşılaştırılır. Mutlak değeri en büyük olan değişken, model içinde bağımlı değişken üzerinde en güçlü etkiye sahip olandır.
Nihai modelimizin Beta (β) değerleri incelendiğinde:
Cinsiyet (Male): β = .387
Eğitim Seviyesi: β = .341
Yaş: β = .089
Bu sıralamaya göre, hocamızın da ulaştığı sonuç gibi, bu üç değişken arasında Türkiye’de bireysel geliri etkileyen en güçlü faktörün cinsiyet olduğu görülmektedir. Cinsiyeti, eğitim seviyesi takip etmekte, yaş ise diğer ikisine göre daha mütevazı bir etkiye sahip olmaktadır.
Önemli Not: Referans kategorisi olarak ‘erkek’
yerine ‘kadın’ seçilseydi (yani modele male yerine
female kukla değişkeni eklenseydi), cinsiyetin Beta (β)
katsayısı -.387 olacaktı. Bu, etkinin yönünü (kadın
olmanın gelirde azalışla ilişkili olduğunu) gösterir, ancak
mutlak değeri (.387) değişmeyeceği için değişkenin
modeldeki göreli önemine dair vardığımız sonuç aynı kalacaktır.
Analizin bu son aşamasında, modeli daha da zenginleştirmek ve gelir seviyesini etkileyebilecek bir diğer önemli sosyo-demografik faktörü kontrol altına almak amacıyla, katılımcıların yaşadığı yerin kentsel yoğunluğunu ifade eden yeni bir kategorik değişkenin analize eklenmesi hedeflenmektedir.
Yeni Değişkenin İncelenmesi ve Kukla Değişken Planı
Hocamızın da belirttiği gibi, bu analiz için TGSS
veri setinde yer alan ve üç kategoriye sahip olan degurba
(Kentleşme Durumu) değişkeni kullanılacaktır. Bu değişkenin daha önce
modele eklenen “cinsiyet” değişkeninden temel farkı, iki yerine üç
kategoriye sahip olmasıdır. Bu durum, kukla değişkenlerin oluşturulması
ve modelde yorumlanması sürecinde yeni kombinasyonların ve dikkat
edilmesi gereken noktaların ortaya çıkacağı anlamına gelmektedir.
Bu değişkeni modele entegre etmeden önceki ilk adım, yapısını ve
dağılımını anlamaktır. Bu amaçla, hocamızın da uyguladığı
gibi, SPSS’te
Analyze > Descriptive Statistics > Frequencies komutu
çalıştırılmıştır. Analiz sonuçları, örneklemdeki katılımcıların
dağılımını şu şekilde göstermiştir:
Kırsal: %16.3 (426 kişi)
Orta Yoğun Kent: %16.7 (436 kişi)
Yoğun Kent: %67.0 (1753 kişi)
Tıpkı cinsiyet değişkeninde olduğu gibi, üç kategoriye sahip bu değişkeni de regresyon analizine dahil edebilmek için “kukla değişken” (dummy variable) tekniği kullanılacaktır.