Model Summary tablosunda yer alan R (Çoklu Korelasyon Katsayısı) değerinin, gözlemlenen gerçek değerler ile model tarafından tahmin edilen değerler arasındaki korelasyonu ifade ettiğini uygulamalı olarak göstermek mümkündür. Hocamızın da belirttiği gibi, bu doğrulama, regresyon modelinin tahmin ettiği değerleri veri setine yeni bir değişken olarak kaydederek gerçekleştirilebilir.
Bu işlem için SPSS’te Analyze > Regression > Linear menüsü takip edilmiştir. Açılan ana diyalog penceresinde bulunan Save butonuna tıklandıktan sonra, “Predicted Values” (Tahmin Edilen Değerler) başlığı altındaki “Unstandardized” seçeneği işaretlenmiştir. Bu komut çalıştırıldığında, regresyon analizi tekrarlanmış ve veri setinin sonuna, her bir katılımcı için regresyon denklemiyle hesaplanmış olan tahmin edilen gelir seviyelerini içeren PRE_1 (Unstandardized Predicted Value) adında yeni bir değişken otomatik olarak eklenmiştir.
Bu adımdaki temel amaç, orijinal bağımlı değişken olan income (gözlemlenen değer) ile model tarafından oluşturulan PRE_1 (tahmin edilen değer) değişkeni arasındaki korelasyonu hesaplayarak, bu katsayının daha önce Model Summary tablosunda raporlanan R değeri (.324) ile aynı olup olmadığını kontrol etmektir.
Yapılan Pearson Korelasyon analizi sonucunda, orijinal income değişkeni (gözlemlenen değerler) ile model tarafından üretilen PRE_1 değişkeni (tahmin edilen değerler) arasında r = .324 (p < .001) değerinde, istatistiksel olarak anlamlı bir korelasyon katsayısı hesaplanmıştır.
Bu bulgu, Model Summary tablosunda raporlanan R değeri (.324) ile birebir aynıdır. Bu durum, hocamızın da vurguladığı gibi, R katsayısının temel anlamını pratik olarak doğrulamaktadır: R, modelin tahmin ettiği değerler ile gerçekte gözlemlenen değerler arasındaki doğrusal ilişkinin gücünü temsil eder.
Hocamızın da altını çizdiği üzere, çıkarımsal istatistikte modellerin performansı, temel olarak gözlemlenen değerler ile modelin ürettiği tahmin edilen değerler arasındaki uyuma bakılarak değerlendirilir. Bu iki değer seti arasındaki korelasyonun yüksek olması, modelin tahminlerinin gerçeğe daha yakın olduğu, dolayısıyla tahmin kapasitesinin daha yüksek ve hata payının daha düşük olduğu anlamına gelir.
Model Summary tablosunda yorumladığımız R Kare (R²) değeri, bu R katsayısının karesi olup, modelin toplam açıklama kapasitesini özetler. Esasen R Kare, modelin tahminlerinin gerçek değerlere ne kadar yakın olduğunun bir ölçüsü olarak da yorumlanabilir ve bu yakınlık, bağımlı değişkendeki varyansın ne kadarının bağımsız değişken tarafından açıklandığını gösterir.
Önceki modelde eğitim seviyesinin, gelirdeki varyansın yaklaşık %10.5’ini açıkladığı görülmüştür. Analizin bu aşamasında, hocamızın da belirttiği gibi, modele alternatif bir bağımsız değişken sokularak karşılaştırmalı bir inceleme yapılması hedeflenmektedir. Bu amaçla, eğitim seviyesinin yerine yaşın, bireylerin gelir düzeyini yordama gücü test edilecektir.
Bu yeni basit doğrusal regresyon modelini kurmak için SPSS’te Analyze > Regression > Linear menüsü tekrar kullanılmıştır. Önceki modelde bağımsız değişken olarak yer alan degree (eğitim seviyesi) değişkeni modelden çıkarılmış ve yerine age (yaş) değişkeni bağımsız değişken olarak atanmıştır. Bağımlı değişken olan income (gelir seviyesi) ise sabit tutulmuştur.
Metodolojik Not: Tahmin Değerlerini Kaydetme (Save) Seçeneği
Hocamızın da dikkat çektiği üzere, yeni model ilk kez çalıştırıldığında, bir önceki analizde kullanılan ve tahmin edilen değerleri (Unstandardized Predicted Values) veri setine kaydeden Save seçeneği aktif kalmıştır. Bu durum, SPSS çıktısında standart regresyon tablolarına ek olarak bir “Residuals Statistics” (Artık Değerler İstatistiği) tablosunun da otomatik olarak üretilmesine neden olmuştur. Sadece temel model çıktılarını içeren sade ve odaklı bir sonuç elde etmek amacıyla, bu seçenek Save menüsünden kaldırılmış ve analiz bu şekilde yeniden çalıştırılmıştır. Bu, her yeni model kurulumunda önceki ayarların kontrol edilmesinin önemini gösteren teknik bir adımdır.
Yaş ve Gelir Modeli Analiz Sonuçları
Yaş değişkeninin gelir üzerindeki etkisini test etmek amacıyla kurulan yeni basit doğrusal regresyon modelinin sonuçları, önceki modelle aynı sistematik yaklaşımla incelenmiştir:
Modelin Genel Anlamlılığı (ANOVA Tablosu): ANOVA
tablosundaki anlamlılık (Sig.) değeri < .001 olarak
bulunmuştur. Bu değer 0.05’ten küçük olduğu için, yaş ve gelir
arasında kurulan doğrusal modelin bir bütün olarak istatistiksel açıdan
anlamlı olduğu ve katsayıların yorumlanabileceği sonucuna
varılmıştır.
Katsayıların Yorumlanması (Coefficients Tablosu):
Anlamlılık: Coefficients
tablosunda, “Kaç yaşındasınız?” değişkenine ait Sig.
değerinin < .001 olduğu görülmektedir. Bu, yaşın, gelir
seviyesi üzerinde istatistiksel olarak anlamlı bir yordayıcı
olduğunu göstermektedir.
Regresyon Denklemi:
Unstandardized Coefficients (B) sütunundaki değerler
kullanılarak tahmin formülü oluşturulmuştur.
Tahmini Gelir Seviyesi = 4.721 + 0.044 * (Yaş)
Yorum: Bu denkleme göre, yaştaki her bir birimlik (yıllık) artışın, gelir seviyesinde ortalama olarak 0.044 birimlik bir artışla ilişkili olduğu görülmektedir.
Model Summary tablosundaki R Kare (R²)
değeri .021 olarak bulunmuştur. Bu, yaş değişkeninin
tek başına, gelir seviyesindeki toplam varyansın yalnızca
%2.1’ini açıkladığını göstermektedir.Sonuç ve Bir Sonraki Adım:
Yapılan iki ayrı basit regresyon analizi sonucunda, eğitim seviyesinin tek başına gelirin %10.5’ini, yaşın ise %2.1’ini açıkladığı görülmüştür. Hocamızın da belirttiği gibi, analizde mantıksal olarak sıradaki adım, bu iki bağımsız değişkenin birlikte modele dahil edildiği ve gelir üzerindeki ortak etkilerinin incelendiği bir çoklu doğrusal regresyon modeli kurmaktır. Bu yeni model, her bir değişkenin diğer değişkenin etkisi kontrol altındayken gelir üzerindeki net etkisini görmemize ve modelin toplam açıklama gücünün (R²) artıp artmadığını değerlendirmemize olanak tanıyacaktır.
İki bağımsız değişkenin (yaş ve eğitim) gelir seviyesi üzerindeki ortak etkisini ve birbirlerinin varlığında sahip oldukları net etkiyi incelemek amacıyla bir çoklu doğrusal regresyon analizi gerçekleştirilmiştir.
Modelin Genel Anlamlılığı ve Açıklama Gücü
ANOVA Tablosu: Modelin genel anlamlılığını test
eden ANOVA tablosundaki Sig. değeri < .001 olarak
bulunmuştur. Bu, 0.05 anlamlılık düzeyinden küçük olduğu için, kurulan
çoklu regresyon modelinin bir bütün olarak istatistiksel açıdan
anlamlı olduğu ve bağımsız değişkenlerin birlikte, bağımlı
değişkendeki varyansı açıklamada anlamlı bir katkı sunduğu sonucuna
varılır.
Model Summary Tablosu: Modelin açıklama gücünü gösteren R Kare (R²) değeri .165 olarak bulunmuştur. Bu sonuca göre, yaş ve eğitim seviyesi değişkenleri birlikte, bireylerin gelir seviyesindeki toplam değişimin (varyansın) %16.5’ini açıklamaktadır. Bu oran, değişkenlerin tek tek modellendiği basit regresyon analizlerindeki açıklama oranlarından (%10.5 ve %2.1) daha yüksektir.
Katsayıların Yorumlanması ve Regresyon Denklemi
Coefficients tablosu, her bir bağımsız değişkenin modele
olan net katkısını anlamak için incelenmiştir.
Anlamlılık: Hem “Bitirdiğiniz en yüksek eğitim
seviyesi” hem de “Kaç yaşındasınız?” değişkenlerinin Sig.
değerleri < .001’dir. Bu, her iki bağımsız değişkenin de, diğer
değişkenin etkisi kontrol altına alındığında, gelir seviyesi
üzerinde istatistiksel olarak anlamlı birer yordayıcı olmaya devam
ettiğini gösterir.
Katsayıların Yorumlanması:
Eğitim Seviyesi (B = 1.208): Hocamızın özellikle vurguladığı gibi, bu katsayı şu şekilde yorumlanır: Yaşın etkisi kontrol edildikten sonra, eğitim seviyesindeki her bir birimlik artış, gelir seviyesinde ortalama olarak 1.208 birimlik bir artışa yol açmaktadır.
Yaş (B = 0.077): Benzer şekilde, eğitim seviyesinin etkisi kontrol edildikten sonra, yaştaki her bir birimlik (yıl) artış, gelir seviyesinde ortalama olarak 0.077 birimlik bir artışa neden olmaktadır.
Sabit (Constant / B = -1.257): Bu değer, hem yaşın hem de eğitimin teorik olarak sıfır olduğu bir durumda beklenen gelir seviyesini temsil eder. Değerin negatif çıkması, veri setinin bu sıfır noktalarına yakın gözlemler içermemesinden (örneğin yaşın 18’den başlaması) kaynaklanmaktadır ve modelin istatistiksel geçerliliğini etkilemez.
Çoklu Regresyon Denklemi:
Tahmini Gelir Seviyesi = -1.257 + (1.208 * Eğitim Seviyesi) + (0.077 * Yaş)
Modelin Kullanımı: Örnek Tahmin Uygulaması
Modelin pratik kullanımını göstermek amacıyla, hocamızın sorduğu “Eğitim seviyesi 5 ve yaşı 50 olan bir bireyin beklenen ortalama gelir seviyesi nedir?” sorusu yanıtlanmıştır.
Hesaplama:
Tahmini Gelir Seviyesi = -1.257 + (1.208 * 5) + (0.077 * 50)
Tahmini Gelir Seviyesi = -1.257 + 6.04 + 3.85
Tahmini Gelir Seviyesi = 8.633
Sonuç: Bu çoklu regresyon modeline göre, 5. seviye eğitime sahip ve 50 yaşında olan bireylerin beklenen ortalama gelir seviyesi 8.633’tür. Bu değer, veri setindeki 8. ve 9. gelir kategorileri arasında bir seviyeye karşılık gelmektedir.
Çoklu regresyon modelinin sonuçları, istatistiksel analizde sıkça karşılaşılmayan ancak önemli bir durumu ortaya koymuştur. Bu durum, modelin açıklama gücünün (R²) yorumlanmasında derinlemesine bir bakış açısı gerektirir.
Gözlemlenen Paradoks: Toplamdan Büyük Parçalar
Analizin önceki adımlarında elde edilen R-Kare değerleri şöyledi:
Model 1 (Sadece Eğitim): R² = .105 (%10.5)
Model 2 (Sadece Yaş): R² = .021 (%2.1)
Model 3 (Eğitim + Yaş): R² = .165 (%16.5)
Hocamızın da dikkat çektiği gibi, konvansiyonel beklenti, iki bağımsız değişkenin ortak modele eklendiğinde toplam açıklama gücünün (R²), bireysel açıklama güçlerinin toplamından (%10.5 + %2.1 = %12.6) daha az olması yönündedir. Çünkü yaş ve eğitim gibi birbiriyle ilişkili değişkenler, gelirin aynı kısımlarını açıklama eğilimindedir ve bu “ortak varyans” nedeniyle birbirlerinin açıklama gücünü bir miktar “çalarlar.”
Ancak bu analizde tam tersi bir durumla karşılaşılmıştır: İki değişkenin birlikte oluşturduğu modelin açıklama gücü (%16.5), bireysel güçlerinin toplamından (%12.6) daha yüksektir.
Olası Nedenlerin Değerlendirilmesi
Hocamızın belirttiği gibi, bu durumun birkaç olası açıklaması olabilir:
Örneklem Değişikliği (Elendi): Çoklu regresyon,
modeldeki tüm değişkenler için geçerli verisi olan vakaları (“listwise
deletion” yöntemiyle) analize dahil eder. Eğer her bir basit regresyon
farklı kayıp verilere sahip olsaydı, çoklu regresyonun çalıştığı nihai
örneklem daha küçük ve “seçilmiş” bir grup olabilirdi. Bu grubun kendi
iç dinamikleri, daha yüksek bir R-Kare’ye yol açabilirdi. Ancak
hocamız, modellerin ANOVA tablolarındaki serbestlik derecelerini
(df) kontrol ederek gözlem sayılarının (N) değişmediğini
teyit etmiş ve bu olasılığı elemiştir.
Baskılama Etkisi (Suppression Effect) (Olası
Neden): Bu, en muhtemel teknik açıklamadır. Hocamızın
da ifade ettiği gibi, “baskılama etkisi”, bir değişkenin
(supresör değişken) tek başına bağımlı değişkenle zayıf bir
ilişkisi olmasına rağmen, modele eklendiğinde diğer bağımsız değişkenin
yordama gücünü artırması durumudur.
Nasıl Çalışır? Bu etki, supresör değişkenin, diğer bağımsız değişkendeki “alakasız varyansı” (yani bağımlı değişkenle ilişkili olmayan “gürültüyü”) temizlemesiyle ortaya çıkar. Örneğin, yaş değişkeni, eğitimin gelirle ilişkisiz olan bir kısmıyla (mesela jenerasyonel farklılıklar gibi) korelasyon içinde olabilir. Yaş, modele eklendiğinde bu “gürültüyü” üzerine çeker ve baskılar. Bu sayede eğitimin gelirle olan “saf” ve gerçek ilişkisi daha net bir şekilde ortaya çıkar ve bu durum, modelin toplam açıklama gücünü beklenmedik şekilde artırır.
Sonuç: Tekil olarak bakıldığında baskılanmış olan bir etki, değişkenlerin birlikte oluşturduğu daha büyük ve karmaşık “matriks” içerisinde kendini göstermiş olur. Normalde bu matriks büyüdükçe ilişkiler zayıflama eğilimindeyken, bazen bu gibi gizli dinamikler su yüzüne çıkabilir. Bu durum, yaş ve eğitimin gelir üzerindeki etkileşiminin basit bir toplamdan daha karmaşık olduğunu, belki de doğrusal olmayan bir dinamiğe sahip olabileceğini düşündürmektedir.
Sonuç olarak, modelin R-Kare değerindeki bu beklenmedik artış, büyük olasılıkla değişkenler arasındaki karmaşık ilişkilerden kaynaklanan bir “baskılama etkisidir” ve sosyal bilimlerdeki ilişkilerin ne kadar çok katmanlı olabileceğinin mükemmel bir örneğidir.
Kategorik Değişken Sorunsalı ve Kukla Değişken (Dummy Variable) Yaklaşımı
Analizin bu noktasına kadar modele dahil edilen bağımsız değişkenler (yaş, eğitim) sayısal (skala) nitelikteydi. Bu değişkenlerin katsayıları, “diğer değişkenler sabitken, bağımsız değişkendeki her bir birimlik artışın bağımlı değişken üzerinde yarattığı ortalama etki” olarak yorumlanabilmekteydi. Ancak, hocamızın da sorduğu gibi, “Erkek” ve “Kadın” gibi kategorilerden oluşan cinsiyet değişkeni için bu “bir birimlik artış” yorumu anlamsal olarak mümkün değildir.
Bu metodolojik sorunu aşmak ve cinsiyet, yaşanılan yer (kır/kent) gibi kategorik değişkenleri doğrusal regresyon analizine dahil edebilmek için, hocamızın da belirttiği üzere, “kukla değişken” (dummy variable) oluşturma tekniği kullanılır. Bu yöntem, temelde kategorik bir değişkeni, regresyon modelinin yorumlayabileceği sayısal bir formata dönüştürme işlemidir.
Hocamızın da tanımladığı gibi, bu teknik, K sayıda kategoriye sahip bir nominal veya ordinal değişkeni, K adet yeni ikili (dichotomous) değişkene dönüştürme prensibine dayanır. Her bir yeni kukla değişken, orijinal kategorilerden yalnızca birinin “varlığını” (1) veya “yokluğunu” (0) temsil eder.
Örneğin, “cinsiyet” değişkenimiz “Erkek” ve “Kadın” olmak üzere iki kategoriye sahiptir. Bu değişken için iki adet kukla değişken oluşturulacaktır:
Erkek_D: Katılımcı erkek ise
1, değilse (yani kadın ise) 0 değerini
alır.
Kadin_D: Katılımcı kadın ise
1, değilse (yani erkek ise) 0 değerini
alır.
Bu dönüşüm yapıldıktan sonra, bu yeni 0/1 değişkenlerinden biri (referans kategorisi belirlendikten sonra) modele eklenerek, o kategoride olmanın gelir üzerindeki etkisi, referans kategoriye kıyasla ölçülebilir hale gelir.
Uygulama Öncesi Hazırlık: Değişkenin İncelenmesi ve Planlama
Bu dönüşümü gerçekleştirmeden önceki ilk adım, hocamızın da
yaptığı gibi, orijinal gender değişkeninin mevcut
kodlamasını ve dağılımını Frequencies komutu ile
incelemektir. Yapılan analiz, mevcut örneklemde katılımcıların
%50.9’unun erkek, %49.1’inin ise kadın olduğunu teyit etmiştir.
Bu bilgi ışığında, bir sonraki adımda, her bir kategoriyi temsil
edecek 0/1 yapısındaki yeni kukla değişkenleri oluşturma sürecine
geçilecektir. Hocamızın da vurguladığı üzere, bu işlem
menüler yerine, tekrarlanabilir ve şeffaf bir analiz süreci sağlamak
amacıyla SPSS Syntax editörü kullanılarak yapılacaktır.
SPSS Syntax Kullanarak Kukla Değişkenlerin Oluşturulması ve Modele Eklenmesi
SPSS Syntax Kullanarak Kukla Değişkenlerin Oluşturulması
Modele cinsiyet gibi kategorik bir değişkeni dahil edebilmek için, bu
değişkenin sayısal bir formata dönüştürülmesi gerekmektedir. Bu bölümde,
“Erkek” ve “Kadın” kategorilerinden oluşan gender
değişkeninden, hocamızın da belirttiği gibi, SPSS
Syntax editörü kullanılarak iki adet kukla (dummy) değişken
oluşturulmuştur.
Kukla Değişken Oluşturma Syntax Kodu
Aşağıdaki kod bloğu, orijinal gender değişkenini
(1=Erkek, 2=Kadın) temel alarak male ve female
adında iki yeni kukla değişken oluşturmak için kullanılmıştır.
* --- Cinsiyet için Kukla Değişkenlerin Oluşturulması ---.
RECODE gender (1=1) (2=0) INTO male.
RECODE gender (1=0) (2=1) INTO female.
EXECUTE.
* --- Yeni Değişkenlere Etiket Atanması ---.
VALUE LABELS male
1 "Male"
0 "Not Male".
VALUE LABELS female
1 "Female"
0 "Not Female".
EXECUTE.
* --- Kontrol için Frekans Analizi ---.
FREQUENCIES VARIABLES=gender male female.
Syntax Komutlarının Teknik Açıklaması
RECODE Komutu: Bu komut, yeni
değişkenlerin temelini oluşturur.
male Değişkeni için:
(1=1) (2=0) ifadesi, orijinal gender
değişkenindeki “1” kodlu (Erkek) katılımcıların yeni male
değişkeninde 1 değerini, “2” kodlu (Kadın)
katılımcıların ise 0 değerini almasını sağlar.
female Değişkeni için:
(1=0) (2=1) ifadesiyle tam tersi bir işlem yapılır. “2”
kodlu (Kadın) katılımcılar female değişkeninde
1, “1” kodlu (Erkek) katılımcılar ise
0 değerini alır.
VALUE LABELS Komutu: Oluşturulan yeni
0/1 değişkenlerinin SPSS çıktılarında daha anlaşılır olması için
etiketler atanmıştır. Hocamızın da vurguladığı gibi, bu
etiketler, değişkenin ikili (dichotomous) doğasını yansıtacak şekilde
“Male” / “Not Male” ve “Female” / “Not Female” olarak
tanımlanmıştır.
FREQUENCIES Komutu: Bu komut, bir
kontrol mekanizması olarak kullanılmıştır. Komut çalıştırılarak, yeni
oluşturulan male ve female değişkenlerindeki 1
ve 0 değerlerinin sayısının, orijinal gender değişkenindeki
Erkek ve Kadın sayısıyla birebir eşleşip eşleşmediği teyit
edilmiştir.
Kodun Test Edilmesi ve Veri Setine Kaydedilmesi
Hocamızın da gösterdiği gibi, en iyi uygulama, bu
tür veri dönüştürme işlemlerini önce TEMPORARY komutu ile
test etmektir. Kodun başına TEMPORARY yazılarak
çalıştırıldığında, SPSS komutları sanal olarak uygular ve sonuçları
gösterir, ancak değişiklikleri veri setine kalıcı olarak kaydetmez.
Kodun doğruluğu frekans tabloları ile teyit edildikten sonra,
TEMPORARY komutu silinerek (veya başına *
işareti koyarak pasif hale getirilerek) kod yeniden çalıştırılmış ve
değişiklikler veri setine kalıcı olarak kaydedilmiştir.
Ekteki görselde de görüldüğü gibi, male ve
female adında iki yeni kukla değişken, veri setinin sonuna
başarılı bir şekilde eklenmiştir. Bu kritik adımın tamamlanmasıyla
birlikte, oluşturulan kukla (dummy) değişkenler artık çoklu
regresyon modeline dahil edilerek cinsiyetin gelir üzerindeki etkisini
analiz etmek için hazırdır.