Veri Analizi Okulu - 25 Şubat 2026

Modelin Uygunluğunun Uygulamalı Olarak Doğrulanması
Gözlemlenen ve Tahmin Edilen Değerler Arasındaki Korelasyon Analizi
Alternatif Modelin Kurulması: Yaşın Gelir Üzerindeki Etkisi
Çoklu Doğrusal Regresyon Modeli: Yaş ve Eğitimin Birlikte Etkisi
İleri Düzey Yorumlama: Beklenmedik R-Kare Artışı ve Baskılama Etkisi (Suppression Effect)
Modelin Genişletilmesi: Kategorik Değişkenlerin Modele Dahil Edilmesi

Modelin Uygunluğunun Uygulamalı Olarak Doğrulanması

Model Summary tablosunda yer alan R (Çoklu Korelasyon Katsayısı) değerinin, gözlemlenen gerçek değerler ile model tarafından tahmin edilen değerler arasındaki korelasyonu ifade ettiğini uygulamalı olarak göstermek mümkündür. Hocamızın da belirttiği gibi, bu doğrulama, regresyon modelinin tahmin ettiği değerleri veri setine yeni bir değişken olarak kaydederek gerçekleştirilebilir.

Bu işlem için SPSS’te Analyze > Regression > Linear menüsü takip edilmiştir. Açılan ana diyalog penceresinde bulunan Save butonuna tıklandıktan sonra, “Predicted Values” (Tahmin Edilen Değerler) başlığı altındaki “Unstandardized” seçeneği işaretlenmiştir. Bu komut çalıştırıldığında, regresyon analizi tekrarlanmış ve veri setinin sonuna, her bir katılımcı için regresyon denklemiyle hesaplanmış olan tahmin edilen gelir seviyelerini içeren PRE_1 (Unstandardized Predicted Value) adında yeni bir değişken otomatik olarak eklenmiştir.

Bu adımdaki temel amaç, orijinal bağımlı değişken olan income (gözlemlenen değer) ile model tarafından oluşturulan PRE_1 (tahmin edilen değer) değişkeni arasındaki korelasyonu hesaplayarak, bu katsayının daha önce Model Summary tablosunda raporlanan R değeri (.324) ile aynı olup olmadığını kontrol etmektir.

Gözlemlenen ve Tahmin Edilen Değerler Arasındaki Korelasyon Analizi

Yapılan Pearson Korelasyon analizi sonucunda, orijinal income değişkeni (gözlemlenen değerler) ile model tarafından üretilen PRE_1 değişkeni (tahmin edilen değerler) arasında r = .324 (p < .001) değerinde, istatistiksel olarak anlamlı bir korelasyon katsayısı hesaplanmıştır.

Bu bulgu, Model Summary tablosunda raporlanan R değeri (.324) ile birebir aynıdır. Bu durum, hocamızın da vurguladığı gibi, R katsayısının temel anlamını pratik olarak doğrulamaktadır: R, modelin tahmin ettiği değerler ile gerçekte gözlemlenen değerler arasındaki doğrusal ilişkinin gücünü temsil eder.

Hocamızın da altını çizdiği üzere, çıkarımsal istatistikte modellerin performansı, temel olarak gözlemlenen değerler ile modelin ürettiği tahmin edilen değerler arasındaki uyuma bakılarak değerlendirilir. Bu iki değer seti arasındaki korelasyonun yüksek olması, modelin tahminlerinin gerçeğe daha yakın olduğu, dolayısıyla tahmin kapasitesinin daha yüksek ve hata payının daha düşük olduğu anlamına gelir.

Model Summary tablosunda yorumladığımız R Kare (R²) değeri, bu R katsayısının karesi olup, modelin toplam açıklama kapasitesini özetler. Esasen R Kare, modelin tahminlerinin gerçek değerlere ne kadar yakın olduğunun bir ölçüsü olarak da yorumlanabilir ve bu yakınlık, bağımlı değişkendeki varyansın ne kadarının bağımsız değişken tarafından açıklandığını gösterir.

Alternatif Modelin Kurulması: Yaşın Gelir Üzerindeki Etkisi

Önceki modelde eğitim seviyesinin, gelirdeki varyansın yaklaşık %10.5’ini açıkladığı görülmüştür. Analizin bu aşamasında, hocamızın da belirttiği gibi, modele alternatif bir bağımsız değişken sokularak karşılaştırmalı bir inceleme yapılması hedeflenmektedir. Bu amaçla, eğitim seviyesinin yerine yaşın, bireylerin gelir düzeyini yordama gücü test edilecektir.

Bu yeni basit doğrusal regresyon modelini kurmak için SPSS’te Analyze > Regression > Linear menüsü tekrar kullanılmıştır. Önceki modelde bağımsız değişken olarak yer alan degree (eğitim seviyesi) değişkeni modelden çıkarılmış ve yerine age (yaş) değişkeni bağımsız değişken olarak atanmıştır. Bağımlı değişken olan income (gelir seviyesi) ise sabit tutulmuştur.

Metodolojik Not: Tahmin Değerlerini Kaydetme (Save) Seçeneği

Hocamızın da dikkat çektiği üzere, yeni model ilk kez çalıştırıldığında, bir önceki analizde kullanılan ve tahmin edilen değerleri (Unstandardized Predicted Values) veri setine kaydeden Save seçeneği aktif kalmıştır. Bu durum, SPSS çıktısında standart regresyon tablolarına ek olarak bir “Residuals Statistics” (Artık Değerler İstatistiği) tablosunun da otomatik olarak üretilmesine neden olmuştur. Sadece temel model çıktılarını içeren sade ve odaklı bir sonuç elde etmek amacıyla, bu seçenek Save menüsünden kaldırılmış ve analiz bu şekilde yeniden çalıştırılmıştır. Bu, her yeni model kurulumunda önceki ayarların kontrol edilmesinin önemini gösteren teknik bir adımdır.

Yaş ve Gelir Modeli Analiz Sonuçları

Yaş değişkeninin gelir üzerindeki etkisini test etmek amacıyla kurulan yeni basit doğrusal regresyon modelinin sonuçları, önceki modelle aynı sistematik yaklaşımla incelenmiştir:

Modelin Genel Anlamlılığı (ANOVA Tablosu): ANOVA tablosundaki anlamlılık (Sig.) değeri < .001 olarak bulunmuştur. Bu değer 0.05’ten küçük olduğu için, yaş ve gelir arasında kurulan doğrusal modelin bir bütün olarak istatistiksel açıdan anlamlı olduğu ve katsayıların yorumlanabileceği sonucuna varılmıştır.
Katsayıların Yorumlanması (Coefficients Tablosu):

Anlamlılık: Coefficients tablosunda, “Kaç yaşındasınız?” değişkenine ait Sig. değerinin < .001 olduğu görülmektedir. Bu, yaşın, gelir seviyesi üzerinde istatistiksel olarak anlamlı bir yordayıcı olduğunu göstermektedir.
Regresyon Denklemi: Unstandardized Coefficients (B) sütunundaki değerler kullanılarak tahmin formülü oluşturulmuştur. Tahmini Gelir Seviyesi = 4.721 + 0.044 * (Yaş)
Yorum: Bu denkleme göre, yaştaki her bir birimlik (yıllık) artışın, gelir seviyesinde ortalama olarak 0.044 birimlik bir artışla ilişkili olduğu görülmektedir.

Modelin Açıklama Gücü (Model Summary Tablosu):

Model Summary tablosundaki R Kare (R²) değeri .021 olarak bulunmuştur. Bu, yaş değişkeninin tek başına, gelir seviyesindeki toplam varyansın yalnızca %2.1’ini açıkladığını göstermektedir.

Sonuç ve Bir Sonraki Adım:

Yapılan iki ayrı basit regresyon analizi sonucunda, eğitim seviyesinin tek başına gelirin %10.5’ini, yaşın ise %2.1’ini açıkladığı görülmüştür. Hocamızın da belirttiği gibi, analizde mantıksal olarak sıradaki adım, bu iki bağımsız değişkenin birlikte modele dahil edildiği ve gelir üzerindeki ortak etkilerinin incelendiği bir çoklu doğrusal regresyon modeli kurmaktır. Bu yeni model, her bir değişkenin diğer değişkenin etkisi kontrol altındayken gelir üzerindeki net etkisini görmemize ve modelin toplam açıklama gücünün (R²) artıp artmadığını değerlendirmemize olanak tanıyacaktır.

Çoklu Doğrusal Regresyon Modeli: Yaş ve Eğitimin Birlikte Etkisi

İki bağımsız değişkenin (yaş ve eğitim) gelir seviyesi üzerindeki ortak etkisini ve birbirlerinin varlığında sahip oldukları net etkiyi incelemek amacıyla bir çoklu doğrusal regresyon analizi gerçekleştirilmiştir.

Modelin Genel Anlamlılığı ve Açıklama Gücü

ANOVA Tablosu: Modelin genel anlamlılığını test eden ANOVA tablosundaki Sig. değeri < .001 olarak bulunmuştur. Bu, 0.05 anlamlılık düzeyinden küçük olduğu için, kurulan çoklu regresyon modelinin bir bütün olarak istatistiksel açıdan anlamlı olduğu ve bağımsız değişkenlerin birlikte, bağımlı değişkendeki varyansı açıklamada anlamlı bir katkı sunduğu sonucuna varılır.
Model Summary Tablosu: Modelin açıklama gücünü gösteren R Kare (R²) değeri .165 olarak bulunmuştur. Bu sonuca göre, yaş ve eğitim seviyesi değişkenleri birlikte, bireylerin gelir seviyesindeki toplam değişimin (varyansın) %16.5’ini açıklamaktadır. Bu oran, değişkenlerin tek tek modellendiği basit regresyon analizlerindeki açıklama oranlarından (%10.5 ve %2.1) daha yüksektir.

Katsayıların Yorumlanması ve Regresyon Denklemi

Coefficients tablosu, her bir bağımsız değişkenin modele olan net katkısını anlamak için incelenmiştir.

Anlamlılık: Hem “Bitirdiğiniz en yüksek eğitim seviyesi” hem de “Kaç yaşındasınız?” değişkenlerinin Sig. değerleri < .001’dir. Bu, her iki bağımsız değişkenin de, diğer değişkenin etkisi kontrol altına alındığında, gelir seviyesi üzerinde istatistiksel olarak anlamlı birer yordayıcı olmaya devam ettiğini gösterir.

Katsayıların Yorumlanması:

Eğitim Seviyesi (B = 1.208): Hocamızın özellikle vurguladığı gibi, bu katsayı şu şekilde yorumlanır: Yaşın etkisi kontrol edildikten sonra, eğitim seviyesindeki her bir birimlik artış, gelir seviyesinde ortalama olarak 1.208 birimlik bir artışa yol açmaktadır.
Yaş (B = 0.077): Benzer şekilde, eğitim seviyesinin etkisi kontrol edildikten sonra, yaştaki her bir birimlik (yıl) artış, gelir seviyesinde ortalama olarak 0.077 birimlik bir artışa neden olmaktadır.
Sabit (Constant / B = -1.257): Bu değer, hem yaşın hem de eğitimin teorik olarak sıfır olduğu bir durumda beklenen gelir seviyesini temsil eder. Değerin negatif çıkması, veri setinin bu sıfır noktalarına yakın gözlemler içermemesinden (örneğin yaşın 18’den başlaması) kaynaklanmaktadır ve modelin istatistiksel geçerliliğini etkilemez.

Çoklu Regresyon Denklemi:

Tahmini Gelir Seviyesi = -1.257 + (1.208 * Eğitim Seviyesi) + (0.077 * Yaş)

Modelin Kullanımı: Örnek Tahmin Uygulaması

Modelin pratik kullanımını göstermek amacıyla, hocamızın sorduğu “Eğitim seviyesi 5 ve yaşı 50 olan bir bireyin beklenen ortalama gelir seviyesi nedir?” sorusu yanıtlanmıştır.

Hesaplama:

Tahmini Gelir Seviyesi = -1.257 + (1.208 * 5) + (0.077 * 50)

Tahmini Gelir Seviyesi = -1.257 + 6.04 + 3.85

Tahmini Gelir Seviyesi = 8.633

Sonuç: Bu çoklu regresyon modeline göre, 5. seviye eğitime sahip ve 50 yaşında olan bireylerin beklenen ortalama gelir seviyesi 8.633’tür. Bu değer, veri setindeki 8. ve 9. gelir kategorileri arasında bir seviyeye karşılık gelmektedir.

İleri Düzey Yorumlama: Beklenmedik R-Kare Artışı ve Baskılama Etkisi (Suppression Effect)

Çoklu regresyon modelinin sonuçları, istatistiksel analizde sıkça karşılaşılmayan ancak önemli bir durumu ortaya koymuştur. Bu durum, modelin açıklama gücünün (R²) yorumlanmasında derinlemesine bir bakış açısı gerektirir.

Gözlemlenen Paradoks: Toplamdan Büyük Parçalar

Analizin önceki adımlarında elde edilen R-Kare değerleri şöyledi:

Model 1 (Sadece Eğitim): R² = .105 (%10.5)
Model 2 (Sadece Yaş): R² = .021 (%2.1)
Model 3 (Eğitim + Yaş): R² = .165 (%16.5)

Hocamızın da dikkat çektiği gibi, konvansiyonel beklenti, iki bağımsız değişkenin ortak modele eklendiğinde toplam açıklama gücünün (R²), bireysel açıklama güçlerinin toplamından (%10.5 + %2.1 = %12.6) daha az olması yönündedir. Çünkü yaş ve eğitim gibi birbiriyle ilişkili değişkenler, gelirin aynı kısımlarını açıklama eğilimindedir ve bu “ortak varyans” nedeniyle birbirlerinin açıklama gücünü bir miktar “çalarlar.”

Ancak bu analizde tam tersi bir durumla karşılaşılmıştır: İki değişkenin birlikte oluşturduğu modelin açıklama gücü (%16.5), bireysel güçlerinin toplamından (%12.6) daha yüksektir.

Olası Nedenlerin Değerlendirilmesi

Hocamızın belirttiği gibi, bu durumun birkaç olası açıklaması olabilir:

Örneklem Değişikliği (Elendi): Çoklu regresyon, modeldeki tüm değişkenler için geçerli verisi olan vakaları (“listwise deletion” yöntemiyle) analize dahil eder. Eğer her bir basit regresyon farklı kayıp verilere sahip olsaydı, çoklu regresyonun çalıştığı nihai örneklem daha küçük ve “seçilmiş” bir grup olabilirdi. Bu grubun kendi iç dinamikleri, daha yüksek bir R-Kare’ye yol açabilirdi. Ancak hocamız, modellerin ANOVA tablolarındaki serbestlik derecelerini (df) kontrol ederek gözlem sayılarının (N) değişmediğini teyit etmiş ve bu olasılığı elemiştir.
Baskılama Etkisi (Suppression Effect) (Olası Neden): Bu, en muhtemel teknik açıklamadır. Hocamızın da ifade ettiği gibi, “baskılama etkisi”, bir değişkenin (supresör değişken) tek başına bağımlı değişkenle zayıf bir ilişkisi olmasına rağmen, modele eklendiğinde diğer bağımsız değişkenin yordama gücünü artırması durumudur.

Nasıl Çalışır? Bu etki, supresör değişkenin, diğer bağımsız değişkendeki “alakasız varyansı” (yani bağımlı değişkenle ilişkili olmayan “gürültüyü”) temizlemesiyle ortaya çıkar. Örneğin, yaş değişkeni, eğitimin gelirle ilişkisiz olan bir kısmıyla (mesela jenerasyonel farklılıklar gibi) korelasyon içinde olabilir. Yaş, modele eklendiğinde bu “gürültüyü” üzerine çeker ve baskılar. Bu sayede eğitimin gelirle olan “saf” ve gerçek ilişkisi daha net bir şekilde ortaya çıkar ve bu durum, modelin toplam açıklama gücünü beklenmedik şekilde artırır.
Sonuç: Tekil olarak bakıldığında baskılanmış olan bir etki, değişkenlerin birlikte oluşturduğu daha büyük ve karmaşık “matriks” içerisinde kendini göstermiş olur. Normalde bu matriks büyüdükçe ilişkiler zayıflama eğilimindeyken, bazen bu gibi gizli dinamikler su yüzüne çıkabilir. Bu durum, yaş ve eğitimin gelir üzerindeki etkileşiminin basit bir toplamdan daha karmaşık olduğunu, belki de doğrusal olmayan bir dinamiğe sahip olabileceğini düşündürmektedir.

Sonuç olarak, modelin R-Kare değerindeki bu beklenmedik artış, büyük olasılıkla değişkenler arasındaki karmaşık ilişkilerden kaynaklanan bir “baskılama etkisidir” ve sosyal bilimlerdeki ilişkilerin ne kadar çok katmanlı olabileceğinin mükemmel bir örneğidir.

Modelin Genişletilmesi: Kategorik Değişkenlerin Modele Dahil Edilmesi

Kategorik Değişken Sorunsalı ve Kukla Değişken (Dummy Variable) Yaklaşımı

Analizin bu noktasına kadar modele dahil edilen bağımsız değişkenler (yaş, eğitim) sayısal (skala) nitelikteydi. Bu değişkenlerin katsayıları, “diğer değişkenler sabitken, bağımsız değişkendeki her bir birimlik artışın bağımlı değişken üzerinde yarattığı ortalama etki” olarak yorumlanabilmekteydi. Ancak, hocamızın da sorduğu gibi, “Erkek” ve “Kadın” gibi kategorilerden oluşan cinsiyet değişkeni için bu “bir birimlik artış” yorumu anlamsal olarak mümkün değildir.

Bu metodolojik sorunu aşmak ve cinsiyet, yaşanılan yer (kır/kent) gibi kategorik değişkenleri doğrusal regresyon analizine dahil edebilmek için, hocamızın da belirttiği üzere, “kukla değişken” (dummy variable) oluşturma tekniği kullanılır. Bu yöntem, temelde kategorik bir değişkeni, regresyon modelinin yorumlayabileceği sayısal bir formata dönüştürme işlemidir.

Hocamızın da tanımladığı gibi, bu teknik, K sayıda kategoriye sahip bir nominal veya ordinal değişkeni, K adet yeni ikili (dichotomous) değişkene dönüştürme prensibine dayanır. Her bir yeni kukla değişken, orijinal kategorilerden yalnızca birinin “varlığını” (1) veya “yokluğunu” (0) temsil eder.

Örneğin, “cinsiyet” değişkenimiz “Erkek” ve “Kadın” olmak üzere iki kategoriye sahiptir. Bu değişken için iki adet kukla değişken oluşturulacaktır:

Erkek_D: Katılımcı erkek ise 1, değilse (yani kadın ise) 0 değerini alır.
Kadin_D: Katılımcı kadın ise 1, değilse (yani erkek ise) 0 değerini alır.

Bu dönüşüm yapıldıktan sonra, bu yeni 0/1 değişkenlerinden biri (referans kategorisi belirlendikten sonra) modele eklenerek, o kategoride olmanın gelir üzerindeki etkisi, referans kategoriye kıyasla ölçülebilir hale gelir.

Uygulama Öncesi Hazırlık: Değişkenin İncelenmesi ve Planlama

Bu dönüşümü gerçekleştirmeden önceki ilk adım, hocamızın da yaptığı gibi, orijinal gender değişkeninin mevcut kodlamasını ve dağılımını Frequencies komutu ile incelemektir. Yapılan analiz, mevcut örneklemde katılımcıların %50.9’unun erkek, %49.1’inin ise kadın olduğunu teyit etmiştir.

Bu bilgi ışığında, bir sonraki adımda, her bir kategoriyi temsil edecek 0/1 yapısındaki yeni kukla değişkenleri oluşturma sürecine geçilecektir. Hocamızın da vurguladığı üzere, bu işlem menüler yerine, tekrarlanabilir ve şeffaf bir analiz süreci sağlamak amacıyla SPSS Syntax editörü kullanılarak yapılacaktır.

SPSS Syntax Kullanarak Kukla Değişkenlerin Oluşturulması ve Modele Eklenmesi

SPSS Syntax Kullanarak Kukla Değişkenlerin Oluşturulması

Modele cinsiyet gibi kategorik bir değişkeni dahil edebilmek için, bu değişkenin sayısal bir formata dönüştürülmesi gerekmektedir. Bu bölümde, “Erkek” ve “Kadın” kategorilerinden oluşan gender değişkeninden, hocamızın da belirttiği gibi, SPSS Syntax editörü kullanılarak iki adet kukla (dummy) değişken oluşturulmuştur.

Kukla Değişken Oluşturma Syntax Kodu

Aşağıdaki kod bloğu, orijinal gender değişkenini (1=Erkek, 2=Kadın) temel alarak male ve female adında iki yeni kukla değişken oluşturmak için kullanılmıştır.

* --- Cinsiyet için Kukla Değişkenlerin Oluşturulması ---.

RECODE gender (1=1) (2=0) INTO male.
RECODE gender (1=0) (2=1) INTO female.
EXECUTE.

* --- Yeni Değişkenlere Etiket Atanması ---.

VALUE LABELS male
    1 "Male"
    0 "Not Male".
VALUE LABELS female
    1 "Female"
    0 "Not Female".
EXECUTE.

* --- Kontrol için Frekans Analizi ---.

FREQUENCIES VARIABLES=gender male female.

Syntax Komutlarının Teknik Açıklaması

RECODE Komutu: Bu komut, yeni değişkenlerin temelini oluşturur.

male Değişkeni için: (1=1) (2=0) ifadesi, orijinal gender değişkenindeki “1” kodlu (Erkek) katılımcıların yeni male değişkeninde 1 değerini, “2” kodlu (Kadın) katılımcıların ise 0 değerini almasını sağlar.
female Değişkeni için: (1=0) (2=1) ifadesiyle tam tersi bir işlem yapılır. “2” kodlu (Kadın) katılımcılar female değişkeninde 1, “1” kodlu (Erkek) katılımcılar ise 0 değerini alır.

VALUE LABELS Komutu: Oluşturulan yeni 0/1 değişkenlerinin SPSS çıktılarında daha anlaşılır olması için etiketler atanmıştır. Hocamızın da vurguladığı gibi, bu etiketler, değişkenin ikili (dichotomous) doğasını yansıtacak şekilde “Male” / “Not Male” ve “Female” / “Not Female” olarak tanımlanmıştır.

FREQUENCIES Komutu: Bu komut, bir kontrol mekanizması olarak kullanılmıştır. Komut çalıştırılarak, yeni oluşturulan male ve female değişkenlerindeki 1 ve 0 değerlerinin sayısının, orijinal gender değişkenindeki Erkek ve Kadın sayısıyla birebir eşleşip eşleşmediği teyit edilmiştir.

Kodun Test Edilmesi ve Veri Setine Kaydedilmesi

Hocamızın da gösterdiği gibi, en iyi uygulama, bu tür veri dönüştürme işlemlerini önce TEMPORARY komutu ile test etmektir. Kodun başına TEMPORARY yazılarak çalıştırıldığında, SPSS komutları sanal olarak uygular ve sonuçları gösterir, ancak değişiklikleri veri setine kalıcı olarak kaydetmez. Kodun doğruluğu frekans tabloları ile teyit edildikten sonra, TEMPORARY komutu silinerek (veya başına * işareti koyarak pasif hale getirilerek) kod yeniden çalıştırılmış ve değişiklikler veri setine kalıcı olarak kaydedilmiştir.

Ekteki görselde de görüldüğü gibi, male ve female adında iki yeni kukla değişken, veri setinin sonuna başarılı bir şekilde eklenmiştir. Bu kritik adımın tamamlanmasıyla birlikte, oluşturulan kukla (dummy) değişkenler artık çoklu regresyon modeline dahil edilerek cinsiyetin gelir üzerindeki etkisini analiz etmek için hazırdır.