11. Excel ile Öğrendiğimiz Kavramlara SPSS ile Bakmak

Yukarıdaki gördüğümüz kavramları TGSS 2024 veri seti ile SPSS ile bakalım.

TGSS 2024 Data View Ekranı

TGSS 2024 Variable View Ekranı

Örnek: degree (eğitim seviyesi) ile income (gelir) arasındaki ilişkiye bakmak

Bu Aşamada hocamızın Dip Notu Aşağıdaki Gibidir:

Metodolojik Not: Bağımlı Değişkenin Normallik Varsayımı

Doğrusal regresyon analizinin temelini oluşturan istatistiksel varsayımlardan biri, modelin hata terimlerinin (error terms / residuals) normal dağılıma sahip olmasıdır. Uygulamada, bu varsayımın ilk kontrolü genellikle doğrudan bağımlı değişkenin (dependent variable) kendi dağılımı incelenerek yapılır. Modelin üreteceği istatistiksel çıkarımların (örneğin, katsayıların anlamlılığını test eden p-değerleri ve güven aralıkları) geçerli ve güvenilir olabilmesi için, bağımlı değişkenin normal dağılıma yakın bir örüntü sergilemesi beklenir.

Bu analizde bağımlı değişken olarak kullanacağımız Gelir değişkenine yapılan ilk görsel inceleme, dağılımın normal dağılımdan belirgin bir şekilde saptığını, muhtemelen bir yöne doğru yığılma (skewness) gösterdiğini işaret etmektedir. Bu durum, teknik olarak temel bir varsayımın ihlal edildiği anlamına gelir.

Ancak, bu dersin öncelikli amacı, regresyon modelinin mekanik adımlarını, temel bileşenlerini ve çıktıların nasıl yorumlanacağını pedagojik bir netlikle göstermektir. Bu nedenle, bu aşamada veri dönüşümleri (data transformation) veya alternatif modelleme teknikleri gibi ileri düzey konulara girmek yerine, bir istisna yapacağız: Veri setimizdeki Gelir değişkeninin normal dağıldığını varsayarak (“as if” varsayımı ile) analize devam edeceğiz.

Bu yaklaşım, modelin nasıl çalıştığının temel mantığını, kolay anlaşılabilir bir örnek üzerinden kavramamıza olanak tanıyacaktır. Gerçek bir araştırma projesinde bu tür bir varsayım ihlalinin göz ardı edilemeyeceği ve düzeltici önlemler gerektireceği unutulmamalıdır.

Hocamızın Konuyla İlgili Uyarısı ve Anlatımı Devam Ediyor:

Analiz Öncesi Kontrol: Değişkenlerin Dağılımı ve Normallik Varsayımı

Doğrusal regresyon analizi yapmadan önce atılması gereken en önemli adımlardan biri, analize dahil edilecek temel değişkenlerin dağılımlarını incelemektir. Bu adım, özellikle bağımlı değişkenin, regresyon modelinin temel varsayımlarından biri olan normallik varsayımını ne ölçüde karşıladığını görmek için kritik öneme sahiptir.

1. Bağımsız Değişkenin Dağılımı: Eğitim Seviyesi

Gözlem: “Bitirdiğiniz en yüksek eğitim seviyesi nedir?” değişkeninin histogramı incelendiğinde, dağılımın mükemmel olmasa da yaklaşık olarak normal dağılıma benzer, çan eğrisi formunda bir yapı sergilediği görülmektedir.

Teknik Yorum: Doğrusal regresyon analizinde, asıl kritik olan bağımlı değişkenin (veya modelin hata terimlerinin) normal dağılım göstermesidir. Bağımsız değişkenin normal dağılması zorunlu bir varsayım olmadığı için, bu değişkendeki hafif sapmalar analiz için genellikle tolere edilebilir bir durumdur.

2. Bağımlı Değişkenin Dağılımı: Gelir Seviyesi

Gözlem: “Kişisel ortalama aylık net geliriniz ne kadardır?” sorusuna verilen cevapların dağılımı incelendiğinde, durumun çok daha farklı olduğu açıktır. Bu histogram, normal dağılımdan belirgin bir şekilde sapmaktadır. Özellikle düşük gelir kategorilerinde ve “0” gelir bildirenlerde yoğun bir yığılma mevcuttur. Bu durum, dağılımın sağa çarpık (positively skewed) olduğunu göstermektedir.

Teknik Yorum: Bağımlı değişken olan Gelir’in normal dağılmaması, teorik ve teknik açıdan ciddi bir problemdir. Bu durum, doğrusal regresyonun temel varsayımlarından birinin ciddi şekilde ihlal edildiği anlamına gelir.

Potansiyel Sonuçları: Bu varsayımın ihlali, modelin üreteceği standart hataların, güven aralıklarının ve p-değerlerinin güvenilirliğini tehlikeye atabilir. Özellikle sıfır değerindeki bu yoğunluk, modelin düşük gelir seviyelerindeki tahmin performansını olumsuz etkileyebilir ve heteroskedastisite (hata varyansının sabit olmaması) gibi ek sorunlara yol açabilir.

Metodolojik Not ve İlerleyiş

Bu analizde, bağımlı değişkenin normallik varsayımını karşılamadığı açıkça görülmektedir. Gerçek bir araştırma projesinde bu durum, veriye logaritmik dönüşüm uygulamak veya genelleştirilmiş doğrusal modeller gibi alternatif yöntemlere başvurmak gibi düzeltici önlemler gerektirirdi.

Ancak, bu dersin temel amacı regresyon modelinin adımlarını ve çıktılarını anlaşılır bir örnek üzerinden öğretmek olduğundan, bu varsayım ihlalini pedagojik amaçlarla göz ardı edeceğiz. Analize, Gelir değişkeni normal dağılıyormuş gibi (“as if”) devam edilecektir.

SPSS’de Scatter Plot (Saçılım Grafiği) ’a Bakalım

Grafiğe iki defa tıklayalım.

Görsel Analiz: Eğitim Seviyesi ve Gelir Seviyesi Arasındaki İlişkinin Modellenmesi

Normallik varsayımını kontrol ettikten sonraki adım, iki değişkenimiz (Eğitim Seviyesi ve Gelir Seviyesi) arasındaki ilişkiyi bir serpilme diyagramı (scatter plot) üzerinde görselleştirmektir. Bu grafik, analizin temelini oluşturan doğrusal modeli ve bu modelin parametrelerini ilk bakışta görmemizi sağlar.

1. Tahmin Doğrusu (Line of Best Fit)

Grafiğe eklenen bu doğru, istatistiksel olarak çeşitli isimlerle anılır:

En Uygun Çizgi (Line of Best Fit): Tüm veri noktalarına ortalama olarak en yakın mesafeden geçen, yani veriyi en iyi özetleyen doğrudur.

Tahmin Doğrusu (Line of Prediction): Temel amacı, bağımsız değişkene (X) bakarak bağımlı değişkeni (Y) tahmin etmektir.

En Küçük Kareler Regresyon Doğrusu (Ordinary Least Squares Regression Line): Bu doğrunun hesaplandığı matematiksel yöntemin teknik adıdır.

Bu doğru, daha formal regresyon analizi tablolarını incelemeden önce bile, bize ilişkinin temel yapısını ve tahmin formülünü sunar.

2. Regresyon Denkleminin Bileşenleri ve Yorumlanması

Grafik üzerinde yer alan denklem, bu doğrusal ilişkinin matematiksel modelidir:

y = 2.69 + 0.99x

Bu denklemi, değişkenlerin gerçek anlamlarıyla ifade edelim:

Beklenen Gelir Seviyesi = 2.69 + 0.99 * (Eğitim Seviyesi)

Bu denklemin iki temel bileşenini yorumlamalıyız:

a) Sabit Değer (Intercept / β₀ = 2.69):

Teknik Tanım: Bağımsız değişken (X) sıfır değerini aldığında, bağımlı değişkenin (Y) alması beklenen teorik değerdir.

Pratik Yorum: Bu modele göre, hiç eğitim almamış (eğitim seviyesi = 0) bir bireyin beklenen gelir seviyesinin 2.69 olması öngörülür. Bu, modelimizin teorik “başlangıç noktasıdır”.

b) Eğim Katsayısı (Slope / β₁ = 0.99):

Teknik Tanım: Bağımsız değişkendeki (X) her bir birimlik artışın, bağımlı değişkende (Y) yarattığı ortalama değişimi ifade eder.

Pratik Yorum: Bu katsayı, bireyin eğitim seviyesindeki her 1 birimlik artışa karşılık, beklenen gelir seviyesinde ortalama olarak 0.99 birimlik bir artış olduğunu gösterir. Pratik olarak bu, yaklaşık birebir bir artış demektir: Her bir eğitim kademesi atlandığında, gelir seviyesinin de bir kademe artması beklenir.

Önemli Not: Hocanızın da belirttiği gibi, buradaki Gelir değişkeni ham para miktarını değil, belirli kategorileri (seviyeleri) temsil etmektedir. Bu nedenle yorumlarımızı “gelirde X TL artış olur” şeklinde değil, “gelir seviyesinde X birim artış olur” şeklinde yapmalıyız.

3. Modelin Açıklama Gücü (R-Kare)

Grafiğin sağ üst köşesinde yer alan R² Linear = 0.105 ifadesi, Belirleme Katsayısı (Coefficient of Determination)’dır.

Yorumu: Bu değer, bağımlı değişkendeki (Gelir Seviyesi) toplam değişkenliğin (varyansın) yaklaşık %10.5’inin, bağımsız değişkenimiz olan Eğitim Seviyesi tarafından açıklanabildiğini gösterir. Bu, modelin tahmin gücünün bir ölçüsüdür.

Bu görsel analiz, bize formal regresyon çıktılarında göreceğimiz temel katsayıları ve modelin genel yapısını önceden sunarak, daha derinlemesine bir analize zemin hazırlamaktadır.