Değişkenlerin tekil dağılımları incelendikten sonra, analizimizin bir sonraki aşaması, değişkenler arasındaki ikili (bivariate) ilişkileri keşfetmektir. Hocamızın da belirttiği üzere, doğrudan çoklu regresyon modelini kurmak yerine, öncelikle temel bağımsız değişkenimiz olan eğitim seviyesinin, bağımlı değişkenimiz bireysel gelir üzerinde bir etkisi olup olmadığını görsel olarak incelemek, metodolojik olarak daha sağlam bir yaklaşımdır.
Bu amaçla, “Bireylerin gelir seviyesi, eğitim düzeyleri üzerinden tahmin edilebilir mi?” sorusuna öncül bir cevap aramak için bir saçılım grafiği (scatter plot) oluşturulacaktır. Bu grafik, iki değişken arasındaki ilişkinin varlığı, yönü (pozitif veya negatif) ve biçimi (doğrusal olup olmadığı) hakkında bize değerli bir ön fikir sunacaktır. Saçılım grafiğindeki noktaların belirli bir örüntü oluşturup oluşturmadığını gözlemlemek, daha karmaşık olan çoklu regresyon modelinin bulgularını yorumlamada ve anlamlandırmada bize temel bir zemin hazırlayacaktır.
Saçılım Grafiğinin Yorumlanması ve Regresyon Doğrusu
Eğitim ve gelir seviyesi arasındaki ilişkinin yapısını görselleştirmek amacıyla oluşturulan saçılım grafiğine, Add fit line at total komutu aracılığıyla, gözlemler arasındaki doğrusal eğilimi en iyi özetleyen bir “en uygun doğru” (line of best fit) eklenmiştir. Hocamızın da belirttiği gibi, bu doğru, tüm gözlem noktalarına olan dikey uzaklıkların (hataların) kareleri toplamını minimize etme prensibine dayanarak çizilir ve iki değişken arasındaki ilişkiyi matematiksel bir modelle özetler.
Grafik üzerinde otomatik olarak oluşturulan bu basit regresyon modeli, aşağıdaki formül ile ifade edilmektedir:
Gelir Seviyesi = 2.69 + 0.99 * (Eğitim Seviyesi)
Bu denklemin yorumlanması şu şekildedir:
Sabit Terim (Intercept - 2.69): Bu değer, kesişim noktasını ifade eder. Teorik olarak, bağımsız değişken olan eğitim seviyesinin “0” olduğu varsayımsal bir durumda, beklenen ortalama gelir seviyesinin 2.69 olacağını gösterir.
Eğim Katsayısı (Slope - 0.99): Bu katsayı, modelin en önemli yorumunu içerir. Bağımsız değişken olan eğitim seviyesindeki her bir birimlik artışın, bağımlı değişken olan gelir seviyesinde ortalama olarak ne kadarlık bir değişime yol açtığını gösterir. Katsayının pozitif (+) olması, iki değişken arasında pozitif yönlü bir ilişki olduğunu; yani eğitim seviyesi arttıkça gelir seviyesinin de artma eğiliminde olduğunu belirtir. Değerin 0.99 olması ise, eğitimdeki her bir kademelik artışın, gelirde de yaklaşık bir kademelik artışla ilişkili olduğunu ifade eder.
Hocamızın da vurguladığı gibi, bu analizle aslında basit bir regresyon modeli kurularak değişkenler arası ilişki niceliksel olarak da ifade edilmiştir. Ancak bu görsel ve temel model, ilişkinin varlığını ve yönünü gösterse de istatistiksel gücünü net olarak ortaya koymaz. Bu nedenle, bir sonraki adımda, bu doğrusal ilişkinin ne kadar güçlü olduğunu standart bir ölçütle değerlendirmek amacıyla korelasyon analizi yapılacaktır.
Saçılım grafiği ile görsel olarak tespit edilen doğrusal ilişkinin gücünü ve istatistiksel anlamlılığını ölçmek amacıyla Pearson Korelasyon analizi yapılmıştır. Analiz sonucunda elde edilen korelasyon matrisi, hocamızın da belirttiği gibi, üç temel aşamada yorumlanmıştır:
-İlişkinin Yönü: Pearson Korelasyon katsayısı (r) .324 olarak hesaplanmıştır. Katsayının önünde eksi işareti bulunmaması, iki değişken arasında pozitif yönlü bir ilişki olduğunu göstermektedir. Buna göre, bireylerin eğitim seviyeleri yükseldikçe, gelir seviyelerinin de artma eğiliminde olduğu söylenebilir.
-İlişkinin Gücü: Korelasyon katsayısının mutlak değeri, ilişkinin gücünü belirtir. Genel kabul gören eşik değerlere göre, .324’lük katsayı, iki değişken arasında orta düzeyde bir doğrusal ilişki olduğuna işaret etmektedir.
Sonuç olarak, bireylerin eğitim seviyeleri ile gelir seviyeleri arasında istatistiksel olarak anlamlı, pozitif yönlü ve orta kuvvette (r = .324, p < .001) bir ilişki bulunmaktadır. Bu bulgu, eğitimin geliri yordayan önemli bir faktör olduğu hipotezini desteklemektedir.
Eğitim ve gelir seviyesi arasındaki ilişkinin istatistiksel olarak modellenmesi amacıyla, gelir seviyesi bağımlı değişken, eğitim seviyesi ise bağımsız değişken olarak belirlenerek bir basit doğrusal regresyon analizi gerçekleştirilmiştir. SPSS çıktısında yer alan tablolar, modelin geçerliliği ve katsayıların yorumlanması için sırasıyla incelenmiştir.
Modelin Genel Anlamlılığının Değerlendirilmesi: ANOVA Tablosu
Hocamızın da belirttiği üzere, regresyon analizinde yorumlanması gereken ilk tablo, modelin bir bütün olarak anlamlı olup olmadığını test eden ANOVA tablosudur. Bu tablo, bağımsız değişkenin (eğitim) bağımlı değişkeni (gelir) açıklamada anlamlı bir katkısı olup olmadığını, yani kurulan doğrusal modelin geçerliliğini test eder.
-Anlamlılık Değeri (Sig.): Tablodaki Sig. değeri < .001 olarak bulunmuştur. Bu değer, 0.05 olan alfa anlamlılık düzeyinden küçük olduğu için, kurulan regresyon modelinin istatistiksel olarak anlamlı olduğu sonucuna varılır. Diğer bir deyişle, eğitim seviyesi ile gelir seviyesi arasında doğrusal bir ilişki vardır ve bu model, bağımlı değişkendeki varyansın anlamlı bir kısmını açıklayabilmektedir. Bu sonuç, Coefficients tablosundaki katsayıları yorumlayabileceğimiz anlamına gelir.
Katsayıların Yorumlanması ve Regresyon Denklemi: Coefficients Tablosu
Modelin genel olarak anlamlı olduğu tespit edildikten sonra, Coefficients tablosu incelenerek bağımsız değişkenin etkisi ve tahmin denklemi oluşturulur.
-Bağımsız Değişkenin Anlamlılığı: “Bitirdiğiniz en yüksek eğitim seviyesi” değişkenine ait Sig. değerinin < .001 olduğu görülmektedir. Bu bulgu, 0.05’ten küçük olduğu için, eğitim seviyesinin gelir seviyesi üzerinde istatistiksel olarak anlamlı bir yordayıcı (predictor) olduğunu teyit eder.
-Regresyon Denkleminin Oluşturulması: Unstandardized Coefficients sütunundaki “B” değerleri kullanılarak regresyon denklemi yazılır.
-Sabit (Constant): Sabit terimin (B = 2.688) Sig. değeri < .001’dir ve istatistiksel olarak anlamlıdır. Hocamızın da açıkladığı gibi, bu değer, bağımsız değişken olan eğitim seviyesi sıfır olduğunda, bağımlı değişken olan gelir seviyesinin beklenen ortalama değerini ifade eder.
-Eğim Katsayısı (Slope): Eğitim seviyesine ait katsayı (B = 0.995), bağımsız değişkendeki her bir birimlik (kademelik) artışın, bağımlı değişken olan gelir seviyesinde ortalama olarak 0.995 birimlik bir artışa yol açtığını gösterir. Bu pozitif katsayı, iki değişken arasındaki pozitif yönlü ilişkiyi doğrular.
Bu katsayılardan hareketle, gelir seviyesini tahmin etmeye yönelik regresyon denklemi şu şekilde oluşturulur:
Tahmini Gelir Seviyesi = 2.688 + 0.995 x (Eğitim Seviyesi)
Bu formül, herhangi bir bireyin eğitim seviyesi bilindiğinde, bu modele göre beklenen ortalama gelir seviyesini tahmin etmemize olanak tanır.
Önceki adımda oluşturulan regresyon denklemi, sadece değişkenler arasındaki ilişkiyi özetlemekle kalmaz, aynı zamanda bağımsız değişkenin belirli bir değeri için bağımlı değişkenin alacağı değeri tahmin etme olanağı da sunar. Bu bölümde, modelin bu pratik kullanımı bir örnek üzerinden gösterilecektir.
Örnek Uygulama: “Eğitim seviyesi 5 olan bir bireyin, bu modele göre beklenen ortalama gelir seviyesi nedir?”
Bu soruyu yanıtlamak için, daha önce elde edilen regresyon formülü kullanılır:
Tahmin Formülü:
Tahmini Gelir Seviyesi = 2.688 + 0.995 * (Eğitim Seviyesi)
Değerlerin Yerine Konulması:
Formülde “Eğitim Seviyesi” yerine 5 değeri konularak hesaplama yapılır: Tahmini Gelir Seviyesi = 2.688 + (0.995 * 5) Tahmini Gelir Seviyesi = 2.688 + 4.975 Tahmini Gelir Seviyesi = 7.663
Bulgunun Yorumlanması:
Analiz sonuçlarına göre, eğitim seviyesi 5 olan bireylerin beklenen ortalama gelir seviyesi 7.663’tür. Hocamızın da altını çizdiği gibi, bu sonuç tek bir birey için kesin bir tahmin değil, bu eğitim seviyesindeki tüm bireylerin ortalamasını temsil eden bir özet değerdir.
Bu kategorik seviyenin gerçek gelir karşılığını anlamak için veri setinin kod kitabına (codebook) bakıldığında, 7.66’lık değerin numaralı gelir kategorisi (15.000 TL – 16.999 TL) ile numaralı gelir kategorisi (17.000 TL – 19.999 TL) arasında bir yere tekabül ettiği görülmektedir. Dolayısıyla, bu model, 5. seviye eğitime sahip bir bireyin ortalama gelirinin yaklaşık olarak 16.000 TL - 17.500 TL aralığında olmasını beklediğimizi göstermektedir.
Önemli Not: Bu tahminin yorumlanmasında dikkate alınması gereken kritik bir husus, modelin “Hiç gelirim yok” cevabını veren katılımcıları da içermesidir. Hocamızın da belirttiği gibi, eğitimli olduğu halde çalışmayan veya işsiz olan bireylerin de analize dahil edilmesi, hesaplanan ortalama gelir beklentisini aşağıya çekmektedir. Bu durum, modelin tahminlerinin neden daha düşük görünebileceğini açıklamaktadır.
Regresyon analizinin son aşamasında, kurulan modelin bağımlı değişkendeki değişimi açıklama kapasitesini değerlendirmek üzere Model Summary tablosu incelenir. Bu tablo, modelin veri ile ne kadar uyumlu olduğunu ve yordama gücünü özetler.
R Kare (R Square / Belirlilik Katsayısı): Analizde en sık yorumlanan değer olan R Kare (R²), bağımsız değişkenin (eğitim seviyesi), bağımlı değişkende (gelir seviyesi) gözlemlenen varyansın (değişimin) yüzde kaçını açıkladığını gösterir.
Tabloda R² değeri .105 olarak bulunmuştur. Bu değeri 100 ile çarptığımızda, modelimizin açıklama gücünün %10.5 olduğu sonucuna varırız.
Yorum: Bu modele göre, bireylerin eğitim seviyesindeki farklılıklar, gelir seviyelerindeki farklılıkların %10.5’ini açıklamaktadır. Geriye kalan %89.5’lik varyans ise modele dahil edilmeyen diğer faktörler (yaş, cinsiyet, deneyim, yaşanılan yer vb.) tarafından açıklanmaktadır.
R (Çoklu Korelasyon Katsayısı): R değeri (.324), modelin tahmin gücünün bir diğer göstergesidir.
Hocamızın da belirttiği gibi, bu değerin iki önemli anlamı vardır:
-Basit Regresyonda Korelasyon ile Eşitlik: Sadece bir bağımsız değişkenin olduğu basit doğrusal regresyon analizlerinde, Model Summary tablosundaki R değeri (.324), Correlations tablosunda bulunan bağımlı ve bağımsız değişken arasındaki Pearson Korelasyon katsayısı (r = .324) ile birebir aynıdır. Nitekim R Kare (.105) değeri de bu korelasyon katsayısının karesidir (0.324² ≈ 0.105).
-Gözlemlenen ve Tahmin Edilen Değerler Arasındaki Korelasyon: Daha teknik ve genel bir ifadeyle R değeri, katılımcıların beyan ettiği gerçek (gözlemlenen) gelir seviyeleri ile regresyon formülü kullanılarak hesaplanan modelin tahmin ettiği gelir seviyeleri arasındaki korelasyonu temsil eder. Bu korelasyon ne kadar yüksekse, modelin tahminleri gerçeğe o kadar yakın demektir ve bu da modelin açıklama gücünün yüksek olduğunu gösterir.