Örnek1: Motivasyon değeri ile beklenen GPA arasındaki ilişkiye bakmak
Bir regresyon modelinin güvenilirliğini değerlendirirken, sadece
korelasyon katsayısına veya R-Kare değerine bakmak yeterli değildir.
Modelin temel varsayımlarından birinin karşılanıp karşılanmadığını da
kontrol etmemiz gerekir. Bu varsayımlardan en önemlilerinden biri,
hata terimlerinin (residuals) varyansının sabitliğidir.
Bu konuyu, Memnuniyet (X) ve Beklenen GPA (Y)
arasındaki ilişkiyi gösteren bu grafik üzerinden inceleyeceğiz.
Analize başlamadan önce, temel kavramları hatırlayalım:
Gözlemlenen Değerler: Grafikteki her bir nokta.
Beklenen Değerler: Modelin tahmin ettiği, regresyon doğrusu (line of best fit) üzerindeki noktalar.
Hata Terimi (Error / Residual / Artık Değer): Bir gözlemlenen değer ile o gözleme karşılık gelen beklenen değer arasındaki dikey mesafedir. Hata = Gözlemlenen - Beklenen.
İyi bir modelde, beklenen değerler ile gözlemlenen değerler arasındaki farkın (yani hataların) mümkün olduğunca küçük olması hedeflenir. Bu, modelin tahmin kapasitesinin yüksek ve ilişkinin güçlü olduğu anlamına gelir.
Bu grafikteki veri setini incelediğimizde, sayısal olarak orta-yüksek bir korelasyon bulabiliriz. Ancak görsel inceleme, ciddi bir model fit problemi olduğunu ortaya koymaktadır. Bu problem, önceki örneklerdeki gibi modelin biçiminin yanlış olmasından (doğrusal olmama) değil, hata terimlerinin dağılımındaki tutarsızlıktan kaynaklanmaktadır.
Gözlem:
Grafiğin Sağ Kısmı (Yüksek Memnuniyet): Bu bölgede, veri
noktaları regresyon doğrusuna oldukça yakın
kümelenmiştir. Bu, modelin bu bölgedeki tahminlerinin oldukça isabetli
ve hata paylarının küçük olduğunu gösterir.
Grafiğin Sol Kısmı (Düşük Memnuniyet): Bu bölgede ise
veri noktaları regresyon doğrusundan çok daha uzağa
saçılmıştır. Bu, modelin bu bölgedeki tahminlerinin daha
isabetsiz ve hata paylarının sistematik olarak daha
büyük olduğunu gösterir.
Bu gözlem bizi iki önemli istatistiksel kavrama götürür:
Homoskedastisite (Eşit Varyanslılık): İdeal bir doğrusal regresyon modelinin temel varsayımlarından biridir. Hata terimlerinin varyansının, bağımsız değişkenin (X) tüm seviyeleri boyunca sabit ve tutarlı olması durumudur. Grafiksel olarak, veri noktalarının tahmin doğrusu etrafında, başlangıçtan sona kadar yaklaşık olarak aynı genişlikte bir bant içinde dağılması anlamına gelir.
Heteroskedastisite (Farklı Varyanslılık): Bu varsayımın ihlal edildiği durumdur. Hata terimlerinin varyansı, bağımsız değişkenin (X) seviyelerine bağlı olarak değişkenlik gösterir. Grafiksel olarak, veri noktalarının tahmin doğrusu etrafındaki saçılımının bir bölgede dar, başka bir bölgede ise genişlemesiyle (huni veya megafon şekli gibi) kendini gösterir.
Bizim Örneğimiz: Bu grafikte açıkça heteroskedastisite problemi vardır. Hata terimlerinin varyansı sabit değildir; düşük memnuniyet seviyelerinde yüksek iken, yüksek memnuniyet seviyelerinde düşüktür.
Neden Önemlidir? Heteroskedastisite varlığında, standart regresyon analizinin ürettiği sonuçlar (katsayıların standart hataları, p-değerleri vb.) güvenilirliğini yitirir. Model, verinin bir kısmını iyi açıklarken diğer kısmını sistematik olarak kötü açıklar.
Ne Yapılmalı? Bu durum, basit bir doğrusal regresyon modelinin bu veriyi yeterince iyi temsil etmediği anlamına gelir. Bu problemi çözmek için veri dönüşümleri (log alma gibi) veya daha gelişmiş modelleme teknikleri (ağırlıklandırılmış en küçük kareler - weighted least squares gibi) kullanılmalıdır.
Ana Fikir: Güçlü bir korelasyon skoru görmek, modelimizin sağlıklı olduğu anlamına gelmez. Analiz sürecinin kritik bir parçası, sadece ilişkinin gücünü ölçmek değil, aynı zamanda modelin temel varsayımlarını ihlal edip etmediğini, özellikle de hata terimlerinin dağılımını dikkatle incelemektir.
Örnek: Memnuniyet değeri ile gönüllülük arasındaki ilişkiye bakmak
Doğrusal regresyon ve standart korelasyon analizleri, iki değişken
arasındaki ilişkinin temel olarak doğrusal (lineer) bir
örüntü izlediği varsayımına dayanır. Ancak, bir değişken artarken
diğerinin de sürekli olarak arttığı, fakat bu artışın
oranının sabit olmadığı, yani doğrusal olmayan
(non-linear) ilişkilerle de karşılaşabiliriz.
Eğitim Memnuniyeti (X) ile Gönüllülük Süresi
(Y) arasındaki ilişkiyi gösteren bu grafik, bu duruma mükemmel bir
örnektir.
Grafiği incelediğimizde şu kritik örüntüyü gözlemliyoruz:
Sürekli Artış (Monotonik İlişki): Bağımsız değişken
olan Memnuniyet arttıkça, bağımlı değişken olan
Gönüllülük Süresi de istisnasız bir şekilde hep
artmaktadır. Grafikte hiçbir zaman bir önceki adımdan daha
düşük bir değere geri dönüş yoktur. Bu tür ilişkilere monotonik
(monotonic) ilişki denir.
Doğrusal Olmayan Yapı (Non-Linear Pattern): Ancak, bu artışın hızı veya oranı sabit değildir.
Düşük Memnuniyet Seviyelerinde: Artış oranı daha yavaş ve yataydır.
Yüksek Memnuniyet Seviyelerinde: Artış oranı birdenbire hızlanmakta ve daha dik bir hal almaktadır.
Bu durum, veriyi tek bir düz çizgiyle (lineer model) temsil etmenin, ilişkinin gerçek doğasını yakalamada yetersiz kalacağını gösterir. Düz çizgi, verinin bazı bölgelerine hiç uymayacak ve genel ilişkiyi doğru bir şekilde özetleyemeyecektir.
Bu tür bir senaryoyla karşılaştığımızda, hangi tür korelasyon katsayısını kullanacağımıza karar vermemiz gerekir. İstatistikte en yaygın kullanılan iki tür şunlardır:
a) Pearson Çarpım-Moment Korelasyon Katsayısı (r):
Ne Ölçer? İki değişken arasındaki doğrusal (lineer) ilişkinin gücünü ve yönünü ölçer.
Temel Varsayımı: Veri noktalarının bir düz çizgi etrafında toplanması beklenir.
Bu Örnekteki Sorunu: Bu grafikteki gibi doğrusal
olmayan bir ilişkiye Pearson korelasyonu uyguladığımızda, katsayı
ilişkinin gerçek gücünü olduğundan daha düşük
gösterecektir. Çünkü formül, noktaların bir düz
çizgiden ne kadar saptığını cezalandırır. Bu grafikteki ilişki çok
tutarlı olmasına rağmen, doğrusal olmadığı için Pearson r
değeri yanıltıcı bir şekilde düşük çıkabilir.
b) Spearman Sıra Korelasyon Katsayısı (ρ veya rₛ):
Ne Ölçer? İki değişken arasındaki monotonik (monotonic) ilişkinin gücünü ve yönünü ölçer.
Temel Mantığı: Değişkenlerin ham değerleri yerine, bu değerlerin sıralarını (ranks) kullanır. “Bir değişkenin sırası arttıkça, diğer değişkenin sırası da tutarlı bir şekilde artıyor mu (veya azalıyor mu)?” sorusunu sorar. Artışın veya azalışın miktarıyla değil, sadece sıralamanın tutarlılığıyla ilgilenir.
Bu Örnekteki Avantajı: Bu grafikteki ilişki mükemmel bir monotonik artış gösterdiği için (X arttıkça Y hep artıyor), Spearman korelasyon katsayısı +1.0’a çok yakın (hatta +1.0) çıkacaktır. Bu, ilişkinin “sıralı” gücünün mükemmel olduğunu doğru bir şekilde yansıtır.
Sonuç: Doğru Analiz Yöntemini Seçmek
Eğer bir serpilme diyagramı, noktaların bir düz çizgi etrafında toplandığını gösteriyorsa, Pearson korelasyonu uygun ve standart bir ölçümdür.
Eğer bir serpilme diyagramı, noktaların sürekli olarak arttığı veya azaldığı, ancak bunu eğrisel bir yol izleyerek yaptığı bir monotonik ilişki gösteriyorsa, Spearman korelasyonu ilişkinin gerçek gücünü daha doğru bir şekilde yansıtacaktır.
Bu ayrım, istatistiksel analizde sadece bir formül uygulamanın ötesinde, verinin yapısını anlayarak en uygun metodolojiyi seçmenin kritik önemini bir kez daha vurgulamaktadır.
Bu ders boyunca korelasyon katsayıları, R-Kare değerleri ve regresyon denklemleri gibi güçlü özet istatistikleri inceledik. Bu metrikler, karmaşık veri setlerindeki ilişkileri tek bir sayıya veya basit bir formüle indirgeyerek bize büyük bir kolaylık sağlar. Ancak istatistiksel analizin en kritik dersi, bu özet parametrelere asla körü körüne güvenmemektir.
Analiz sürecinde kendimize her zaman sormamız gereken iki temel soru vardır:
Bu Özet Neyin Özeti?
Kullandığım Model, Özetlediği Veriye Ne Kadar Uygun?
Bir korelasyon katsayısı (r = 0.70) veya bir regresyon denklemi (y = 2x + 3), kendi başlarına verinin tam hikayesini anlatmazlar. Onlar, sadece verinin belirli bir özelliğinin özetidir. Bu özetin arkasındaki gerçeği anlamak için mutlaka verinin görsel temsiline (serpilme diyagramı) başvurmak zorundayız.
Önceki örneklerimizde gördüğümüz gibi, birbirine çok yakın korelasyon değerleri üreten veri setleri, altta yatan tamamen farklı ilişki yapılarına sahip olabilir:
Güçlü Doğrusal İlişki: Verinin bir doğru etrafında sıkıca toplandığı ideal durum.
Doğrusal Olmayan (Eğrisel) İlişki: Verinin bir eğri takip ettiği ve doğrusal bir modelin uygun olmadığı durum.
Aykırı Değerlerin Etkisi: Neredeyse hiç ilişki olmayan bir veride tek bir aykırı değerin, yanıltıcı bir şekilde yüksek bir korelasyon yaratması durumu.
Heteroskedastisite: İlişkinin var olduğu ancak modelin tahmin gücünün verinin farklı bölgelerinde sistematik olarak değiştiği durum.
Bu senaryoların hepsi, sadece özet istatistiğe bakıldığında gözden kaçabilir. Bu nedenle, görsel analiz, istatistiksel analizin vazgeçilmez bir ön kontrol ve doğrulama mekanizmasıdır.
Kullandığımız her istatistiksel model (basit doğrusal regresyon gibi), verinin belirli varsayımları karşıladığını kabul eder. Bu varsayımların en temeli, modelin biçiminin (örneğin, düz bir çizgi), verinin gerçek yapısıyla uyumlu olmasıdır.
Eğer model ile veri arasında bir uyumsuzluk (poor model fit) varsa, modelin ürettiği tüm özet istatistikler — eğim, sabit, korelasyon, p-değeri — geçersiz veya yanıltıcı hale gelir. İyi bir analist, sadece bir modelin sonuçlarını raporlamakla kalmaz, aynı zamanda o modelin veriye ne kadar iyi uyduğunu eleştirel bir şekilde değerlendirir ve modelin sınırlılıklarını belirtir.
Sonuç olarak, istatistiksel analiz, bir düğmeye basıp sonuç elde etmekten ibaret bir süreç değildir. Bu, veriyi anlamak, doğru soruları sormak, uygun modelleri seçmek ve en önemlisi, bu modellerin varsayımlarını ve sınırlılıklarını bilerek sonuçları dikkatli bir şekilde yorumlamak üzerine kurulu eleştirel bir düşünce sürecidir. Her özet istatistiğin arkasındaki “görsel gerçeğe” bakmak, bu sürecin en temel adımıdır.