7. Hata Varyansının Sabitliği (Homoskedastisite vs. Heteroskedastisite)

Örnek1: Motivasyon değeri ile beklenen GPA arasındaki ilişkiye bakmak

Bir regresyon modelinin güvenilirliğini değerlendirirken, sadece korelasyon katsayısına veya R-Kare değerine bakmak yeterli değildir. Modelin temel varsayımlarından birinin karşılanıp karşılanmadığını da kontrol etmemiz gerekir. Bu varsayımlardan en önemlilerinden biri, hata terimlerinin (residuals) varyansının sabitliğidir. Bu konuyu, Memnuniyet (X) ve Beklenen GPA (Y) arasındaki ilişkiyi gösteren bu grafik üzerinden inceleyeceğiz.

1. Kavramların Tekrarı: Regresyonun Temel Bileşenleri

Analize başlamadan önce, temel kavramları hatırlayalım:

Gözlemlenen Değerler: Grafikteki her bir nokta.

Beklenen Değerler: Modelin tahmin ettiği, regresyon doğrusu (line of best fit) üzerindeki noktalar.

Hata Terimi (Error / Residual / Artık Değer): Bir gözlemlenen değer ile o gözleme karşılık gelen beklenen değer arasındaki dikey mesafedir. Hata = Gözlemlenen - Beklenen.

İyi bir modelde, beklenen değerler ile gözlemlenen değerler arasındaki farkın (yani hataların) mümkün olduğunca küçük olması hedeflenir. Bu, modelin tahmin kapasitesinin yüksek ve ilişkinin güçlü olduğu anlamına gelir.

2. Model Fit Probleminin Yeni Bir Boyutu: Heteroskedastisite

Bu grafikteki veri setini incelediğimizde, sayısal olarak orta-yüksek bir korelasyon bulabiliriz. Ancak görsel inceleme, ciddi bir model fit problemi olduğunu ortaya koymaktadır. Bu problem, önceki örneklerdeki gibi modelin biçiminin yanlış olmasından (doğrusal olmama) değil, hata terimlerinin dağılımındaki tutarsızlıktan kaynaklanmaktadır.

Gözlem:

Grafiğin Sağ Kısmı (Yüksek Memnuniyet): Bu bölgede, veri noktaları regresyon doğrusuna oldukça yakın kümelenmiştir. Bu, modelin bu bölgedeki tahminlerinin oldukça isabetli ve hata paylarının küçük olduğunu gösterir.

Grafiğin Sol Kısmı (Düşük Memnuniyet): Bu bölgede ise veri noktaları regresyon doğrusundan çok daha uzağa saçılmıştır. Bu, modelin bu bölgedeki tahminlerinin daha isabetsiz ve hata paylarının sistematik olarak daha büyük olduğunu gösterir.

3. Homoskedastisite ve Heteroskedastisite Tanımları

Bu gözlem bizi iki önemli istatistiksel kavrama götürür:

  1. Homoskedastisite (Eşit Varyanslılık): İdeal bir doğrusal regresyon modelinin temel varsayımlarından biridir. Hata terimlerinin varyansının, bağımsız değişkenin (X) tüm seviyeleri boyunca sabit ve tutarlı olması durumudur. Grafiksel olarak, veri noktalarının tahmin doğrusu etrafında, başlangıçtan sona kadar yaklaşık olarak aynı genişlikte bir bant içinde dağılması anlamına gelir.

  2. Heteroskedastisite (Farklı Varyanslılık): Bu varsayımın ihlal edildiği durumdur. Hata terimlerinin varyansı, bağımsız değişkenin (X) seviyelerine bağlı olarak değişkenlik gösterir. Grafiksel olarak, veri noktalarının tahmin doğrusu etrafındaki saçılımının bir bölgede dar, başka bir bölgede ise genişlemesiyle (huni veya megafon şekli gibi) kendini gösterir.

Bizim Örneğimiz: Bu grafikte açıkça heteroskedastisite problemi vardır. Hata terimlerinin varyansı sabit değildir; düşük memnuniyet seviyelerinde yüksek iken, yüksek memnuniyet seviyelerinde düşüktür.

Sonuç ve Dikkat Edilmesi Gerekenler

Neden Önemlidir? Heteroskedastisite varlığında, standart regresyon analizinin ürettiği sonuçlar (katsayıların standart hataları, p-değerleri vb.) güvenilirliğini yitirir. Model, verinin bir kısmını iyi açıklarken diğer kısmını sistematik olarak kötü açıklar.

Ne Yapılmalı? Bu durum, basit bir doğrusal regresyon modelinin bu veriyi yeterince iyi temsil etmediği anlamına gelir. Bu problemi çözmek için veri dönüşümleri (log alma gibi) veya daha gelişmiş modelleme teknikleri (ağırlıklandırılmış en küçük kareler - weighted least squares gibi) kullanılmalıdır.

Ana Fikir: Güçlü bir korelasyon skoru görmek, modelimizin sağlıklı olduğu anlamına gelmez. Analiz sürecinin kritik bir parçası, sadece ilişkinin gücünü ölçmek değil, aynı zamanda modelin temel varsayımlarını ihlal edip etmediğini, özellikle de hata terimlerinin dağılımını dikkatle incelemektir.

8. Pearson vs. Spearman Korelasyonu

Örnek: Memnuniyet değeri ile gönüllülük arasındaki ilişkiye bakmak

Doğrusal regresyon ve standart korelasyon analizleri, iki değişken arasındaki ilişkinin temel olarak doğrusal (lineer) bir örüntü izlediği varsayımına dayanır. Ancak, bir değişken artarken diğerinin de sürekli olarak arttığı, fakat bu artışın oranının sabit olmadığı, yani doğrusal olmayan (non-linear) ilişkilerle de karşılaşabiliriz. Eğitim Memnuniyeti (X) ile Gönüllülük Süresi (Y) arasındaki ilişkiyi gösteren bu grafik, bu duruma mükemmel bir örnektir.

1. Görsel Analiz: Monotonik ama Doğrusal Olmayan Bir İlişki

Grafiği incelediğimizde şu kritik örüntüyü gözlemliyoruz:

Sürekli Artış (Monotonik İlişki): Bağımsız değişken olan Memnuniyet arttıkça, bağımlı değişken olan Gönüllülük Süresi de istisnasız bir şekilde hep artmaktadır. Grafikte hiçbir zaman bir önceki adımdan daha düşük bir değere geri dönüş yoktur. Bu tür ilişkilere monotonik (monotonic) ilişki denir.

Doğrusal Olmayan Yapı (Non-Linear Pattern): Ancak, bu artışın hızı veya oranı sabit değildir.

  • Düşük Memnuniyet Seviyelerinde: Artış oranı daha yavaş ve yataydır.

  • Yüksek Memnuniyet Seviyelerinde: Artış oranı birdenbire hızlanmakta ve daha dik bir hal almaktadır.

Bu durum, veriyi tek bir düz çizgiyle (lineer model) temsil etmenin, ilişkinin gerçek doğasını yakalamada yetersiz kalacağını gösterir. Düz çizgi, verinin bazı bölgelerine hiç uymayacak ve genel ilişkiyi doğru bir şekilde özetleyemeyecektir.

2. İki Farklı Korelasyon Türü: Ne Ölçtükleri Önemlidir

Bu tür bir senaryoyla karşılaştığımızda, hangi tür korelasyon katsayısını kullanacağımıza karar vermemiz gerekir. İstatistikte en yaygın kullanılan iki tür şunlardır:

a) Pearson Çarpım-Moment Korelasyon Katsayısı (r):

Ne Ölçer? İki değişken arasındaki doğrusal (lineer) ilişkinin gücünü ve yönünü ölçer.

Temel Varsayımı: Veri noktalarının bir düz çizgi etrafında toplanması beklenir.

Bu Örnekteki Sorunu: Bu grafikteki gibi doğrusal olmayan bir ilişkiye Pearson korelasyonu uyguladığımızda, katsayı ilişkinin gerçek gücünü olduğundan daha düşük gösterecektir. Çünkü formül, noktaların bir düz çizgiden ne kadar saptığını cezalandırır. Bu grafikteki ilişki çok tutarlı olmasına rağmen, doğrusal olmadığı için Pearson r değeri yanıltıcı bir şekilde düşük çıkabilir.

b) Spearman Sıra Korelasyon Katsayısı (ρ veya rₛ):

Ne Ölçer? İki değişken arasındaki monotonik (monotonic) ilişkinin gücünü ve yönünü ölçer.

Temel Mantığı: Değişkenlerin ham değerleri yerine, bu değerlerin sıralarını (ranks) kullanır. “Bir değişkenin sırası arttıkça, diğer değişkenin sırası da tutarlı bir şekilde artıyor mu (veya azalıyor mu)?” sorusunu sorar. Artışın veya azalışın miktarıyla değil, sadece sıralamanın tutarlılığıyla ilgilenir.

Bu Örnekteki Avantajı: Bu grafikteki ilişki mükemmel bir monotonik artış gösterdiği için (X arttıkça Y hep artıyor), Spearman korelasyon katsayısı +1.0’a çok yakın (hatta +1.0) çıkacaktır. Bu, ilişkinin “sıralı” gücünün mükemmel olduğunu doğru bir şekilde yansıtır.

Sonuç: Doğru Analiz Yöntemini Seçmek

Eğer bir serpilme diyagramı, noktaların bir düz çizgi etrafında toplandığını gösteriyorsa, Pearson korelasyonu uygun ve standart bir ölçümdür.

Eğer bir serpilme diyagramı, noktaların sürekli olarak arttığı veya azaldığı, ancak bunu eğrisel bir yol izleyerek yaptığı bir monotonik ilişki gösteriyorsa, Spearman korelasyonu ilişkinin gerçek gücünü daha doğru bir şekilde yansıtacaktır.

Bu ayrım, istatistiksel analizde sadece bir formül uygulamanın ötesinde, verinin yapısını anlayarak en uygun metodolojiyi seçmenin kritik önemini bir kez daha vurgulamaktadır.

9. Özet İstatistiklerin Ötesinde Eleştirel Bir Bakış Açısı

Bu ders boyunca korelasyon katsayıları, R-Kare değerleri ve regresyon denklemleri gibi güçlü özet istatistikleri inceledik. Bu metrikler, karmaşık veri setlerindeki ilişkileri tek bir sayıya veya basit bir formüle indirgeyerek bize büyük bir kolaylık sağlar. Ancak istatistiksel analizin en kritik dersi, bu özet parametrelere asla körü körüne güvenmemektir.

Analiz sürecinde kendimize her zaman sormamız gereken iki temel soru vardır:

  1. Bu Özet Neyin Özeti?

  2. Kullandığım Model, Özetlediği Veriye Ne Kadar Uygun?

1. Özet İstatistikler ve Görsel Analizin Bütünlüğü

Bir korelasyon katsayısı (r = 0.70) veya bir regresyon denklemi (y = 2x + 3), kendi başlarına verinin tam hikayesini anlatmazlar. Onlar, sadece verinin belirli bir özelliğinin özetidir. Bu özetin arkasındaki gerçeği anlamak için mutlaka verinin görsel temsiline (serpilme diyagramı) başvurmak zorundayız.

Önceki örneklerimizde gördüğümüz gibi, birbirine çok yakın korelasyon değerleri üreten veri setleri, altta yatan tamamen farklı ilişki yapılarına sahip olabilir:

Güçlü Doğrusal İlişki: Verinin bir doğru etrafında sıkıca toplandığı ideal durum.

Doğrusal Olmayan (Eğrisel) İlişki: Verinin bir eğri takip ettiği ve doğrusal bir modelin uygun olmadığı durum.

Aykırı Değerlerin Etkisi: Neredeyse hiç ilişki olmayan bir veride tek bir aykırı değerin, yanıltıcı bir şekilde yüksek bir korelasyon yaratması durumu.

Heteroskedastisite: İlişkinin var olduğu ancak modelin tahmin gücünün verinin farklı bölgelerinde sistematik olarak değiştiği durum.

Bu senaryoların hepsi, sadece özet istatistiğe bakıldığında gözden kaçabilir. Bu nedenle, görsel analiz, istatistiksel analizin vazgeçilmez bir ön kontrol ve doğrulama mekanizmasıdır.

2. Model Uygunluğu (Model Fit) Kavramının Merkezi Önemi

Kullandığımız her istatistiksel model (basit doğrusal regresyon gibi), verinin belirli varsayımları karşıladığını kabul eder. Bu varsayımların en temeli, modelin biçiminin (örneğin, düz bir çizgi), verinin gerçek yapısıyla uyumlu olmasıdır.

Eğer model ile veri arasında bir uyumsuzluk (poor model fit) varsa, modelin ürettiği tüm özet istatistikler — eğim, sabit, korelasyon, p-değeri — geçersiz veya yanıltıcı hale gelir. İyi bir analist, sadece bir modelin sonuçlarını raporlamakla kalmaz, aynı zamanda o modelin veriye ne kadar iyi uyduğunu eleştirel bir şekilde değerlendirir ve modelin sınırlılıklarını belirtir.

Sonuç olarak, istatistiksel analiz, bir düğmeye basıp sonuç elde etmekten ibaret bir süreç değildir. Bu, veriyi anlamak, doğru soruları sormak, uygun modelleri seçmek ve en önemlisi, bu modellerin varsayımlarını ve sınırlılıklarını bilerek sonuçları dikkatli bir şekilde yorumlamak üzerine kurulu eleştirel bir düşünce sürecidir. Her özet istatistiğin arkasındaki “görsel gerçeğe” bakmak, bu sürecin en temel adımıdır.