Regresyon analizi, istatistiksel modelleme dünyasında bir bağımlı değişken (response/output/target) ile bir veya daha fazla bağımsız açıklayıcı değişken (predictor/input/feature) arasındaki ilişkiyi modellemeye yarayan çok güçlü ve esnek bir araçtır. Veriye dayalı karar vermenin temel taşıdır.
Önemli Not: Regresyon analizi asla bir sebep-sonuç (nedensellik) ilişkisi kurmaz. Amacı; değişkenlerin değişmesi, artması veya azalması durumunda diğer değişkenin (çıktının) nicel olarak ne kadar yordadığını gözlemlemektir.
Regresyon analizi, bağımlı değişkeni (çıktı) açıklamak ve tahmin etmek için açıklayıcı değişkenleri (girdiler) kullanır. Hocamızın verdiği tıbbi örnekte bu yapı şöyle özetlenebilir:
Açıklayıcı Değişkenler (Girdiler / Bağımsız Değişkenler):
Regresyon Fonksiyonu:
\[ \hat{y} = f(x_1, x_2, \dots, x_6) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \dots + \beta_6x_6 + \epsilon \]
Burada:
\(x_1, x_2, \dots, x_6\) → Açıklayıcı değişkenler (girdiler)
\(\beta_0, \beta_1, \dots, \beta_6\) → Katsayılar (ağırlıklar)
\(\hat{y}\) → Tahmini 10 Yıllık Kardiyovasküler Risk Skoru (%)
Bağımlı Değişken (Çıktı):
Önemli Noktalar
Açıklayıcı değişkenlerin listesi literatür taraması ve uzman görüşü ile belirlenir.
Önemli bir değişkeni modelden kaçırmak, modelin başarısını ciddi şekilde düşürür ve hata teriminde (\(\epsilon\)) kalır.
Regresyon denklemi, bireyin girdilerini (yaş, VKİ, kolesterol vb.) kullanarak kişiye özel risk tahmini yapmamızı sağlar.
Regresyon analizi, mühendislikte de çok sık kullanılan güçlü bir yöntemdir. Hocamızın verdiği beton örneğinde amaç, betonun basınç dayanımını önceden tahmin etmektir.
Açıklayıcı Değişkenler (Girdiler / Bağımsız Değişkenler):
Regresyon Fonksiyonu (Çoklu Lineer Regresyon):
\[ \hat{y} = f(x_1, x_2, \dots, x_6) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \dots + \beta_6x_6 + \epsilon \]
Burada:
\(x_1, x_2, \dots, x_6\) → Açıklayıcı değişkenler (beton karışımının girdileri)
\(\beta_0, \beta_1, \dots, \beta_6\) → Katsayılar (her değişkenin beton dayanımına etkisi / ağırlığı)
\(\hat{y}\) → Tahmini Beton Basınç Dayanımı (MPa)
\(\epsilon\) → Hata terimi
Bağımlı Değişken (Çıktı):
Önemli Noktalar
Beton karışım tasarımı sırasında bu açıklayıcı değişkenler literatür taraması ve uzman görüşü ile belirlenir.
Bu analiz çoklu regresyon (multiple linear regression) olarak adlandırılır.
Regresyon denklemi, laboratuvar testi yapmadan önce betonun beklenen dayanımını tahmin etmemizi sağlar.
Önemli bir girdiyi modele dahil etmemek, tahmin doğruluğunu ciddi şekilde düşürür.
Regresyon analizi sadece bilim ve mühendislik alanlarında değil, eğlence sektöründe de başarıyla kullanılır. Hocamızın verdiği bu eğlenceli örnekte amaç, bir filmin veya dizinin IMDb puanını önceden tahmin etmektir.
Açıklayıcı Değişkenler (Girdiler / Bağımsız Değişkenler):
Regresyon Fonksiyonu (Çoklu Regresyon):
\[ \hat{y} = f(x_1, x_2, \dots, x_6) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \dots + \beta_6x_6 + \epsilon \]
Burada: - \(x_1, x_2, \dots, x_6\) → Açıklayıcı değişkenler (filmin başarısını yordayan girdiler)
\(\beta_0, \beta_1, \dots, \beta_6\) → Katsayılar (her değişkenin IMDb puanı üzerindeki ağırlığı)
\(\hat{y}\) → Tahmini IMDb Puanı
\(\epsilon\) → Hata terimi
Bağımlı Değişken (Çıktı):
Bu model, filmin oyuncu kadrosu, yönetmen deneyimi, pazarlama bütçesi, sosyal medya etkisi gibi faktörleri birleştirerek izleyicilerin vereceği puanı bilimsel olarak tahmin etmemizi sağlar.
Önemli Not:
Bu tür modellerde değişken seçimi literatür taraması ve sektör uzmanlığı ile yapılır. Eksik veya yanlış değişken kullanmak modelin tahmin gücünü ciddi şekilde düşürür.
Sosyal bilimlerde regresyon analizi, insan davranışlarını ve öznel algıları tahmin etmek için sıkça kullanılır. Hocamızın verdiği bu örnekte amaç, bireylerin yaşam memnuniyeti skorunu önceden tahmin etmektir.
Açıklayıcı Değişkenler (Girdiler / Bağımsız Değişkenler):
Regresyon Fonksiyonu (Çoklu Regresyon):
\[ \hat{y} = f(x_1, x_2, \dots, x_6) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \dots + \beta_6x_6 + \epsilon \]
Burada: - \(x_1, x_2, \dots, x_6\) → Açıklayıcı değişkenler (yaşam memnuniyetini yordayan faktörler)
\(\beta_0, \beta_1, \dots, \beta_6\) → Katsayılar (her değişkenin yaşam memnuniyeti üzerindeki ağırlığı)
\(\hat{y}\) → Tahmini Yaşam Memnuniyeti Skoru
\(\epsilon\) → Hata terimi
Bağımlı Değişken (Çıktı):
Önemli Noktalar
Sosyal bilimlerde bağımlı değişken genellikle öznel (subjektif) bir ölçüdür (yaşam memnuniyeti, mutluluk, memnuniyet vb.).
Açıklayıcı değişkenler literatür taraması, uzman görüşü ve teorik çerçeve ile belirlenir.
Bu model, bireyin sosyo-ekonomik durumu, yaşam koşulları ve sosyal çevresi gibi faktörleri birleştirerek yaşam memnuniyetini bilimsel olarak tahmin etmemizi sağlar.
Modelin başarısı, doğru değişken seçimine ve veri kalitesine çok bağlıdır.
Bu örneklerle, regresyon analizinin tıptan mühendisliğe, eğlence sektöründen sosyal bilimlere kadar çok geniş bir yelpazede kullanılabileceğini net bir şekilde görüyoruz.
Sadece tek bir bağımsız (açıklayıcı) değişkenin bulunduğu en temel regresyon türüdür.
Matematiksel Model: \(y = \beta_0 + \beta_1x + \epsilon\)
\(y\) (Bağımlı Değişken): Modelin sonucudur. Hata teriminin işin içine girmesi sebebiyle rastgele (olasılıksal) bir değişkendir.
\(x\) (Bağımsız Değişken): Gözlemlenen etkendir.
\(\beta_0\) (Sabit Terim): \(x=0\) olduğunda \(y\)’nin aldığı ortalama değerdir.
\(\beta_1\) (Eğim): \(x\)’teki 1 birimlik değişimin \(y\) üzerindeki yordamasını gösteren en önemli parametredir.
\(\epsilon\) (Hata Terimi/Artık): Gerçek hayatta hiçbir model %100 doğru tahmin yapamaz. Çünkü ölçüm hataları veya hesaba katılmayan etkenler vardır. Modelin tahmin edemediği rastgele sapmalar bu hata terimi ile ifade edilir.
\(\epsilon\) (Hata Terimi/Artık) daha detaylı açıklamak istersek;
Hata terimi (ε), regresyon modelinde rastgele sapmayı (random error) temsil eden ve modelin istatistiksel (stokastik) yapısını sağlayan temel bileşendir.
Eğer modelde epsilon terimi olmasaydı, regresyon denklemi tamamen deterministik bir yapıya dönüşür ve her açıklayıcı değişken kombinasyonu (x₁, x₂, …) için bağımlı değişken (y) kesin olarak hesaplanırdı (y = β₀ + β₁x₁ + β₂x₂ + …). Ancak gerçek hayatta her gözlemde model tarafından açıklanamayan rastgele varyasyonlar, ölçüm hataları ve gözlenmeyen etkenler vardır. Bu nedenle her birey veya gözlem için ayrı bir hata terimi (εᵢ) düşünülmesi zorunludur.
Örneğin öğrencilerin akademik başarısını modellemeye çalışırken, tüm öğrencilerin bilgi düzeyinin aynı olduğunu ve hiçbir rastgele sapmanın olmadığını varsaymak gerçekçi değildir. Hata terimi, modelin stokastik doğasını korur ve gerçek dünya problemlerine uyum sağlamasını mümkün kılar.
Regresyon modelini kurmadan önce veri setimizin yapısını ve değişkenler arasındaki ilişkiyi anlamak kritik öneme sahiptir. Veri setimiz tablo yapıda olup ilk sütun genellikle tanımlayıcı bir değişken (örneğin hasta ID’si) içerirken, diğer sütunlar yordayıcı (bağımsız) değişkenler ve yordanan (bağımlı) değişken olarak ayrılır.
Örneğin: - Bağımsız değişken (X): Sistolic kan basıncı (mmHg)
Bu noktada keşifsel veri analizi (EDA) devreye girer. Regresyon modeline geçmeden önce bağımsız ve bağımlı değişken arasındaki ilişkinin varlığını, yönünü ve şeklini görmek zorunludur. Bunun için en etkili ve yaygın yöntem saçılım grafiği (scatter plot / serpme grafiği) kullanmaktır. Değişkenlerimizin sürekli değişken tipinde olmasını gerektiğini lütfen unutmayalım. (İki sürekli değişken arasındaki ilişkiye bakıyoruz)
Yukarıdaki grafiğe göre;
Saçılım (serpme) grafiği incelendiğinde, sistolik kan basıncı ile kardiyovasküler risk skoru arasında belirgin bir pozitif lineer ilişki olduğu görülmektedir. Grafikteki veri noktalarının dağılımı ve eğilim çizgisi, sistolik kan basıncındaki artışa paralel olarak kardiyovasküler risk skorunun da yaklaşık olarak lineer bir şekilde yükseldiğini net bir biçimde ortaya koymaktadır.
Bu görsel pattern, iki değişken arasında güçlü ve doğrusal bir ilişkinin varlığına işaret etmekte ve basit lineer regresyon modelinin ( \(y = \beta_0 + \beta_1 x + \epsilon\) ) bu veriye çok uygun olduğunu göstermektedir. Dolayısıyla araştırmacı, sistolik kan basıncını bağımsız değişken (X), kardiyovasküler risk skorunu ise bağımlı değişken (Y) olarak regresyon denklemine yerleştirerek modeli kurabileceğini ve risk skorunu tahmin edebileceğini değerlendirmektedir.
Regresyona başlamadan önce mutlaka değişkenlerin durumu ve ilişkisi grafiklerle incelenmelidir.
Saçılım (serpme) grafikleri, regresyon analizine geçmeden önce sürekli bağımlı değişken ile sürekli bağımsız değişken arasındaki ilişkinin varlığını, yönünü ve şeklini görsel olarak değerlendirmek için en temel ve etkili keşifsel analiz yöntemidir.
Grafikteki veri noktalarının dağılımı bize şu bilgiler verir:
Pozitif doğrusal ilişki: Bağımsız değişken arttıkça bağımlı değişken de lineer olarak artar.
Negatif doğrusal ilişki: Bağımsız değişken arttıkça bağımlı değişken lineer olarak azalır.
İlişki yok: Noktalar yatay bir çizgi etrafında rastgele dağılır; iki değişken arasında belirgin bir ilişki gözlenmez.
Doğrusal olmayan (non-lineer) ilişkiler:
Zayıf lineer ilişki gibi görünen ancak aslında doğrusal olmayan (örneğin L şeklinde) yapılar.
İçbükey (kuadratik) ilişkiler: Noktalar U veya ters U şeklinde bir eğri oluşturur.
Bu grafikler özellikle ekonomik ve sosyal verilerde sık karşılaşılan non-lineer ilişkileri tespit etmemizi sağlar. Örneğin L şeklinde bir ilişki görüldüğünde, bağımlı değişkenin logaritmasını almak veya bağımsız değişkene kuadratik bir terim (x²) eklemek gerekebilir. İçbükey bir yapı ise modelde kuadratik regresyon (y = β₀ + β₁x + β₂x²) kullanılması gerektiğini işaret eder.
Kısacası, saçılım grafikleri regresyon modelinin hangi formda (lineer mi, non-lineer mi) kurulması gerektiği konusunda kritik ipuçları verir ve modelleme sürecinde yanlış bir yaklaşım seçilmesini önler.
Korelasyon ısı haritası, veri setindeki sürekli sayısal değişkenler arasındaki Pearson korelasyon katsayılarını renkli bir matris şeklinde görselleştiren etkili bir keşifsel analiz aracıdır. Bu harita, değişken çiftleri arasındaki ilişkinin yönünü (pozitif/negatif) ve kuvvetini (koyu renk = güçlü ilişki, açık renk = zayıf ilişki) hızlıca göstermesiyle öne çıkar.
Özellikle ev fiyatları veri seti örneğinde görüldüğü gibi:
MedInc (median income) ile MedHouseVal (ev değeri) arasında 0.69 gibi güçlü pozitif bir korelasyon vardır.
AveRooms (ortalama oda sayısı) ile ev değeri arasında 0.33 orta düzeyde pozitif ilişki gözlenmiştir.
Bu harita, modele hangi değişkenlerin dahil edilmesi gerektiğini (örneğin MedInc mutlaka modele konmalıdır) ve çoklu bağlantı (multicollinearity) probleminin olup olmadığını tespit etmemizi sağlar. Ancak lineer mi yoksa non-lineer mi bir ilişki olduğunu ayırt edemez; bu ayrım için saçılım grafikleri kullanılmalıdır.
Kısacası korelasyon ısı haritası, regresyon modeline geçmeden önce değişken seçimi ve ön inceleme aşamasında vazgeçilmez bir görsel araçtır.
Gerçek hayatta hiçbir istatistiksel veya makine öğrenmesi modeli %100 doğru tahmin yapamaz. Bu durumun temel nedenleri şunlardır:
Tüm etkileyen faktörleri bilemeyiz; modelimize dahil edemediğimiz birçok gizli değişken vardır.
Ölçüm hataları (measurement error) her zaman mümkündür (anket, cihaz, veri toplama hataları vb.).
İnsan davranışı, biyolojik süreçler veya çevresel faktörler gibi rastgelelik (stochasticity) içeren durumlar söz konusudur.
Bu nedenle modeller genel eğilimi (average trend) doğru tahmin eder, ancak her bireysel gözlemin tam sonucunu %100 bilemez.
İşte bu tahmin edilemeyen, modele dahil edilemeyen etkileri ifade etmek ve modelin istatistiksel (stokastik) yapısını korumak için regresyon denklemine hata terimi (ε) eklenir:
\[ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \dots + \beta_kx_k + \epsilon \]
Hata terimi (ε), modelin gerçek dünya verilerine uyum sağlamasını ve güven aralıkları ile hipotez testleri yapabilmemizi mümkün kılar. %100 doğruluk iddiası genellikle modelin yanlış olduğunu veya aşırı uyum (overfitting) sorunu yaşadığını gösterir.
Basit doğrusal regresyon modelinde β₀ (kestirilen sabit) ve β₁ (eğim) parametreleri bilinmeyen parametrelerdir. Veriyi topladıktan sonra bu parametreleri, elimizdeki X ve Y değerlerini kullanarak tahmin ederiz. Tahmin edilen parametreler şapka notasyonu ile gösterilir:
\[ \hat{\beta}_0 \quad \text{ve} \quad \hat{\beta}_1 \]
Bu tahmin değerleri kullanılarak tahmin edilen regresyon doğrusu şu şekilde yazılır:
\[ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i, \quad i = 1, 2, \dots, n \]
Her bir gözlem için:
Modelin verdiği tahmini değer Ŷ_i hesaplanır.
Gerçek gözlenen değer y_i ile tahmin edilen değer Ŷ_i arasındaki farka artık değer (residual) denir:
\[ \hat{e}_i = y_i - \hat{y}_i \]
Modelin amacı, tüm gözlemler için artık değerlerin kareler toplamını minimize etmektir. Bu sayede regresyon doğrusu veriye “en iyi şekilde uydurulur”.
Grafikte:
Mavi noktalar (×) → Gerçek gözlenen değerler (y)
Kırmızı çizgi → Tahmin edilen regresyon doğrusu
Gri kesikli çizgiler → Her bir veri noktası için artık değerleri ( residuals: \(\hat{e}_i = y_i - \hat{y}_i\) ) gösterir.
Bu süreç, modelin genel eğilimi doğru tahmin etmesini sağlar. Ancak hiçbir model %100 doğru tahmin yapamaz.
Basit doğrusal regresyon modelinde bağımlı değişken y rastgele bir değişkendir (stochastic variable). Bunun temel nedeni modele dahil edilen hata terimi (ε)dir. Bağımsız değişken x ise klasik regresyon yaklaşımında deterministik (sabit) kabul edilir.
Her bir x değeri için y’nin bir olasılık dağılımı vardır. Bu dağılımı tanımlamak için hata terimi ε hakkında bazı temel varsayımlar yapılır:
Hata teriminin beklenen değeri (ortalaması)
sıfırdır:
\(E(\varepsilon) = 0\)
Hata teriminin varyansı sabittir ve \(\sigma^2\) ile gösterilir:
\(\operatorname{Var}(\varepsilon) =
\sigma^2\)
Bu varsayımlar altında, belirli bir \(x\) değeri verildiğinde (yani \(x = x_i\)) bağımlı değişkenin koşullu beklenen değeri ve varyansı şu şekilde elde edilir:
Koşullu Beklenen Değer (Conditional Expectation): \[ E(y \mid x) = E(\beta_0 + \beta_1 x + \varepsilon \mid x) = \beta_0 + \beta_1 x \]
Koşullu Varyans (Conditional Variance): \[ \operatorname{Var}(y \mid x) = \operatorname{Var}(\beta_0 + \beta_1 x + \varepsilon \mid x) = \sigma^2 \]
Eğer ek olarak hata teriminin normal dağıldığı varsayılırsa (\(\varepsilon \sim N(0, \sigma^2)\)), o zaman y de x’e bağlı olarak normal dağılıma sahip olur:
\[ y \mid x \sim N(\beta_0 + \beta_1 x, \sigma^2) \]
Bu özellikler, regresyon modelinin istatistiksel çıkarımlar yapabilmesini (güven aralıkları, hipotez testleri, tahmin aralıkları vb.) sağlar ve matematiksel işlemlerin kolaylaşmasını mümkün kılar. Ayrıca her bir gözlemin birbirinden bağımsız olması da modelin temel varsayımlarından biridir.
Basit doğrusal regresyon modelinde β₀ ve β₁ parametreleri bilinmeyen sabitlerdir. Bu parametreleri tahmin etmek için en temel ve en çok kullanılan yöntem En Küçük Kareler Tahmini (Ordinary Least Squares - OLS) yöntemidir.
OLS’in temel amacı, gözlenen y değerleri ile modelin tahmin ettiği Ŷ değerleri arasındaki farkların (artık değerler) karelerinin toplamını en küçük yapan β₀ ve β₁ değerlerini bulmaktır. Bu amaçla tanımlanan hata kareleri toplamı (Sum of Squared Errors - SSE) fonksiyonu şu şekildedir:
\[ S(\beta_0, \beta_1) = \sum_{i=1}^{n} \varepsilon_i^2 = \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2 \]
Bu fonksiyon konveks bir yapıya sahiptir. Minimum noktasını bulmak için S fonksiyonunun β₀ ve β₁’e göre kısmi türevleri alınır ve sıfıra eşitlenir. Bu optimizasyon işlemi sonucunda kapalı formüller elde edilir:
\[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} \]
\[ \hat{\beta}_1 = \frac{\text{Cov}(x,y)}{\text{Var}(x)} \]
Bu tahmin edilen parametreler (şapkalı β’lar) kullanılarak regresyon doğrusu \(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\) olarak yazılır ve model tamamlanmış olur. OLS yöntemi, regresyon analizinin temel taşlarından biridir ve hata terimlerinin karelerini minimize ederek en iyi uyumu sağlar.
Örnek Hesaplama: Basit Doğrusal Regresyon ile OLS Parametre Tahmini
Öğrencilerin ders çalışma saati (x) ile sınav notu (y) arasındaki ilişkiyi modellemek için basit doğrusal regresyon kullanıldığında, öncelikle temel istatistikler hesaplanır. Örneklemde 4 öğrenci için ortalama çalışma saati \(\bar{x} = 5\), ortalama not ise \(\bar{y} = 72.5\) olarak bulunmuştur.
Ardından En Küçük Kareler (OLS) yöntemiyle parametre tahminleri yapılır:
Eğim katsayısı: \(\hat{\beta}_1 = 4\)
Sabit terim: \(\hat{\beta}_0 = 52.5\)
Tahmin edilen regresyon denklemi şu şekilde elde edilir:
\[ \hat{y} = 52.5 + 4x \]
Bu denklem, her bir ekstra saatlik çalışma süresinin ortalama notu yaklaşık 4 puan artırdığını göstermektedir. Grafikte kırmızı çizgi regresyon doğrusunu, mavi noktalar gerçek gözlenen değerleri, gri kesikli çizgiler ise her bir veri noktası için artık değerleri (hata miktarlarını) temsil etmektedir.
Hesaplanan ortalama hata kareleri (MSE) ise 1.25 olarak bulunmuştur. Hata paylarının oldukça küçük olması, modelin veriye iyi uyum sağladığını işaret eder.
Küçük Uyarı:
Bazı slaytlarda “beta e kare” ya da “e²” olarak görülen ifade aslında
artık değerlerin karesidir (\(\hat{e}_i^2\)). Bu, yazım veya gösterim
hatasıdır; doğru gösterim \(\hat{e}_i^2\) şeklindedir.
Aynı örneği Matris ile Hesaplama: Basit Doğrusal Regresyon ile OLS Parametre Tahmini
Bilinmeyen Parametrelerin Matris Gösterimi ile En Küçük Kareler (OLS) Tahmini Basit doğrusal regresyon modelini matris formunda ifade etmek, çoklu regresyona geçişte ve kompakt gösterim açısından oldukça kullanışlıdır. Model şu şekilde yazılır:
\[\mathbf{Y}_{n \times 1} = \mathbf{X}_{n \times 2} \boldsymbol{\beta}_{2 \times 1} + \boldsymbol{\varepsilon}_{n \times 1}\] Burada:
\(\mathbf{Y}\): Bağımlı değişken vektörü (örneğin notlar)
\(\mathbf{X}\): Tasarım matrisi (ilk sütun 1’lerden, ikinci sütun x değerlerinden oluşur)
\(\boldsymbol{\beta}\): Parametre vektörü (\(\beta_0,\beta_1\))
\(\boldsymbol{\varepsilon}\): Hata vektörü
Hata kareleri toplamı (SSE) matris notasyonuyla şu şekilde ifade edilir:
\[S(\boldsymbol{\beta}) = \boldsymbol{\varepsilon}'\boldsymbol{\varepsilon} = (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})\]
Bu fonksiyonu minimize etmek için \(\boldsymbol{\beta}\)’ya göre türev alınır ve sıfıra eşitlenir. Sonuçta kapalı form çözüm elde edilir:
\[\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1} \mathbf{X}'\mathbf{Y}\]
Örnekte 4 öğrencinin çalışma saati ve not verileriyle bu matris işlemleri yapıldığında, daha önceki yöntemle bulunan aynı sonuçlara (\(\hat{\beta}_0 = 52.5\), \(\hat{\beta}_1 = 4\)) ulaşılır.
OLS tahmin edicilerinin geçerli ve istatistiksel açıdan “Altın Standart” kabul edilebilmesi için Gauss-Markov varsayımlarının sağlanması gerekir. Sağlandığı durumda, bulunan model BLUE (Best Linear Unbiased Estimator - En İyi Doğrusal Sapmasız Tahmin Edici) özelliğini taşır.
Sapmasız (Unbiased): Çok sayıda örneklem alınsaydı, tahmin edicilerin ortalaması gerçek kütle parametresine eşit olurdu.
En İyi (Best / Minimum Varyans): Varyansın düşük olması, tahminlerin etrafa saçılmayıp sıfırın etrafında, istikrarlı biçimde yoğunlaştığını gösterir.
Doğrusallık: Model, parametreler açısından doğrusal olmalıdır.
Rastgele Örneklem: Veriler ana kütleden rastgele seçilmiş olmalıdır.
Hata Beklenen Değerinin 0 Olması: \([ E(\epsilon \mid x) = 0]\). Yani hatalar sistematik değildir.
Sabit Varyans (Homoscedasticity): Hataların varyansı (\(\sigma^2\)) tüm x değerleri için aynı olmalıdır. Değişken varyans (Heteroscedasticity) varsa OLS hala sapmasızdır ama tahminler “en iyi” olma özelliğini kaybeder.
Otokorelasyon Yokluğu: Hata terimleri birbirinden bağımsız olmalıdır.Yani bir gözlemin hata terimi diğeriyle ilişkili olmamalıdır.
Çoklu Bağlantı Yokluğu: Bağımsız değişkenler arası mükemmel doğrusal ilişki bulunmamalıdır. (Çoklu regresyon için).
Eğer bu şartlar sağlanmıyorsa, hesaplanan p-değerleri ve katsayılar güvenilirliğini ve yansızlığını yitirir.
Regresyon modelinde hata teriminin varyansı \(\sigma^2\), modelin tahmin edilemeyen rastgele bileşenini ölçen temel bir parametredir. Bu varyansın yansız (unbiased) bir tahmin edicisi, artık kareler ortalaması (Mean Squared Error - MSE) ile elde edilir:
\[ \hat{\sigma}^2 = \frac{SS_{Res}}{n-2} = MS_{Res} \]
Burada:
\(SS_{Res} = \sum (y_i - \hat{y}_i)^2\) → Hata kareleri toplamı (Sum of Squared Residuals)
\(n\) → Örneklem büyüklüğü (gözlem sayısı)
\(n-2\) → Serbestlik derecesi (degrees of freedom)
Neden \(n-2\)?
Basit doğrusal regresyonda modelde iki parametre (\(\beta_0\) ve \(\beta_1\)) tahmin edildiği için, toplam örneklem sayısından bu iki tahmin için iki serbestlik derecesi düşülür. Genel olarak, modelde \(k\) parametre varsa serbestlik derecesi \(n - k\) olur.
Bu düzeltme, varyans tahmininin yansız ve en iyi (minimum varyanslı) olmasını sağlar. Eğer \(n-2\) yerine \(n\) kullanılsaydı, varyans tahmini sistematik olarak düşük çıkar ve modelin güvenilirliği azalırdı.
Örnekteki Uyarı:
Eğer modelde 5 parametre olsaydı, serbestlik derecesi \(n-5\) olurdu. Bu nedenle her zaman
modeldeki parametre sayısını dikkate almak zorunludur.