4. Regresyon Modelinin Temelleri: Tahmin Doğrusu, Hata ve En Küçük Kareler Yöntemi

İstatistik ders skoru ile ders çalışma saatinin tahmin doğrusu formülü ile ilgili hocamızın anlatımı

Gözlemlenen Değerler ve Beklenen Değerler Ayrımı

Daha önce incelediğimiz Ders Çalışma Saati ve İstatistik Notu arasındaki ilişkiyi gösteren serpilme diyagramına şimdi, bu ilişkiyi en iyi özetleyen tahmin doğrusunu (trendline) ekledik. Bu çizginin eklenmesiyle birlikte grafiğimizde artık iki tür temel bilgi bulunmaktadır:

Gözlemlenen Değerler (Observed Values): Grafikteki her bir mavi nokta, veri setimizde yer alan gerçek bir öğrencinin değerini temsil eder. Bunlar, bizim topladığımız ham veridir; yani “gerçekleşmiş” olan değerlerdir.

Beklenen Değerler (Expected Values): Mavi doğru ise modelin tahminidir. Bu doğru üzerindeki her bir nokta, belirli bir ders çalışma saatine (X) karşılık, modelin tahmin ettiği veya beklediği istatistik notunu (Y) gösterir. Bu doğru, tüm veri noktalarını özetleyen bir “ortalama ilişki” çizgisi olarak düşünülebilir.

Tahmin Doğrusunun Farklı İsimleri ve Anlamları

Bu merkezi öneme sahip doğru, istatistikte farklı yönlerini vurgulayan çeşitli isimlerle anılır:

Tahmin Doğrusu (Line of Prediction): Bu isimlendirme, doğrunun temel pratik amacını vurgular: Bağımsız değişkenin (X) belirli bir değerine karşılık, bağımlı değişkenin (Y) değerini tahmin etmek.

En Uygun Çizgi (Line of Best Fit): Bu isim, doğrunun geometrik özelliğini tanımlar. Bu çizgi, tüm veri noktalarına ortalama olarak mümkün olan en yakın mesafeden geçecek şekilde, yani veriye “en iyi uyan” şekilde konumlandırılmıştır.

En Küçük Kareler Regresyon Doğrusu (Least Squares Regression Line): Bu, en teknik ve doğru tanımdır. Doğrunun nasıl hesaplandığını açıklar.

En Küçük Kareler (Least Squares) Yönteminin Mantığı

“En uygun” çizginin matematiksel olarak nasıl bulunduğunu bu terim açıklar:

Amaç: Her bir gözlemlenen noktanın (mavi nokta) tahmin doğrusuna olan dikey uzaklıklarının (hata payı / residual) toplamını minimize etmektir.

Problem: Bu uzaklıklardan bazıları, çizginin üstünde kaldığı için pozitif (+), bazıları ise altında kaldığı için negatif (-) değer alır. Bu değerleri doğrudan toplarsak, artı ve eksi değerler birbirini götürür ve toplam hata yanıltıcı bir şekilde sıfıra yakın çıkabilir.

Çözüm: Bu sorunu ortadan kaldırmak için, her bir hata payının karesi alınır. Kare alma işlemi tüm değerleri pozitif yapar. Ardından, bu hataların kareleri toplanır. “En Küçük Kareler” yöntemi, bu kareler toplamını minimum yapan tek bir doğruyu matematiksel olarak bulur. Bu yüzden bu yöntemle çizilen doğruya “En Küçük Kareler Regresyon Doğrusu” denir.

Modeli Tahmin İçin Kullanmak

Bu doğru, bize şu denklemi verir: y = 2.86x + 29.4. Bu formül, artık bizim tahmin aracımızdır.

Örnek: “Haftada 10 saat ders çalışan bir öğrencinin beklenen istatistik notu kaçtır?”

Çözüm: Formüldeki x yerine 10 değerini koyarız.

Beklenen Not (y) = 2.86 * (10) + 29.4

Beklenen Not (y) = 28.6 + 29.4 = 58

Yorum: Modelimize göre, 10 saat ders çalışan bir öğrencinin istatistikten 58 alması beklenir. Bu, modelin tahminidir; gerçekte 10 saat çalışan öğrencilerin notları 58’den biraz farklı olabilir (grafikteki gibi).

Hata Payı ve Korelasyon İlişkisi

Bu analiz, korelasyonun gücü hakkında bize yeni ve önemli bir bakış açısı sunar:

Korelasyonun gücü, gözlemlenen değerler (noktalar) ile beklenen değerler (çizgi) arasındaki ortalama mesafenin ne kadar az olduğu ile doğru orantılıdır.

Eğer tüm noktalar çizgiye çok yakınsa, bu, hata payının düşük olduğu ve modelin tahmin kapasitesinin çok güçlü olduğu anlamına gelir. Bu durumda korelasyon yüksektir. Eğer noktalar çizgiden çok uzağa dağılmışsa, hata payı yüksek ve korelasyon düşüktür.

Hata Payı (Error / Residual) Kavramının Derinlemesine İncelenmesi

Regresyon analizinde “hata” terimi, modelin tahminindeki isabetsizliği ifade eder. Daha teknik bir ifadeyle, her bir gözlem için gözlemlenen değer ile modelin tahmin ettiği (beklenen) değer arasındaki farktır. Bu farka aynı zamanda artık değer (residual) da denir.

Hata (Error) = Gözlemlenen Değer (Y) - Beklenen Değer (Ŷ)

Burada Ŷ (Y-şapka), regresyon doğrusu tarafından tahmin edilen değeri simgeler.

Hata Payının Grafik Üzerinde Görselleştirilmesi

Gözlemlenen Değer: Herhangi bir mavi veri noktasıdır (örneğin, 10 saat çalışıp 68 alan öğrencinin noktası).

Beklenen Değer: O mavi noktanın tam altındaki veya üstündeki, tahmin doğrusu (mavi çizgi) üzerinde yer alan teorik noktadır. (Örneğimizde, 10 saat çalışan birinin beklenen değeri 58 idi).

Hata Payı (Error): Bu iki nokta arasındaki dikey mesafedir. Bu mesafe, modelimizin o tekil gözlem için ne kadar “yanıldığını” gösterir.

Saçılım Grafiğini incelediğimizde bu hata paylarını yorumlayabiliriz:

Bazı noktalar çizgiye çok yakındır, hatta neredeyse üzerindedir; bu gözlemler için hata payı çok düşüktür.

Bazı noktalar ise çizgiden daha uzaktadır; bu gözlemler için hata payı nispeten daha büyüktür.

Hata Payı ve Korelasyon Gücü Arasındaki Doğrudan İlişki

Bu hata kavramı, korelasyonun gücünü anlamak için bize kritik bir bakış açısı sunar. Bir modelin korelasyon gücü, bireysel hata paylarının genel büyüklüğü ile ters orantılıdır.

Yüksek Korelasyon: Gözlemlenen noktaların çoğu tahmin doğrusuna çok yakınsa (yani genel olarak hata payları küçükse), bu durum modelin veriyi çok iyi açıkladığı anlamına gelir. Gözlemlenen ve beklenen değerler birbirine yakındır. Bu, yüksek bir korelasyon katsayısı (r) ile sonuçlanır.

Düşük Korelasyon: Eğer noktalar tahmin doğrusundan geniş bir alana saçılmışsa (yani genel olarak hata payları büyükse), modelin tahmin kapasitesi zayıftır. Bu da düşük bir korelasyon katsayısı (r) demektir.

Dolayısıyla, bir regresyon modelinin temel amacı, bu hata terimlerinin kareleri toplamını en aza indiren “en uygun çizgiyi” bularak, toplam hatayı minimize etmektir. Bu hatalar ne kadar küçülürse, modelin tahmin kapasitesi ve dolayısıyla korelasyonu o kadar yükselir. Bu temel prensip, ilişkinin pozitif ya da negatif olmasından bağımsız olarak geçerlidir.

Bir Başka Örnek : Uyku süresi ile stres seviyesi arasındaki ilişkiye bakmak

Bu serpilme diyagramı, öğrencilerin günlük ortalama Uyku Süresi (bağımsız değişken, X) ile 100 üzerinden ölçülen Stres Seviyeleri (bağımlı değişken, Y) arasındaki ilişkiyi modellemektedir. Grafik, gerçek dünya verilerinin tipik özelliklerini — yani olasılıksal (stochastic) bir ilişkiyi ve bir miktar “gürültüyü” — yansıtmaktadır.

Görsel Değerlendirme (Visual Inspection)

Grafiğin ilk incelenmesi, iki değişken arasında anlamlı bir ilişki olduğunu ortaya koymaktadır:

Yön (Direction): Veri noktaları genel olarak sol üstten sağ alta doğru bir eğilim göstermektedir. Bu, iki değişken arasında negatif (ters yönlü) bir korelasyon olduğunun açık bir göstergesidir.

Biçim (Form): Noktaların dağılımı, kavisli bir yapıdan ziyade doğrusal (lineer) bir ilişkiyi desteklemektedir.

Güç (Strength): Veri noktaları, tahmin doğrusu etrafında belirli bir saçılım gösterse de, genel olarak bu doğruya yakın bir şekilde kümelenmiştir. Bu durum, aralarındaki ilişkinin orta ile güçlü düzeyde olduğunu düşündürür.

**Kavramsal Çıkarım*:** Görsel analiz, uyku süresi arttıkça öğrencilerin stres seviyelerinin düşme eğiliminde olduğunu göstermektedir.

###Regresyon Denkleminin Detaylı Yorumlanması

Grafiğe eklenen tahmin doğrusu (line of best fit), bu ilişkiyi aşağıdaki matematiksel denklemle özetlemektedir:

y = -7.8053x + 106.52

Bu denklem, iki temel bileşeni analiz edilerek yorumlanmalıdır:

a) Eğim Katsayısı (Slope / β₁ = -7.8053):

İşaretin Anlamı: Eğim katsayısının negatif (-) olması, ilişkinin ters yönlü olduğunu matematiksel olarak teyit eder.

Büyüklüğün Anlamı: Katsayının değeri olan 7.8053, ilişkinin etki büyüklüğünü ifade eder.

Tam Yorumu: Diğer tüm faktörler sabitken, öğrencilerin günlük uyku süresindeki her 1 saatlik artışın, stres seviyelerinde ortalama 7.81 puanlık bir azalmaya yol açması beklenmektedir.

b) Sabit Değer (Intercept / β₀ = 106.52):

Matematiksel Anlamı: Bu, tahmin doğrusunun Y eksenini kestiği noktadır. Bağımsız değişkenin (Uyku Süresi, X) 0 olduğu durumda, modelin tahmin ettiği teorik stres seviyesidir.

Kavramsal Yorum ve Sınırlılık: Bu değerin yorumlanmasında dikkatli olunmalıdır. 106.52’lik stres skoru, “bir öğrenci hiç uyumadığında (X=0) beklenen stres seviyesidir” anlamına gelir. Ancak, (a) 0 saat uyku sürdürülebilir bir durum değildir ve (b) stres ölçeği muhtemelen 100’ün üzerine çıkmamaktadır. Dolayısıyla bu değer, gerçek bir gözlemi temsil etmekten ziyade, modelin veriye en uygun çizgiyi çizebilmesi için gerekli olan teorik bir başlangıç noktasıdır.

Modelin Tahmin Amaçlı Kullanımı

Bu denklem, belirli bir uyku süresine sahip bir öğrencinin stres seviyesini tahmin etmek için kullanılabilir.

Örnek Soru: Günde ortalama 8 saat uyuyan bir öğrencinin beklenen stres seviyesi kaçtır?

Hesaplama:

Beklenen Stres (y) = -7.8053 * (8) + 106.52

Beklenen Stres (y) = -62.4424 + 106.52 = 44.0776

Sonuç: Modele göre, günde 8 saat uyuyan bir öğrencinin beklenen stres seviyesi yaklaşık 44.08’dir. Grafikteki noktaların saçılımı, gerçekte 8 saat uyuyan öğrencilerin stres seviyelerinin bu beklenen değerden biraz farklı olabileceğini gösterir.

Bir Başka Örnek : Matematik dersi skoru ile ders çalışma süresi arasındaki ilişkiye bakmak

Önce grafik ile duruma bakalım.

Sonra Excel’de formül yazarak korelasyon katsayısını bulalım

Excel Uygulaması: İki Değişken Arasındaki Korelasyonun Hesaplanması (CORREL Fonksiyonu)

Serpilme diyagramları ile görsel olarak tespit ettiğimiz ilişkinin yönünü ve gücünü, şimdi sayısal bir metrik olan Pearson Korelasyon Katsayısı (r) ile objektif olarak ölçeceğiz. Microsoft Excel, bu katsayıyı hesaplamak için CORREL adında pratik bir fonksiyon sunar.

Bu uygulamada, Ders Çalışma Saati (saat) ile Matematik Notu (Mat) arasındaki ilişkiyi hesaplayacağız.

Adım 1: Fonksiyonun Başlatılması

Hesaplamayı yapmak için boş bir hücre seçilir ve formül başlatılır.

Fonksiyon: =CORREL()

Açıklama: Bu fonksiyon, iki farklı veri dizisi arasındaki Pearson çarpım-moment korelasyon katsayısını hesaplamak için kullanılır.

Sözdizimi (Syntax): =CORREL(dizi1; dizi2) veya =CORREL(array1, array2)

*   `dizi1` (array1): İlk değişkenin veri aralığı.

*   `dizi2` (array2): İkinci değişkenin veri aralığı.

Adım 2: Birinci Veri Dizisinin (Array1) Seçilmesi

Formülü başlattıktan sonra, Excel bizden ilk veri dizisini belirtmemizi ister. Bu örnekte ilk değişkenimiz saat’tir.

Eylem: Fare kullanılarak saat sütunundaki tüm sayısal veriler (başlık hariç) seçilir.

Formülün Görünümü: Veriler Excel’de bir “Tablo” olarak formatlandığı için, formül çubuğunda B2:B21 gibi hücre aralıkları yerine Table1[saat] gibi yapısal bir referans görünür. Bu, daha okunaklı ve dinamik bir formül yazım şeklidir.

Sonuç: Formül bu aşamada şöyledir: =CORREL(Table1[saat]

Adım 3: İkinci Veri Dizisinin (Array2) Seçilmesi ve Formülün Tamamlanması

İlk veri dizisini seçtikten sonra, formüle bir ayraç (genellikle virgül , veya noktalı virgül ;) konulur ve ikinci veri dizisi seçilir. Bu örnekte ikinci değişkenimiz Mat (Matematik Notu)’tır.

Eylem: Fare kullanılarak Mat sütunundaki tüm sayısal veriler seçilir.

Formülün Tamamlanması: Formül çubuğundaki son hali =CORREL(Table1[saat],Table1[Mat]) şeklinde olur. Parantez kapatıldıktan sonra “Enter” tuşuna basılarak hesaplama tamamlanır.

Sonuç ve Yorumlama

Excel, bu iki değişken arasındaki korelasyon katsayısını 0.884526 olarak hesaplar. Bu sonucun yorumlanması:

Yön: Sonucun işareti pozitiftir, bu da iki değişken arasında pozitif yönlü bir ilişki olduğunu gösterir. Yani, ders çalışma saati arttıkça, matematik notu da artma eğilimindedir.

Güç: Korelasyon katsayısı -1 ile +1 arasında değer alır. 0.885 değeri, +1’e çok yakındır. Bu durum, iki değişken arasında çok güçlü bir pozitif doğrusal ilişki olduğunu ifade eder.

Bu basit fonksiyon, serpilme diyagramında görsel olarak tahmin ettiğimiz güçlü pozitif ilişkiyi sayısal ve kesin bir değerle teyit etmemizi sağlamıştır.

5. Pearson Korelasyonu ve Açıklanan Varyansın Grafiksel Analizi (İlk Bilgiler)

Elbette. Bu görsel, korelasyon (r) ile paylaşılan varyans (R²) arasındaki ilişkiyi ve bu metriklerin serpilme diyagramlarındaki görsel karşılıklarını mükemmel bir şekilde özetlemektedir. Aşağıda, öncelikle bu görselin teknik bir dökümünü ve ardından bu bilgileri kendi örneğimiz olan Ders Çalışma Saati ve Matematik Notu arasındaki ilişkiye nasıl uygulayacağımızı bulabilirsiniz.

İnfografiğin Teknik Açıklaması: Korelasyon (r) ve Paylaşılan Varyans (R²)

Bu görsel, iki temel istatistiksel kavram arasındaki ilişkiyi kademeli bir spektrum üzerinde açıklamaktadır:

  1. Korelasyon Katsayısı (r): İki değişken (X ve Y) arasındaki doğrusal ilişkinin yönünü ve gücünü ölçen bir metriktir. Değeri -1 ile +1 arasında değişir.

  2. Belirleme Katsayısı (R-Kare veya Paylaşılan Varyans): Bir değişkendeki (X) bilginin, diğer değişkendeki (Y) toplam değişkenliğin (varyansın) yüzde kaçını açıkladığını gösteren bir metriktir. Korelasyon katsayısının karesi (R² = r²) alınarak hesaplanır ve 0 ile 1 arasında bir değer alır.

A. Pozitif Korelasyon Spektrumu (Görselin Üst Kısmı)

Bu bölüm, korelasyon katsayısı (r) 0’dan 1’e doğru arttıkça hem serpilme diyagramının görsel yapısının nasıl değiştiğini hem de paylaşılan varyansın (R²) nasıl arttığını gösterir:

r = 0.00 (İlişki Yok): Noktalar tamamen rastgele bir “bulut” şeklindedir. Aralarında belirgin bir doğrusal eğilim yoktur. Sonuç olarak, R² = 0.00, yani ders çalışma süresi, matematik notlarındaki değişkenliğin %0’ını açıklar. Bir değişken diğerini tahmin etmek için hiçbir bilgi vermez.

r = 0.10 - 0.30 (Zayıf İlişki): Noktalar hala çok dağınık olsa da, sol alttan sağ üste doğru çok hafif bir eğilim sezilmeye başlar. R² = 0.01 - 0.09 arasında değişir. Bu, matematik notlarındaki varyansın sadece %1 ila %9’unun çalışma saatiyle açıklanabildiği, yani açıklama gücünün çok düşük olduğu anlamına gelir.

r = 0.50 (Orta Düzey İlişki): Doğrusal eğilim artık nettir, ancak noktalar tahmin doğrusunun etrafında hala geniş bir alana yayılmıştır. R² = 0.25, yani notlardaki farklılıkların %25’i (dörtte biri) çalışma süresiyle açıklanabilir.

r = 0.80 (Güçlü İlişki): Noktalar artık tahmin doğrusunun etrafında belirgin bir şekilde toplanmıştır. Saçılım azalmıştır. R² = 0.64, yani notlardaki varyansın %64’ü gibi anlamlı bir kısmı çalışma süresiyle açıklanır. Modelin tahmin gücü yüksektir.

r = 0.95 - 1.00 (Çok Güçlü ve Mükemmel İlişki): Noktalar neredeyse tamamen (r=0.95) veya tamamen (r=1.00) tahmin doğrusunun üzerine oturur. R² = 0.90 - 1.00 aralığındadır. Bu, notlardaki değişkenliğin %90 ila %100’ünün çalışma saati tarafından açıklandığı anlamına gelir. r=1.00 durumunda, ilişki artık olasılıksal değil, deterministiktir.

B. Negatif Korelasyonun Yorumu (Görselin Alt Kısmı)

Bu bölüm kritik bir noktayı vurgular:

Paylaşılan varyans (R²) hesaplanırken korelasyonun yönü (pozitif veya negatif olması) önemli değildir.

r = -0.80 (güçlü negatif) bir ilişki, r = +0.80 (güçlü pozitif) bir ilişki ile aynı açıklama gücüne sahiptir.

Hesaplama: R² = (-0.80)² = 0.64 (%64).

Anlamı: Korelasyon katsayısındaki eksi işareti, bize sadece değişkenler arasındaki ilişkinin ters yönlü olduğunu (biri artarken diğerinin azaldığını) söyler. Modelin tahmin kapasitesi veya açıklama gücü, korelasyonun mutlak değeri ile ilgilidir.

Kendi Örneğimizin Bu Bilgiler Işığında Yorumlanması

Bir önceki analizimizde, Ders Çalışma Saati ile Matematik Notu arasındaki korelasyon katsayısını r = 0.885 olarak bulmuştuk.

  1. Görsel Spektrumdaki Yeri: r = 0.885 değeri, görseldeki “Güçlü İlişki” (r=0.80) ile “Çok Güçlü İlişki” (r=0.95) arasında bir yere tekabül eder. Bu, serpilme diyagramımızdaki noktaların tahmin doğrusu etrafında oldukça sıkı bir şekilde kümelendiğini, ancak mükemmel bir doğru üzerinde olmadığını teyit eder.

  2. Paylaşılan Varyansın (R²) Hesaplanması ve Yorumlanması:

Hesaplama: R² = (0.885)² ≈ 0.78

Yüzdesel İfade: Paylaşılan Varyans = 0.782 * 100 = %78.2

Teknik Yorum: Bu sonuç, öğrencilerimizin Matematik notlarındaki toplam değişkenliğin (varyansın) yaklaşık %78.2’sinin, onların haftalık ders çalışma sürelerindeki değişkenlik tarafından istatistiksel olarak açıklanabildiğini göstermektedir.

Başka bir ifadeyle, bir öğrencinin ne kadar ders çalıştığını bilmek, onun matematik notu hakkında bize çok yüksek oranda (%78.2) bilgi vermektedir. Geriye kalan açıklanamayan %21.8’lik varyans ise modelimizde bulunmayan diğer faktörlerden (motivasyon, zeka, uyku süresi vb.) kaynaklanmaktadır.

6. Korelasyonun Yeterli Olmadığı Durumlar: Model Uygunluğu (Model Fit) ve Doğrusallık Varsayımı

Örnek1: Memnuniyet seviyesi ile motivasyon değeri arasındaki ilişkiye bakmak

Korelasyonun Yeterli Olmadığı Durumlar: Model Uygunluğu (Model Fit) ve Doğrusallık Varsayımı

Şimdiye kadar, iki değişken arasındaki ilişkiyi özetlemek için doğrusal (lineer) bir çizgi ve bu çizgiye dayalı korelasyon katsayısını kullandık. Ancak, bu yaklaşım her zaman geçerli veya anlamlı olmayabilir. Bu durumu, Eğitim Memnuniyeti (X) ile Motivasyon (Y) arasındaki ilişkiyi inceleyerek göreceğiz.

1. İlk Bakışta Sayısal Analiz: Aldatıcı Bir Güçlülük

Eğer bu iki değişkenin verisini, görselleştirmeden, doğrudan bir istatistik programına veya Excel’e girerek analiz etseydik, şu sonuçları elde ederdik:

Korelasyon Katsayısı (r): r ≈ 0.65

Belirleme Katsayısı (R²): R² ≈ 0.42 (%42)

Sayısal Yorum: Bu değerlere bakarak, Memnuniyet ile Motivasyon arasında orta ile güçlü düzeyde, pozitif yönlü bir ilişki olduğu sonucuna varabilirdik. Hatta notlardaki değişkenliğin %42’sinin memnuniyetle açıklandığını söyleyerek bu bulguyu destekleyebilirdik. Ancak bu yorum, hikayenin sadece bir kısmını anlatır ve tehlikeli bir şekilde eksiktir.

2. Görsel Analizin Önemi: Doğrusal Olmayan (Non-Linear) Bir Örüntü

Serpilme diyagramını incelediğimizde, durumun sayısal sonuçlardan çok daha farklı olduğunu görüyoruz. Veri noktaları, düz bir çizgi etrafında değil, belirgin bir eğri (curve) etrafında toplanmıştır.

İlişkinin Gerçek Doğası:

  1. Başlangıç (Düşük Memnuniyet): Memnuniyet seviyesi düşükken (örneğin 1’den 6’ya kadar), motivasyon da sistematik olarak artmaktadır. Bu bölümde güçlü pozitif bir ilişki vardır.

  2. Tepe Noktası: Memnuniyet orta-yüksek seviyelere ulaştığında, motivasyon zirve yapar.

  3. Dönüş (Yüksek Memnuniyet): Memnuniyet daha da arttığında (örneğin 7’den sonra), motivasyon tekrar düşmeye başlar. Bu bölümde ise negatif bir ilişki vardır.

3. Model Uygunluğu (Model Fit) Problemi

Burada karşılaştığımız durum, model uygunluğu (model fit) problemidir. Kullandığımız istatistiksel model (düz bir çizgi), verinin gerçek yapısına (eğri) uymamaktadır.

Hataların Yapısı: Bu uyumsuzluk, hata paylarının (residuals) dağılımında kendini gösterir.

Grafiğin başındaki ve sonundaki veri noktaları, tahmin doğrusunun sistematik olarak altında kalma eğilimindedir (model bu kısımlarda olması gerekenden yüksek tahmin yapar).

Grafiğin ortasındaki noktalar ise tahmin doğrusunun sistematik olarak üstünde kalır (model bu kısımda olması gerekenden düşük tahmin yapar).

Hata paylarının bu şekilde sistematik bir örüntü izlemesi, doğrusal bir modelin uygun olmadığının en net işaretidir. Model, verinin her yerinde aynı derecede iyi çalışmamaktadır.

Sonuç ve Ana Fikir

  1. Korelasyon Tek Başına Yetersizdir: Yüksek bir korelasyon katsayısı, her zaman anlamlı veya kullanışlı bir doğrusal ilişki olduğu anlamına gelmez.

  2. Varsayımlar Kritik Öneme Sahiptir: Pearson Korelasyonu ve Basit Doğrusal Regresyon, temel olarak aradaki ilişkinin doğrusal (lineer) olduğunu varsayar. Eğer bu varsayım ihlal edilirse, elde edilen sonuçlar yanıltıcı olur.

  3. Görselleştirme Zorunludur: Herhangi bir korelasyon veya regresyon analizi yapmadan önce, veriyi bir serpilme diyagramı ile görselleştirmek, olası doğrusallık problemlerini tespit etmek için mutlak bir zorunluluktur.

Bu veri seti için doğrusal bir regresyon modeli kurmak, hem pozitif hem de negatif eğilimleri “ortalayarak” hiçbir bölgeyi doğru temsil etmeyen, zayıf ve anlamsız bir özet ortaya çıkarır. Bu tür veriler için doğrusal olmayan regresyon modelleri (örneğin, kuadratik regresyon) gibi daha gelişmiş teknikler kullanılmalıdır.

Örnek2: Memnuniyet seviyesi ile beklenen GPA arasındaki ilişkiye bakmak

Zayıf Doğrusal İlişkiler ve ‘Gürültülü’ Veri: Memnuniyet ve Beklenen GPA Analizi

Bu serpilme diyagramı, Eğitim Memnuniyeti (X) ile öğrencinin Beklenen Not Ortalaması (ExpGPA, Y) arasındaki ilişkiyi incelemektedir. Bu grafik, gerçek dünya verilerinde sıkça karşılaşılan ve yüksek korelasyonun bir garanti olmadığını gösteren bir durumu temsil eder: Zayıf veya “gürültülü” bir doğrusal ilişki.

1. Görsel Değerlendirme (Visual Inspection)

Yön (Direction): Veri noktaları, sol alttan sağ üste doğru çok hafif bir pozitif eğilim göstermektedir. Bu, memnuniyet arttıkça beklenen GPA’de küçük bir artış olabileceğine işaret eder.

Biçim (Form): Bir önceki “Motivasyon” örneğinin aksine, burada belirgin bir eğrisellik (non-linearity) yoktur. Veri için doğrusal bir modelin varsayılması makul görünmektedir.

Güç (Strength): Bu grafiğin en belirgin özelliği, ilişkinin çok zayıf olmasıdır. Veri noktaları, tahmin doğrusu etrafında oldukça geniş bir alana saçılmıştır. Bu durum, ilişkinin yüksek derecede “gürültü” (noise) içerdiğini gösterir.

Kavramsal Çıkarım: Memnuniyet arttıkça beklenen GPA’de hafif bir artış eğilimi olsa da, bu ilişki tutarlı ve güçlü değildir. Diğer birçok faktörün beklenen GPA üzerinde daha büyük bir rol oynadığı açıktır.

2. Regresyon Denkleminin Detaylı Yorumlanması

Modelin oluşturduğu denklem, bu zayıf ilişkiyi sayısal olarak yansıtır:

y = 0.1464x + 2.1613

Eğim (Slope / β₁ = 0.1464):

Yorumu: Eğim katsayısı pozitif olmakla birlikte, değeri çok düşüktür. Bu, Memnuniyet skorundaki her 1 birimlik artışın, öğrencinin beklenen not ortalamasında (ExpGPA) ortalama olarak sadece 0.146 birimlik bir artışa yol açmasının beklendiği anlamına gelir. Bu, etkinin çok sınırlı olduğunu gösterir.

Sabit Değer (Intercept / β₀ = 2.1613):

Yorumu: Modele göre, eğitimden hiç memnun olmayan (X=0) bir öğrencinin teorik olarak beklenen not ortalaması 2.16’dır. Bu, modelin teorik başlangıç noktasını ifade eder.

3. Model Uygunluğu (Model Fit) ve Tahmin Gücü

Bu grafikteki “model fit” problemi, bir önceki örnekteki gibi modelin yanlış biçimde olmasından (doğrusal olmama) kaynaklanmaz. Buradaki problem, modelin düşük tahmin gücüne sahip olmasıdır.

Büyük Hata Payları: Veri noktalarının çizgiden uzaklığı, hata paylarının (residuals) oldukça büyük olduğunu gösterir. Bu, modelin tahminlerinin yüksek derecede belirsizlik içerdiği anlamına gelir.

Düşük Açıklama Kapasitesi (R²): Bu görsel örüntüden, korelasyon katsayısının (r) düşük olacağını ve dolayısıyla Belirleme Katsayısının (R-Kare) çok daha düşük olacağını öngörebiliriz. Yani, Memnuniyet, Beklenen GPA’deki toplam değişkenliğin çok küçük bir yüzdesini açıklayacaktır.

Sonuç ve Ana Fikir

Bu örnek, bize şu önemli dersi verir:

İki değişken arasında istatistiksel olarak anlamlı ve doğrusal bir ilişki bulsak bile, bu ilişkinin pratikte anlamlı veya kullanışlı olmayabileceğini unutmamalıyız. Bu modelde, memnuniyetin beklenen GPA üzerinde pozitif bir etkisi olsa da, bu etki o kadar zayıf ve veri o kadar “gürültülüdür” ki, bir öğrencinin memnuniyetine bakarak onun not ortalaması hakkında güvenilir bir tahminde bulunmak neredeyse imkansızdır.

Bu durum, beklenen GPA’i etkileyen başka çok daha önemli ve güçlü faktörlerin var olduğuna işaret eder. Güçlü bir model kurmak için bu diğer faktörlerin de analize dahil edilmesi (Çoklu Regresyon) gereklidir.