İstatistik ders skoru ile ders çalışma saatinin tahmin doğrusu formülü ile ilgili hocamızın anlatımı
Daha önce incelediğimiz Ders Çalışma Saati ve İstatistik Notu arasındaki ilişkiyi gösteren serpilme diyagramına şimdi, bu ilişkiyi en iyi özetleyen tahmin doğrusunu (trendline) ekledik. Bu çizginin eklenmesiyle birlikte grafiğimizde artık iki tür temel bilgi bulunmaktadır:
Gözlemlenen Değerler (Observed Values): Grafikteki her bir mavi nokta, veri setimizde yer alan gerçek bir öğrencinin değerini temsil eder. Bunlar, bizim topladığımız ham veridir; yani “gerçekleşmiş” olan değerlerdir.
Beklenen Değerler (Expected Values): Mavi doğru ise modelin tahminidir. Bu doğru üzerindeki her bir nokta, belirli bir ders çalışma saatine (X) karşılık, modelin tahmin ettiği veya beklediği istatistik notunu (Y) gösterir. Bu doğru, tüm veri noktalarını özetleyen bir “ortalama ilişki” çizgisi olarak düşünülebilir.
Bu merkezi öneme sahip doğru, istatistikte farklı yönlerini vurgulayan çeşitli isimlerle anılır:
Tahmin Doğrusu (Line of Prediction): Bu isimlendirme, doğrunun temel pratik amacını vurgular: Bağımsız değişkenin (X) belirli bir değerine karşılık, bağımlı değişkenin (Y) değerini tahmin etmek.
En Uygun Çizgi (Line of Best Fit): Bu isim, doğrunun geometrik özelliğini tanımlar. Bu çizgi, tüm veri noktalarına ortalama olarak mümkün olan en yakın mesafeden geçecek şekilde, yani veriye “en iyi uyan” şekilde konumlandırılmıştır.
En Küçük Kareler Regresyon Doğrusu (Least Squares Regression Line): Bu, en teknik ve doğru tanımdır. Doğrunun nasıl hesaplandığını açıklar.
“En uygun” çizginin matematiksel olarak nasıl bulunduğunu bu terim açıklar:
Amaç: Her bir gözlemlenen noktanın (mavi nokta) tahmin doğrusuna olan dikey uzaklıklarının (hata payı / residual) toplamını minimize etmektir.
Problem: Bu uzaklıklardan bazıları, çizginin üstünde kaldığı için pozitif (+), bazıları ise altında kaldığı için negatif (-) değer alır. Bu değerleri doğrudan toplarsak, artı ve eksi değerler birbirini götürür ve toplam hata yanıltıcı bir şekilde sıfıra yakın çıkabilir.
Çözüm: Bu sorunu ortadan kaldırmak için, her bir hata payının karesi alınır. Kare alma işlemi tüm değerleri pozitif yapar. Ardından, bu hataların kareleri toplanır. “En Küçük Kareler” yöntemi, bu kareler toplamını minimum yapan tek bir doğruyu matematiksel olarak bulur. Bu yüzden bu yöntemle çizilen doğruya “En Küçük Kareler Regresyon Doğrusu” denir.
Bu doğru, bize şu denklemi verir: y = 2.86x + 29.4. Bu formül, artık bizim tahmin aracımızdır.
Örnek: “Haftada 10 saat ders çalışan bir öğrencinin beklenen istatistik notu kaçtır?”
Çözüm: Formüldeki x yerine 10 değerini koyarız.
Beklenen Not (y) = 2.86 * (10) + 29.4
Beklenen Not (y) = 28.6 + 29.4 = 58
Yorum: Modelimize göre, 10 saat ders çalışan bir öğrencinin istatistikten 58 alması beklenir. Bu, modelin tahminidir; gerçekte 10 saat çalışan öğrencilerin notları 58’den biraz farklı olabilir (grafikteki gibi).
Bu analiz, korelasyonun gücü hakkında bize yeni ve önemli bir bakış açısı sunar:
Korelasyonun gücü, gözlemlenen değerler (noktalar) ile beklenen değerler (çizgi) arasındaki ortalama mesafenin ne kadar az olduğu ile doğru orantılıdır.
Eğer tüm noktalar çizgiye çok yakınsa, bu, hata payının düşük olduğu ve modelin tahmin kapasitesinin çok güçlü olduğu anlamına gelir. Bu durumda korelasyon yüksektir. Eğer noktalar çizgiden çok uzağa dağılmışsa, hata payı yüksek ve korelasyon düşüktür.
Regresyon analizinde “hata” terimi, modelin tahminindeki isabetsizliği ifade eder. Daha teknik bir ifadeyle, her bir gözlem için gözlemlenen değer ile modelin tahmin ettiği (beklenen) değer arasındaki farktır. Bu farka aynı zamanda artık değer (residual) da denir.
Hata (Error) = Gözlemlenen Değer (Y) - Beklenen Değer (Ŷ)
Burada Ŷ (Y-şapka), regresyon doğrusu tarafından tahmin edilen değeri simgeler.
Gözlemlenen Değer: Herhangi bir mavi veri noktasıdır (örneğin, 10 saat çalışıp 68 alan öğrencinin noktası).
Beklenen Değer: O mavi noktanın tam altındaki veya üstündeki, tahmin doğrusu (mavi çizgi) üzerinde yer alan teorik noktadır. (Örneğimizde, 10 saat çalışan birinin beklenen değeri 58 idi).
Hata Payı (Error): Bu iki nokta arasındaki dikey mesafedir. Bu mesafe, modelimizin o tekil gözlem için ne kadar “yanıldığını” gösterir.
Saçılım Grafiğini incelediğimizde bu hata paylarını yorumlayabiliriz:
Bazı noktalar çizgiye çok yakındır, hatta neredeyse üzerindedir; bu gözlemler için hata payı çok düşüktür.
Bazı noktalar ise çizgiden daha uzaktadır; bu gözlemler için hata payı nispeten daha büyüktür.
Bu hata kavramı, korelasyonun gücünü anlamak için bize kritik bir bakış açısı sunar. Bir modelin korelasyon gücü, bireysel hata paylarının genel büyüklüğü ile ters orantılıdır.
Yüksek Korelasyon: Gözlemlenen noktaların çoğu tahmin doğrusuna çok yakınsa (yani genel olarak hata payları küçükse), bu durum modelin veriyi çok iyi açıkladığı anlamına gelir. Gözlemlenen ve beklenen değerler birbirine yakındır. Bu, yüksek bir korelasyon katsayısı (r) ile sonuçlanır.
Düşük Korelasyon: Eğer noktalar tahmin doğrusundan geniş bir alana saçılmışsa (yani genel olarak hata payları büyükse), modelin tahmin kapasitesi zayıftır. Bu da düşük bir korelasyon katsayısı (r) demektir.
Dolayısıyla, bir regresyon modelinin temel amacı, bu hata terimlerinin kareleri toplamını en aza indiren “en uygun çizgiyi” bularak, toplam hatayı minimize etmektir. Bu hatalar ne kadar küçülürse, modelin tahmin kapasitesi ve dolayısıyla korelasyonu o kadar yükselir. Bu temel prensip, ilişkinin pozitif ya da negatif olmasından bağımsız olarak geçerlidir.
Bu serpilme diyagramı, öğrencilerin günlük ortalama Uyku Süresi (bağımsız değişken, X) ile 100 üzerinden ölçülen Stres Seviyeleri (bağımlı değişken, Y) arasındaki ilişkiyi modellemektedir. Grafik, gerçek dünya verilerinin tipik özelliklerini — yani olasılıksal (stochastic) bir ilişkiyi ve bir miktar “gürültüyü” — yansıtmaktadır.
Grafiğin ilk incelenmesi, iki değişken arasında anlamlı bir ilişki olduğunu ortaya koymaktadır:
Yön (Direction): Veri noktaları genel olarak sol üstten sağ alta doğru bir eğilim göstermektedir. Bu, iki değişken arasında negatif (ters yönlü) bir korelasyon olduğunun açık bir göstergesidir.
Biçim (Form): Noktaların dağılımı, kavisli bir yapıdan ziyade doğrusal (lineer) bir ilişkiyi desteklemektedir.
Güç (Strength): Veri noktaları, tahmin doğrusu etrafında belirli bir saçılım gösterse de, genel olarak bu doğruya yakın bir şekilde kümelenmiştir. Bu durum, aralarındaki ilişkinin orta ile güçlü düzeyde olduğunu düşündürür.
**Kavramsal Çıkarım*:** Görsel analiz, uyku süresi arttıkça öğrencilerin stres seviyelerinin düşme eğiliminde olduğunu göstermektedir.
###Regresyon Denkleminin Detaylı Yorumlanması
Grafiğe eklenen tahmin doğrusu (line of best fit), bu ilişkiyi aşağıdaki matematiksel denklemle özetlemektedir:
y = -7.8053x + 106.52
Bu denklem, iki temel bileşeni analiz edilerek yorumlanmalıdır:
a) Eğim Katsayısı (Slope / β₁ = -7.8053):
İşaretin Anlamı: Eğim katsayısının negatif (-) olması,
ilişkinin ters yönlü olduğunu matematiksel olarak teyit eder.
Büyüklüğün Anlamı: Katsayının değeri olan 7.8053,
ilişkinin etki büyüklüğünü ifade eder.
Tam Yorumu: Diğer tüm faktörler sabitken, öğrencilerin
günlük uyku süresindeki her 1 saatlik artışın, stres seviyelerinde
ortalama 7.81 puanlık bir azalmaya yol açması beklenmektedir.
b) Sabit Değer (Intercept / β₀ = 106.52):
Matematiksel Anlamı: Bu, tahmin doğrusunun Y eksenini
kestiği noktadır. Bağımsız değişkenin (Uyku Süresi, X) 0 olduğu durumda,
modelin tahmin ettiği teorik stres seviyesidir.
Kavramsal Yorum ve Sınırlılık: Bu değerin
yorumlanmasında dikkatli olunmalıdır. 106.52’lik stres skoru, “bir
öğrenci hiç uyumadığında (X=0) beklenen stres seviyesidir” anlamına
gelir. Ancak, (a) 0 saat uyku sürdürülebilir bir durum değildir ve (b)
stres ölçeği muhtemelen 100’ün üzerine çıkmamaktadır. Dolayısıyla bu
değer, gerçek bir gözlemi temsil etmekten ziyade, modelin veriye en
uygun çizgiyi çizebilmesi için gerekli olan teorik bir başlangıç
noktasıdır.
Bu denklem, belirli bir uyku süresine sahip bir öğrencinin stres seviyesini tahmin etmek için kullanılabilir.
Örnek Soru: Günde ortalama 8 saat uyuyan bir öğrencinin beklenen stres seviyesi kaçtır?
Hesaplama:
Beklenen Stres (y) = -7.8053 * (8) + 106.52
Beklenen Stres (y) = -62.4424 + 106.52 = 44.0776
Sonuç: Modele göre, günde 8 saat uyuyan bir öğrencinin
beklenen stres seviyesi yaklaşık 44.08’dir. Grafikteki noktaların
saçılımı, gerçekte 8 saat uyuyan öğrencilerin stres seviyelerinin bu
beklenen değerden biraz farklı olabileceğini gösterir.
Önce grafik ile duruma bakalım.
Sonra Excel’de formül yazarak korelasyon katsayısını bulalım
CORREL Fonksiyonu)Serpilme diyagramları ile görsel olarak tespit ettiğimiz ilişkinin
yönünü ve gücünü, şimdi sayısal bir metrik olan Pearson
Korelasyon Katsayısı (r) ile objektif olarak ölçeceğiz.
Microsoft Excel, bu katsayıyı hesaplamak için CORREL adında
pratik bir fonksiyon sunar.
Bu uygulamada, Ders Çalışma Saati (saat) ile
Matematik Notu (Mat) arasındaki ilişkiyi
hesaplayacağız.
Adım 1: Fonksiyonun Başlatılması
Hesaplamayı yapmak için boş bir hücre seçilir ve formül başlatılır.
Fonksiyon: =CORREL()
Açıklama: Bu fonksiyon, iki farklı veri dizisi arasındaki Pearson çarpım-moment korelasyon katsayısını hesaplamak için kullanılır.
Sözdizimi (Syntax):
=CORREL(dizi1; dizi2) veya
=CORREL(array1, array2)
* `dizi1` (array1): İlk değişkenin veri aralığı.
* `dizi2` (array2): İkinci değişkenin veri aralığı.
Adım 2: Birinci Veri Dizisinin (Array1) Seçilmesi
Formülü başlattıktan sonra, Excel bizden ilk veri dizisini
belirtmemizi ister. Bu örnekte ilk değişkenimiz
saat’tir.
Eylem: Fare kullanılarak saat
sütunundaki tüm sayısal veriler (başlık hariç) seçilir.
Formülün Görünümü: Veriler Excel’de bir “Tablo”
olarak formatlandığı için, formül çubuğunda B2:B21 gibi
hücre aralıkları yerine Table1[saat] gibi yapısal bir
referans görünür. Bu, daha okunaklı ve dinamik bir formül yazım
şeklidir.
Sonuç: Formül bu aşamada şöyledir:
=CORREL(Table1[saat]
Adım 3: İkinci Veri Dizisinin (Array2) Seçilmesi ve Formülün Tamamlanması
İlk veri dizisini seçtikten sonra, formüle bir ayraç (genellikle
virgül , veya noktalı virgül ;) konulur ve
ikinci veri dizisi seçilir. Bu örnekte ikinci değişkenimiz
Mat (Matematik Notu)’tır.
Eylem: Fare kullanılarak Mat
sütunundaki tüm sayısal veriler seçilir.
Formülün Tamamlanması: Formül çubuğundaki son hali
=CORREL(Table1[saat],Table1[Mat]) şeklinde olur. Parantez
kapatıldıktan sonra “Enter” tuşuna basılarak hesaplama tamamlanır.
Sonuç ve Yorumlama
Excel, bu iki değişken arasındaki korelasyon katsayısını 0.884526 olarak hesaplar. Bu sonucun yorumlanması:
Yön: Sonucun işareti pozitiftir, bu da iki değişken arasında pozitif yönlü bir ilişki olduğunu gösterir. Yani, ders çalışma saati arttıkça, matematik notu da artma eğilimindedir.
Güç: Korelasyon katsayısı -1 ile
+1 arasında değer alır. 0.885 değeri, +1’e çok
yakındır. Bu durum, iki değişken arasında çok güçlü bir pozitif
doğrusal ilişki olduğunu ifade eder.
Bu basit fonksiyon, serpilme diyagramında görsel olarak tahmin ettiğimiz güçlü pozitif ilişkiyi sayısal ve kesin bir değerle teyit etmemizi sağlamıştır.
Elbette. Bu görsel, korelasyon (r) ile paylaşılan varyans (R²)
arasındaki ilişkiyi ve bu metriklerin serpilme diyagramlarındaki görsel
karşılıklarını mükemmel bir şekilde özetlemektedir. Aşağıda, öncelikle
bu görselin teknik bir dökümünü ve ardından bu bilgileri kendi örneğimiz
olan Ders Çalışma Saati ve Matematik Notu
arasındaki ilişkiye nasıl uygulayacağımızı bulabilirsiniz.
Bu görsel, iki temel istatistiksel kavram arasındaki ilişkiyi kademeli bir spektrum üzerinde açıklamaktadır:
Korelasyon Katsayısı (r): İki değişken (X ve Y) arasındaki doğrusal ilişkinin yönünü ve gücünü ölçen bir metriktir. Değeri -1 ile +1 arasında değişir.
Belirleme Katsayısı (R-Kare veya Paylaşılan Varyans): Bir değişkendeki (X) bilginin, diğer değişkendeki (Y) toplam değişkenliğin (varyansın) yüzde kaçını açıkladığını gösteren bir metriktir. Korelasyon katsayısının karesi (R² = r²) alınarak hesaplanır ve 0 ile 1 arasında bir değer alır.
Bu bölüm, korelasyon katsayısı (r) 0’dan 1’e doğru arttıkça hem serpilme diyagramının görsel yapısının nasıl değiştiğini hem de paylaşılan varyansın (R²) nasıl arttığını gösterir:
r = 0.00 (İlişki Yok): Noktalar tamamen rastgele bir “bulut” şeklindedir. Aralarında belirgin bir doğrusal eğilim yoktur. Sonuç olarak, R² = 0.00, yani ders çalışma süresi, matematik notlarındaki değişkenliğin %0’ını açıklar. Bir değişken diğerini tahmin etmek için hiçbir bilgi vermez.
r = 0.10 - 0.30 (Zayıf İlişki): Noktalar hala çok dağınık olsa da, sol alttan sağ üste doğru çok hafif bir eğilim sezilmeye başlar. R² = 0.01 - 0.09 arasında değişir. Bu, matematik notlarındaki varyansın sadece %1 ila %9’unun çalışma saatiyle açıklanabildiği, yani açıklama gücünün çok düşük olduğu anlamına gelir.
r = 0.50 (Orta Düzey İlişki): Doğrusal eğilim artık nettir, ancak noktalar tahmin doğrusunun etrafında hala geniş bir alana yayılmıştır. R² = 0.25, yani notlardaki farklılıkların %25’i (dörtte biri) çalışma süresiyle açıklanabilir.
r = 0.80 (Güçlü İlişki): Noktalar artık tahmin doğrusunun etrafında belirgin bir şekilde toplanmıştır. Saçılım azalmıştır. R² = 0.64, yani notlardaki varyansın %64’ü gibi anlamlı bir kısmı çalışma süresiyle açıklanır. Modelin tahmin gücü yüksektir.
r = 0.95 - 1.00 (Çok Güçlü ve Mükemmel İlişki): Noktalar neredeyse tamamen (r=0.95) veya tamamen (r=1.00) tahmin doğrusunun üzerine oturur. R² = 0.90 - 1.00 aralığındadır. Bu, notlardaki değişkenliğin %90 ila %100’ünün çalışma saati tarafından açıklandığı anlamına gelir. r=1.00 durumunda, ilişki artık olasılıksal değil, deterministiktir.
Bu bölüm kritik bir noktayı vurgular:
Paylaşılan varyans (R²) hesaplanırken korelasyonun yönü (pozitif veya negatif olması) önemli değildir.
r = -0.80 (güçlü negatif) bir ilişki, r = +0.80 (güçlü pozitif) bir ilişki ile aynı açıklama gücüne sahiptir.
Hesaplama: R² = (-0.80)² = 0.64 (%64).
Anlamı: Korelasyon katsayısındaki eksi işareti, bize sadece değişkenler arasındaki ilişkinin ters yönlü olduğunu (biri artarken diğerinin azaldığını) söyler. Modelin tahmin kapasitesi veya açıklama gücü, korelasyonun mutlak değeri ile ilgilidir.
Bir önceki analizimizde, Ders Çalışma Saati ile
Matematik Notu arasındaki korelasyon katsayısını r
= 0.885 olarak bulmuştuk.
Görsel Spektrumdaki Yeri: r = 0.885 değeri, görseldeki “Güçlü İlişki” (r=0.80) ile “Çok Güçlü İlişki” (r=0.95) arasında bir yere tekabül eder. Bu, serpilme diyagramımızdaki noktaların tahmin doğrusu etrafında oldukça sıkı bir şekilde kümelendiğini, ancak mükemmel bir doğru üzerinde olmadığını teyit eder.
Paylaşılan Varyansın (R²) Hesaplanması ve Yorumlanması:
Hesaplama: R² = (0.885)² ≈ 0.78
Yüzdesel İfade: Paylaşılan Varyans = 0.782 * 100 = %78.2
Teknik Yorum: Bu sonuç, öğrencilerimizin Matematik notlarındaki toplam değişkenliğin (varyansın) yaklaşık %78.2’sinin, onların haftalık ders çalışma sürelerindeki değişkenlik tarafından istatistiksel olarak açıklanabildiğini göstermektedir.
Başka bir ifadeyle, bir öğrencinin ne kadar ders çalıştığını bilmek, onun matematik notu hakkında bize çok yüksek oranda (%78.2) bilgi vermektedir. Geriye kalan açıklanamayan %21.8’lik varyans ise modelimizde bulunmayan diğer faktörlerden (motivasyon, zeka, uyku süresi vb.) kaynaklanmaktadır.
Şimdiye kadar, iki değişken arasındaki ilişkiyi özetlemek için
doğrusal (lineer) bir çizgi ve bu çizgiye dayalı korelasyon katsayısını
kullandık. Ancak, bu yaklaşım her zaman geçerli veya anlamlı
olmayabilir. Bu durumu, Eğitim Memnuniyeti (X) ile
Motivasyon (Y) arasındaki ilişkiyi inceleyerek
göreceğiz.
Eğer bu iki değişkenin verisini, görselleştirmeden, doğrudan bir istatistik programına veya Excel’e girerek analiz etseydik, şu sonuçları elde ederdik:
Korelasyon Katsayısı (r): r ≈ 0.65
Belirleme Katsayısı (R²): R² ≈ 0.42 (%42)
Sayısal Yorum: Bu değerlere bakarak,
Memnuniyet ile Motivasyon arasında
orta ile güçlü düzeyde, pozitif yönlü bir ilişki olduğu
sonucuna varabilirdik. Hatta notlardaki değişkenliğin %42’sinin
memnuniyetle açıklandığını söyleyerek bu bulguyu destekleyebilirdik.
Ancak bu yorum, hikayenin sadece bir kısmını anlatır ve tehlikeli bir
şekilde eksiktir.
Serpilme diyagramını incelediğimizde, durumun sayısal sonuçlardan çok daha farklı olduğunu görüyoruz. Veri noktaları, düz bir çizgi etrafında değil, belirgin bir eğri (curve) etrafında toplanmıştır.
İlişkinin Gerçek Doğası:
Başlangıç (Düşük Memnuniyet): Memnuniyet seviyesi düşükken (örneğin 1’den 6’ya kadar), motivasyon da sistematik olarak artmaktadır. Bu bölümde güçlü pozitif bir ilişki vardır.
Tepe Noktası: Memnuniyet orta-yüksek seviyelere ulaştığında, motivasyon zirve yapar.
Dönüş (Yüksek Memnuniyet): Memnuniyet daha da arttığında (örneğin 7’den sonra), motivasyon tekrar düşmeye başlar. Bu bölümde ise negatif bir ilişki vardır.
Burada karşılaştığımız durum, model uygunluğu (model fit) problemidir. Kullandığımız istatistiksel model (düz bir çizgi), verinin gerçek yapısına (eğri) uymamaktadır.
Hataların Yapısı: Bu uyumsuzluk, hata paylarının (residuals) dağılımında kendini gösterir.
Grafiğin başındaki ve sonundaki veri noktaları, tahmin doğrusunun sistematik olarak altında kalma eğilimindedir (model bu kısımlarda olması gerekenden yüksek tahmin yapar).
Grafiğin ortasındaki noktalar ise tahmin doğrusunun sistematik olarak üstünde kalır (model bu kısımda olması gerekenden düşük tahmin yapar).
Hata paylarının bu şekilde sistematik bir örüntü izlemesi, doğrusal bir modelin uygun olmadığının en net işaretidir. Model, verinin her yerinde aynı derecede iyi çalışmamaktadır.
Korelasyon Tek Başına Yetersizdir: Yüksek bir korelasyon katsayısı, her zaman anlamlı veya kullanışlı bir doğrusal ilişki olduğu anlamına gelmez.
Varsayımlar Kritik Öneme Sahiptir: Pearson Korelasyonu ve Basit Doğrusal Regresyon, temel olarak aradaki ilişkinin doğrusal (lineer) olduğunu varsayar. Eğer bu varsayım ihlal edilirse, elde edilen sonuçlar yanıltıcı olur.
Görselleştirme Zorunludur: Herhangi bir korelasyon veya regresyon analizi yapmadan önce, veriyi bir serpilme diyagramı ile görselleştirmek, olası doğrusallık problemlerini tespit etmek için mutlak bir zorunluluktur.
Bu veri seti için doğrusal bir regresyon modeli kurmak, hem pozitif hem de negatif eğilimleri “ortalayarak” hiçbir bölgeyi doğru temsil etmeyen, zayıf ve anlamsız bir özet ortaya çıkarır. Bu tür veriler için doğrusal olmayan regresyon modelleri (örneğin, kuadratik regresyon) gibi daha gelişmiş teknikler kullanılmalıdır.
Bu serpilme diyagramı, Eğitim Memnuniyeti (X) ile
öğrencinin Beklenen Not Ortalaması (ExpGPA, Y) arasındaki
ilişkiyi incelemektedir. Bu grafik, gerçek dünya verilerinde sıkça
karşılaşılan ve yüksek korelasyonun bir garanti olmadığını gösteren bir
durumu temsil eder: Zayıf veya “gürültülü” bir doğrusal ilişki.
1. Görsel Değerlendirme (Visual Inspection)
Yön (Direction): Veri noktaları, sol alttan sağ üste doğru çok hafif bir pozitif eğilim göstermektedir. Bu, memnuniyet arttıkça beklenen GPA’de küçük bir artış olabileceğine işaret eder.
Biçim (Form): Bir önceki “Motivasyon” örneğinin aksine, burada belirgin bir eğrisellik (non-linearity) yoktur. Veri için doğrusal bir modelin varsayılması makul görünmektedir.
Güç (Strength): Bu grafiğin en belirgin özelliği, ilişkinin çok zayıf olmasıdır. Veri noktaları, tahmin doğrusu etrafında oldukça geniş bir alana saçılmıştır. Bu durum, ilişkinin yüksek derecede “gürültü” (noise) içerdiğini gösterir.
Kavramsal Çıkarım: Memnuniyet arttıkça beklenen GPA’de hafif bir artış eğilimi olsa da, bu ilişki tutarlı ve güçlü değildir. Diğer birçok faktörün beklenen GPA üzerinde daha büyük bir rol oynadığı açıktır.
2. Regresyon Denkleminin Detaylı Yorumlanması
Modelin oluşturduğu denklem, bu zayıf ilişkiyi sayısal olarak yansıtır:
y = 0.1464x + 2.1613
Eğim (Slope / β₁ = 0.1464):
Yorumu: Eğim katsayısı pozitif olmakla birlikte,
değeri çok düşüktür. Bu, Memnuniyet
skorundaki her 1 birimlik artışın, öğrencinin beklenen
not ortalamasında (ExpGPA) ortalama olarak sadece 0.146
birimlik bir artışa yol açmasının beklendiği anlamına gelir.
Bu, etkinin çok sınırlı olduğunu gösterir.
Sabit Değer (Intercept / β₀ = 2.1613):
Yorumu: Modele göre, eğitimden hiç memnun olmayan (X=0) bir öğrencinin teorik olarak beklenen not ortalaması 2.16’dır. Bu, modelin teorik başlangıç noktasını ifade eder.
3. Model Uygunluğu (Model Fit) ve Tahmin Gücü
Bu grafikteki “model fit” problemi, bir önceki örnekteki gibi modelin yanlış biçimde olmasından (doğrusal olmama) kaynaklanmaz. Buradaki problem, modelin düşük tahmin gücüne sahip olmasıdır.
Büyük Hata Payları: Veri noktalarının çizgiden uzaklığı, hata paylarının (residuals) oldukça büyük olduğunu gösterir. Bu, modelin tahminlerinin yüksek derecede belirsizlik içerdiği anlamına gelir.
Düşük Açıklama Kapasitesi (R²): Bu görsel örüntüden,
korelasyon katsayısının (r) düşük olacağını ve dolayısıyla
Belirleme Katsayısının (R-Kare) çok daha düşük
olacağını öngörebiliriz. Yani, Memnuniyet,
Beklenen GPA’deki toplam değişkenliğin çok küçük bir
yüzdesini açıklayacaktır.
Sonuç ve Ana Fikir
Bu örnek, bize şu önemli dersi verir:
İki değişken arasında istatistiksel olarak anlamlı ve doğrusal bir ilişki bulsak bile, bu ilişkinin pratikte anlamlı veya kullanışlı olmayabileceğini unutmamalıyız. Bu modelde, memnuniyetin beklenen GPA üzerinde pozitif bir etkisi olsa da, bu etki o kadar zayıf ve veri o kadar “gürültülüdür” ki, bir öğrencinin memnuniyetine bakarak onun not ortalaması hakkında güvenilir bir tahminde bulunmak neredeyse imkansızdır.
Bu durum, beklenen GPA’i etkileyen başka çok daha önemli ve güçlü faktörlerin var olduğuna işaret eder. Güçlü bir model kurmak için bu diğer faktörlerin de analize dahil edilmesi (Çoklu Regresyon) gereklidir.