Sosyal bilimlerin konusu olan değişkenlerin arasındaki ilişkilerin matematiksel olarak net bir şekilde tanımlanaması regresyon kavramının ortaya çıkmasına sebep olan en büyük faktörlerden biridir. Regresyonun amacı, bağımlı değişken ve bağımsız değişken arasındaki ilişkiyi matematiksel olarak açıklamak ve bağımsız değişken yardımıyla bağımlı değişkeni yordamaktır. Regresyon, sosyal bilimlerin yanı sıra ekonomiden eğitim araştırmalarına kadar pek çok alanda değişkenler arasındaki ilişkileri incelemek için temel yöntemlerden biri haline gelmiştir.
Basit doğrusal regresyonda, bir bağımlı değişken ile tek bir bağımsız değişken arasındaki doğrusal ilişki modellenir.
Formül: Y = a + bX
Buradaki b katsayısının ne anlama geldiğini daha net kavradım: X’teki her bir birimlik artışın Y üzerindeki ortalama etkisini ifade ediyor. a ise X sıfır olduğunda Y’nin alacağı değeri ifade etmektedir.
R’ da regresyon <- lm(bağımlı değişken ~ bağımsız değişken ,veri) şeklinde oluşturulur.
R Square: Bağımsız değişkenin bağımlı değişken üzerindeki açıklama oranıdır.
Adjusted R Square: Şans eseri açıklanan değişimin neden olduğu hatanın arındırılmış halidir.
Standart Kestirimin Hatası: Hata teriminin standart sapmasıdır.
P değeri ise regresyon modelindeki yordanan ve yordayan değişkenler arasındaki ilişki için hesaplanan değerin anlamlı olup olmadığını göstermektedir.
En küçük kareler yöntemi tahmin edilen değerlerle gerçek değerler arasındaki farkların kareleri toplamını en aza indiren doğrultuyu bulur. Böylece veriye en iyi uyan çizgi belirlenir.
Kestirimin standart hatası, modelin tahmin doğruluğunu değerlendirir. Bu değerin büyüklüğü, tahmin edilen Y’ değerlerinin gözlenen değerlerden ne kadar sapma gösterdiğini ifade eder. Küçük bir standart hata, daha güvenilir bir model kurduğumuz anlamına gelir.
Çoklu regresyonda bağımsız değişkenlerin birbirleriyle ilişkili olması analizi zorlaştırdığı için her bir değişkeni yorumlarken diğerlerini “sabit tutulmuş” gibi düşünmek gerekir. Bu bakış açısı modelin mantığını anlamamda oldukça yardımcı oldu.
Çoklu korelasyon katsayısı birden fazla bağımsız değişkenin birlikte bağımlı değişkeni ne kadar açıkladığını ölçen bir değerdir. Temelde gerçek Y ile modelin ürettiği Y’ nin korelasyonu gibi düşünülebilir. Modelin genel gücü hakkında fikir sağlar. Çoklu regresyon katsayısı 0 ile 1 arasında değer alır.
R² değeri, bağımlı değişkendeki toplam varyansın ne kadarının model tarafından açıklandığını gösterir. Modele yeni bir bağımsız değişken eklendiğinde ise şans nedeniyle bile olsa R² değeri yükselmektedir. Adj. R² ise R² değerini modeldeki bağımsız değişken sayısına göre modifiye etmektedir. Adj.R² genellikle artı değerler alır ve her zaman R² değerinden küçük çıkar.
Varyans analizi sonucunda elde edilen F değeri ile modelin genel anlamda anlamlı olup olmadığı değerlendirilir. Yani bağımsız değişkenlerin tamamı birlikte Y üzerinde anlamlı bir etkide bulunuyor mu sorusunun cevabı burada bulunur.
Sabit terimin modelde bağımsız değişken 0 olduğunda Y’nin beklenen değeridir.
Değişkenlerin farklı ölçeklerde olması yorum yapmayı zorlaştırdığı için standartlaştırma işlemi yapılır. Standart katsayılar, bağımsız değişkenleri birbiriyle karşılaştırmayı mümkün kılar.
Yordanan (tahmin edilen) değerler ve artıklar, modelin performansını incelememize yardımcı olur. Artıkların yapısını incelemek model varsayımlarını test etmek açısından da kritik önem taşır.
Grafikler olmadan regresyon analizinin eksik olduğunu söyleyebiliriz. Artık grafikleri, saçılım grafikleri gibi grafikler modelin ne kadar “uygun” olduğunu görselleştirmemize olanak sağlar.
Artıklar ve Yordanan Değerler: Doğrusal ilişki varsayımlarını kontrol etmek için kullanılır. Belirgin desenleri olmayan yatay bir çizgi, doğrusal bir ilişkiyi ifade eder.
Normal Q-Q: Artıkların normal dağılıp dağılmadığını incelemek için kullanılır. Artık noktalarının düz kesikli çizgiyi takip etmesi beklenir.
Ölçek-Konum: Artıkların varyansının homojenliğini kontrol etmek için kullanılır. Eşit yayılmış noktalara sahip yatay çizgi, homojenliği gösterir.
Artıklar ve Kaldıraç: Etkili gözlemleri, yani analize dahil edildiğinde veya analizden çıkarıldığında regresyon sonuçlarını etkileyebilecek uç değerleri belirlemek için kullanılır.
Birden fazla bağımsız değişkenle daha gerçekçi modeller kurulabilir. Ancak bağımsız değişkenler arasındaki ilişkiler, yorumlamayı ve model seçimini zorlaştırabilmektedir.
Birden fazla bağımsız değişken kullanarak regresyon analizi yapmak, gerçek hayattaki ilişkileri daha iyi anlamamızı sağlar. Örneğin, bir öğrencinin matematik performansını yalnızca ders çalışma süresi üzerinden tahmin etmek yerine, motivasyonu, kaygı düzeyi ve özgüven gibi birden fazla faktörü eklediğimizde model çok daha gerçekçi hale gelir. Ancak bağımsız değişkenler arasında güçlü ilişkiler olduğunda, katsayıların yorumu zorlaşmaktadır. Örneğin motivasyon ve özgüven yüksek korelasyon gösteriyorsa, bu değişkenlerin etkilerini ayırmak güçleşir. Bu nedenle çoklu regresyon modellerinde, değişken seçimi, korelasyon matrisleri gibi araçlarla bağımsız değişkenlerin uygunluğunu kontrol etmek önemlidir. Böylece hem modelin tahmin gücünü artırabilir hem de sonuçlar daha güvenilir yorumlanabilir.
Bazı değerler modele aşırı etki ederler. Bu aşırı değerler regresyon doğrusunu kendilerine doğru çeker ve modelin katsayıları üzerinde anlamlı etkiler oluştururlar. Bu değerler veri girişindeki bir hatadan kaynaklanabilirler bu durumda veri silinebilir ancak gerçekten bir uç değer ile de karşı karşıya olabiliriz. Bu durumda Cook’s distance gibi ölçütler, modelin güvenilirliğini tehdit eden noktaları belirlemek için kullanılır.
Çoklu regresyon analizinde bağımsız değişkenler sürekli olabileceği gibi kategorik de olabilirler. Kategorik bir değişkeni modele eklemek için, regresyon modelinin bu değişkenin düzeyleri arasındaki farklılıkları doğru şekilde tahmin edebilmesi gerekir. Bu nedenle kategorik değişkenleri, dummy değişkenler ile yeniden kodlamamız gerekir. Dummy, kategorik değişkenin her düzeyine sayısal değerler atayarak iki düzeyli (0 ve 1) değişkenler oluşturmayı sağlar. Eğer bir kategorik değişkenin k düzeyi varsa, genellikle k-1 dummy değişken oluşturulur. Dummy değişkenlerin regresyondaki katsayıları, o düzey ile referans grup arasındaki yordanan değer farkını gösterir ve bu fark, diğer bağımsız değişkenler sabit tutulduğunda yorumlanır.
İki değişkenin modele birlikte etkisi, tek tek etkilerinden farklı olabilir. Bu etkileşimler modele eklendiğinde, ilişkiler çok daha gerçekçi şekilde temsil edilmektedir.
Çoklu regresyon analizinde bir bağımsız değişken ile bağımlı değişken arasındaki ilişkinin, başka bir bağımsız değişkenin düzeyine bağlı olarak değişmesi durumuna etkileşim denir ve aracı etki olarakta ifade edilebilir.
Etkileşim etkisi, ilgili değişkenlerin değerlerinin birbirleriyle çarpılmasıyla oluşturulan bir bileşik değişken aracılığıyla modele dahil edilir. Örnek olarak; bağımlı değişken olarak sınav notunu, bağımsız değişken olarak ders çalışma süresini ve düzenleyici değişken olarak derse olan ilgiyi inceleyelim. Etkileşim katsayısı, ders çalışma süresinin sınav notuna etkisinin öğrencinin derse ilgisine bağlı olarak nasıl değiştiğini gösterir. Eğer bu katsayı pozitifse, ilgi arttıkça çalışma süresinin not üzerindeki etkisi güçlenir; negatifse, ilgi arttıkça çalışmanın etkisi azalır. Bağımsız değişkenin basit etkisi yalnızca diğer değişkenin sıfır düzeyinde geçerlidir. Örneğin ders çalışmanın etkisi, derse hiç ilgisi olmayan bir öğrenci için yorumlanabilir. Benzer şekilde, derse ilginin etkisi de ders çalışmayan öğrenciler için geçerlidir. Sabit değer ise hem çalışma süresi hem de ilgi sıfır olan bir öğrencinin alacağı taban puanı temsil eder.