Regresyon bir bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi modellemek için kullanılan istatistiksel yöntemdir. Regresyon analizi özellikle tahminler yapmak, neden-sonuç ilişkilerini belirlemek ve bir sistemin nasıl işlediğini anlamak için kullanılır. Genellikle finansal analizlerde, ekonometrik çalışmalarda, mühendislik ve doğa bilimlerinde geniş bir kullanım alanı bulur.
Regresyon yöntemi kullanılmasının en temel amacı geniş bir veri havuzunda bulunan değişkenler arasında yaşanan korelasyonu tespit etmek ve daha da önemlisi bu korelasyonun istatistiksel açıdan önemli olup olmadığını ölçmektir. Yani regresyon ile değişkenler arasındaki ilişki var mı, varsa da bir işe yarar mı sorusunun yanıtı aranır.
Regresyon, değişkenler arasındaki ilişkiyi ortaya çıkaran istatiksel yöntemken regresyon analizi bu yöntemin bir parçası olarak kabul edilen araçtır. Daha basit anlatmak gerekirse regresyon bu istatiksel yöntemin adlandırılması için kullanılan genel bir terimken regresyon analizi bu yöntemin uygulanması ve uygulandıktan sonra adlandırılması için kullanılır.
Basit doğrusal regresyondaki basit kelimesi iki değişken arasındaki ilişkiyi açıklamak için kullanılır. Doğrusal kelimesi, kurulan modelin parametreleri açısından doğrusal bir model olmasındandır. İki değişken arasındaki en basit ilişki, bir doğru ile açıklanabilen ilişkidir.
En çok kullanılan regresyon formülleri:
Doğrusal regresyon formülü:
\[ Y = a + bX + u \] Çoklu doğrusal regresyon formülü:
\[ Y = a + \beta_1x_1 + \beta_2x_2 + \beta_3x_3 + ... + \beta_nx_n + u \] Daha bir çok türü olduğunu söylemiştik ancak genel olarak en çok kullanılan regresyon türleri doğrusal ve çoklu doğrusal olduğu için en çok kullanılan regresyon formülleri de bu şekildedir. Formülde gördüğümüz semboller ise şu anlamlara gelmektedir;
Y, tahmin edilmeye çalışılan bağımlı değişken X, bağımsız değişkenler , a denklem sabiti ; beta katsayısı, denklem eğimi u, regresyon kalıntısı
Kısaca regresyon türlerine bakalım:
Doğrusal regresyon, tamamı doğrusal değişkenlerden oluşan modeldir. Kademeli doğrusal regresyon, birden fazla bağımsız değişkenin kullanıldığı modeldir. Polinomsal regresyon, değişkenleri doğrusal olmayan şekilde modeller. Lojistik regresyon, biyoloji alanında kullanılan bir modeldir. Ridge regresyon, çoklu regresyonda elde edilen verileri analiz eder. Lasso regresyon, sürekli bilginin tipik olmadığı modeldir. Kantil regresyon, doğrusal regresyon için gerekli koşullar sağlanmadığı zaman kullanılan bir tekniktir. Elastik net regresyon, fazla ilişkili bağımsız değişken olduğu durumlarda kullanılır. Sıralı regresyon, sıralı değerleri önceden gösteren tekniktir.
Regresyon modellerinde kullanılan varsayımlardan bazıları:
Tüm değişkenler arasındaki ilişki doğrusaldır. Değişken ve regresyon artığı sabit kalmalıdır. Denklemde bulunan tüm açıklayıcı değişkenler birbirinden bağımsızdır. Denklemde bulunan tüm değişkenler normal dağılımlıdır.
Çoklu doğrusal regresyon, birden fazla bağımsız değişkenin bağımlı değişken üzerindeki etkisini ölçer. Çoklu doğrusal regresyon analizi, bir bağımlı değişken ile iki veya daha fazla bağımsız değişken arasındaki ilişkiyi modelleyen istatistiksel bir tekniktir. Bu yöntem, basit doğrusal regresyonun daha gelişmiş bir versiyonu olarak, birden çok faktörün etkisini eş zamanlı olarak değerlendirir.
Varsayımları Nelerdir?
Bağımsız değişken sayısı 2 veya daha fazla olmalıdır. Değişkenler normal dağılmalıdır. Gözlemler birbirinden bağımsız olmalıdır. (Buna Durbin Watson değeri ile bakılır, bu değer +/- 1-3 arasında olmalıdır.) Değişkenler arasında doğrusal bir ilişki olmalıdır. Çok fazla büyüklükte aykırı değer olmamalıdır. Bağımsız değişkenler arasında çoklu bağıntı problemi olmamalıdır. (Buna VIF değeriyle karar verilir, VIF değeri 10’dan küçük olmalıdır.)
ÇOKLU REGRESYON DENKLEMİ
\[ Y= \beta_0 + \beta_1x_1 + \beta_2x_2 \] Burada bağımsız değişken sayısı kadar beta ve x değeri yazılır.
Burada;
Y: Bağımlı Değişken
β0: Sabit beta katsayısı (regresyon tablosundan alınır.)
β1: Bağımsız değişkenin katsayısı (regresyon tablosundan alınır.)
x1: Bağımsız Değişken
β2: 2.Bağımsız değişkenin katsayısı (regresyon tablosundan alınır.)
x2: 2.Bağımsız Değişken
Çoklu doğrusal regresyon analizi ile basit doğrusal regresyon analizi arasındaki temel fark, modelde kullanılan bağımsız değişken sayısıdır. Bu fark, analizlerin uygulanma şeklini ve sonuçların yorumlanmasını önemli ölçüde etkiler. Basit doğrusal regresyon, yalnızca bir bağımsız değişken (X) ile bir bağımlı değişken (Y) arasındaki ilişkiyi inceler.Diğer yandan, çoklu doğrusal regresyon iki veya daha fazla bağımsız değişkenin bağımlı değişken üzerindeki etkisini aynı anda analiz eder. Çoklu regresyon, değişkenler arasındaki etkileşimleri ve bağımsız değişkenlerin göreceli önemini değerlendirme imkanı sunar. Bununla birlikte, çoklu doğrusal bağlantı gibi ek sorunlarla da başa çıkılması gerekebilir.
Sonuç olarak, basit doğrusal regresyon daha sınırlı ancak yorumlanması kolay bir analiz sunarken, çoklu doğrusal regresyon daha kapsamlı ancak karmaşık bir analiz imkanı sağlar. Araştırma sorusuna ve mevcut verilere bağlı olarak, hangi yöntemin kullanılacağına karar verilmelidir.
Çoklu doğrusal regresyon analizinin temel amaçları şunlardır:
Birden fazla bağımsız değişkenin bağımlı değişken üzerindeki etkisini ölçmek; Hangi bağımsız değişkenlerin bağımlı değişkeni en çok etkilediğini belirlemek; Karmaşık sistemlerdeki ilişkileri modellemek; Gelecekteki değerleri tahmin etmek için kapsamlı bir model oluşturmak Değişkenler arasındaki etkileşimleri;
Katsayı, değişken veya bilinmeyen ile çarpım durumunda olan sayıdır Aynı üslü değişkenlerin farklı katsayılı terimlerine benzer terim denir. Katsayılar genellikle sayıdır, ancak değişken de olabilir
Katsayı toplamı için x yerine 1 yazılarak işlem yapılır.
KORELASYON KATSAYISI — İki değişken arasında doğrusal bir ilişki varmı yokmu diye bakılmalı, var ise bu ilişkinin ne kadar zayıf ve ya ne kadar güçlü olduğunu tespit etmemizi sağlar. Korelasyon katsayısı, regresyon modeli ile bulunan tahmini Y değerlerinin, gerçek değerlere uygunluğunu ölçmede kullanılır. Korelasyon katsayısı -1 ile 1 arasında değişir. Katsayının -1 çıkması, iki değişken arasında ters yönlü tam bir ilişkinin olduğunu, 1 çıkması ise doğru yönlü tam bir ilişkinin olduğunu ifade eder. Katsayının -1’e doğru yaklaşması, değişkenler arasında ters yönlü kuvvetli bir ilişkiyi gösterirken, 1’e yaklaşması değişkenler arasında doğru yönlü kuvvetli bir ilişkiyi ifade eder. Korelasyon katsayısının işareti, regresyon doğru veya eğrisine ait eğim katsayısının işaretidir. Korelasyon katsayısının karesi, belirleme katsayısını (determinasyon katsayısını) verir.
Bağımsız değişkenin kendi ölçü birimi cinsinden bir birim değişmesine karşılık bağımlı değişkenin kendi ölçü birimi cinsinden ortalama olarak ne kadar değişeceğini gösteren katsayıya regresyon katsayısı denir.
Y=a+bX+e
şeklinde ifade edilebilir.
Standart hata bir sınamada seçilebilecek tüm örneklemlerden sadece bir tanesine dayalı kestirimlerin içerdiği hata oranıdır. Aynı popülasyondan seçilecek, aynı büyüklükteki örneklemlerin ortalamalarının yayılmasını gösteren ölçüt, ortalamanın standart hatası (standard error of mean)’dır. Standart sapma değerinin denek sayısının kareköküne bölünmesi ile elde edilen değerdir. Ortalamanın standart hatası, ortalamanın dağılımındaki varyasyonu (değişimi) gösterir, örneklem sayısının artması ile küçülür. Standart hatanın küçük olması popülasyon parametresine ait yapılacak olan tahminler açısından ve daha dar güvenaralığı sınırlar bulma açısından önemlidir.
Ö̈rneklem için
\[ SH = s / √n \] Popülasyon için
\[ SH = σ / √N \] ##### Regrasyon Katsayılarının Anlamlılığı Nedir ve Nasıl Ölçeriz
Regrasyyon katsayısı bağımsız değişkende bir birim değişme olduğunda (artma ve ya azalma) bağımlı değişkende bunun kaç katı atma ve ya azalma olacağını gösterir. Regresyon katsayısı (b), tahmini (y) değerinin bulunmsı için (x) çarpılması gereken katsayı değeridir.
\[ y = a + b*x \] Basit doğrusal regreayon iki değişken arasındaki doğrusal ilişkiyi inceleyen bir istatiksel analiz yöntenidir. Yani bir değişkenin (bağımlı değişken, genelde y) diğer bir değişken tarafından (bağımsız değişken, genelde x) ne kadar açıklandığını ölçer.
Regrasayon katsayısı beta1, bağımsız değişkendeki (x) bir birimlik artışın, bağımlı değişken (y) üzerindeki otralama etkisini gösterir. Yani (x) bir birim artarsa (y) ortalama olarak ne kadar değişeceği anlatır.
Regresyon Katsayılarının Hesaplanması
Basit doğrusal regresyon modeli:
\[ Y = \beta_0 + \beta_1 * X \] Katsayılar en küçük kareler yöntemi ile şöyle hesaplanır:
\[ \beta_1 = \frac{\sum (X - \bar{X})(Y - \bar{Y})}{\sum (X - \bar{X})^2} \] Yani; \[ \beta_1 = \frac{cov(x,y)} {var(x)} \] \[ \beta_0 = \bar{Y} - \beta_1 \bar{X} \] 1. beta1 > 0 oldukda x artıkça y artar (pozitif ilişki) 2. beta1 < 0 oldukda x artıkça y azalar (negatif ilişki) 3. beta1 = 0 oldukda x ile y arasında doğrusal ilişki yok
X <- c(1,2,5,2,4,3,6,3)
Y <- c(2,5,2,3,2,3,5,4)
library(ggplot2)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.6
## ✔ forcats 1.0.1 ✔ stringr 1.6.0
## ✔ lubridate 1.9.4 ✔ tibble 3.3.0
## ✔ purrr 1.2.0 ✔ tidyr 1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
data <- as.data.frame(cbind(X,Y))
ggplot(data, aes(x=X, y=Y)) +
geom_point() +
geom_smooth(method = "Im")
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Failed to fit group -1.
## Caused by error in `inject()`:
## ! object 'weight' not found
# Model
model <- lm(Y ~ X)
# Katsayılar
coef(model)
## (Intercept) X
## 2.8333333 0.1282051
df <- data.frame(X, Y)
ggplot(df, aes(X, Y)) +
geom_point(size = 3) +
geom_smooth(method = "lm", se = FALSE) +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
ggplot(data, aes(x = X, y = Y)) +
geom_point(size = 3, color = "black") +
geom_smooth(method = "lm", se = FALSE, color = "blue") +
theme_minimal() +
labs(title = "X ve Y Arasındaki İlişki",
subtitle = "Regresyon doğrusu ve veri noktaları",
x = "X Değerleri",
y = "Y Değerleri")
## `geom_smooth()` using formula = 'y ~ x'