Basit Doğrusal Regresyon

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
library(palmerpenguins)
## 
## Attaching package: 'palmerpenguins'
## The following objects are masked from 'package:datasets':
## 
##     penguins, penguins_raw
data(penguins)
# Bu satır, palmerpenguins paketinde yer alan penguins veri setini aktif hâle getirir. Artık R bu veri setini tanır.
names (penguins)
## [1] "species"           "island"            "bill_length_mm"   
## [4] "bill_depth_mm"     "flipper_length_mm" "body_mass_g"      
## [7] "sex"               "year"
# veri setindeki değişken isimlerine bakalım
glimpse(penguins)
## Rows: 344
## Columns: 8
## $ species           <fct> Adelie, Adelie, Adelie, Adelie, Adelie, Adelie, Adel…
## $ island            <fct> Torgersen, Torgersen, Torgersen, Torgersen, Torgerse…
## $ bill_length_mm    <dbl> 39.1, 39.5, 40.3, NA, 36.7, 39.3, 38.9, 39.2, 34.1, …
## $ bill_depth_mm     <dbl> 18.7, 17.4, 18.0, NA, 19.3, 20.6, 17.8, 19.6, 18.1, …
## $ flipper_length_mm <int> 181, 186, 195, NA, 193, 190, 181, 195, 193, 190, 186…
## $ body_mass_g       <int> 3750, 3800, 3250, NA, 3450, 3650, 3625, 4675, 3475, …
## $ sex               <fct> male, female, female, NA, female, male, female, male…
## $ year              <int> 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007…
# veri setini inceleyelim
penguins_tr <- penguins %>% 
  rename(
    tür = species,
    ada = island,
    gaga_uzunluk = bill_length_mm,
    gaga_derinlik = bill_depth_mm,
    yüzgec_uzunluk = flipper_length_mm,
    kilo = body_mass_g,
    cinsiyet = sex,
    yil = year
  )
# rename() fonksiyonu değişken isimlerini değiştirir; eşitliğin solu yeni isimdir, sağı eski isimdir.
names(penguins_tr)
## [1] "tür"            "ada"            "gaga_uzunluk"   "gaga_derinlik" 
## [5] "yüzgec_uzunluk" "kilo"           "cinsiyet"       "yil"
# değişkenlerin isimlerini değiştirdiğimiz veri setini "penguins_tr" olarak isimlendirdik ve şimdi de Türkçe isimlere bakalım

Analizde kullanacağımız iki değişkeni seçme

penguins_tr <- penguins_tr |> 
  select(kilo, yüzgec_uzunluk) |> 
  na.omit()

Bu satırlar şunları yapar:

• select(kilo, yüzgec_uzunluk) bu kod kilo ve yüzgeç uzunluğu değişkenlerini seçer.

• na.omit() Eksik veri içeren satırları çıkarır çünkü regresyon analizi eksik veri ile çalışamaz.

ggplot(penguins_tr, aes(x = yüzgec_uzunluk, y = kilo)) +
  geom_point() +
  labs(x = "Yüzgeç Uzunluğu (mm)",
       y = "Vücut Ağırlığı (gram)",
       title = "Yüzgeç Uzunluğu ile Vücut Ağırlığı İlişkisi")

Bu grafikte;

• her bir nokta bir pengueni temsil eder

• yatay eksen: yüzgeç uzunluğu

• dikey eksen: kilo

Yüzgeç uzunluğu arttıkça, penguenlerin kilosu da artıyor mu?

Bu grafik doğrusal bir ilişki olup olmadığını görmemizi sağlar.

Regresyon modeli kurma

peng_mod <- lm(kilo ~ yüzgec_uzunluk, data = penguins_tr)
summary(peng_mod)
## 
## Call:
## lm(formula = kilo ~ yüzgec_uzunluk, data = penguins_tr)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1058.80  -259.27   -26.88   247.33  1288.69 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -5780.831    305.815  -18.90   <2e-16 ***
## yüzgec_uzunluk    49.686      1.518   32.72   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 394.3 on 340 degrees of freedom
## Multiple R-squared:  0.759,  Adjusted R-squared:  0.7583 
## F-statistic:  1071 on 1 and 340 DF,  p-value: < 2.2e-16

🔹 Eğim (slope): yüzgec_uzunluk katsayısı

Bu değer:

Yüzgeç uzunluğu 1 mm arttığında, penguenin beklenen kilosu kaç gram artar?

Pozitif ise ilişki pozitif demektir.

🔹 Kesişim (intercept)

Bu değer:

Yüzgeç uzunluğu 0 mm olsaydı beklenen kilo ne olurdu?

Gerçekte 0 mm yüzgeç olmaz ama bu matematiksel bir başlangıç noktasıdır.

🔹 Residual Standard Error (Artık Standart Hatası)

Bu değer:

Modelin tahmin ettiği değer ile penguenin gerçek kilosu arasında, ortalama kaç gram fark var? Yani tahmin hatasının büyüklüğünü ölçer.

🔹 R-squared

Bu değer:

Kilodaki değişimin yüzde kaçı yüzgeç uzunluğu ile açıklanıyor?

Örneğin:

• R² = 0.50 → değişimin %50’si açıklanıyor • R² = 0.10 → değişimin %10’u açıklanıyor

coef(peng_mod)
##    (Intercept) yüzgec_uzunluk 
##    -5780.83136       49.68557

Bu kod:

• b0 (kesişim)

• b1 (eğim)

değerlerini verir.

Bunlar regresyon denklemine yerleşir.

ggplot(penguins_tr, aes(x = yüzgec_uzunluk, y = kilo)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE, color = "red") +
  labs(x = "Yüzgeç Uzunluğu (mm)",
       y = "Vücut Ağırlığı (gram)",
       title = "Basit Doğrusal Regresyon Çizgisi")
## `geom_smooth()` using formula = 'y ~ x'

new_peng <- data.frame(yüzgec_uzunluk = 200)
predict(peng_mod, newdata = new_peng)
##        1 
## 4156.282

Modelimizi, orijinal veri setinde olmayan (“örneklem dışı”) yeni gözlemler için tahminler yapmak amacıyla kullanabiliriz. Bunun için predict() fonksiyonuna tahmin yapılacak yeni veriyi newdata argümanıyla bir veri seti olarak iletmeliyiz. Bu yeni veri seti, modelde kullanılan bağımsız değişkenle aynı isme sahip bir sütun içermelidir.

Yukarıdaki satır yüzgeç uzunluğu 200 mm olan bir penguenin beklenen kilosunu hesaplar.

Bu bir ortalama tahmindir tek tek bireyleri değil, beklenen değeri verir.

Ödevler

  1. aşağıdaki geom_jitter fonksiyonunun kullanım amacını araştırın.

Jitter geom, kullanışlı bir kısayoldur geom_point(position = “jitter”). Her noktanın konumuna küçük bir miktar rastgele varyasyon ekler ve daha küçük veri kümelerindeki süreksizlikten kaynaklanan üst üste binmeyi ele almanın faydalı bir yoludur. geom_jitter, R / ggplot2 paketinde kullanılan ve özellikle üst üste binen (overlapping) veri noktalarını görünür hale getirmek için tasarlanmış bir geometridir. Üst üste binen veri noktalarını küçük rastgele kaydırmalarla ayırarak, gerçek gözlem yoğunluğunu ve dağılımını görünür hale getirmek. Aynı değere sahip çok sayıda gözlem varsa,Noktalar grafikte tek bir nokta gibi görünüyorsa,“Kaç tane veri var, nerede yoğunlaşıyor?” sorusuna cevap veremiyorsak geom_jitter kullanılır.

  1. theme_classic fonksiyonunun alternatiflerini bulun ve deneyin.
data <- mtcars
ggplot(data, aes(x = wt, y = mpg)) +
  geom_point() +
  theme_bw() +
  theme(
    text = element_text(size = 12),
    axis.title = element_text(face = "bold") ,
       panel.grid.major = element_line(color = "yellow")
  )

  1. bu ders notlarında yer alan palmerpenguins’teki penguins veri seti gibi bir veri üzerinde (örn. midiPISA) regresyon denklemi kurun ve tüm kodları kendi veri setinize uygulayarak çalıştırın.
library(palmerpenguins)
peng_mod <- lm(kilo ~ yüzgec_uzunluk, data = penguins_tr)
summary(peng_mod)
## 
## Call:
## lm(formula = kilo ~ yüzgec_uzunluk, data = penguins_tr)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1058.80  -259.27   -26.88   247.33  1288.69 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -5780.831    305.815  -18.90   <2e-16 ***
## yüzgec_uzunluk    49.686      1.518   32.72   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 394.3 on 340 degrees of freedom
## Multiple R-squared:  0.759,  Adjusted R-squared:  0.7583 
## F-statistic:  1071 on 1 and 340 DF,  p-value: < 2.2e-16
coef(peng_mod)
##    (Intercept) yüzgec_uzunluk 
##    -5780.83136       49.68557
ggplot(penguins, aes(x = flipper_length_mm, y = body_mass_g)) +
  geom_point(alpha = 0.5, size = 3, color = "orange") +
  geom_smooth(method = "lm", se = FALSE, color = "purple") +
  labs(x = "Yuzgec Uzunlugu (mm)",
       y = "Vucut Agırlıgı (gram)",
       title = "Basit Dogrusal Regresyon Cizgisi")
## `geom_smooth()` using formula = 'y ~ x'
## Warning: Removed 2 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_point()`).

new_peng<-data.frame(yüzgec_uzunluk=200)
predict(peng_mod ,newdata = new_peng)
##        1 
## 4156.282
  1. Kendi seçtiğiniz veri seti üzerinde regresyon modeli kurma, saçılım diyagramı oluşturma, grafiğe regresyon çizgisi ekleme, eğim, kesişim ve R-squared katsayılarını yorumlama gibi tüm adımları yapın ve açıklamalarını yazın.
library(palmerpenguins)
penguins<-lm(flipper_length_mm ~ body_mass_g, data = penguins)
summary(penguins)
## 
## Call:
## lm(formula = flipper_length_mm ~ body_mass_g, data = penguins)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -23.7626  -4.9138   0.9891   5.1166  16.6392 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.367e+02  1.997e+00   68.47   <2e-16 ***
## body_mass_g 1.528e-02  4.668e-04   32.72   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.913 on 340 degrees of freedom
##   (2 observations deleted due to missingness)
## Multiple R-squared:  0.759,  Adjusted R-squared:  0.7583 
## F-statistic:  1071 on 1 and 340 DF,  p-value: < 2.2e-16
library(ggplot2)
ggplot(penguins,aes(x=flipper_length_mm,y=body_mass_g))+
  geom_point()+
  theme_bw()
## Warning: `fortify(<lm>)` was deprecated in ggplot2 4.0.0.
## ℹ Please use `broom::augment(<lm>)` instead.
## ℹ The deprecated feature was likely used in the ggplot2 package.
##   Please report the issue at <https://github.com/tidyverse/ggplot2/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

ggplot(penguins,aes(x=flipper_length_mm,y=body_mass_g))+
 geom_point(alpha=0.5,size=3,color="pink")+
  geom_smooth(method = "lm",se=FALSE,color="blue")+
  labs(x="yüzgec uzunlugu(mm)",
       y="vucut agırlıgı(gram)",
       title = "Basit Dogrusal Regresyon Cizgisi")
## `geom_smooth()` using formula = 'y ~ x'

Eğim= Grafik sağa doğru yatık olduğu için eğim değeri pozitif olur. Kesişim= Gerçekte 0 mm yüzgeç olmaz ama bu matematiksel başlangıç noktasıdır. R-squared= kilodaki değişmenin yüzde kaçı yüzgeç uzunluğu ile açıklanabilir örnek: R2=0.50 bu örnek değişimin %50’sini açıklıyor. R*2=0.10 bu örnek ise değişimin %10’unu açıklamaktadır.