Ders notlarında gördüğümüz geom_point() fonksiyonunda, eğer iki veri noktasının değerleri birbirine çok yakınsa noktalar üst üste biner.
Kullanım Amacı: geom_jitter(), noktaların koordinatlarına çok küçük rastgele miktarlarda “titreme” (sapma) ekler. Bu sayede üst üste binen noktalar birbirinden ayrılır ve verinin gerçek yoğunluğunu görmemizi sağlar.
theme_classic() yerine şu alternatifler de kullanılabilir.
theme_minimal() (Izgara çizgileri olan ama çok sade bir görünüm)
theme_bw() (Siyah beyaz, çerçeveli, akademik stil)
theme_light() (Açık gri çizgili, modern görünüm)
library(ggplot2)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
data(mtcars)
araba_veri <- mtcars %>%
select(mpg, hp) %>%
na.omit()
ggplot(araba_veri, aes(x = hp, y = mpg)) +
geom_jitter(width = 0.5, alpha = 0.6, color = "darkgreen") +
geom_smooth(method = "lm", se = FALSE, color = "red") + # Regresyon çizgisi
labs(x = "Beygir Gücü (hp)",
y = "Yakıt Tüketimi (mpg)",
title = "Beygir Gücü ve Yakıt Verimliliği") +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
araba_mod <- lm(mpg ~ hp, data = araba_veri)
summary(araba_mod)
##
## Call:
## lm(formula = mpg ~ hp, data = araba_veri)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.7121 -2.1122 -0.8854 1.5819 8.2360
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 30.09886 1.63392 18.421 < 2e-16 ***
## hp -0.06823 0.01012 -6.742 1.79e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.863 on 30 degrees of freedom
## Multiple R-squared: 0.6024, Adjusted R-squared: 0.5892
## F-statistic: 45.46 on 1 and 30 DF, p-value: 1.788e-07
Grafikteki her bir nokta bir arabayı temsil eder. Kırmızı çizgi ise bu noktaların arasından geçen “en uygun” (best fit) çizgidir. Çizginin aşağı doğru eğimli olması, beygir gücü arttıkça yakıt verimliliğinin düştüğünü (negatif ilişki) gösterir.
“Arabanın beygir gücünü 1 birim artırdığımızda, yakıt verimliliğinin ortalama 0.068 mil/galon azalmasını bekleriz.”
“Eğer beygir gücü 0 olsaydı, aracın yakıt tüketimi 30.09 olacaktı.” (Gerçekte 0 beygir gücü olmaz, bu değer çizginin başlangıç noktasıdır).
“Yakıt tüketimindeki (mpg) değişimin yaklaşık %60’ı beygir gücü (hp) tarafından açıklanmaktadır. Kalan %40’lık değişim ise aracın ağırlığı veya motor tipi gibi diğer faktörlere bağlıdır.” Eğim (hp katsayısı): Diyelim ki bu değer -0.06 çıktı. Bu şu demektir: Beygir gücü 1 birim arttığında, aracın yakıt verimliliği (mpg) yaklaşık 0.06 birim azalır. Arada negatif bir ilişki vardır.
Kesişim (Intercept): Beygir gücü 0 olsaydı beklenen yakıt değeri. Matematiksel başlangıç noktamızdır.
R-squared (R-kare): Çıktıda Multiple R-squared: 0.60 gibi bir değer görürseniz; “Yakıt tüketimindeki değişimin %60’ı beygir gücü ile açıklanabiliyor” demektir.
Artık Standart Hatası (Residual Standard Error): Modelin tahminleri ile gerçek veriler arasında ortalama ne kadar fark olduğunu (hata payını) gösterir.