#Bu bölüm 6 alt başlıktan oluşmaktadır.
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(openintro)
## Loading required package: airports
## Loading required package: cherryblossom
## Loading required package: usdata
library(palmerpenguins)
##
## Attaching package: 'palmerpenguins'
## The following objects are masked from 'package:datasets':
##
## penguins, penguins_raw
data(penguins)
head (penguins)
## # A tibble: 6 × 8
## species island bill_length_mm bill_depth_mm flipper_length_mm body_mass_g
## <fct> <fct> <dbl> <dbl> <int> <int>
## 1 Adelie Torgersen 39.1 18.7 181 3750
## 2 Adelie Torgersen 39.5 17.4 186 3800
## 3 Adelie Torgersen 40.3 18 195 3250
## 4 Adelie Torgersen NA NA NA NA
## 5 Adelie Torgersen 36.7 19.3 193 3450
## 6 Adelie Torgersen 39.3 20.6 190 3650
## # ℹ 2 more variables: sex <fct>, year <int>
penguins_temiz <- penguins %>%
rename ("Gaga Uzunlugu"=bill_length_mm,
"Gaga Derinligi"=bill_depth_mm,
"Yuzgec Uzunlugu"=flipper_length_mm,
"Vucut Kutlesi"=body_mass_g,
"Tur"=species,
"Cinsiyet"=sex,
"Yil"=year)
glimpse(penguins_temiz)
## Rows: 344
## Columns: 8
## $ Tur <fct> Adelie, Adelie, Adelie, Adelie, Adelie, Adelie, Adel…
## $ island <fct> Torgersen, Torgersen, Torgersen, Torgersen, Torgerse…
## $ `Gaga Uzunlugu` <dbl> 39.1, 39.5, 40.3, NA, 36.7, 39.3, 38.9, 39.2, 34.1, …
## $ `Gaga Derinligi` <dbl> 18.7, 17.4, 18.0, NA, 19.3, 20.6, 17.8, 19.6, 18.1, …
## $ `Yuzgec Uzunlugu` <int> 181, 186, 195, NA, 193, 190, 181, 195, 193, 190, 186…
## $ `Vucut Kutlesi` <int> 3750, 3800, 3250, NA, 3450, 3650, 3625, 4675, 3475, …
## $ Cinsiyet <fct> male, female, female, NA, female, male, female, male…
## $ Yil <int> 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007…
Eksik veriler silinmeden önce 344 satır, 8 sütun mevcut.
sum(is.na(penguins_temiz)) #Eksik mi diye sorar.
## [1] 19
19 adet eksik veri mevcut.
penguins_temiz <- na.omit(penguins_temiz)
glimpse (penguins)
## Rows: 344
## Columns: 8
## $ species <fct> Adelie, Adelie, Adelie, Adelie, Adelie, Adelie, Adel…
## $ island <fct> Torgersen, Torgersen, Torgersen, Torgersen, Torgerse…
## $ bill_length_mm <dbl> 39.1, 39.5, 40.3, NA, 36.7, 39.3, 38.9, 39.2, 34.1, …
## $ bill_depth_mm <dbl> 18.7, 17.4, 18.0, NA, 19.3, 20.6, 17.8, 19.6, 18.1, …
## $ flipper_length_mm <int> 181, 186, 195, NA, 193, 190, 181, 195, 193, 190, 186…
## $ body_mass_g <int> 3750, 3800, 3250, NA, 3450, 3650, 3625, 4675, 3475, …
## $ sex <fct> male, female, female, NA, female, male, female, male…
## $ year <int> 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007, 2007…
Eksik veriler silindikten sonra toplam 333 satır, 8 sütun mevcut.
names(penguins_temiz)
## [1] "Tur" "island" "Gaga Uzunlugu" "Gaga Derinligi"
## [5] "Yuzgec Uzunlugu" "Vucut Kutlesi" "Cinsiyet" "Yil"
penguins_temiz %>%
mutate (bmi = `Vucut Kutlesi` / `Yuzgec Uzunlugu`)
## # A tibble: 333 × 9
## Tur island `Gaga Uzunlugu` `Gaga Derinligi` `Yuzgec Uzunlugu`
## <fct> <fct> <dbl> <dbl> <int>
## 1 Adelie Torgersen 39.1 18.7 181
## 2 Adelie Torgersen 39.5 17.4 186
## 3 Adelie Torgersen 40.3 18 195
## 4 Adelie Torgersen 36.7 19.3 193
## 5 Adelie Torgersen 39.3 20.6 190
## 6 Adelie Torgersen 38.9 17.8 181
## 7 Adelie Torgersen 39.2 19.6 195
## 8 Adelie Torgersen 41.1 17.6 182
## 9 Adelie Torgersen 38.6 21.2 191
## 10 Adelie Torgersen 34.6 21.1 198
## # ℹ 323 more rows
## # ℹ 4 more variables: `Vucut Kutlesi` <int>, Cinsiyet <fct>, Yil <int>,
## # bmi <dbl>
bmi_betimsel_analiz <- penguins_temiz %>%
mutate(bmi = `Vucut Kutlesi` / `Yuzgec Uzunlugu`) %>%
group_by(Tur) %>%
summarise(
Ortalama = mean(bmi),
Standart_Sapma = sd(bmi),
Minimum = min(bmi),
Maksimum = max(bmi)
)
print(bmi_betimsel_analiz)
## # A tibble: 3 × 5
## Tur Ortalama Standart_Sapma Minimum Maksimum
## <fct> <dbl> <dbl> <dbl> <dbl>
## 1 Adelie 19.5 2.18 15.2 25.3
## 2 Chinstrap 19.0 1.60 14.1 22.9
## 3 Gentoo 23.4 1.88 19.0 28.5
library(ggplot2)
penguins_temiz %>%
mutate (bmi = `Vucut Kutlesi` / `Yuzgec Uzunlugu`) %>%
ggplot(aes(x=Tur, y=bmi, fill=Tur)) +
geom_boxplot()+
labs(
title ="Turlere Gore Vucut Kitle Oranı Betimsel Analizi",
x="Tur",
y="BMI"
)+
theme_light()
Grafiğe bakıldığında penguen türlerinin BMI değerleri arasında fark olduğu görülmektedir. Gentoo türünün BMI değerinin diğer iki türe göre daha yüksek olduğu söylenebilir. Bunun yanında Chinstrap türündeki BMI değerlerinin varyansının daha küçük olduğu söylenebilir.
#Bu bölümde grafik oluşturulmuş, regresyon doğrusu üzerinden yorum yapılmıştır.
penguins_temiz %>%
count(`Gaga Uzunlugu`, `Gaga Derinligi`) %>%
group_by(`Gaga Uzunlugu`)
## # A tibble: 329 × 3
## # Groups: Gaga Uzunlugu [163]
## `Gaga Uzunlugu` `Gaga Derinligi` n
## <dbl> <dbl> <int>
## 1 32.1 15.5 1
## 2 33.1 16.1 1
## 3 33.5 19 1
## 4 34 17.1 1
## 5 34.4 18.4 1
## 6 34.5 18.1 1
## 7 34.6 17.2 1
## 8 34.6 21.1 1
## 9 35 17.9 2
## 10 35.1 19.4 1
## # ℹ 319 more rows
library(ggplot2)
names(penguins_temiz)
## [1] "Tur" "island" "Gaga Uzunlugu" "Gaga Derinligi"
## [5] "Yuzgec Uzunlugu" "Vucut Kutlesi" "Cinsiyet" "Yil"
penguins_temiz %>%
ggplot(aes(x=`Gaga Uzunlugu`, y=`Gaga Derinligi`, color = Tur)) +
geom_point()+
labs(
title ="Gaga Uzunlugu ile Gaga Derinligi Arasindaki İliski",
x="Gaga Uzunlugu",
y="Gaga Derinligi",
color="Tur"
)+
theme_minimal()
library(ggplot2)
names(penguins_temiz)
## [1] "Tur" "island" "Gaga Uzunlugu" "Gaga Derinligi"
## [5] "Yuzgec Uzunlugu" "Vucut Kutlesi" "Cinsiyet" "Yil"
penguins_temiz %>%
ggplot(aes(x=`Gaga Uzunlugu`, y=`Gaga Derinligi`, color = Tur)) +
geom_point()+
geom_smooth(method="lm", color="black")
## `geom_smooth()` using formula = 'y ~ x'
labs(
title ="Gaga Uzunlugu ile Gaga Derinligi Arasindaki İliski",
x="Gaga Uzunlugu",
y="Gaga Derinligi",
color="Tur"
)+
theme_minimal()
## NULL
Grafik incelendiğinde “Gaga Uzunluğu” ile “Gaga Derinliği” arasında negatif yönde anlamlı bir ilişki olduğu söylenebilir.
#Bu bölümde üç farklı penguen türüne göre analiz yapılmış ve veriler uygun şekilde yorumlanmıştır.
penguins_temiz %>%
group_by(Tur)
## # A tibble: 333 × 8
## # Groups: Tur [3]
## Tur island `Gaga Uzunlugu` `Gaga Derinligi` `Yuzgec Uzunlugu`
## <fct> <fct> <dbl> <dbl> <int>
## 1 Adelie Torgersen 39.1 18.7 181
## 2 Adelie Torgersen 39.5 17.4 186
## 3 Adelie Torgersen 40.3 18 195
## 4 Adelie Torgersen 36.7 19.3 193
## 5 Adelie Torgersen 39.3 20.6 190
## 6 Adelie Torgersen 38.9 17.8 181
## 7 Adelie Torgersen 39.2 19.6 195
## 8 Adelie Torgersen 41.1 17.6 182
## 9 Adelie Torgersen 38.6 21.2 191
## 10 Adelie Torgersen 34.6 21.1 198
## # ℹ 323 more rows
## # ℹ 3 more variables: `Vucut Kutlesi` <int>, Cinsiyet <fct>, Yil <int>
penguins_temiz %>%
ggplot(aes(x = `Gaga Uzunlugu`, y = `Gaga Derinligi`, color = Tur)) +
geom_point() +
geom_smooth(method="lm", color = "black") +
facet_wrap(~Tur) +
labs(
title = "Tür Bazında Gaga Uzunluğu ve Gaga Derinliği İlişkisi",
x = "Gaga Uzunlugu",
y = "Gaga Derinligi"
) +
theme_linedraw()
## `geom_smooth()` using formula = 'y ~ x'
Grafikler incelendiğinde her üç türde de “Gaga Uzunluğu” ile “Gaga Derinliği” arasında pozitif yönde anlamlı bir ilişki olduğu söylenebilir.
Toplam düzeyde analiz kapsamında tüm türler bir arada analiz edildiğinde “Gaga Uzunluğu” ile “Gaga Derinliği” arasında negatif yönlü bir ilişki bulunmuştur. Bunun nedeni, türlerin bir araya geldiğinde, genel bir eğilim ortaya çıkarmasıdır. Ancak tür her bir tür kendi içinde incelendiğinde “Gaga Uzunluğu” ile “Gaga Derinliği” arasında pozitif yönlü bir ilişki olduğu görülmüştür. Böylece, her türde gaga uzadıkça derinliğin de arttığı belirlenmiştir. Bu durum, Simpson Paradoksu’nun bir örneğidir. Örnekte de görüldüğü gibi gruplar birleştirildiğinde gözlemlenen ilişkinin yönünün, alt gruplarda tam tersine döndüğü durumlar bu paradoks ile açıklanabilir. Dolayısıyla, verinin yalnızca bütününe bakılması yanıltıcı sonuçlara sebep olabilir. Verilerin alt gruplar düzeyinde incelenmesi ise istatistiksel yorumların doğruluğu açısından büyük önem taşımaktadır.